Semiconductor Portal

» セミコンポータルによる分析 » 技術分析 » 技術分析(半導体応用)

Xilinx、HBM2搭載で小型・高性能を両立させたFPGA内蔵のSoCカード

Xilinxは、最高級のFPGA内蔵のSoCであるUltrascale+(CPUを内蔵したハイエンドのFPGA)を集積したアクセラレーションボードAlveoシリーズを昨年10月に発表したが、最新の製品群にAlveo U50と呼ぶ、小型形状のカード(ボード)を開発した。担当者の同社データセンターグループの製品マーケティング・セグメントマーケティング担当ディレクタのJamon Bowen氏(図1)とテレビ電話インタビューを行った。

図1 日米間でのインタビュー 相手はXilinx社データセンターグループの製品マーケティング・セグメントマーケティング担当ディレクタのJamon Bowen氏

図1 日米間でのインタビュー 相手はXilinx社データセンターグループの製品マーケティング・セグメントマーケティング担当ディレクタのJamon Bowen氏


新製品Alveo U50は2018年10月に発表したAlveo U200およびU250と比べ、FPGA部分は872kのLUT(Look-up Table)とAlveo 200よりも26%削減したものの、メモリのバンド幅はHBM2を採用したおかげで、460GB/秒と6倍も高速になった。この結果、Gen4のPCIeをサポートできるようになったと共に、消費電力も1/3の75W未満に抑えられた(図2)。


ザイリンクスAlveo U50の主な仕様

図2 Xilinxの新製品Alveo U50 出典:Xilinx


Alveoは、高速でありながらドメイン特化のアーキテクチャに対応できる適応性を持つため、アルゴリズムの変更にも対応できる。例えば、ニューラルネットワークのモデルと言ってもAlexNetとGoogLeNetでは畳み込み演算が異なっており、それぞれに最適なアーキテクチャ構成にしなければならないが、AlveoはFPGAを含むため容易に適応できる。しかもクラウドでもオンプレミスでも運用できるという。Alveoは演算・ストレージ・そしてネットワークのアクセラレーションに向いたプラットフォームだとしている。

カードの大きさを長さと幅を共に半分にしたことで既存のサーバに収まりやすくなった。小型にできたのは、従来のAlveoで使っていたDDRをやめHBM2に変えたからだ、とBowen氏は述べた。従来のAlveoでは64GBのDDRを搭載していたが、バンド幅は77GB/秒にとどまった。今回のHBM2は8GBしかないが460GB/秒と高速になった。DDRだと多数搭載しなければならなかったため、カード面積が大きかったが、HBM2だとわずかで済む。

Alveoのメリットは何といても適応性が高いこと。アーキテクチャは常に進化しているため、CPUによるソフトウエアによる変更では十分な性能が期待できない。FPGAを使ったハードウエア回路の変更で適応できれば性能も期待できる。例えば、ニューラルネットワークでよく使うMAC(積和)演算ではマッピングが性能のカギを握るが、ここではユーザーが決めたデータフローでは、関数の次のステージにキャッシュを経ることなく直接渡すことができるとBrown氏は語る。

音声翻訳に使う場合には、音素のシンボル数として数秒の翻訳では、GPU(T4)と比べスループットが10倍という低レイテンシで推論できる。また、金融関係ではデリバティブの価格およびリスク予測モデル作成ではモンテカルロシミュレーションで計算すると、CPUと比べて20倍、GPUと比べても6.7倍高速に演算できるという。


Alveo

図3 ソリューションスタックを構成するエコシステム 出典:Xilinx


いろいろな演算のモデルを使えるのは、ハードウエアから開発環境、IPやライブラリ、高速化されたアプリケーションやソリューションなどのソリューションスタックを用意できるようなエコシステム(図3)を構築したためとBowen氏は述べる。さまざまなレイヤーとさまざまな応用分野にパートナーが揃っていることが強みとなっている。例えば、モンテカルロシミュレーションではライブラリのパートナーの協力によるという。

(2019/08/07)
ご意見・ご感想