セミコンポータル
半導体・FPD・液晶・製造装置・材料・設計のポータルサイト
セミコンポータル

東工大がAI向きスパコンTSUBAME3.0を開発

東京工業大学は、AI(人工知能)に向いたスーパーコンピュータTSUBAME3.0を開発した。東工大のTSUBAMEは、消費電力当たりの性能が高いことをこれまで特長としてきたが、今回のTSUBAME3.0も電力効率、冷却効率とも高く、しかもディープラーニングに向いたスパコンのアーキテクチャにしている。

図1 東京工業大学学術国際情報センター教授の松岡聡氏

図1 東京工業大学学術国際情報センター教授の松岡聡氏


AIでは、ニューラルネットワークの学習の計算と、推論するための演算が必要となるが、これらの計算では積和演算が多い。しかも同じような繰り返すイタレーションが必要なためGPU(グラフィックスプロセッサ)が使われることが多く、この分野ではNvidiaのGPUがよく使われている。ニューラルネットワークでの計算では従来のDSPなどで用いられてきた倍精度(64ビット)や単精度(32ビット)の積和演算ではなく、半精度(16ビット)の演算も多用される、と同大学学術国際情報センター教授の松岡聡氏は述べている。実際、Googleが開発したAI専用のマイクロプロセッサであるTPU(Tensor Processing Unit)では16ビット演算に加えて8ビット演算も使われていると言われている。

TSUBAME3.0の性能は、従来の倍精度演算で12.12PFlopsと理化学研究所の「京」をわずか上回る程度だが、単精度では65.8PFlopsと6倍程度速い(図2)。消費電力は1台のラック当たり50~60kWで、電力効率は一般のデータセンターの10〜20倍も良いとしている。今回のシステムでは15台のラックを並べた構成になっており、床面積も10倍程度小さくて済むとしている。


図2 機械学習や人工知能は32ビットや16ビットの精度で十分

図2 機械学習や人工知能は32ビットや16ビットの精度で十分


ラック1台には36台のブレードが収容され、1台のブレード(ノードともいう)には4個のGPU (NvidiaのTesla P100「Pascal」)と2個のIntel のXeon CPUで構成されている。GPUは並列演算に有効なプロセサであり、パターン認識などニューラルネットワークの入力値と重みとの掛け算を並列に行う処理に向いている。NvidiaのPascalは1台のブレードに4個搭載されているため、GPUの総数は2160個になる。

TSUBAME3.0は、ハードウエアを担当した、Hewlett-Packard Enterprise(旧SGI:Silicon Graphics Inc.を昨年買収)、GPUを提供するNvidia、CPUを提供するIntel、ストレージを担当したData Direct Networksなどからなる共同開発の結果である。全体設計を、松岡氏をリーダーとする東工大が担当した。

消費電力を下げるとともに、冷却を工夫している。水冷では冷やし過ぎると水分が付着し、マシンが水浸しになってしまうため、冷却水を32℃とし、GPUとCPUを冷却した後の熱いお湯の温度を40℃に保っている。40℃のお湯を外部の自然大気で冷やし32℃にする循環システムである。冷却水が32℃だと真夏でも水滴がつかないことを確認している。ただし、これ以上冷却温度を上げると、CMOSチップの性能が落ちるため、その最適温度として32℃を選んだとしている。

その結果、コンピュータの消費電力+冷却設備の消費電力の合計を、コンピュータの消費電力で割った冷却効率PUEは1.0に近いほど良いが、TSUBAME3.0では1年間の天候データを元に計算したところ、平均1.033という値を得た。一般のデータセンターはPUEが2~3と冷却器の方が計算機よりも電力を消費しているという。

TSUBAMEの基本コンセプトは、消費電力当たりの性能の高いマシンを低コストで作ること、である。つまり国際競争力を高める技術の育成である。これまでのTSUBAME2.0(2010年)と2.5(2013年)で6年間の電気代を含むコストは、わずか50億円であり、電気代を含めた「京」のコストは1500億円くらいかかっているのではないかとみている。TSUBAME2.0/2.5は倍精度が5.76PFlopsと「京」の11.4PFlopsよりも遅いが、単精度では17.1PFlopsと「京」の11.4PFlopsよりも優れていることになる。

さらに、今回のコラボレーションでもわかるように、外国の企業とも一緒に組み、消費電力を抑えながら性能を上げ、しかも低コストでシステムを設計している。この手法こそ、国際競争力をつけるうえで必要なテクノロジーではないだろうか。

(2017/02/17)

月別アーカイブ

Copyright(C)2001-2020 Semiconductor Portal Inc., All Rights Reserved.