産総研、Exa Flops級のAIスパコン利用サービスを開始
産業技術総合研究所グループは、AIを重視したクラウドコンピュータ「ABCI 3.0」(図1)を一般ユーザーに貸し出すサービスを1月20日に開始した。このピーク性能は半精度(8ビット)で6.2 Exa Flops、単精度(16ビット)でも3.0 E Flopsと高い。AIを重視するため、NvidiaのGPUを合計6128基搭載したコンピュータとなっている。

図1 コンピュータラックがずらりと並んだ産総研のABCI 3.0クラウドコンピュータ
産総研(AIST)は、2023年4月に株式会社AIST Solutionsを設立、産総研の技術を社会への実装を促進するために活動できるようにした。このサービスもAIST Solutionsが一般利用を積極的に進めている。産総研の大規模なコンピュータシステムABCI(AI Bridging Cloud Infrastructure)の設計コンセプトは市販の半導体製品を活用しコストパフォーマンスの良いシステムを作ることだった。2024年2月時点での従来のABCI 1.0/2.0の利用は2700名で、このうちAIST以外の利用が87%だとしている。
一方で2022年にOpenAIがチャットGPTやGPT-3を発表し、大規模言語モデルを開発してみようという声が高まってきたものの、日本のAI開発者が大規模言語モデルを学習させる場があまりなかった。日本語ベースの大規模言語モデルは理化学研究所のスーパーコンピュータ「富岳」を利用して構築したが、スタートアップや中小企業が簡単に試せるコンピュータではなかった。
ABCIを最初に開発を開始したのは2016年。2018年8月に最初のABCI 1.0をクラウドベースで運用開始した。この時のAI性能は0.55 Exa Flopsで、2021年5月には0.85 EFlopsのABCI 2.0を開発、サービスを提供した。そして今回2024年11月から12月にかけてABCI 3.0の運用試験を行った。この場合、新サーバーの導入を全コンピュータの1/7に抑えて試験してきた。1/7のサーバーの台数で、ABCI 2.0と同じ性能を得ることができたため、残りの6/7のサーバーを導入し今回の運用開始となった。
計算ノードの運用サーバーの台数は766台、ストレージシステムも同様のラックに収納しており容量は75PBである。ここに使用したストレージシステムに使ったNANDフラッシュメモリはQLC(4ビット/セル)方式。設置面積を従来の70%に抑えるためだったという。
図2 サーバーが8台搭載されたコンピュータラック
計算ノードのサーバー1台(図2)に使ったリソースは、GPUとしてNvidiaのH200 SXM5(通称Hopper)が8基、CPUはIntel Xeon Platium 8558(48コア)を2基。GPU同士のネットワークにはNvidiaの推奨するNV-Linkを用い、サーバー同士のインターコネクトにはやはり標準のInfiniBand(200Gbps)を用いた。このサーバーを766台つないだ結果、ABCI 3.0コンピュータには6128基のGPUと73,536個のCPUコア、1.53PBメモリが搭載されている。
ABCI 3.0のAIの性能は、単精度(32ビット)で3.0EFlops、半精度(16ビット)、倍精度(64ビット)では415 Peta Flopsとなった。倍精度の比較では「富岳」に近い性能で、「みやび」の75 PFlopsより5倍以上の性能である。
冷却方式は従来と同様、サーバーを冷却するだけではなく、ラック間の隙間の熱も冷却する方式で、年間の冷却効率PUE(Power Usage Effectiveness)が1.1以下となり、従来の水冷方式の1.7〜2.0よりも冷却能率は上がった。PUEはデータセンタ0全体の消費電力をIT機器の消費電力で割った指数で。1.0に近いほど冷却効率が良いことを示している。
図3 天井をはい回る配管
実際には、コンピュータボード上のGPUやCPUを水冷で冷やし、外部の熱交換機を経て冷却水をコンピュータボードに送り込む。冷却水のパイプが天井をはい回り、外部の冷却塔につながっている(図3)。ただ、冷却と言っても32度程度までの冷却である。これ以上冷やすと結露してしまうため、結露しない温度まで下げている。
(2025/01/21)