Semiconductor Portal

» セミコンポータルによる分析 » 技術分析 » 技術分析(半導体応用)

スタートアップSambaNova、次世代AIのエージェンティックAIを実現

Nvidia同様、データセンターやオンプレミスなど企業向けAIチップの中でデータフローコンピューティングを積極的に利用するSambaNova社が次世代AIというべき、多数の専用モデルを自律的に実行できるエージェンティックAIを目指していることがわかった。一つのAIチップで多数のモデルを実行できる。消費電力は大幅に下がることになる。

SambaNova SN40L

図1 SambaNovaのAIチップ「SN40L RDU」 出典:筆者撮影


SambaNovaの目指すAIシステムは、AIチップ「SN40L RDU」からデータフローコンパイラ、システム、学習済みの基盤モデルからなる。SambaNovaは、単なるファブレス半導体メーカーではなくハードウエアからソフトウエアまでをカバーするAI総合メーカーである。

これまでのAIシステムは、単機能の単モデルしか実行できないもので、モデルごとにAIシステムを用意しなければならなかった。つまり、専用AIだった。大規模言語モデル(LLM)を使う生成AIが登場したことで、いろいろなことを聞いても答えられるようになった。とはいえ、何でも答えられるという汎用AIではない。テキストや画像などの生成が可能になっただけである。

では、次のAIは何か。その答えの一つが、SambaNovaの提供するエージェンティック(Agentic)AIである。これは従来のAIシステムとは違い、複数のモデルを一つのチップだけでモデルを切り替えながら、求める作業を実行する。例えば、一つの企業がある製品を開発する際、同様な技術的な特許がないか、法的に倫理上の問題はないか、見込める市場とその製品の売上目標額はどのくらいか、など技術、法律、市場などそれぞれを調べる場合にそれぞれに特化したモデルの生成AIが必要となる。しかし、エージェンティックAIは、一つの生成AIチップで複数のモデルを自律的に切り替え、それぞれのモデルで推論を実行する。いわば複数の生成AIを束ねて、一つずつ切り替えて推論していくようなものだ。

同社のAIチップ「SN40L RDU」は、データフローコンピュータアーキテクチャに基づいており(参考資料1)、ニューラルネットワークの流れもデータフローアーキテクチャであるからAIチップとしてはなじみが良い。さらにデータフローの流れが終わり推論出力できると、瞬時に次のモデルへと自動的に切り替え、その新モデルで推論を実行する。製品名についているRDUとはReconfigurable Dataflow Unitの略である。このためモデルを格納するためのメモリを大量に持っており、それも3階層構成を採っている(図2)。


大規模言語モデルのトレンドに対応した3階層メモリ / SambaNova

図2 オンチップSRAMからキャッシュのHBM3、そして12TBのDDR5 メモリの3階層構成を採る 出典:SambaNova


この製品には1パッケージ内に大量のメモリを搭載しており、L1キャッシュのような役割をAIチップ上にモノリシックに集積しているSRAMの容量は520MBで、アクセス速度は数PB/sクラスと高速。さらにこれまでは一般のメモリとして使われるHBM3を64GBのキャッシュとして使い、速度は12.8TB/sと超高速だ。さらにモデルなどを格納しておく、いわゆる大容量メモリは1.5TBで速度が800GB/sの大容量DDR5 DRAMである。

このAIチップ製品を、8枚を一組として推論用のコンピュータとして構成する。大容量メモリには最大5兆パラメータに相当するデータを格納でき、例えばLlama V2 7B(70億パラメータ)モデルを動作中に切り替える場合のスイッチ速度(レイテンシ)は20ms以下であり、瞬時に切り替えられている。

AIチップそのものはTSMCの5nmプロセスで製造されており、1040個のRDUコアを集積している。トランジスタ数は1026億個。16ビットの単精度でAIの推論性能は、638 TFLOPS(Tera Floating point Operations Per Second )と高い。

事前学習済みの基盤モデルとしてLlamaやMistral、Bloom、Falconを提供でき、日本語モデルも充実しつつある。現在、スーパーコンピュータ「富岳」を使って学習させた、Fugaku-LLMとSwallow、Elyza LLM KARAKURI LMを利用できる。顧客のデータをファインチューニングするサービスもあり、銀行や法務、ヘルスケアの各対応モデルを提供できるとしている。

SambaNovaは米国のスタートアップであるが、すでにソフトバンクが生成AI向けの計算機プラットフォームとして使っており、日本のAIスタートアップElyzaの日本語Llama 2-7Bも組み込んでいる。日本でも着々とビジネスを広げ始めている。

参考資料
1. 「ニューロAIはデータフローコンピュータに乗ってくる時代になるか」、セミコンポータル、(2024/02/08)

(2024/07/26)
ご意見・ご感想