セミコンポータル
半導体・FPD・液晶・製造装置・材料・設計のポータルサイト

国内ファブレス半導体ベンチャー、TRIPLE-1がAIコアを開発

日本にも誕生したファブレス半導体ベンチャーがAIチップを作るようになってきた。福岡市に本社を置くファブレス半導体のTRIPLE-1は、学習させることを狙ったAIチップ「GOKU」を開発中だ(図1)。最先端の5nmプロセスを使うAIチップに集積するコアの開発をこのほど明らかにした。

図1 国産ファブレス半導体ベンチャーが開発したAIコア 出典:TRIPLE-1

図1 国産ファブレス半導体ベンチャーが開発したAIコア 出典:TRIPLE-1


AIチップになぜ5nmという超微細化技術が必要なのか。ニューロンモデルで表現されるMAC演算器を多数詰め込めれば詰め込めるほど、人間の脳に近づけるからだ。人間の脳には大脳に数百個、小脳には1000億個の神経細胞、すなわちニューロンがあるといわれている。それらは微小な電気信号で情報を送受信している。このニューロンを真似たものがニューラルネットワークである。億単位のニューロンを集積したというAIチップはまだないものの、数百個のニューロンを集積したAI半導体回路はすでにIBMが試作している。ただし、デジタルで表現する場合にブロック内に集積するニューロン数がチップ設計によってまちまちなため、チップ当たりのニューロン数という表現はしないようだ。

ニューラルネットワークのモデルでは、ニューロン1個は、多入力・1出力のパーセプトロンモデルで記述されることが多い。入力はデータと重みを加えて演算する(図2)。ニューロン1個の演算は、デジタル的に表現すると、データ1×重み1+データ2×重み2+・・・・+データn×重みn、という数式で表現される。すなわち積(掛け算)和(足し算)演算(MAC: multiply accumulate calculation)を行っていることに相当する。もちろんアナログ的にも多数の入力データに多数の重みを可変抵抗で表すこともできる。


ニューロモデル-基本はパーセプトロン

図2 ニューラルネットワークの等価回路 筆者作成


出力値は1か0とする場合が多い。多数の入力演算を足し合わせて出力の1か0を表現するために、演算部分はステップ関数、つまりコンパレータのようにしきい値を例えば0.5に定め、それ以上を1、以下を0で表す。連続関数で表わせばステップ関数は、シグモイド関数で近似できる。ニューロンの数を増やせば徐々に人間の頭脳に近づき正しい答えを導くだろう、という想定でニューロンを構成する。

そこで、一つのニューロンから次のニューロンへと次々とネットワークを構成する。これをデジタル的な等価回路で表現すると、MAC+メモリ(DRAM)を1ニューロンとして、この回路を多数並列に並べていく。実際にはニューロンを数十か数百を一つの単位にまとめ、そのブロックを多数並列に並べて行き、脳をモデル化する。そして大量の小さなMACという基本構造がGPUチップには集積されているため、NvidiaのGPUがAIチップとして使われてきた。

多数のMAC演算とメモリからなるニューロンブロックを、さらに多数並べるためにはできるだけ微細化して詰め込むだけ詰め込まなければ、人間の脳には届かない。このため微細化技術がAIチップには必要となる。

GPUやCPUの微細化ではAMDやQualcommが進んでおり、AMDは7nmのGPUを開発している。ただし、市場には出ていないという。国内でディープラーニングのフレームワークであるChainerを開発してきたプリファードネットワークス社もAIチップを2018年12月のセミコンジャパンで見せたが、その時は12nmプロセスを使っていた(参考資料1)。TRIPLE-1は微細化の先頭に立ち、高集積のAIチップを目指すため5nmのデザインを進めてきた。まずはAIコアを2019年9月に完成させサンプル出荷し、現在評価中だ。

社内で評価したところ、16ビットの精度でピーク性能1000 TFLOPS(1PFLOPS)で、電力効率は10 FLOPS/W、AIコア全体で100Wとなる。ただし演算精度は8ビットでも16ビットでも変えられるようになっているという。

この結果が示すように、TRIPLE-1がこだわるのは、低消費電力化だ。データセンターで学習させる場合でも消費電力の低さは、データセンターの能力を上げることができる。データセンターでは使える電力に限界があるため、消費電力あたりの性能を上げることに苦心してきた。5nmという微細化は、性能や集積度だけではなく、消費電力の削減にも効果がある。

ただし、7nmから5nmへと微細化を進めれば進めるほど、トランジスタのバラツキが大きくなり、歩留まりは悪くなる。そこで、歩留まりを補正する回路を導入することでバラツキを補償しているという。トランジスタのバラツキを速度の速い・遅いで分割し補償していくのだという。これに関しては特許を出願中だとしている。

一つのコア(MAC+メモリ)を並列にずらりと並べるわけだが、その行列演算コアはある大学と共同で開発、自社でRTL(register transfer level)をプログラムながら、ソフトウエアの改良を加えてきたとしている。AIコアの配置配線レイアウトは自社で手掛けており、半導体設計エンジニアが多いことをうかがわせている。社員数30名の内7割がエンジニアだという。

次は開発したAIコアをずらりと並べて、レチクルサイズぎりぎりの大きなチップ(25mm×32)を設計することだ。SerDesを介して外部と通信し、しかも拡張性を持たせて並列接続できるようにする。このためAI回路部分の面積はまだ設定していない。年内にはテープアウトしたいと意気込んでいる。同時並行的に水冷システムを採用することになると思われるが、放熱設計も開始する。

参考資料
1. プリファードネットワークス、AI学習チップを顔見世 (2018/12/18)

(2020/01/30)

月別アーカイブ