セミコンポータル
半導体・FPD・液晶・製造装置・材料・設計のポータルサイト

AIへ大きく舵を切ったnVidia

|

グラフィックスICであるGPUが得意なnVidiaは、画像認識、音声認識などパターン認識に、マシンラーニングやディープラーニングなどのAI(人工知能)を活用しているが、その勢いをますます加速している。同社主催の技術会議GTC 2016でその方向を明らかにした。

図1 nVidiaのCEOであるJen-Hsun Huang氏

図1 nVidiaのCEOであるJen-Hsun Huang氏


GPU(グラフィックスプロセッサ・ユニット)はこれまで3次元画像を描き、光の陰影などつけてより写真に近づけるといったゲーム応用が主な用途だった。それがCPUを補佐する高性能コンピューティング(HPC)にGPUを使うようになり、さらにその用途をAIのパターン認識とその学習に応用するようになった。今年のGTC(GPU Technology Conference)はAI一色だった。同社CEOのJen-Hsun Huang氏(図1)の基調講演のタイトルは「ディープラーニング:AI革命」と題しており、その様子をよく表している。

nVidiaは単にGPUの応用範囲をゲームからコンピューティング技術やAIへと広げてきただけではない。むしろAIに使うデバイスとして活用する方が威力を発揮することがわかってきたことによる。例えば、音声認識に活用すると、従来の言葉や文脈の特長抽出を用いたコンピュータアルゴリズムで計算していた方法と比べて、誤認識率が下がったというデータが出てきた。2016年9月16日にマイクロソフトが発表した、AIを使った音声認識の誤認識率は従来の10%以上から2%程度に大きく下がっている(図2)。


図2 音声認識はディープラーニングにより誤認識率は2%に 出典:nVidia Microsoftのデータを引用

図2 音声認識はディープラーニングにより誤認識率は2%に 出典:nVidia Microsoftのデータを引用


通常の会話をしていると、「あー」とか「えー」とか意味のない言葉が多く、そのような無駄な言葉を認識するためのアルゴリズムは必要がないはず。しかし従来のコンピュータアルゴリズムは全ての言葉を認識するように努めてきた。これに対して、AIでは、「あー」や「えー」は意味のない言葉だと判断して切り捨てればよい。「あー」や「えー」を含めた音声の複雑なパターンからパターンそのものの特長を抽出し、類似性などから意味づけ学習を行うことによって、認識率は上がった。AIでは、何千回・何万回と学習して覚えたパターンを参照パターンとして使い、似たようなパターンが現れたら、参照パターンと比較し判断するのである。

nVidiaのAIシフトは、クルマの世界にも広がってきている。もともとnVidiaは、5年ほど前からクルマにGPUを搭載し、ダッシュボードに液晶パネルを導入し、そこに描くスピードメータやタコメータを、きれいな画像で表現することを目的としていた。ダッシュボードへの利用によるドライバー支援が目的だった。残念ながらこの用途は、一部のクルマメーカーにしか採り入れられなかった。もちろん、クルマへの液晶パネルの採用はまだ進んでいない。

ところが、自動運転車が注目を集めるようになってくると、ドライバー支援のテクノロジーは一変した。ドライバーの前方にある対象物がクルマなのか、人なのか、自転車なのか、クルマでもトラックなのか、乗用車か、人間の眼と同じレベル以上の性能が求められるようになった。するとパターン認識技術が極めて重要になってくる。そこでAIの登場、というシナリオが出てきた。

AIにGPUを使う理由は、AI、特にディープラーニングではニューラルネットワークの手法と一致するからだ。ここでは神経細胞をまねた構造の情報伝達システムを利用する。ニューロン(神経細胞)1個は、視神経や音声などの多数の入力信号が脳細胞に入ると、最初の脳細胞では、入ってきたすべての入力信号(x1〜xn)に重み(a1〜an)を掛け、それらを足し合わせる。最後に計算した結果をyとして出力する。これは、GPUが得意な積和演算そのものだ。この重みを学習によって変えていくと、出力yも変わる。神経細胞は小脳だけで1000億個あるといわれているため、電子回路では、このような細胞をできるだけ多数用意して、神経ネットワークを構成していく。

ディープラーニングの応用分野は、画像認識や音声認識などのパターン認識技術。それらをベンチマークとして、nVidiaのコア技術であるGPUの性能向上も加速している。2016年に発表したGPUであるPascalは、3年前に発表したGPUのKeplerの65倍の性能を持つ。16nm FinFET技術や3D-IC技術であるHMB2メモリなどの先端技術を用いている。Pascalはもはやスーパーコンピュータを構成する重要な技術でもある。


図3 2016年に発表した新GPU「Pascal」 16nm FinFETやTSVメモリなど先端技術の塊だ 出典:nVidia

図3 2016年に発表した新GPU「Pascal」 16nm FinFETやTSVメモリなど先端技術の塊だ 出典:nVidia


GPUはグラフィックス、すなわち「お絵かき」専用のプロセッサである。絵を書く場合のデッサンに相当するのが小さな三角形(トライアングル)をつなぎ合わせていく、という作業である。その上に色を塗る(レンダリング)という作業を経て絵を完成させる訳だが、実はレンダリング作業を大きな画面の一部では、似たような色を何度も塗っている作業に見える。実際、1枚のフレーム上では、画面を分割し、色を格納しているメモリからディスプレイ上に色を張り付ける作業そのものをしており、まさに並列処理していることに等しい。CPUは、分岐命令により様々な作業を担わなければならないため、単純な並列処理は向かない。単純な並列処理こそ、GPUが最も得意とする作業である。この作業は、似たような画像や音声などのパターンを何度も覚え込ませる「学習」と似ている。だからGPUは、マシンラーニング、ディープラーニングに向いているという訳だ。

ディープラーニングでは、IoTやスマートデバイスなどからのデータを学習し、ニューラルネットワークで何度も繰り返し、推論を行い、IoTにフィードバックする(図4)。GPUはこの中で学習と推論を担っている。例えば、推論用のアクセラレータであるTesla P4/P40は、CPUと比べて、P4はエネルギー効率が40倍、P40は性能が40倍という。さらに、最新のGPUモジュールとして、推論エンジンを最適化する性能を持つTensorRT、組み込みスーパーコンピュータのJetson TX1など高性能の新製品をHuang氏は紹介した。


図4 AIではIoTから学習、ニューラルネットワーク、推論マシンというサイクルを何度も繰り返す 出典:nVidia

図4 AIではIoTから学習、ニューラルネットワーク、推論マシンというサイクルを何度も繰り返す 出典:nVidia


日本では、工場用ロボットのファナックと提携した。ファナックの工場にnVidiaのAI用GPUモジュールを導入し、ロボットを賢くすることによって、ユーザーの生産効率を上げようという狙いがある。

前述したように、AIを使ったパターン認識は、クルマの自動運転にも向いた技術である。クルマの前方にあるものを認識し、回避するのか、停まるのか、という判断も行う。クルマが高速道路か一般道か、クルマの周囲にあるもの、なども認識する。さらに対象物がずっと前からあったのか、突然出てきたものか、ずっと追尾しているものか、だったらどのようにすべきか、などを判断する。判断ができたら、ブレーキをかけるのか右へ寄るのか、などのアクションをとる。アクションは制御系のマイコンを含むECU、アクチュエータで行う。アクション以外はAIで情報処理することができる。

これまでの自動運転は、クルマの検出・認識、さらには白線検出などを行い、サラウンド検出も加えていた。やはり目印となる白線などの対象物が必要だった。対象物が決まれば、AIを使わなくてもコンピュータ計算だけでも情報処理はできた。しかし、目印のない、例えば山の中の「けものみち」を走るようなハンドル操作となると、「方程式はない。ハンドル操作は計算ではなく行動(Behavior)である。だから、経験を積んだ学習、すなわちAIが必要なのだ」とHuang氏は講演で述べている。

ただ、GPUの泣き所は、消費電力がまだ大きいことだ。これまでよりは少なくなったとはいえ、まだ数十WではLSIとして大きい。さらに下げるための試みとしてIBMのTrueNorthチップやGoogleのTPU(Tensor Processing Unit)などAI専用のプロセッサが登場している。ここに日本の半導体メーカーにもチャンスがある。

(2016/10/14)

月別アーカイブ