Semiconductor Portal

» セミコンポータルによる分析 » 技術分析 » 技術分析(製造・検査装置)

Keysight、AIデータセンターを評価する測定器ポートフォリオを顔見せ

測定器メーカー大手のKeysight Technologyは、成長し続けるAIデータセンター向けの測定技術KAI(Keysight Artificial Intelligence)アーキテクチャを提唱(図1)、具体的な製品群も発表した。このアーキテクチャは、超並列に演算するGPU(グラフィックスプロセッサ)などのワークロードをエミュレーションによって検証するもので、AIデータセンターをさらに拡張する場合に支援できる。

Introducing Keysight Artificial Intelligence (KAI) / Keysight Technology

図1 KeysightのKAIアーキテクチャ 出典:Keysight Technology


ここ最近AIデータセンターが伸びている。AIに必要なコンピュータも揃えているが、それぞれのコンピュータが正常に動作するといっても、各コンピュータをネットワークでつなげると、全てのコンピュータが必ずしも正常に働くわけではない。それらのネットワークが適切か、AIを動作させる場合の負荷のバランスがとれているか、などラック間やラック内のネットワークが最適化されているかどうかをチェックする必要がある。

現実には、ネットワークでつながれた数千ものGPUはデータを待っている時間が50%以上もあり、実際に計算に使っている時間は20%しかない(図2の左)。また、生成AIを作成する場合にLLM(大規模言語モデル)を学習させると57%は成功するが、43%はネットワークや演算などでエラーが発生するという(図2の右)。このため、ネットワークのバランスを見て最適化する必要がある。


Why the Network & Components Matter in an AI Cluster / Keysight Technology

図2 ネットワークで接続されたGPUが実際に働く時間の評価結果 出典:Keysight Technology


そこで、Keysightが提案したアーキテクチャの基本的な概念は、大規模なAIワークロードを忠実にエミュレートすることでシステム性能を向上させ、各コンポーネント障害の影響を予測・軽減することでデータセンターの運用を最適化するというもの。具体的には、KAI Data Center Builderというシステム全体を見てワークロードを最適化するシステムを開発した。それに加え、4種類のテストすなわちKAI ComputeとKAI Interconnect、KAI Network 、KAI Powerを行う。

KAI Data Center Builderは、AIデータセンターのコンピュータを拡大していくときにエミュレーションで実世界のワークロードをエミュレートする(図3)。どのGPUがネットワークのボトルネックになっているのかを、まるでコンスタレーション図のように一目でわかるようになる。


KAI Data Center Builder / Keysight Technology

図3 KAI Data Center Builder AIのインフラ能力をエミュレーションして可視化する 出典:Keysight Technology


KAI Computeは、それらのコンピュータそのものの設計シミュレーションやビットエラーレートのテスト、波形確認など高速デジタル設計を最適化するため支援を行う。KAI Interconnectは1.6Tbpsという高速のサンプリングオシロスコープなどで性能や精度を測定し、KAI Networkはネットワークの性能やエラーのチェックなどを行う。

Tbpsという超高速のデータレートはもはや電気ではなく光通信技術を使う。光ファイバ同士を接続するためコネクタと同じようなコネクタを、3月にNvidiaが主催したGTC(GPU Technology Conference)でジェンスン・フアン氏が講演中に見せた。もはやAIデータセンターの高速化には、光ファイバ接続が必須になることをNvidiaもKeysightも示したといえそうだ。

(2025/04/23)
ご意見・ご感想