セミコンポータル
半導体・FPD・液晶・製造装置・材料・設計のポータルサイト
セミコンポータル

AIメモリは、HBM2Eか、GDDR6か

AIチップと連動するメモリは、DRAMをスタックに積み重ねたHBM2Eか、それともGDDR6 SDRAMか、どちらが適しているのだろうか。その答えをRambusがこのほど明らかにした(図1)。自動運転のレベル3になると物体認識の演算処理でメモリバンド幅は200GB/sを超えるようになる。では、どのメモリを選択すべきか。

GDDR6 Memory System Four 16Gbps x32 GDDR6 DRAMs / HBM2E Memory System Single 2Gbps HBM2E Device

図1 HBM2E vs GDDR6メモリシステム 出典:Rambus Whitepaper


AIの学習能力は急速に高まってきた。2012年から2019年までに30万倍も高まり、3.43カ月ごとに2倍というムーアの法則をしのぐ勢いで急増しているとRambusは述べる。特にクルマの事故を防ぐために完全自動運転に相当するレベル5では、ダイナミックに交通信号や交通表示に反応し、素早く対応すべき操作を予測・実行しなければならない。これはメモリにとって極めて高速のバンド幅が求められる。

AIメモリとして、結論を言えば、学習用にはHBM2E、エッジなどでの推論用にはGDDR6が向く。これがRambusの結論である(参考資料1)。

メモリバンド幅の広いHBM2Eは、HBM(High Bandwidth Memory)の最新版である。HBMは、DRAMメモリを複数枚スタックしたもので、HBM2は最大8枚まで重ねていく。DRAM1枚の性能はそれほど高くないが、スタックすることでHBMとしてのトータルの容量と性能は高い。1ピン当たりのデータ転送レートは2 GT/s (Gigatransfers per second) になり、HBM2は256GB/sを実現できる。パッケージ当たりのデータ量は8GBとなる。HBM2の高位版がHBM2Eで、1ピン当たりの転送レートは3.2GT/sとなり、バンド幅は410GB/sと広い。最大12枚のDRAMチップをスタックでき、最大24GBとなる。


HBM2E Memory System with Single DRAM Stack

図2 HBM2EとSoCを配線するためにインタポーザを利用する 出典:Rambus Whitepaper


データ出力ラインは1024本もあるため、コマンドとアドレスの配線も加えると1700本にも増える。一般のプリント回路基板では対応できないためシリコンのインタポーザを配線回路として利用する(図2)。まさに3D-ICそのものである。

HBM2Eは1個で410GB/sという広いメモリバンド幅を提供できるため、4個あれば1.6TB/sという超高速システムができる。AIではデータセンターにおいて学習させているため、HBM2Eはデータセンターでの学習利用が適している。1個で高速・大容量であることからボードスペースの節約になり、スペースに厳しいデータセンターには有効である。また、消費電力は低いため、データセンターの冷却コストを削減できるというメリットもある。

ただし、問題はコストと複雑さである。DRAMを最大12枚も重ねて実装することを含め全てのパッケージング工程が複雑になる。しかも工程が長くなる分、歩留まりも落ちるため、コスト増にもなる。

一方のGDDR6は、これまでのGDDR SDRAMを踏襲したメモリであり、1チップながら性能は最も高い。GDDR(Graphics Double Data Rate)は20年間、ゲームやグラフィックス向けに設計されてきた。GDDR6の電源電圧は1.35〜1.5V程度と低く、データレートは16Gbpsと高い。GDDR5と比べると、データレートは2倍になっており、容量も2倍の16GBになる。


GDDR6 Memory System with Four DRAM

図3 GDDR6は従来の実装で済む 出典:Rambus Whitepaper


GDDR6は、HBM2Eに対して、従来のDRAM製造技術そのものの延長なので、パッケージングの難しさはなく(図3)、量産技術そのものを使えるためコストは低い。しかも従来のプリント回路基板に実装できるため、低コストで既存プロセスをそのまま使える、というメリットがある。

ただし、メモリ1個のバンド幅は狭く、200GB/sのメモリシステムを構成する場合、4個必要となる。これはGDDRの1ピン当たりのデータレートが16Gbpsであり、データバスは、1チャンネルあたり16ビットでこれが2チャンネル備えているため32ビットのインターフェイスバスに相当する。すなわち、16Gbps×32=64GB/sのバンド幅になり、200GB/s以上のシステムには4個必要であることがわかる。

GDDR6の問題は、超高速のチップが持つシグナルインテグリティ(SI: 信号忠実度)である。SIは、データ信号を送るときのパルス波形が、受け取るときに歪んでいないことを示す指標である。必ずと言ってよいほど、超高速信号は伝送距離が長ければ長いほどパルス波形は歪む。この波形を補正するプリエンファシスや等価技術などが必要になる。タイミングマージンや電圧マージンも小さくなるため、回路設計者はチップのインターフェイスからパッケージ、実装ボードの相互依存性を考え、同時設計が重要になる。

GDDR6のコスト、実装技術などをHBM2Eと比較すると、エッジでの推論利用が適しているとRambusは見る。量産に向く上にADASのレベル3を実現するために4個で済むというメリットもあるからだ。従来のLPDDR5だと9個、LPDDR4なら13個も必要となり、レベル3の推論システムを構成するのに、GDDR6が最適といえそうだ。

参考資料
1. HBM2E and GDDR6: Memory Solutions for AI

(2020/07/17)

月別アーカイブ

Copyright(C)2001-2024 Semiconductor Portal Inc., All Rights Reserved.