過去 2 年間、AI に関するほぼすべての議論は、十分な GPU の不足、不十分なコンピューティング容量、過小なクラスターなどのコンピューティング能力に焦点を当ててきました。より多くのコンピューティングパワーを積み上げれば、すべての問題が解決されるかのように感じます。
しかし、このレポートでは、次の重要な点が何度も強調されています。 AI の速度を本当に低下させるのは、計算能力がないことではなく、データを効率的に移動できないことです。
ある統計により、問題が非常に明確になります。 DRAM からのデータの読み取りは、SRAM からのデータの数百倍のエネルギーを消費します。一方、プロセッサとメモリの性能差は毎年 50% 近く拡大しています。
私たちが必死で構築しているコンピューティング能力の多くは、単にデータを待っているだけです。 その瞬間、私は驚くべきことに気づきました。 私たちはずっと AI の間違ったボトルネックに注目していたのかもしれません。
問題が計算そのものではなく、コンピューティングとメモリの分離にある場合は、 その場合、本当の答えはより強力な GPU ではない可能性があります。 させることです メモリ自体がコンピューティングに参加する。 それがこのレポートが伝えようとしている本当の話です。
AI の計算能力の本当のボトルネックは計算からメモリに移行しており、解決策は計算をメモリに移動することです。
AI の計算は大規模な MAC (積和演算) 演算に大きく依存しており、非常にデータ集約的です。 ただし、古典的なフォン ノイマン アーキテクチャには致命的な欠陥があります。
結論: AI は計算に失敗するわけではありません。手頃な価格で十分な速度でデータを移動することができません。
コンピューティングとメモリを分離すると、継続的なデータの往復が強制され、次の 2 つの重大な問題が発生します。
これはまさにレポートで呼ばれているものです フォン・ノイマンのボトルネック。
明確な業界トレンドが現れています。 チップは 2 つの方法で進化しています。
その一方で、次のような革命的な方向性が明らかになりました。 インメモリコンピューティング (IMC)。
その核となるアイデアは次のとおりです。 論理演算、算術計算、行列乗算 (AI の中核) をメモリ内で直接実行します。
根本的な変化: メモリ = ストレージ → メモリ = Compute Engine
レポートでは、複数の実装ルートについて概説しています。
1. SRAM / eDRAM (従来のパス)
コンピューティングインキャッシュ、ニューラルキャッシュ
長所: 成熟している、高速
制限: 大面積、限られたスケーラビリティ
2. 新たな記憶 (主流方向)
含まれるもの:
MRAM、PCM、ReRAM、FeRAM
共通の目標: メモリ配列を行列積和エンジンに変える インプレース コンピューティングとアナログ コンピューティング (ベクトル乗算の電流合計など) を使用します。
本質: メモリアレイ = AI アクセラレータ
しかし、本当の課題はまだ残っています。 精度とノイズ、デバイスの変動、重量ドリフト (特に ReRAM)、および保持の問題。 この道は実行可能ですが、エンジニアリングにおいては非常に困難です。
レポートでは、ハードウェアだけでは十分ではなく、アルゴリズムも進化する必要があると強調しています。
重要な結論: AI 効率の最適化には、アーキテクチャ、デバイス、アルゴリズムの共同設計が必要です。
AI のボトルネックは、「十分なコンピューティング能力がないこと」から「十分な速度でデータを移動できないこと」に変わりつつあります。 次世代チップの答えは、より強力な GPU ではなく、 自身で計算できるメモリ。