まず  ページニュースAI の本当のボトルネックは計算能力ではなく、データの移動です — インメモリ コンピューティングが解決策になります

AI の本当のボトルネックは計算能力ではなく、データの移動です — インメモリ コンピューティングが解決策になります

AI の本当のボトルネックは計算能力ではなく、データの移動です — インメモリ コンピューティングが解決策になります


過去 2 年間、AI に関するほぼすべての議論は、十分な GPU の不足、不十分なコンピューティング容量、過小なクラスターなどのコンピューティング能力に焦点を当ててきました。より多くのコンピューティングパワーを積み上げれば、すべての問題が解決されるかのように感じます。

しかし、このレポートでは、次の重要な点が何度も強調されています。 AI の速度を本当に低下させるのは、計算能力がないことではなく、データを効率的に移動できないことです。

ある統計により、問題が非常に明確になります。 DRAM からのデータの読み取りは、SRAM からのデータの数百倍のエネルギーを消費します。一方、プロセッサとメモリの性能差は毎年 50% 近く拡大しています。

私たちが必死で構築しているコンピューティング能力の多くは、単にデータを待っているだけです。 その瞬間、私は驚くべきことに気づきました。 私たちはずっと AI の間違ったボトルネックに注目していたのかもしれません。

問題が計算そのものではなく、コンピューティングとメモリの分離にある場合は、 その場合、本当の答えはより強力な GPU ではない可能性があります。 させることです メモリ自体がコンピューティングに参加する。 それがこのレポートが伝えようとしている本当の話です。

報告書の核となるメッセージ

AI の計算能力の本当のボトルネックは計算からメモリに移行しており、解決策は計算をメモリに移動することです。

本当の問題: AI の効率はデータの移動によって制限される

AI の計算は大規模な MAC (積和演算) 演算に大きく依存しており、非常にデータ集約的です。 ただし、古典的なフォン ノイマン アーキテクチャには致命的な欠陥があります。

  • プロセッサーと DRAM 間のパフォーマンスの差は拡大し続けています (年間約 50%)
  • メモリ アクセスのエネルギー コストは、計算自体よりもはるかに高くなります (DRAM の読み取りエネルギーは SRAM の 100 倍)。

結論: AI は計算に失敗するわけではありません。手頃な価格で十分な速度でデータを移動することができません。

核心的な矛盾: フォン・ノイマンのボトルネック

コンピューティングとメモリを分離すると、継続的なデータの往復が強制され、次の 2 つの重大な問題が発生します。

  • 高い遅延
  • 爆発的なエネルギー消費

これはまさにレポートで呼ばれているものです フォン・ノイマンのボトルネック

主な傾向: メモリが新しいコンピューティング センターになる

明確な業界トレンドが現れています。 チップは 2 つの方法で進化しています。

  • オンチップ メモリ (SRAM) は拡大を続けています
  • メモリ帯域幅は増加し続ける

その一方で、次のような革命的な方向性が明らかになりました。 インメモリコンピューティング (IMC)

その核となるアイデアは次のとおりです。 論理演算、算術計算、行列乗算 (AI の中核) をメモリ内で直接実行します。

根本的な変化: メモリ = ストレージ → メモリ = Compute Engine

テクニカル パス: SRAM から新興メモリまで

レポートでは、複数の実装ルートについて概説しています。

1. SRAM / eDRAM (従来のパス)
コンピューティングインキャッシュ、ニューラルキャッシュ
長所: 成熟している、高速
制限: 大面積、限られたスケーラビリティ

2. 新たな記憶 (主流方向)
含まれるもの: MRAM、PCM、ReRAM、FeRAM

共通の目標: メモリ配列を行列積和エンジンに変える インプレース コンピューティングとアナログ コンピューティング (ベクトル乗算の電流合計など) を使用します。

本質: メモリアレイ = AI アクセラレータ

しかし、本当の課題はまだ残っています。 精度とノイズ、デバイスの変動、重量ドリフト (特に ReRAM)、および保持の問題。 この道は実行可能ですが、エンジニアリングにおいては非常に困難です。

システム ソリューション: ハードウェアとアルゴリズムの協調最適化

レポートでは、ハードウェアだけでは十分ではなく、アルゴリズムも進化する必要があると強調しています。

  • モデル圧縮: 枝刈り、スパース性、低ランク分解
  • 低精度コンピューティング: 固定小数点、バイナリ ニューラル ネットワーク
  • ハードウェアを意識したトレーニング: STE、ビット スライス スパース性

重要な結論: AI 効率の最適化には、アーキテクチャ、デバイス、アルゴリズムの共同設計が必要です。

最終結論

  1. オンチップメモリはAIシステムの中核リソースとなっている
  2. 新たなメモリにより、メモリとコンピューティングの統合が主流の方向になりつつある
  3. 次世代 AI チップにはデバイスからアルゴリズムまでのクロスレイヤーの共同設計が必要

概要

AI のボトルネックは、「十分なコンピューティング能力がないこと」から「十分な速度でデータを移動できないこと」に変わりつつあります。 次世代チップの答えは、より強力な GPU ではなく、 自身で計算できるメモリ