巨大AIモデルの訓練時間とコストを左右する「Mixture-of-Experts(MoE)」と呼ばれる技術領域で、NVIDIAが訓練処理の根幹部分を抜本的に高速化する手法を公開した。GPU内部の無駄な待ち時間とメモリ移動を削減するカスタム設計で、特定の計算ブロックを最大2倍高速化する。この改良はDeepSeek-V3のような先端モデルの訓練工程全体に波及し、研究開発の反復速度を加速させる可能性がある。

この記事を一言でいうと

MoEモデルの訓練で従来ボトルネックとなっていた複数の計算ステップを、CUDAに近いDSL「CuTe」で一つのGPUカーネルに融合し、メモリと同期の無駄を省くことで訓練全体の効率を引き上げた。

なぜ話題なのか

大規模言語モデルの性能競争が続くなか、総パラメータ数は増やしつつ実際に計算する量を抑えられるMoE構造は、コストと性能のバランスを取る標準手法になりつつある。しかし、MoEのMLPブロックでは複数の行列演算、活性化関数、量子化処理が逐次的に実行され、GPUが計算よりもメモリ転送や同期に時間を取られる「詰まり」が深刻化している。

この課題に対し、NVIDIAの技術チームはCuTe DSLを用いて複数の演算を1つのGPUカーネルに融合。従来の逐次実行パスと比較してカーネルレベルで1.3倍から2倍の速度向上を確認した。カーネル融合そのものは新しい話ではないが、SwiGLUやGeGLU、sReLUといった最新の活性化関数や、MXFP8やNVFP4といった新しい数値精度形式までネイティブに扱える点が特徴だ。

一般読者や企業にどう関係するのか

MoEモデルの訓練高速化は、AIを活用したサービスを開発・運用する企業にとって、研究開発の試行錯誤を速める直接的な要因になる。訓練に必要な時間やGPU使用量が減れば、同じ予算でより多くの実験が可能になる。

日本の生成AI開発や大規模基盤モデルを導入する企業にとっても、NVIDIAのGPUを利用した訓練インフラの効率が上がる意味は小さくない。クラウドやオンプレミスでNVIDIA製GPUを使う環境であれば、ソフトウェア更新を通じてこの融合カーネルを利用できる可能性がある。

AI業界の構造で見ると何が変わるのか

この改良の本質は、GPU性能を引き出す「カーネル設計」がAI訓練競争の新たな差別化要因になる流れを強める点にある。従来はGPUの世代やクラスタ規模で訓練速度を競う面が大きかったが、同じGPU上でもソフトウェア最適化によって大幅な速度差が生まれる構図が見えてきた。

融合カーネルはcuDNN FrontendやTransformer Engine、Megatron CoreといったNVIDIAのソフトウェアスタックに統合されるため、ユーザーは個別にカーネルを意識せずとも恩恵を受けられる。DeepSeek-V3の訓練ではエンドツーエンドで8%、GPT-OSSの事前訓練設定では93%という大幅なスループット向上が報告されており、モデル開発の時間的優位性がソフトウェアレイヤーの成熟度で決まりうることを示している。

一次情報から確認できる事実

NVIDIAのRachit Garg氏とMatthew Nicely氏が執筆したテクニカルブログで明らかにされた事実は以下の通り。

  • CuTe DSLで設計されたカスタム融合MLPカーネルを開発し、密モデルとMoEモデルの両方に対応
  • カーネルレベルで未融合パス比1.3倍から2倍の速度向上を達成
  • MoE実行時に同期を省く「sync-free」方式を実現し、全イテレーションのCUDA Graph化が可能に
  • SwiGLU、GeGLU、sReLUなどのGLU系活性化関数の重み再配置によりエピローグ計算をサポート
  • MXFP8、NVFP4などの量子化、特徴スケーリング、テンソルクランプ、バイアス加算をネイティブ処理
  • cuDNN Frontend、Transformer Engine、Megatron Coreとの統合提供
  • DeepSeek-V3のフルスタック訓練で8%、GPT-OSS訓練設定で93%のエンドツーエンドスループット向上

関連企業・関連技術

  • NVIDIA:GPUハードウェアとCUDAソフトウェアスタックを提供。今回の融合カーネルは同社のAI訓練向けソフトウェアレイヤーに組み込まれる
  • CuTe DSL:CUDAに近い低レベルなドメイン特化言語。カーネル開発者がGPUのメモリ階層やテンソル演算を細かく制御できる
  • DeepSeek:MoE構造を採用した先端モデルの開発元。NVIDIAの最適化が直接訓練に適用された例として言及
  • Megatron Core / Transformer Engine:NVIDIAの大規模モデル訓練フレームワーク群。GPUの潜在性能を引き出すソフトウェア基盤

今後の論点

今回の発表は2026年6月時点での仕様であり、追加カーネル機能や他フレームワーク対応の拡大が進行中とされている。注視すべきは以下の点だ。

  • PyTorchの標準実装や他社製AIアクセラレータとの比較で、どの程度の優位性が維持されるか
  • 融合カーネルの適用範囲がMoE以外の多様なモデル構造にも広がるか
  • 日本国内のAI研究機関や事業会社が、この最適化を活用するために必要なソフトウェア更新の具体的な手順と対応状況