AIインフラ一次情報 developer_blog NVIDIA Developer Blog 原文公開: 2026/06/10 掲載: 2026/06/11

生成AIの「1文字ずつ待つ」が終わる──NVIDIA×DeepMindの並列出力が開発現場を変える

生成AIの「1文字ずつ待つ」が終わる──NVIDIA×DeepMindの並列出力が開発現場を変える — 画像出典：NVIDIA Developer Blog

なぜ重要か

生成AIの応答遅延が根本的に解消されることで、チャットボットや自律型エージェントの実用性が大きく向上する。自己回帰型が支配してきたテキスト生成の競争軸は、モデル規模から推論の並列度と効率性へと移行し、オンプレミス環境での大規模モデル運用を再定義する契機となる。

Key Points

この記事の要約

テキスト生成の競争軸が「モデル規模」から「並列度と推論効率」へと拡大し、画像生成で成功した拡散モデルが本格参入した。

NVIDIAのGPU最適化とGoogle DeepMindのMoEアーキテクチャの組み合わせにより、大規模モデルの知能と高速応答の両立が現実的になった。

応答速度の飛躍的向上は、カスタマーサポートや自律エージェントなど応答性が問われる業務へのAI導入を加速させる可能性がある。

掲載日: 2026/06/11 原文公開日: 2026/06/10 一次情報種別: developer_blog 一次情報を確認

構造

この記事が示す産業構造

テキスト生成の競争軸が「モデル規模」から「並列度と推論効率」へと拡大し、画像生成で成功した拡散モデルが本格参入した。

関係企業

クラウド、モデル、供給網上の位置

Google はCompanyページとStoryGraphから、供給元、顧客、競合、技術依存を確認できます。

変化

何が変わるか

NVIDIAのGPU最適化とGoogle DeepMindのMoEアーキテクチャの組み合わせにより、大規模モデルの知能と高速応答の両立が現実的になった。

次の論点

次に見るべきポイント

応答速度の飛躍的向上は、カスタマーサポートや自律エージェントなど応答性が問われる業務へのAI導入を加速させる可能性がある。

#agents #coding-agent #google #gpu #nvidia #reasoning

ユーザーがチャットに打ち込んだあと、画面に1文字ずつ文字が流れてくる。その「待ち時間」が、生成AIの実用化を阻んできた最大の壁の一つだった。この構造を根底から変える技術「DiffusionGemma」が、NVIDIAのGPU上で開発者向けに提供開始された。

この記事を一言でいうと

Google DeepMindが開発したDiffusionGemmaは、テキストを1トークンずつではなく一度に256トークンずつ並列生成する。NVIDIAのH100やDGX Station上で毎秒1000～2000トークンという高速処理を実現し、チャットやコーディング支援、自律型AIエージェントの応答性を大幅に引き上げる。

なぜ話題なのか

現在の大規模言語モデルの大半は「自己回帰型」と呼ばれる仕組みを採用している。前の単語を出力してから次の単語を決める逐次処理のため、長文になるほど待ち時間が伸び、サービス提供側のコストもかさむ構造的な課題があった。

これに対しDiffusionGemmaは、画像生成AIで使われる「拡散モデル」の考え方をテキスト生成に応用した。ノイズから徐々に意味のある文章を復元する過程で、複数のトークンを同時に生成する。つまり「1文字ずつ待つ」必要がなくなり、スループットが根本から変わる。

一般読者や企業にどう関係するのか

カスタマーサポートのチャットボットや社内文書の自動生成、リアルタイム翻訳など、応答速度が体験の質を左右する場面では、この高速化がそのまま顧客満足度や業務効率に直結する。

たとえば数百人が同時に問い合わせる状況でも、サーバー1台あたりの処理能力が上がれば待ち行列は短くなり、追加のGPU調達を抑えられる。NVIDIA DGX Sparkでは毎秒150トークン、DGX Stationでは毎秒2000トークンと、設置場所や予算に応じた段階的な導入が可能になる。日本企業でも、オンプレミスでAIを動かしたい製造業や金融機関にとって、応答速度と運用コストのバランスを再設計する契機となる。

AI業界の構造で見ると何が変わるのか

自己回帰型モデルが標準だったテキスト生成の世界に、拡散モデルという別アプローチが本格的に参入した意味は大きい。競争軸が「モデルの大きさ」や「学習データ量」から「生成の並列度」や「推論効率」へと広がる。

今回の発表では、Hugging Faceからのダウンロードに加え、NVIDIA NIM（推論マイクロサービス）やNeMo AutoModelを通じたデプロイにも対応している。開発者はプロトタイプから本番環境まで同じモデルを一貫して使える。またBF16とNVFP4の両精度に対応しており、量子化によるメモリ効率の改善も、エッジデバイスやRTX/RTX PROでの動作を見据えた重要な布石となる。

基盤モデルがGemma 4 26B A4 MoE（総パラメータ数252億、アクティブパラメータ数38億）であることも注目される。大規模ながら推論時に必要な計算資源を抑えるMoEアーキテクチャと、拡散による並列生成が組み合わさることで、「大規模モデルの知能」と「小規模モデルの応答速度」の両立を目指している。

一次情報から確認できる事実

DiffusionGemmaはGoogle DeepMindが開発し、NVIDIAプラットフォーム向けに最適化された。
テキスト生成に拡散ベースのノイズ除去を採用し、1ステップで256トークンを並列生成する。
NVIDIA H100 Tensor Core GPUで最大毎秒1000トークン、DGX Sparkで毎秒150トークン、DGX Stationで毎秒2000トークンを達成。
Gemma 4 26B A4 MoEアーキテクチャ上に構築され、アクティブパラメータは38億。文脈長は最大256Kトークン。
精度形式はBF16とNVFP4をサポート。提供経路はHugging Face、NVIDIA NIM、NVIDIA NeMo AutoModel。