大規模言語モデルを事業に組み込む企業にとって、推論処理の速度とコストは契約更新のたびに重みを増す要素である。今回CoreWeaveがNVIDIA GB200 NVL72ラックスケールシステムを用い、Llama 3.1 405Bで秒間800トークンという推論速度を記録した。H200搭載システムでもLlama 2 70Bの推論スループットが従来比40パーセント向上している。一見すると個別GPUベンダーの更新情報だが、この数字の本質はクラウド基盤レイヤーにおけるAI特化型プロバイダーの台頭と、推論専用インフラを選ぶ経済的合理性の拡大にある。
背景
大規模言語モデルを実運用に乗せる段階では、学習と異なりレイテンシーとスループットが収益に直結する。顧客向けチャットアプリケーションやコード生成、大量の文書要約を捌く企業内システムでは、1秒あたりの処理トークン数がそのまま同時接続数とユーザー体験の質を決めるからだ。Llama 3.1 405Bのようなパラメタ数4,050億規模の超大規模モデルは性能面で魅力的だが、これまで推論速度が実用上の壁だった。800TPSという値は、1ユーザーあたり1秒20トークンと仮定しても理論上40同時接続を1インスタンスで処理できる目安であり、単一エンドポイントで大規模テナントを支えられる水準に近づく。
構造
今回の記録で注目すべきはCoreWeaveがNVIDIA GB200 NVL72という液冷ラックスケールアーキテクチャを早期に実装し、具体的な顧客向け性能値を公表した点にある。CoreWeaveはもともと仮想通貨マイニング向けGPU基盤を出自とし、大量のGPU調達力とデータセンター運用ノウハウを背景に、汎用クラウドではなくAI専用クラウドへと急速に転身した企業だ。NVIDIAから最新チップを優先的に確保できる調達網と、大規模電源・液冷設備を自社保有する構造が、ハイパースケーラーが同じチップを一般提供する前に実測値を市場に示す速度競争を支えている。GB200 NVL72は72基のB200 GPUをNVLinkで密結合させ、メモリコヒーレントな単一システムとして巨大なモデルを分割なしで推論できるため、テンソル並列による通信オーバーヘッドを大幅に削減する。同時に発表されたH200でのLlama 2 70Bスループット40パーセント向上は、液中冷却やメモリ帯域の強化といった漸進的改良が、既存ラインアップでも推論経済を改善する事実を示している。
影響
AI特化クラウドがハイパースケーラーと異なる最適化曲線を描き始めたことで、エンタープライズ顧客のマルチクラウド戦略はGPU種別と基盤事業者の組み合わせを軸に再編される。AWSやAzure、Google Cloudが汎用サービスとの統合を武器にする一方、CoreWeaveや同業のLambda Labsのような専業事業者は、特定モデルとチップセットに特化したベアメタル推論基盤で価格性能比を追求する。大規模言語モデルの推論単価を左右するのはチップ世代だけでなく、NVLinkトポロジーや液冷設計まで含めたシステム全体の実装速度だ。加えて注目すべきは、この流れが日本市場のサプライチェーンにも及ぶ点である。さくらインターネットやGMOインターネットグループなど国内AI向けデータセンター事業者は、省電力液冷技術の内製化と最新GPUの早期確保が国際競争の必要条件になる局面を迎えている。国内でホストされる大規模言語モデルの推論速度が海外比で劣後すれば、データ主権を理由に国内基盤を選ぶ顧客がビジネス応答速度で不利を負う構造が生まれるからだ。
今後の論点
第一に、GB200 NVL72の量産歩留まりとCoreWeaveの配備ペースが、次期決算で開示される設備投資実行額と稼働率にどう表れるかである。NVIDIAの新アーキテクチャは毎世代のようにTSMCの先端パッケージング工程と相互依存しており、2025年度末までの大口契約がどこまで物理的に履行されるかは不透明要素を含む。第二に、推論専業クラウドの価格体系がハイパースケーラーに与える価格圧力の持続性だ。現在CoreWeaveはGPU時間課金を主体とするが、大規模契約ではトークン単価ベースの従量課金への移行も視野に入る。第三に、Llama 3.1 405Bクラスの超大規模モデルを推論フェーズで動かす需要が、実際にどの産業領域から発注されるかの具体像である。金融のリスク分析や製薬の文献マイニングといった検証系から対話型顧客サービスへの横展開が起きれば、GPUクラウド事業者の投資回収モデルそのものが上方修正される余地がある。最後に、GB200世代の性能がNVIDIA液冷ラックを前提としている以上、データセンターの立地規制や電力調達コストが各国市場の導入速度を分ける構造変数として浮上し始めている。