CoreWeaveがNVIDIA HGX B300の大規模提供を開始した。GPUクラウド事業者による専有契約型インスタンスの拡充は、エージェントAIが求める推論基盤の供給不足が依然として解消されていないことを示している。エンタープライズ需要のピークは2025年後半以降と予測されており、今回の発表は先行整備の動きだ。

背景

エージェントAIとは、単一のプロンプト応答で完結せず、複数のツールやAPIを自律的に呼び出しながらタスクを遂行するAIシステムを指す。このアーキテクチャでは1リクエストあたりの推論ステップ数が爆発的に増加する。CoreWeaveの開示資料によると、エージェント型ワークロードの推論トークン数は従来型チャットボットの5倍から20倍に達するケースが観測されている。HGX B300はBlackwellアーキテクチャを採用し、大規模言語モデルの推論処理に特化した高メモリ帯域幅を備える点が、この需要増に対応する。単純なGPU数増強ではなく、推論密度を上げるハードウェア選定が進んでいる段階だと言える。

構造

今回の発表で注目すべきはGPUの供給形態である。CoreWeaveはHGX B300を「専有契約」で提供しており、オンデマンドの従量課金ではない。これは需給バランスがいまだ供給側に傾いていることを示す構造的な証左だ。主要GPUクラウド事業者の2025年第一四半期の設備投資額は前年同期比で平均40%増加しているが、NVIDIAの製造ロット割り当てはハイパースケーラー優先が続いている。専有契約は顧客にとっては調達リスクのヘッジ手段であり、CoreWeaveにとってはキャッシュフロー安定化の手段である。この構図が意味するのは、エージェントAIを事業化する企業にとって、GPU調達が依然として競争力の源泉であるという事実だ。APIプロバイダーが裏側でどのようなクラウド基盤を使っているかが、応答速度やサービスレベルに直結する時代が続いている。

影響

HGX B300の投入は、AI推論のコスト構造を変える可能性がある。NVIDIAの技術資料に基づくと、B300は前世代のH200と比較して推論時のワットパフォーマンスが最大2倍に向上している。これにより、1トークンあたりの処理コストは理論上大幅に低下する。ただし、専有契約の価格がこの効率化を反映するかは別問題だ。供給が逼迫している限り、コストダウンがそのままエンドユーザー価格に転嫁されるとは限らない。むしろ、低コスト化の恩恵はGPUを自社保有するハイパースケーラーに大きく偏る可能性がある。日本市場においても、さくらインターネットやKDDIなどがGPUクラウドの増強を進めているが、最新アーキテクチャへのアクセスにはタイムラグが生じており、国内AIスタートアップの推論基盤調達には依然ハードルが存在する。

今後の論点

焦点となるのは、エージェントAI向け推論需要がハードウェア供給を上回る期間がいつまで続くかである。半導体製造装置メーカーの業界団体SEMIの予測では、AI向け先端ロジックの生産能力は2026年までに現在の1.5倍に拡大する見通しだ。しかしエージェントAIの普及速度次第では、需要が供給拡大を上回り続けるシナリオもあり得る。もう1つの論点は、専有契約モデルの持続性だ。GPU供給が正常化した場合、長期契約を結んだ企業の資産効率が悪化するリスクは否定できない。AIの推論基盤は需給変動と投資判断が複雑に絡み合う局面へと入った。