大規模言語モデルが常時稼働し、自律的に推論・判断する「エージェントAI」への移行が本格化している。この変化の裏で、膨大な計算を支えるインフラの再設計が静かに進行中だ。クラウド事業者CoreWeaveは、NVIDIAの次世代プラットフォーム「Vera Rubin NVL72」の検証に世界で初めて成功した。ラック単位の設計刷新により、AI推論コストを従来比10分の1に引き下げるという主張は、AI活用の経済性を根底から変えうるものだ。
この記事を一言でいうと
CoreWeaveがNVIDIA Vera Rubin NVL72の動作検証を業界で初めて完了し、ソフトウェア制御の液冷弁や全スタック最適化によってラック規模のAIインフラを実運用レベルに引き上げた。推論コストの大幅低減が、エージェントAIや常時推論モデルの経済性を大きく変える転換点になりつつある。
なぜ話題なのか
AIモデルの巨大化に伴い、1基のサーバーに搭載するGPU数や消費電力は急増している。NVIDIAが発表したVera Rubin NVL72は、72基のRubin GPUに36基のVera CPU、ConnectX-9 SuperNIC、BlueField-4 DPUを1つのラックに統合し、NVLink 6スイッチでラック内部を接続する設計だ。前世代のBlackwellと比較して、AI訓練では必要GPU数が4分の1、推論では100万トークンあたりのコストが10分の1になるとされる。
だがこうした次世代ハードウェアを実際に稼働させるには、電力供給、液冷、ネットワーク、ソフトウェアの全層にわたる再設計が必須となる。CoreWeaveが世界で初めてこの検証を成功させたことは、新プラットフォームが実験室を出て商用クラウドに近づいたことを意味する。
一般読者や企業にどう関係するのか
AIの利用コストが下がることは、より多様なサービスや企業がAIを日常的に使えるようになることを示唆する。常時稼働するAIエージェントが顧客対応やデータ分析、研究開発を自律的に行う世界では、トークンあたりの推論単価が普及の鍵を握る。CoreWeaveが示す10分の1へのコスト圧縮は、AI導入を検討する企業の損益分岐点を大きく引き下げる可能性がある。
日本市場に目を向ければ、大規模基盤モデルを利用する国内企業やクラウド事業者にとって、米国発のインフラ革新が調達価格やサービス競争力に波及する経路は無視できない。GPUクラウドを再販・活用する国内ベンダーや、AIエージェントを業務に組み込む製造・金融分野では、推論単価の下落が事業計画そのものを書き換える材料になりうる。
AI業界の構造で見ると何が変わるのか
今回の動きは、単なるGPU進化の話題ではない。AIインフラの競争軸が「チップ性能」から「ラック規模の統合設計力」へと移行していることを示す。NVIDIAがGPU、CPU、ネットワーク、DPUをラック単位で垂直統合し、CoreWeaveが液冷や可観測性まで含めて最適化する構図は、クラウド事業者に新たな差別化要素を求める。
さらに、9割の主要基盤モデル開発企業がCoreWeaveを利用しているという事実は、モデル開発とインフラ供給の相互依存が深まっている証左だ。推論コストの大幅低下は、より頻繁なモデル更新や長時間推論を前提とする「常時思考型AI」の開発を加速させ、モデルプロバイダー間の競争をさらに激化させるだろう。
一次情報から確認できる事実
- CoreWeaveは2025年初頭にNVIDIA Vera Rubinプラットフォームを導入する最初のクラウド事業者の1つとなった。
- 今月初め、CoreWeaveはNVIDIA Vera Rubin NVL72の検証と診断実行に業界で初めて成功した。
- Vera Rubin NVL72は、72基のRubin GPU、36基のVera CPU、ConnectX-9 SuperNIC、BlueField-4 DPUを搭載。ラック内接続にNVLink 6スイッチ、外部接続にQuantum-X800 InfiniBandとSpectrum-X Ethernetを用いる。
- Blackwell比でAI訓練は4分の1のGPU数、推論は100万トークンあたり10分の1のコストを実現するとされる。
- CoreWeaveは「Valvey」と称する特許出願中のラック単位液冷弁アセンブリを開発。冷却をソフトウェア定義可能にした。
- フルスタックの可観測性強化と運用ツール群(CoreWeave Mission Control)をゼロ日目から組み込み、MFU、Goodput、MTTFの向上を狙う。
- Jane Streetの定量リサーチ責任者Craig Fallsは、CoreWeaveのHopper/Blackwellでの実績を評価し、Vera Rubinでの効率向上が研究サイクル短縮に寄与するとコメントしている。
- 現時点で主要基盤モデル提供企業10社中9社がCoreWeaveを利用している。
関連企業・関連技術
- NVIDIA: Vera Rubinプラットフォーム、NVLink 6、Quantum-X800 InfiniBand、Spectrum-X Ethernetの提供元。
- CoreWeave: GPU特化型クラウド事業者。ラック単位の液冷や可観測性技術で差別化。
- Jane Street: 定量取引企業。CoreWeaveのインフラを研究に活用しているユーザーの一例。
- 基盤モデル開発企業: 明示されていないが「上位10社中9社」がCoreWeave利用者に含まれる。
- 技術領域: 液冷(ソフトウェア定義冷却)、ラックスケール設計、DPU/SuperNICによるネットワークオフロード。
今後の論点
Vera Rubin NVL72の一般提供開始時期や、実際の顧客ワークロードでの性能値はまだ示されていない。10分の1という推論コスト削減が、どのような条件下で実現されるのかも注視が必要だ。また、液冷や電力密度の高まりがデータセンター立地や環境規制に与える影響、NVIDIA以外のAIアクセラレータとの競争構図も、次に確認すべき論点となる。AIインフラの主戦場がチップからラック、そして統合運用へと広がるなか、国内クラウド事業者の対応も注目される。