Colossusという名のスーパーコンピュータ建設計画が、AI産業におけるインフラ争奪戦の本質を浮き彫りにしている。xAIは2025年6月までに、テネシー州メンフィスの施設でNVIDIA H100およびH200 GPUを20万枚規模で稼働させる見通しである。この数字は単独の企業が単一拠点に集約するGPUクラスタとしては最大級であり、大規模言語モデルの開発競争がモデル設計の工夫から物理的な計算資源の確保へと重心を移した決定的な証拠と言える。GPU調達力がそのままAI開発能力の指標となる時代に突入したのだ。

単一拠点集約型インフラが選ばれる構造的理由

大規模クラスタを地理的に分散させず、メンフィスに集約する判断には明確な工学的根拠がある。大規模言語モデルの訓練では、数千から数万枚のGPU間で重み勾配を同期させる通信がボトルネックとなる。同一データセンター内であればInfiniBandやNVLinkを用いた高帯域・低遅延の接続を確保できるが、拠点間をまたぐと通信遅延が訓練効率を著しく低下させる。xAIのColossusはこの制約を正面から受け止め、電力供給と冷却能力を単一地点に集中させる戦略を選んだ。

メンフィスが選定された背景には、テネシー川流域の比較的安定した電力グリッドと、大規模産業用地の availability がある。1万枚を超えるGPUクラスタの消費電力は数十メガワットに達し、都市部の既存データセンターでは受電容量が不足するケースが多い。xAIは地元電力会社との交渉により、段階的な電力供給の拡張合意を取り付けたと報じられている。

パートナーシップが示すインフラ構築の分業体制

Colossusの建設では、Dell TechnologiesとSuper Micro Computerがサーバーラックの組み立てと設置を担当している。この2社はNVIDIAのOEMパートナーとして、GPUサーバーの量産体制で他社を凌駕する。xAIが自社でサーバー設計から行わず、既存のOEMに発注した事実は、スピード重視の姿勢を如実に表す。

さらに、冷却インフラでは特殊な液冷ソリューションを手がけるVertivや、データセンター設計で実績のあるAECOMの関与がアナリストにより指摘されている。NVIDIAからGPUを購入するだけではクラスタは動かず、電力・冷却・ネットワークの各レイヤーを手配する能力がAI企業の競争力を左右する段階に入った。クラウド事業者にGPUを丸ごと借りる場合、こうした物理レイヤーの制約はユーザーから見えにくいが、自前で調達すると一気に可視化される。

GPU確保をめぐる供給網のボトルネック

NVIDIAのH100とH200はTSMCの4nmプロセスで製造され、その生産キャパシティには限りがある。2024年のH100出荷台数はアナリスト試算で150万枚から200万枚程度とされる中、xAIが20万枚を一気に調達する動きは、供給の寡占化を加速させる。Microsoft、Meta、Amazon、Googleといったクラウド大手も同等規模の調達を行っており、NVIDIAへの発注競争は加熱する一方だ。

この構造で恩恵を受けるのはNVIDIAだけではない。GPU搭載サーバーの組立を請け負うDellやSupermicro、HBMメモリを供給するSKハイニックス、ネットワーク機器を提供するArista Networksまで含めた供給網全体に資金が流れ込む。AIブームの経済効果はモデルを開発する企業よりも、むしろインフラを提供する企業群に集中しているのが2025年の実態である。

日本市場が直面する計算資源調達の現実

日本企業への影響は二重構造で現れる。第一に、クラウド経由でGPUを利用する国内AIベンダーは、グローバルでのGPU争奪戦の余波を受けてインスタンスの調達コストが上昇し、リードタイムも長期化する可能性が高い。第二に、ソフトバンクやKDDIといった通信事業者が国内で進めるAIデータセンター計画は、Colossusに代表される米国の集約型モデルを参照しつつ、日本の電力事情に合わせた分散型のアプローチを模索せざるを得ない。10万枚級の単一クラスタを国内で運用するには、原子力発電所1基分に迫る電力契約が必要となるからだ。

自前インフラとクラウド利用の分岐点

ColossusはAI企業のインフラ戦略における重要な分岐点を示している。xAIやOpenAIのように自前でデータセンターを構築する道と、Anthropicのようにクラウド事業者に全面的に依存する道である。前者は巨額の設備投資と運用ノウハウが必要だが、GPU供給を自らコントロールできる。後者はキャッシュフローの負担が少ない代わりに、クラウド事業者の割り当て方針に左右される。

この選択は、AI企業のバリュエーション評価にも波及し始めた。20万枚のGPUを資産として保有する企業と、クラウド経由で借りている企業では、将来の訓練キャパシティの確実性が異なるからだ。2025年後半にBlackwell世代のB200 GPUが本格出荷されれば、H100クラスタの優位性は相対的に低下するが、物理インフラそのものは後継GPUでも転用可能である。xAIがColossusを通じて獲得したのは、GPUというよりGPUを稼働させるための土地と電力契約という、より長寿命の経営資源なのだ。