AI基盤の投資判断が、モデル性能からトークンあたりの電力効率へと急速にシフトしている。NVIDIAやAMDが提供するGPU群を中核に、データセンター全体をリアルタイム推論装置とみなす設計思想が広がり始めた。この変化は半導体からクラウド、アプリケーションに至る全レイヤーの収益構造を再定義する。

知能を量産する「トークン工場」への転換

従来のAI開発は大規模モデルの学習をゴールとし、学習完了後の推論は副次的な存在だった。ところが自律型AIエージェントが企業システムに常駐し、24時間稼働する時代になると、推論そのものが主たる価値創出プロセスへと反転する。このときAIデータセンターは電力をトークンへ変換する工場として機能し、生産効率を示す指標が1ワットあたりのトークン生成数となる。

本質は製造業の生産管理と変わらない。工場が1kWhあたり何個の製品を生み出すかを競うように、AI工場は1kWhあたり何トークン生成できるかで設備投資の成否が決まる。トークン単価が高い施設は収益性が悪化し、安価な施設が市場を制する構図だ。この発想はNVIDIAが2025年に打ち出したAIファクトリー構想にも通底しており、GPU供給網全体が推論効率を軸に再編される転換点にある。

半導体からクラウドまでを貫くコスト構造

垂直的に見れば、半導体メーカー、サーバーOEM、クラウド事業者、AIモデル開発企業の4層すべてがトークン単価の影響を受ける。先端GPUほど演算あたりの消費電力は低いが、チップ単価は上昇するため投資回収には高稼働率が前提となる。

クラウド事業者が提供する推論APIの価格競争はすでに加速しており、OpenAI、Anthropic、Google、Meta各社のモデルがトークンあたりのコスト削減を競っている。ここで支配的な変数が電力調達コストだ。1MWあたりの電気料金が安価な地域にデータセンターを建設できる事業者が、結果としてAPI価格を下げ、エージェント導入を進める企業の予算を吸収する構造にある。

GPU依存度については、NVIDIAのH200やB200が推論用途でもシェアを伸ばしているが、AMDのMI300Xやクラウド事業者の自社設計チップ(GoogleのTPU、AWSのTrainium)も対抗馬として浮上する。汎用GPUと専用ASICのどちらがトークン単価で優位に立つかが、今後2年間の半導体投資判断を左右する。

AIエージェント経済圏への構造的影響

トークン単価が低下すれば、企業はより多くのエージェントをより長時間稼働させる余力を得る。顧客対応、在庫管理、サイバーセキュリティ監視など、常時稼働型のAIエージェントを数百体同時運用する企業が現れ始めており、1社あたりの月間トークン消費量は指数関数的に増加する兆候を見せている。

この需要弾性値の高さが、AI工場の収益モデルを支える。電力効率の良い施設は需要増をそのまま収益化できるが、効率の悪い施設は変動費が累積し赤字に転落する。結果としてAIインフラ市場は、トークンあたりコストを継続的に低減できる少数のプレイヤーへ集約される可能性が高い。

日本市場においては、電力コストの高さが構造的な制約となる。国内クラウド事業者やデータセンター運営企業は、再生可能エネルギー調達と液冷技術の早期導入により、1ワットあたりのトークン生成効率でグローバル競争に食い込む必要がある。政府のAIインフラ投資戦略においても、単なるGPU調達台数ではなく、トークン単価と電力原単位をKPIとして採用するかどうかが政策効果を分ける分岐点となる。

次の指標はエージェントあたりの生涯コスト

今後の焦点は、トークン単価からさらに一歩進み、1エージェントを1年間稼働させるための総電力コストへと移るだろう。アナリスト予測では、2027年までに大企業の30%以上が常駐AIエージェントを導入し、その運用コストは1体あたり年間数百ドルから数千ドルに達する。このコストの大半は推論時の電力消費に起因するため、AI工場の設備効率が企業のIT予算を直接規定する。

半導体設計の次の指標はTOPS/W(1ワットあたりの演算性能)だけでなく、TOPS/Wをトークン生成速度で割った実効生産性へと移行する。さらにAIモデル開発企業は、同じ推論精度をより少ないトークン数で達成するモデル軽量化技術を競うことになる。量子化、蒸留、スパース化といった手法の実装速度が、モデル競争の勝敗を分ける。

企業の調達部門はGPUやクラウドの価格表ではなく、推論1億トークンあたりの総所有コストを比較する時代に入った。この指標が浸透すれば、AIインフラの購買行動は半導体から電力契約までを含む複合的な経済性評価へと変質する。AI工場の設計思想は最終的に、あらゆる企業をトークン生産者とみなす産業構造を生み出すことになるだろう。