AIの調達現場で、スケール(規模)を追求する意思決定が運用コストの最大70%を浪費している実態が明らかになった。意思決定者の8割以上が汎用モデルの大きさを評価基準に据える一方、実際の業務適合性で測ると特化型の小規模モデルが優位に立つケースが急増している。この非対称が、企業のAI支出構造そのものを変えようとしている。
モデル評価基準の硬直化が生む構造的無駄
多くの企業購買部門はAIモデルを選定する際、パラメータ数やベンチマークスコアを主要指標として扱う。しかし、この手法はクラウド時代のプロダクト選定に近く、AIの特性を捉えていない。実務環境では推論速度、レイテンシ、特定ドメインの精度が価値を決めるにもかかわらず、調達時点では汎用性能が過大評価される傾向が強いのである。
あるグローバル金融機関の事例では、670億パラメータの汎用LLMを契約審査業務に適用した結果、レイテンシが許容範囲を超え、さらに月額の推論コストが試算の2.3倍に膨らんだ。一方で、自社データで追加訓練した13億パラメータの特化モデルは、精度が同等でありながらコストを4分の1に抑えた。この差はGPU使用時間とAPI呼び出し回数から生じている。
クラウド基盤のコスト構造を分解すると、汎用モデルの推論では冗長な計算グラフが多数実行される。GPUのピーク性能を引き出す前に、不要な重み演算がメモリ帯域を占有しているのだ。特化モデルは枝刈りと蒸留によって計算パスが短縮されており、同一タスクにおけるコスト効率が根本的に異なる。
供給網に埋め込まれたスケール志向の誘因
AIモデルの供給側、すなわちクラウドプロバイダーやモデルベンダーにとって、大規模モデルの提供は収益構造と直結している。GPUクラスタの稼働率と大規模モデルの推論需要は比例関係にあり、インフラ投資の回収速度を左右するからだ。OpenAI、Anthropic、Google DeepMindはいずれも、フラッグシップモデルの性能向上と並行して、API利用料の従量課金を主要な収益源としている。
NVIDIAのH100 Tensor Core GPUは1基あたり約3万ドルから4万ドルで取引され、大規模クラスタの減価償却には高稼働率の維持が不可欠だ。この物理的制約が、供給側に「より大きなモデルをより長く使わせる」インセンティブを生んでいる。AWS、Microsoft Azure、Google CloudのAIサービス売上は前年比で平均40%成長しており、この成長率を維持するためには、大規模モデルの継続利用が構造的に必要とされる。
一方、Hugging Faceに登録されたモデル数は50万件を超え、その9割以上が特定用途に最適化された小規模モデルである。オープンソースコミュニティとエンタープライズ調達の間には、明確な断絶が存在する。企業がHugging Faceのモデルを直接評価するフローは未整備で、調達部門は実績のあるベンダーの提案書に依存しがちだ。この情報の非対称性が、スケール偏重を再生産している。
ファインチューニング経済圏の台頭とGPU依存の再定義
特化型モデルの優位性が認知されるにつれ、ファインチューニングを中心とした新たな経済圏が形成されつつある。LoRAやQLoRAといった低ランク適応手法の普及により、追加訓練に必要なGPUリソースは従来の10分の1以下に圧縮された。複数のスタートアップが「ホスティング済みファインチューニングAPI」を提供し始め、企業はGPUクラスタを保有せずとも特化モデルを内製できるようになった。
この変化はGPU需要の構造を二極化させる。大規模モデルの事前学習には依然として1万基以上のGPUクラスタが必要だが、ファインチューニングと推論のフェーズでは、4基から8基のH100で十分というケースが増えている。NVIDIAの四半期売上高が260億ドルを超える中で、データセンター向け需要は冷めていないが、その使途は事前学習から推論・微調整へと重心を移しつつある。
モデル競争の軸も変わる。パラメータ数の拡大競争から、特定ドメインにおける「単位コストあたりの実用精度」へと評価指標がシフトする兆候が出ている。医療分野では放射線画像の読影精度で、法律分野では判例検索の再現率で、特化モデルが汎用モデルを上回る事例が蓄積されつつある。BloombergGPTのような産業特化型LLMの開発発表も、このトレンドを裏付けている。
日本市場における調達慣行の転換圧力
日本企業のAI調達は、このグローバルトレンドにやや遅行している。多くの大手企業がMicrosoft Azure OpenAI ServiceやGoogle Cloud Vertex AIの導入を進めているが、その選定理由はブランド信頼度とサポート体制に偏り、タスク適合性の検証が不十分なケースが目立つ。経済産業省の調査では、国内企業のAI導入目的のうち「業務効率化」が67%を占める半面、自社データによるモデル追加訓練を実施している企業は全体の12%に留まっている。
しかし、クラウドの従量課金が膨らむにつれて、この状況は変わる可能性が高い。ある大手製造業は、品質検査に汎用の画像認識APIを利用していたが、月額コストが300万円を超えた時点で自社特化モデルに切り替え、コストを8分の1に圧縮した。こうした事例はまだ散発的だが、CFO層の関心がAIコストの最適化に向かい始めていることは確かである。
AI調達の意思決定フレームワーク再構築へ
今後の焦点は、汎用と特化の二項対立ではなく、タスク特性に応じたポートフォリオ最適化にある。契約書レビューのような反復精度が求められる業務と、ブレインストーミングのような発散思考が求められる業務では、必要とされるモデル特性が根本的に異なる。企業が保有する業務フローを解像度高く分解し、各単位タスクに最適なモデルをマッピングする「調達アーキテクチャ」の設計が次の競争領域となる。
GPUサプライチェーンでは、TSMCの3ナノプロセスが1ウェハあたり2万ドルを超える時代に入り、半導体の供給制約がモデル設計に与える影響は無視できない。大規模モデルを維持できるのは、設備投資を広告や検索などの既存収益で相殺できるメガテックに限られつつある。この不均衡を、オープンソースの特化モデル群が補完する構造が、2025年から2026年にかけて顕在化するという見方がアナリスト予測の大勢である。