近年のソフトウェア開発はAIエージェントの導入で大きく変容し、評価や生成を巡る用語の混乱も起きている。特にHarness(ハーネス)とScaffold(スキャフォルド)という設計思想の違いは、AIコード生成システムの性能と信頼性を左右する分岐点であり、エンタープライズ導入の成否を決めかねない。
なぜ用語整理がビジネス課題に発展したか
AIエージェントによるコード生成では、評価とプロンプト設計の正確さが成果を大きく左右する。Harnessはあらかじめ用意された評価条件下でエージェントの出力を反復検証する仕組みで、出力の一貫性や品質を担保する目的で使われる。一方、Scaffoldは生成工程そのものに介入し、コード構造や補助ファイルを動的に組み立てながら出力を高精度化する枠組みだ。両者は開発現場でしばしば混同され、性能評価を歪める要因となっていた。
昨今のエージェント関連投資の急拡大も、この整理を急務にした。CB Insightsの2025年第1四半期データでは、AIエージェント関連のベンチャー投資は前年同期比3倍超、累計調達額が約84億ドルに達している。投資家が求めるKPIは開発生産性の具体的向上であり、HarnessとScaffoldを区別しないままでは効果測定が困難になる。開発リーダー層はプロダクトの差別化要因を正しく把握するため、概念の切り分けに踏み込んだ。
制御と生成のレイヤーを分割する構造
この議論を技術レイヤー別に整理すると、AIエージェントの供給網が浮かび上がる。Harnessはアプリケーション評価のレイヤーに位置し、SWE-benchのようなベンチマークに代表される標準テスト環境での正答率を指標とする。対してScaffoldはエージェント制御レイヤーに位置し、プロンプトの連鎖やツール呼び出しの設計図を動的に組み上げる役割を担う。
両レイヤーはAPI競争にも直結している。OpenAIのAssistants APIやAnthropicのTool Use APIはScaffold機能を取り込み、モデルが環境を認識して自らコード構成を最適化する方向へ進んでいる。一方、評価インフラとしてのHarnessはDatabricksやHugging Faceが主導するオープンな評価フレームワーク群がクラウド基盤上で整備されつつある。この構造は、モデル開発と評価基盤が分離されつつも車の両輪として進化していることを示している。
GPU依存度にも差が出ている。Scaffoldの高度化は推論時のチェーン数増加を招き、NVIDIA H100相当のGPU消費量を非Scaffold型の2倍から4倍に押し上げると複数のクラウド価格試算で報告されている。大規模エンタープライズにとっては推論コストの構造変化が予算策定の論点となり、SaaS課金から従量課金への移行圧力も高まっている。
モデル競争からエージェント設計競争への転換
この動きは業界全体の競争軸を変えている。GPT-4 TurboやClaude 3.5 Sonnetなどの高性能モデルを単体で導入する時代から、どのScaffold設計を組み合わせて与えられたタスク精度を最大化するかが差別化要因になりつつある。エージェントの評価スコアであるSWE-bench Verifiedでのスコア上昇競争は、モデルそのものよりScaffoldの設計改良に負う部分が大きい。SWE-benchのリーダーボードでは、GPT-4単体の正答率約33%に対して、Scaffoldを適切に組み込んだエージェント実装は正答率50%超を記録している。
これはクラウド事業者間の競争にも波及する。AWS、Google Cloud、Microsoft Azureはいずれもマネージドエージェントサービスの提供を開始しており、Harness機能を自社評価サービスとして取り込む動きを加速させている。顧客企業が自社ドメイン評価をクラウドベンダーのHarness上で実行すれば、モデルやScaffoldのスイッチングコストが下がり、ベンダーロックインの様相も変化する。この構造がAPI利用料収入のパイをどう再配分するかは、2025年後半のクラウド事業決算を読むうえでの注目材料である。
日本企業では、エンタープライズ向けAI導入支援を手掛ける企業がSWE-bench日本語版の独自評価環境を構築する事例が出始めている。日本語でのコード生成品質をHarness型評価で定量化する動きは、SIer各社が官公庁や金融機関へ導入提案する際の根拠資料として使われ始めており、国内案件の評価基準として定着する可能性がある。
評価基盤の標準化とコスト開示の動き
HarnessとScaffoldの区別が実務に浸透すると、次に焦点となるのは評価基盤の標準化である。現在、企業ごとに独自の評価パイプラインを持つことが競争優位の源泉だが、評価指標の非共通性が業界全体の比較を妨げている。Linux Foundation系のAIプロジェクトでは、評価手法の共通仕様策定が議題に上っており、標準Harnessが定義されればエージェント製品の横断比較が可能になる。
またScaffoldのコスト開示は次の規制課題に発展する可能性がある。推論コストが実装思想によって数倍変わるならば、AIエージェントの導入時には「平均推論コスト予測」の提示を求める声が大企業調達部門から出始めている。NISTが公開したAIリスクマネジメントフレームワークの改訂草案にも、エージェントの資源消費に関する透明性条項が盛り込まれた。HarnessとScaffoldの設計判断が、単なるエンジニアリング論争から調達・コンプライアンスの実務へと領域を拡大しつつある。