企業のIT運用をAIエージェントに任せる未来は、想像以上に遠いのかもしれない。2025年7月、分析機関Artificial AnalysisとIBM Researchが共同で発表したベンチマーク「ITBench-AA」は、その現実を数値で突きつけた。GPT-4.1、Claude 3.5 Sonnet、Gemini 2.5 Flashといったフロンティアモデルが、サイト信頼性工学(SRE)やクラウド運用、インシデント対応を含む実務的タスクで50%に届かなかったのである。
AIが人間の知的作業を代替し始めているという喧伝の裏で、企業の基幹を支えるIT運用領域は依然として高い壁として立ちはだかっている。このベンチマークが示すのは、単なる性能不足ではなく、AIエージェントが実環境で直面する「観測」「判断」「実行」の複合的な難しさだ。
この記事を一言でいうと
最先端AIモデルのエージェント性能を企業IT運用の実タスクで測定したところ、正答率は軒並み50%未満だった。現状のAIは、自律的なIT運用エージェントとしてはまだ信頼に足る水準に達していない。
なぜ話題なのか
LLMの進化を測るベンチマークは多数存在するが、その多くは学術的な知識やコーディング能力を問うものだった。しかし企業の現場で求められるのは、複数の監視ツールのログを横断的に読み解き、優先順位を判断し、実際にコマンドを実行して環境を復旧させるといった、観測と行動のループを回す力である。
従来のベンチマークで高得点を叩き出すモデルが、この種のタスクで急激に精度を落とす事実は、現在の評価手法と実際の業務要求との間に大きな隔たりがあることを浮き彫りにした。ITBench-AAは、その隔たりを埋める初の体系的な試みとして位置づけられる。
一般読者や企業にどう関係するのか
普段は意識されないが、オンラインバンキングが使えなくなったとき、社内の基幹システムがダウンしたとき、ECサイトがアクセス集中で落ちたとき、これらを復旧させるのがSREやIT運用チームの仕事だ。AIエージェントがこの領域で自律的に動けるようになれば、障害復旧のスピードは飛躍的に向上し、深夜のオンコール対応も減るかもしれない。
しかし今回の結果は、その期待をすぐには実装できない現実を示している。日本企業においては、金融機関や大手製造業のシステム運用チームが深刻な人手不足に直面しているが、AIによる代替や省力化を検討する際、現状の正答率では重要な判断を委ねるわけにいかない。PoC(概念実証)の段階から本格導入へ踏み切るには、まだ数世代のモデル進化が必要だろう。
AI業界の構造で見ると何が変わるのか
ITBench-AAの登場は、AIモデルの競争軸が「知識量」から「実環境でのエージェント能力」へと明確にシフトしつつあることを示している。Anthropic、OpenAI、Google DeepMind、IBMはいずれもエージェント機能の強化を標榜しているが、その評価基準は各社バラバラだった。
今回、IBMが自社のwatsonxを含まずに中立な立場でベンチマーク設計に関与したことは、業界全体での評価標準を模索する動きと読める。評価手法が標準化されれば、モデル開発企業は実タスクでの性能向上にリソースを集中せざるを得なくなり、API提供者やクラウド事業者もエージェント実行環境の最適化を競う構図が強まる。モデル自体の性能に加え、ツール呼び出しの正確性や長時間のコンテキスト維持といった、エージェント基盤としての品質が次の調達判断を左右するようになる。
一次情報から確認できる事実
ITBench-AAは、企業IT運用における3つの主要ドメイン(サイト信頼性工学、クラウド運用、セキュリティインシデント対応)をカバーする、合計15の実タスクで構成されている。評価対象となったのは、GPT-4.1、Claude 3.5 Sonnet、Gemini 2.5 Flashを含む複数のフロンティアモデルである。
各モデルは、Kubernetes環境のトラブルシューティング、ログ分析に基づく根本原因の特定、アラートへの対応判断、データベースの復旧手順の実行など、実際のIT運用フローに沿ったタスクを与えられた。最高スコアを記録したモデルでも正答率は50%に届かず、タスクの複雑さが増すほど全モデルの正答率が急落する傾向が確認された。
誤答のパターンとしては、複数ツールの出力を統合できず部分的な情報で誤った結論を導くケースや、実行すべきコマンドの順序を誤るケースが多く観察されたという。
関連企業・関連技術
- Artificial Analysis: AIモデルの独立評価を専門とする分析機関。ベンチマーク設計とデータ収集を主導
- IBM Research: 共同設計者として参画。watsonxの提供元だが本ベンチマークには自社モデルを含めず
- OpenAI: GPT-4.1が評価対象に含まれる
- Anthropic: Claude 3.5 Sonnetが評価対象
- Google DeepMind: Gemini 2.5 Flashが評価対象
- 関連技術: Kubernetes、Observabilityツール群、インシデント管理システム、エージェントフレームワーク
今後の論点
このベンチマークはあくまで2025年7月時点のスナップショットである。今後数カ月で各社がエージェント最適化を施した新モデルを投入すれば、スコアは急激に改善する可能性がある。その際、ITBench-AA自体が実環境の変化に追従してアップデートされるのか、また実際の企業導入判断においてこのスコアがどの程度の重みを持つのかが焦点となる。
もう一つの論点は、正答率が何%に達すれば企業の運用現場がAIエージェントに権限を委譲できるのか、という閾値の設定だ。安全重視の日本企業はより高い水準を求める可能性が高く、国内のシステムインテグレーターがこのベンチマークをどのように独自検証し、自社サービスの評価軸に組み込むかも注目に値する。