カーネギーメロン大学がAI自律型攻撃の性能格差を実証

この記事の要約

AIエージェントの自律型攻撃能力は、モデル性能とAPIコストのトレードオフが明確な段階に入り、防御予算の再設計を迫る。

Claude対GPTの結果は、サイバーセキュリティ分野でAI企業間の実力格差と棲み分けが生じ始めたことを示唆する。

攻撃AIの民主化と低コスト化が進む前に、防御側のAI導入と業界連携を加速できるかが企業の死活的分岐点となる。

自律型AIが実際のブラウザ脆弱性をどこまで悪用できるかを測定する新たなベンチマークを、カーネギーメロン大学の研究チームが構築した。AnthropicのClaude MythosとOpenAIのGPT-5.5をGoogleのV8 JavaScriptエンジンに対する実在の脆弱性で競わせた結果、Mythosが圧倒的に優れた成果を示す一方、コストは12倍に上ることが判明した。AIの自律的なサイバー攻撃能力が現実のものとなりつつある中、防御側の企業にとって見過ごせない警告となる。

なぜV8エンジンを標的としたのか

研究チームが標的として選んだV8エンジンは、Google ChromeやNode.jsの中核を担うJavaScript実行環境である。世界中のウェブブラウザの約65%が依存するこのコンポーネントに脆弱性が存在すれば、数十億台のデバイスが影響を受けることになる。今回のベンチマークでは、一般公開前に修正された過去の実際の脆弱性15件を再現した隔離環境を用意し、AIエージェントが修正パッチのない状態でどこまで攻撃を進められるかを測定した。

従来のセキュリティベンチマークは脆弱性の「発見」に焦点を当てていたが、本研究は「発見から悪用コードの生成、権限昇格までの全工程」を評価対象とした点で画期的である。サイバーセキュリティ企業CrowdStrikeの2025年度脅威レポートによると、攻撃者の初期侵入から目的達成までの平均時間は62分にまで短縮されており、AIによる自動化がこの時間をさらに数秒単位に縮める可能性が指摘されている。

MythosとGPT-5.5の決定的な性能差

ベンチマークの結果、Claude Mythosは15件中11件の脆弱性で完全な悪用コードの生成に成功し、成功率は73%に達した。対するGPT-5.5は15件中4件にとどまり、成功率27%と大きな差がついた。特筆すべきはメモリ破壊系の脆弱性における差で、Mythosが8件中7件を攻略したのに対し、GPT-5.5は2件しか成功しなかった。

両モデルのアプローチにも違いが現れた。MythosはV8の内部構造に関する深い理解を示し、JavaScriptオブジェクトのメモリレイアウトを正確に操作して任意コード実行まで到達する手法を自律的に構築した。GPT-5.5は比較的単純な境界外読み取りまでは成功するものの、そこから実行権限の奪取に至る段階で失敗するケースが目立った。

コスト面では逆転する。Mythosの1脆弱性あたりの平均API費用は約1,200ドルに達し、GPT-5.5の約100ドルと比較して12倍の開きがあった。研究チームの試算によれば、15件のテスト全体でMythosは18,000ドル、GPT-5.5は1,500ドルを消費した。高度な推論能力と引き換えに、膨大な計算リソースが必要となる実態が浮き彫りになった。

AIエージェントの自律性が突きつける現実

この研究が示す最大の含意は、AIがもはや単なるコードアシスタントではなく、標的システムの内部構造を推論し、状況に応じて攻撃戦略を動的に変更できる「自律型エージェント」として機能し始めた点である。Mythosは失敗した攻撃に対して別の手法を試行錯誤する様子も観察され、事前にプログラミングされた手順書なしにゼロデイ探索に近い挙動を示した。

セキュリティ企業Mandiantの調査部門責任者は「国家支援の攻撃グループがこうした技術をいち早く取り込むことは想像に難くない」と警鐘を鳴らす。実際、2025年末に北朝鮮系グループが大規模言語モデルを悪用した攻撃インフラを構築した事例が報告されており、商用AIの性能向上が攻撃側の民主化を加速させる構図が鮮明になっている。

日本企業の防御戦略とAI規制の分岐点

日本国内では金融機関や重要インフラ事業者を中心に、AIを活用した侵入検知システムの導入が進むが、攻撃側のAI化に対する備えは途上段階にある。国内セキュリティ企業ラックの調査では、2025年に国内企業が受けた標的型攻撃のうち、AI生成と推測されるフィッシングメールの割合が前年比2.3倍に増加した。

防御側にとっての焦点は、AIエージェントによる脆弱性の自動探索・悪用がコスト的に見合う水準に達する時期の見極めである。研究チームのコスト分析は、現在のMythosが標的1件あたり約1,200ドルを要することを示したが、この数字は6カ月前の1万ドル超から急落している。このままモデルの低価格化と性能向上が続けば、1年以内に1件あたり100ドルを切り、攻撃の大規模自動化が経済的に成立する閾値を突破する可能性がある。

政策面では、米国サイバーセキュリティ・インフラストラクチャセキュリティ庁が2026年2月に公表したガイダンスで、重要システムへのAIエージェント接続に関する制限を打ち出した。日本でも経済産業省がAIのサイバーセキュリティ用途に関する指針改定の検討に入っており、AIモデルの提供企業に対する悪用防止策の義務付けが焦点の一つとなる。本研究は、AIの自律的攻撃能力がもはや理論上の脅威ではないことを実証し、防御と規制の双方における迅速な対応を迫っている。