AI評価手法が追いつかない10分台の自律サイバー攻撃出現、評価タスク228件中わずか5件のみ対応

AI安全性評価機関METRは最新モデル「Claude Mythos Preview」の能力を現行テスト群でほぼ測定できないと発表した。一方Palo Alto Networksは最前線のAIが脆弱性を自律連鎖させ、侵入からデータ奪取まで25分で完了する攻撃を観測している。評価手法の進化はモデル自体の成長より遅く、その速度差こそがより深刻な問題となっている。

METRの分析によると、Claude Mythos Previewの危険領域を含む能力スペクトラムのうち、既存の評価タスク228件で対応できる範囲はわずか5件に限られる。現行ベンチマークは人間の専門家を基準に設計されてきた経緯があり、超人的性能帯の細かな測定には構造的に不向きだ。評価できない領域が生じるということは、危険度のグラデーションを識別する感度も失われていることを意味する。

自律型AI攻撃者、完全な攻撃チェーンを25分で完遂

Palo Alto Networksの脅威インテリジェンス部門が確認した事例では、大規模言語モデルを活用したエージェントがスピアフィッシングから内部ネットワークの偵察、既知脆弱性のエクスプロイト、ラテラルムーブメント、そして最終的なデータ窃取に至るまでを一気に実行した。同社のリサーチディレクターによると、この一連の工程はわずか25分で完了する。

防御側が攻撃を認識し初動対応を取る前に、データはすでに組織外へ流出している計算だ。同社レポートは、急成長するフロンティアモデル群がオフェンシブセキュリティ分野で既に実戦投入され始めており、人間のアナリストが介在しない自律型攻撃の時代が事実上幕を開けたと位置づける。

攻撃エージェントはコードの解析と書き換えを自ら行い、ネットワーク環境に合わせてツールを動的に選択する。既存の侵入検知システムは人間の攻撃者の行動パターンを想定してチューニングされており、機械速度の意思決定チェーンを前提とした設計にはなっていない。

評価スイートの劣後がもたらす規制の失効リスク

METRが提起した評価ギャップの問題は、単なる技術的な不便さにとどまらない。各国政府が策定を進めるAI安全基準の多くは、標準化されたベンチマークスコアを基に危険度分類や展開制限の閾値を定義するスキームを採用している。

評価スイートがモデルの実態を捉えられなければ、規制の実効性は根底から揺らぐ。METRの研究者らは既存タスクの再設計だけでなく、プロキシタスクと呼ばれる代替指標の開発や、マルチエージェントシナリオを想定した動的テスト環境の構築が急務だと指摘する。

日本国内でも、金融庁がサイバーセキュリティ対策の深度を検査項目に加えており、金融機関のCTOからは「評価不能のAIを業務チェーンに組み込むリスク判断が難しい」との声が出始めている。実務レベルでの混乱はすでに始まっている。

攻撃速度の短縮が変えるインシデント対応の前提

25分という数字はインシデントレスポンスの常識を覆す。多くの組織が導入する運用体制マニュアルでは初動封鎖までに30分から1時間を想定するケースが多く、事実上対応が完了する前に被害が確定する設計上の欠陥が露呈した形だ。

Palo Alto Networksは攻撃シーケンスの高速化に対抗するため、AIエージェントにAIエージェントで対抗する自律防御の実験を開始している。侵入活動をリアルタイムで分析し、攻撃側の振る舞いに応じてネットワーク構成を動的に書き換えるアプローチだ。

ただし、防御側の自動化が進めば進むほど友軍誤認や過剰遮断のリスクも増大する。自動運転技術が衝突回避と引き換えに予測不能な急ブレーキ問題を抱えたように、自律防御の実装は新たな信頼性課題を生み出す可能性が高い。

ホワイトハウス主導の国際評価基盤と業界の反応

米国政府は一連の報告を受け、AI安全性評価の国際標準化に向けた作業部会の設置を急いでいる。NISTのフレームワーク拡張と並行して、国防総省傘下の研究機関と民間評価機関の連携を促す予算措置が進む。

AnthropicはMythosの一般提供に先立ち、段階的な安全性テストと外部レッドチーミングの計画を公表した。同社は性能開示と引き換えに評価コミュニティからのフィードバックを得る戦略に転じつつある。OpenAIやGoogle DeepMindも相次いで自律的オフェンシブ能力に関する技術レポートを準備中だ。

評価手法がモデルに追いつかない現実は、AIの市場投入判断を誰がどんな根拠で下すのかという根源的な問いを提起する。測定不能な危険性を前に、人間社会は初めて出力結果を信頼ではなく検証で扱わざるを得ない局面に立たされている。