MozillaがAIでFirefoxの未発見脆弱性271件を検出、最古は20年前

MozillaはAnthropicのAIモデル「Claude Mythos Preview」を活用し、Firefox 150のコードベースから未知の脆弱性271件を発見した。AIが自律的にテストケースを生成・実行するパイプラインを構築し、誤検知を高精度で排除した点が画期的である。今後は全新規コードをコミット前に自動検査する体制へ移行する。

AI自律検査パイプラインの全容

Mozillaが公表した技術ブログによると、今回の成果を支えたのはエージェント型AIパイプラインだ。従来の静的解析ツールとは異なり、AIモデルがコードを読み取り、脆弱性の仮説を立て、自らテストケースを生成し、ブラウザ上で実際に実行する一連の工程を自動化している。

パイプラインの中核にはAnthropicのClaude Mythos Previewを据えた。このモデルはコードベース全体を分析し、メモリ安全性違反や論理バグの兆候を探索する。候補を絞り込んだ後、AIがPythonスクリプトによる検証コードを自動生成し、Firefoxのテストインフラ上で実行する仕組みだ。

実行結果から実際にクラッシュや異常動作を引き起こしたケースのみを人間のエンジニアへ報告する。Mozillaの報告では、誤検知率は極めて低く抑えられており、従来のファジングツールでは到達困難だったコードパスからも脆弱性を検出したという。

最古20年の潜在バグとFirefox 150への影響

検出された271件の脆弱性の中には、約20年前に導入されたコードに潜んでいたバグも含まれていた。これらは長年にわたりコードレビューや自動テストをすり抜けてきたもので、従来手法の限界を浮き彫りにした形だ。

Mozillaのセキュリティチームは発見された全脆弱性に対し、CVSS(共通脆弱性評価システム)に基づく深刻度評価を実施した。その結果、深刻度「高」または「緊急」に分類されたものが複数含まれていたものの、外部への積極的な悪用は確認されていないとしている。

全271件はすでに修正パッチが作成され、Firefoxの標準アップデートチャネルを通じて配信済みだ。対象バージョンはFirefox 150系であり、ユーザーはブラウザを最新状態に保つことでリスクを回避できる。Mozillaは発見の経緯と技術的詳細をセキュリティアドバイザリとして順次公開する方針である。

全コミット前検査への転換が示す開発文化の変容

この取り組みで特筆すべきは、Mozillaが「発見したから直す」段階を超え、全新規コードをコミット前にAIで自動検査する体制へ移行すると明言した点だ。コードがリポジトリにマージされる前の段階で、AIが脆弱性の有無を判定する仕組みをCI/CDパイプラインに組み込む。

Mozillaのエンジニアリング責任者はブログにおいて「人間のレビュアーが見逃すパターンをAIが補完し、開発速度を落とさずに安全性を向上できる」と述べている。これにより、脆弱性が製品に混入するリスクそのものを低減させる狙いだ。

この方針転換は、大規模オープンソースプロジェクトにおける品質保証の考え方を根本から変える可能性がある。コードレビューの主役が人間からAIへ完全に移行するわけではないが、AIが必須のゲートキーパーとして機能する時代に入ったことを示唆している。

国内ブラウザ開発への波及可能性

Mozillaの成果は、日本国内でChromiumベースのブラウザを開発・カスタマイズしている企業にも示唆を与える。国産ブラウザや法人向けカスタムブラウザを手がけるベンダーにとって、レガシーコードに潜む未知の脆弱性は共通の課題である。

セキュリティ専門家は「AnthropicのClaudeモデルを活用した同様のパイプラインは、Chromium派生ブラウザにも応用可能であり、国内ベンダーが導入を検討する価値は高い」と指摘する。特に金融機関や官公庁向けにカスタマイズされたブラウザでは、サプライチェーンリスク低減の観点からも自動検査の重要性が増している。

また、IPA(情報処理推進機構)が推進するソフトウェア開発におけるAI活用指針とも方向性が一致しており、国内でもAIによる脆弱性検出を標準工程に組み込む動きが加速する可能性がある。

Claude Mythos Previewの実力とAI支援開発の今後

Anthropicが提供するClaude Mythos Previewは、コード分析と自律的タスク実行に特化したAIモデルである。一般公開されているClaudeシリーズとは異なり、大規模コードベースの文脈理解と論理推論に最適化されている点が特徴だ。

Mozillaのパイプラインでは、このモデルにFirefoxの全ソースコードへのアクセスを許可し、セキュリティ境界を越えるデータフローの追跡や、メモリ管理の不整合検出を実行させた。AIが生成したテストケースは実際のブラウザプロセス上で動作するため、理論上の指摘ではなく実害のあるバグのみが抽出される仕組みである。

今回の271件という数字は、AI支援によるセキュリティ監査が単なる実験段階を脱し、実用的な開発ツールとして機能することを証明した。ソフトウェア開発の現場では、コード生成だけでなく検証工程におけるAI活用が次の競争領域になるとみられる。