ビジネスの現場で使われる音声AIアシスタントの評価が、いま大きな転換点を迎えている。航空券の予約変更なら完璧にこなすAIが、社内ヘルプデスクの福利厚生の質問で混乱する。そんな「領域による得意不得意」の差が、企業のAI導入における見えない壁となってきた。この問題に正面から取り組むため、ServiceNowのAI研究チームが評価ベンチマーク「EVA-Bench」の大幅拡張版を公開した。
この記事を一言でいうと
ServiceNowが、企業向け音声AIの実力を測る評価データセット「EVA-Bench 2.0」を公開した。航空、IT、医療人事の3領域・213シナリオに拡張し、AIの「現場対応力」を多角的に評価できるようにした無償の基盤である。
なぜ話題なのか
従来のAI評価ベンチマークは、一般的な知識や言語能力を測るものが多かった。しかし企業が知りたいのは「自社の問い合わせ対応をAIがどれだけ正確に処理できるか」であり、それは業界や業務によって求められるスキルがまったく異なる。たとえば航空業界なら予約番号のような英数字コードの正確な聞き取り、医療人事なら保険制度や休職ポリシーといった複雑な制度理解が求められる。
ServiceNowは2025年にEVA-Benchの初版を公開していたが、今回の2.0では対応領域を3つに増やし、シナリオ数も約4倍の213に拡大した。さらにOpenAI、Google、Anthropicの最新モデルで全シナリオの解決可能性を検証済みであり、単なる「難しい問題集」ではなく、妥当性が担保された評価基盤となっている点が注目される。
一般読者や企業にどう関係するのか
企業が音声AIやチャットボットを導入する際、最大の課題は「自社の業務で本当に使えるのか」の見極めだ。デモでは上手く動いても、現場の複雑な問い合わせに対応できるかは別問題である。
EVA-Bench 2.0は、35以上の業務フローをカバーする213のシナリオを提供する。企業はこのデータセットを使うことで、AIベンダーの公称性能に頼らず、自社の業務環境に近い条件でAIの実力を検証できる。とくに日本企業では、近年コールセンターや社内ヘルプデスクの人手不足が深刻化しており、AI導入の成否を左右する評価手法の整備は喫緊の課題となっている。今回のデータセットは英語版だが、多言語対応も予告されており、日本語を含む展開が進めば、国内企業のAI選定にも直接的な影響を与える。
AI業界の構造で見ると何が変わるのか
この公開は、エンタープライズAI市場における「評価レイヤー」の整備という構造変化を示している。AIモデルの性能競争が激化するなか、汎用ベンチマークのスコア競争だけでは、実際の業務適用における優劣は判断できない。企業向けソフトウェア大手のServiceNowが、自社製品に依存しないオープンな評価基盤を提供したことで、AI導入の意思決定が「モデル性能の数字」から「業務シナリオでの実証結果」へと重心を移す可能性がある。
同時に、これはAIモデル提供各社にとっては新たな競争軸の登場を意味する。ベンチマークがより実務に即したものになるほど、汎用性能だけでなく特定業界への適応力や、ツール連携能力が差別化要因となる。
一次情報から確認できる事実
EVA-Bench Data 2.0は、以下の3つのドメインで構成されている。
- 航空カスタマーサービス(Airline CSM):50シナリオ。フライト変更や予約確認など、英数字コードの正確な処理が求められる。
- ITサービスマネジメント(ITSM):80シナリオ。社内ITサポートを想定し、パスワードリセットやソフトウェアトラブル対応など。
- 医療人事サービス(Healthcare HRSD):83シナリオ。医療機関の人事業務を想定し、保険制度や休暇ポリシーなど複雑な制度対応を含む。
合計で121のツール、213の評価シナリオが含まれ、すべてOpenAI GPT-5.4、Google Gemini 3.1 Pro、Anthropic Claude Opus 4.6の3モデルで解決可能性が検証されている。データセットはHugging Face上でオープンソースとして公開され、商用利用も含めて誰でもダウンロード可能である。
関連企業・関連技術
- ServiceNow:エンタープライズ向けワークフロー自動化の大手。今回のEVA-Bench 2.0を公開した。
- OpenAI、Google、Anthropic:評価検証に使用されたモデルの提供元。今後のAI開発方針にも影響が及ぶ可能性がある。
- Hugging Face:データセットの公開プラットフォーム。AIコミュニティへの普及を加速する役割を担う。
- 音声AI・コンタクトセンター市場:今回の評価基盤は、AIベンダー各社の製品競争に影響を与える要素となる。
今後の論点
公開されたデータセットは現時点で英語のみである。チームは多言語対応の拡張を予告しているが、日本語を含む各言語でのシナリオ品質や文化的な妥当性の確保が次の課題となる。また、213シナリオという規模は初版から大幅に増えたものの、実際の企業業務の複雑さをどこまでカバーできているかは、利用者のフィードバックを待つ必要がある。さらに、このような評価基盤が標準化されれば、AIモデル各社がベンチマークに過剰適合するリスクも視野に入れた、評価手法自体の進化が求められる。