Hugging Face が EVA-Bench Data 2.0: 3 Domains, 121 Tools, 213 Scenarios をリリース ── エンタープライズ向けボイスエージェントの評価が約4倍に拡張
ボイスエージェントって、ドメインが変わると全然勝手が違う。航空会社の予約変更じゃ完璧に動くのに、HRの複雑なポリシー対応でポンコツになる──そんな現実をベンチマークに反映させたのが EVA-Bench 2.0。ServiceNow-AI が公開したこの評価データセット、前バージョンから約4倍のシナリオ数に拡張されていてかなり本気度が高い。
▸何が変わったのか
元々1つだったエンタープライズドメインが3つに増えた。Airline Customer Service Management(航空CSM、50シナリオ)、Enterprise IT Service Management(ITSM、80シナリオ)、Healthcare HR Service Delivery(HRSD、83シナリオ)。合計213の評価シナリオ、121ツールをカバー。前リリースから約4倍のシナリオカバレッジ。しかも GPT-5.4、Gemini 3.1 Pro、Claude Opus 4.6 の3つの最先端モデルで「解けること」を検証済み。多言語拡張も予定されている。
◈前モデル / 競合との比較
前バージョンからの大きな変更点は、ドメインが1つ→3つ、シナリオカバレッジが約4倍に拡張されたこと。GPT-5.4、Gemini 3.1 Pro、Claude Opus 4.6 という最新のフロンチアモデル3つで検証されている点も新しい。
◈技術背景と意義
チャットボットと違って、ボイスエージェントは「電話で実務をこなす」という独自の難しさがある。数字やアルファベットの確認コードを聞き取るのも一苦労だし、業界ごとの専門用語や複雑なワークフローにも対応しなきゃいけない。EVA-Bench は「実際に電話で対応される業務」に絞ってシナリオを設計しているから、現場のリアリティが高い。35以上の異なるワークフローが含まれていて、単純なQ&Aじゃ測れない実践的な評価ができる。
▸こんな人・用途に
ボイスエージェントを開発中のチームが、35以上のワークフローで実践的なテストを行える。自社で評価データセットを構築したい場合も、生成・検証プロセスが詳細に説明されているので参考になる。エンタープライズ環境でのAI導入を検討している企業が、ベンダー選定の基準として活用する使い方も考えられる。
◆入手方法・リンク
Hugging Face の datasets から直接ダウンロード可能。リポジトリ名は「ServiceNow-AI/eva-bench」。航空CSM(airline)、ITSM(itsm)、医療HR(medical)の3分割で提供されている。
SOURCE: Hugging Face (2026-06-04)
