EVA-Bench Data 2.0: 3 Domains, 121 Tools, 213 Scenarios カバー画像

Hugging Face

Hugging Face が EVA-Bench Data 2.0: 3 Domains, 121 Tools, 213 Scenarios をリリース ── エンタープライズ向けボイスエージェントの評価が約4倍に拡張

ByLLM Watch編集部 2026年6月4日

HUGGING FACE

最終更新: 2026年06月04日 22:02　元記事 →

ボイスエージェントって、ドメインが変わると全然勝手が違う。航空会社の予約変更じゃ完璧に動くのに、HRの複雑なポリシー対応でポンコツになる──そんな現実をベンチマークに反映させたのが EVA-Bench 2.0。ServiceNow-AI が公開したこの評価データセット、前バージョンから約4倍のシナリオ数に拡張されていてかなり本気度が高い。

▸何が変わったのか

元々1つだったエンタープライズドメインが3つに増えた。Airline Customer Service Management（航空CSM、50シナリオ）、Enterprise IT Service Management（ITSM、80シナリオ）、Healthcare HR Service Delivery（HRSD、83シナリオ）。合計213の評価シナリオ、121ツールをカバー。前リリースから約4倍のシナリオカバレッジ。しかも GPT-5.4、Gemini 3.1 Pro、Claude Opus 4.6 の3つの最先端モデルで「解けること」を検証済み。多言語拡張も予定されている。

◈前モデル / 競合との比較

前バージョンからの大きな変更点は、ドメインが1つ→3つ、シナリオカバレッジが約4倍に拡張されたこと。GPT-5.4、Gemini 3.1 Pro、Claude Opus 4.6 という最新のフロンチアモデル3つで検証されている点も新しい。

◈技術背景と意義

チャットボットと違って、ボイスエージェントは「電話で実務をこなす」という独自の難しさがある。数字やアルファベットの確認コードを聞き取るのも一苦労だし、業界ごとの専門用語や複雑なワークフローにも対応しなきゃいけない。EVA-Bench は「実際に電話で対応される業務」に絞ってシナリオを設計しているから、現場のリアリティが高い。35以上の異なるワークフローが含まれていて、単純なQ&Aじゃ測れない実践的な評価ができる。

▸こんな人・用途に

ボイスエージェントを開発中のチームが、35以上のワークフローで実践的なテストを行える。自社で評価データセットを構築したい場合も、生成・検証プロセスが詳細に説明されているので参考になる。エンタープライズ環境でのAI導入を検討している企業が、ベンダー選定の基準として活用する使い方も考えられる。

◆入手方法・リンク

Hugging Face の datasets から直接ダウンロード可能。リポジトリ名は「ServiceNow-AI/eva-bench」。航空CSM（airline）、ITSM（itsm）、医療HR（medical）の3分割で提供されている。

公式発表を読む

SOURCE: Hugging Face (2026-06-04)

← LLM Watch トップへ

OpenAI

OpenAI が Why Codex Security Doesn’t Include a SAST Report を解説 ── SASTを捨てAI推論で誤検知を削減
ByLLM Watch編集部 2026年3月17日

SASTを採用しない理由を深掘り。AI推論で誤検知を減らすCodex Securityの手法とは？

続きを読む OpenAI が Why Codex Security Doesn’t Include a SAST Report を解説 ── SASTを捨てAI推論で誤検知を削減
Hugging Face

Hugging Face が How to Use Transformers.js in a Chrome Extension をリリース ── Gemma 4を拡張機能で動かす最新アーキテクチャ
ByLLM Watch編集部 2026年4月24日

Transformers.jsとGemma 4 E2Bを用いたChrome拡張機能開発ガイドが公開。MV3環境で最適なアーキテクチャ設計に注目。

続きを読む Hugging Face が How to Use Transformers.js in a Chrome Extension をリリース ── Gemma 4を拡張機能で動かす最新アーキテクチャ
Hugging Face

Hugging Face が PRX Part 4: Our Data Strategy を公開 ── 画像AIを鍛える「データ戦略」のリアル
ByLLM Watch編集部 2026年7月7日

Photoroomが語るPRXのデータ戦略。VLMによる再キャプションや、過度なフィルタリングを避け多様性を重視する事前学習のリアルなアプローチを解説。

続きを読む Hugging Face が PRX Part 4: Our Data Strategy を公開 ── 画像AIを鍛える「データ戦略」のリアル
Hugging Face

Hugging Face が Waypoint-1.5: Higher-Fidelity Interactive Worlds for Everyday GPUs をリリース ── 手元のGPUで720p・60FPSのリアルタイム空間生成
ByLLM Watch編集部 2026年4月10日

手元のGPUで最大720p・60FPSのリアルタイム空間生成を実現。Overworldの最新モデル「Waypoint-1.5」の詳細と魅力を紹介。

続きを読む Hugging Face が Waypoint-1.5: Higher-Fidelity Interactive Worlds for Everyday GPUs をリリース ── 手元のGPUで720p・60FPSのリアルタイム空間生成
Google DeepMind

Google DeepMind が Gemini Omni をリリース ── 対話で動画を編集、あらゆる入力から生成可能な新モデル
ByLLM Watch編集部 2026年5月20日

Google DeepMindが画像・音声・動画・テキストを入力して動画を生成し、対話で編集できる「Gemini Omni」を発表。

続きを読む Google DeepMind が Gemini Omni をリリース ── 対話で動画を編集、あらゆる入力から生成可能な新モデル
Hugging Face

Hugging Face が Migrating Your GitHub CI to Hugging Face Jobs を紹介 ── GitHub ActionsのCIを高速化＆GPU対応させる手法
ByLLM Watch編集部 2026年6月10日

GitHub ActionsのジョブをHugging Face Jobsで実行し、GPUテストを可能にしつつCPUジョブを約30%高速化する手法を紹介。

続きを読む Hugging Face が Migrating Your GitHub CI to Hugging Face Jobs を紹介 ── GitHub ActionsのCIを高速化＆GPU対応させる手法

コメントを残すコメントをキャンセル