Hugging Face が Inside VAKRA: Reasoning, Tool Use, and Failure Modes of of Agents をリリース ── エージェントの失敗を徹底解剖する企業向けベンチマーク
AIエージェントが実際の企業環境でどれだけ使えるか、正直まだ疑問が多い。VAKRAはそんな課題に切り込んだベンチマークで、8,000以上のローカルAPIを叩かせてエージェントの実力を評価する。結果はかなり厳しいらしい。
▸何が変わったのか
VAKRAは従来のベンチマークと違い、単一スキルではなく「APIとドキュメント横断の構成的推論」を測る。62ドメイン・8,000以上のローカルホストAPIと実際のデータベースを用意し、3〜7ステップの推論チェーンを要求。構造化API呼び出しと非構造化検索を組み合わせたタスク設定で、ナチュラル言語のツール使用制約も課される。ブログでは4つのケイパビリティ詳細と失敗モード分析を公開しており、Capability 1だけでも54ドメイン・2,077テストインスタンスを含む規模。
◈前モデル / 競合との比較
従来ベンチマークが単発のスキル評価にとどまっていたのに対し、VAKRAは複数ステップのワークフロー完了を前提にしている点が大きく異なる。フル実行トレースで評価するため、部分的に正解でもダメ。
◈技術背景と意義
従来のAI評価は「質問に答えられるか」単体を見るものが多かった。でも実際の業務では、複数のツールを順番に使って目的を達成する必要がある。VAKRAはそんな「連続した手順を正しく実行できるか」に特化している。例えば「条件に合うサッカーチームを探す」だけでも、データ取得→絞り込み→絞り込み→チーム名取得と4回のAPI呼び出しが必要。人間なら当たり前にできる連鎖的操作が、AIエージェントにはまだ難しいという現実が浮き彫りになった。
▸こんな人・用途に
エージェント系モデルの開発者で、実際の企業環境を想定した厳しい評価がしたい人。RAGやツール利用の精度改善に取り組む研究者。複数APIをまたぐワークフロー自動化を検討している企業の技術選定。
SOURCE: Hugging Face (2026-04-15)
