Inside VAKRA: Reasoning, Tool Use, and Failure Modes of Agents カバー画像

Hugging Face

Hugging Face が Inside VAKRA: Reasoning, Tool Use, and Failure Modes of of Agents をリリース ── エージェントの失敗を徹底解剖する企業向けベンチマーク

ByLLM Watch編集部 2026年4月16日

HUGGING FACE

最終更新: 2026年04月16日 03:02　元記事 →

AIエージェントが実際の企業環境でどれだけ使えるか、正直まだ疑問が多い。VAKRAはそんな課題に切り込んだベンチマークで、8,000以上のローカルAPIを叩かせてエージェントの実力を評価する。結果はかなり厳しいらしい。

▸何が変わったのか

VAKRAは従来のベンチマークと違い、単一スキルではなく「APIとドキュメント横断の構成的推論」を測る。62ドメイン・8,000以上のローカルホストAPIと実際のデータベースを用意し、3〜7ステップの推論チェーンを要求。構造化API呼び出しと非構造化検索を組み合わせたタスク設定で、ナチュラル言語のツール使用制約も課される。ブログでは4つのケイパビリティ詳細と失敗モード分析を公開しており、Capability 1だけでも54ドメイン・2,077テストインスタンスを含む規模。

◈前モデル / 競合との比較

従来ベンチマークが単発のスキル評価にとどまっていたのに対し、VAKRAは複数ステップのワークフロー完了を前提にしている点が大きく異なる。フル実行トレースで評価するため、部分的に正解でもダメ。

◈技術背景と意義

従来のAI評価は「質問に答えられるか」単体を見るものが多かった。でも実際の業務では、複数のツールを順番に使って目的を達成する必要がある。VAKRAはそんな「連続した手順を正しく実行できるか」に特化している。例えば「条件に合うサッカーチームを探す」だけでも、データ取得→絞り込み→絞り込み→チーム名取得と4回のAPI呼び出しが必要。人間なら当たり前にできる連鎖的操作が、AIエージェントにはまだ難しいという現実が浮き彫りになった。

▸こんな人・用途に

エージェント系モデルの開発者で、実際の企業環境を想定した厳しい評価がしたい人。RAGやツール利用の精度改善に取り組む研究者。複数APIをまたぐワークフロー自動化を検討している企業の技術選定。

◆入手方法・リンク

VAKRA Dataset、リーダーボード、GitHubはブログ内にリンクあり。リーダーボードへの結果投稿も受け付けている。

公式発表を読む

SOURCE: Hugging Face (2026-04-15)

← LLM Watch トップへ

Hugging Face

Hugging Face が Holo3 をリリース ── OSWorldでSOTA獲得、アクティブ10B参数でGPT-5.4超えの衝撃
ByLLM Watch編集部 2026年4月2日

Hugging Faceが発表したPC操作エージェント「Holo3」がOSWorldで78.85%を記録。わずか10BのアクティブパラメータでGPT 5.4を凌駕する驚異の性能。

続きを読む Hugging Face が Holo3 をリリース ── OSWorldでSOTA獲得、アクティブ10B参数でGPT-5.4超えの衝撃
OpenAI

OpenAI がビジネス運用向けCodex活用法を公開 ── ドキュメント作成を劇的効率化
ByLLM Watch編集部 2026年5月16日2026年5月19日

OpenAIがビジネス運用チーム向けのCodex活用法を公開。実際の作業データから戦略更新や進捗報告などのドキュメントを自動生成する。

続きを読む OpenAI がビジネス運用向けCodex活用法を公開 ── ドキュメント作成を劇的効率化
Hugging Face

Hugging Face が Is it agentic enough? Benchmarking open models on your own tooling をリリース ── AIエージェントが使いやすいライブラリ設計とは？
ByLLM Watch編集部 2026年6月18日

Hugging Faceが提案する、AIエージェントが使いやすいソフトウェア設計。答えだけでなくプロセス全体を評価する新しいベンチマーク手法を解説。

続きを読む Hugging Face が Is it agentic enough? Benchmarking open models on your own tooling をリリース ── AIエージェントが使いやすいライブラリ設計とは？
OpenAI

OpenAI が「Analyzing data with ChatGPT」を公開 ── データのインサイトから意思決定までをAIに委ねる最強ワークフロー
ByLLM Watch編集部 2026年4月11日

OpenAIが「Analyzing data with ChatGPT」を公開。データの探索から視覚化、アクションに繋げる分析ワークフローを徹底解説。

続きを読む OpenAI が「Analyzing data with ChatGPT」を公開 ── データのインサイトから意思決定までをAIに委ねる最強ワークフロー
Hugging Face

Hugging Face が DeepInfra on Hugging Face Inference Providers 🔥 をリリース ── 最安値クラスのサーバーレス推論がHub直結で使えるように
ByLLM Watch編集部 2026年4月30日

Hugging FaceがDeepInfraをInference Providerとして追加。100超モデルが最安値クラスで使えるサーバーレス推論環境

続きを読む Hugging Face が DeepInfra on Hugging Face Inference Providers 🔥 をリリース ── 最安値クラスのサーバーレス推論がHub直結で使えるように
Hugging Face

Hugging Face が「The PR you would have opened yourself」を公開 ── エージェント生成PRの功罪を問う
ByLLM Watch編集部 2026年4月17日

Hugging Faceがエージェント生成PRの問題点を告発。transformersの設計思想をエージェントが理解せず、メンテナーの負担が増大している現状を報告。

続きを読む Hugging Face が「The PR you would have opened yourself」を公開 ── エージェント生成PRの功罪を問う

コメントを残すコメントをキャンセル