The Open Agent Leaderboard カバー画像

Hugging Face

Hugging Face が The Open Agent Leaderboard をリリース ── エージェントの「汎用性」と「コスト」を同時に測る新ベンチマーク

ByLLM Watch編集部 2026年5月19日

HUGGING FACE

最終更新: 2026年05月19日 00:02　元記事 →

AIエージェントの評価って、これまで中身のLLMのスコアばかりが注目されてきた。でも実際にエージェントを運用するとなると、ツールの使い方やプランニング、エラー復旧まで含めた「システム全体」の出来が効いてくる。Hugging FaceがIBM Researchと協力して公開したこのベンチマークは、まさにその盲点を突いてくる。

▸何が変わったのか

従来のベンチマークは「どのモデルがどのタスクで何点取ったか」を報告するだけだった。Open Agent Leaderboardはエージェントシステム全体を評価対象にする。品質とコストの両方をレポートするため、「動くけど高すぎて使えない」ケースも浮き彫りになる。6つのベンチマーク（SWE-Bench Verified、BrowseComp+を含む）を統合し、コーディング、カスタマーサービス、技術サポート、パーソナルアシスタンス、研究の多様なシナリオをカバー。評価の再現性を担保するため、Exgentic frameworkと論文も同時公開。

◈前モデル / 競合との比較

モデル単体の性能を測る従来のアプローチとは異なり、エージェントシステム全体（ツール設計、プランニング、メモリ、エラー処理）を評価の対象にする点が明確な差。同じモデルでもツールや設定が変われば結果が大きく変わる事実を可視化できるのは、これまでになかった視点。

◈技術背景と意義

エージェントの「汎用性」を連続的なスペクトラムとして捉えるのがこのベンチマークの肝。特定の業務に特化したエージェントは作りやすいけど、未知の環境に放り込んでも動くかどうかは別問題。ツールもルールも制約も異なる複数のタスクを乗り越えられるか、しかも合理的なコストで──そこを一気に測れる仕組みになっている。

▸こんな人・用途に

複数業務でエージェントを横断的に導入したい企業の技術選定（汎用性とコストのバランスを比較できる）。自作エージェントフレームワークの開発者（他システムとの客観的な差分確認に）。

◆入手方法・リンク

Exgentic frameworkおよび論文とともに公開。Hugging Faceのプラットフォーム上で利用可能。GitHubリンクは現時点で不明。

公式発表を読む

SOURCE: Hugging Face (2026-05-18)

← LLM Watch トップへ

Hugging Face

Hugging Face が gradio.Server をリリース ── ReactやSvelteのフロントエンドをGradioバックエンドと直接連携可能に
ByLLM Watch編集部 2026年4月7日

Hugging Faceのgradio.ServerがReact/Svelte等のカスタムフロントエンドとGradioバックエンドの直接連携を可能に

続きを読む Hugging Face が gradio.Server をリリース ── ReactやSvelteのフロントエンドをGradioバックエンドと直接連携可能に
OpenAI

OpenAI が What Parameter Golf taught us about AI-assisted research を発表 ── AIに研究させまくると何がわかるか
ByLLM Watch編集部 2026年5月13日

OpenAIが「Parameter Golf」の結果を発表。1000人以上の参加者がAIを使った機械学習研究やモデル設計の限界に挑んだ大規模実験の模様を紹介。

続きを読む OpenAI が What Parameter Golf taught us about AI-assisted research を発表 ── AIに研究させまくると何がわかるか
Hugging Face

Hugging Face が 🤗 Kernels: Major Updates をリリース ── カーネル配布のセキュリティと利便性を大幅アップグレード
ByLLM Watch編集部 2026年7月6日

Hugging Faceが🤗 Kernelsの大型アップデートを発表。信頼できるパブリッシャー制やコード署名を導入し、カスタムカーネル配信のセキュリティを大幅に強化。

続きを読む Hugging Face が 🤗 Kernels: Major Updates をリリース ── カーネル配布のセキュリティと利便性を大幅アップグレード
OpenAI

OpenAI が Accelerating the cyber defense ecosystem that protects us all をリリース ── 1000万ドルの支援でサイバー防御を加速
ByLLM Watch編集部 2026年4月17日

OpenAIがサイバー防衛エコシステム強化を発表。特化モデル「GPT-5.4-Cyber」と1000万ドルのAPIグラントを提供し、グローバルな防御力向上を目指す。

続きを読む OpenAI が Accelerating the cyber defense ecosystem that protects us all をリリース ── 1000万ドルの支援でサイバー防御を加速
Hugging Face

Hugging Face が Grabette: an open system to record robot-manipulation data をリリース ── ロボット不要で誰でも操作データを収集できる画期的システム
ByLLM Watch編集部 2026年7月21日

ロボット学習の最大のネックはデータ不足。Hugging Faceが、ロボット不要で手持ちグリッパーから操作データを収集できるシステム「Grabette」をリリースした。

続きを読む Hugging Face が Grabette: an open system to record robot-manipulation data をリリース ── ロボット不要で誰でも操作データを収集できる画期的システム
OpenAI

OpenAI が Introducing OpenAI Presence をリリース ── 企業向けの音声＆チャットAIエージェントを構築する新プラットフォーム
ByLLM Watch編集部 2026年7月23日

OpenAIがエンタープライズ向けAIエージェントプラットフォーム「OpenAI Presence」を発表。信頼できる音声・チャットAIを社内外のワークフローに導入できる。

続きを読む OpenAI が Introducing OpenAI Presence をリリース ── 企業向けの音声＆チャットAIエージェントを構築する新プラットフォーム

コメントを残すコメントをキャンセル