ITBench-AA: Frontier Models Score Below 50% on the First Benchmark for Agentic Enterprise IT Tasks — by Artificial Analysis and IBM カバー画像

Hugging Face

Hugging Face が ITBench-AA を公開 ── 最先端AIでも半分解けないエンタープライズIT実務ベンチマーク

ByLLM Watch編集部 2026年5月28日

HUGGING FACE

最終更新: 2026年05月28日 03:02　元記事 →

LLMって万能に見えるけど、実際のエンタープライズIT現場で通用するのか。Artificial AnalysisとIBM Researchが作った新ベンチマーク「ITBench-AA」で検証した結果、どの最先端モデルも正答率50%に届かないという衝撃の結果が出た。

▸何が変わったのか

ITBench-AAは、エージェント型エンタープライズITタスクを評価する初のベンチマークシリーズ。第一弾としてSRE（Site Reliability Engineering）タスク59問を用意し、うち40問が公開、19問はホールドアウト。Kubernetesのインシデント対応を題材に、モデルはログやメトリクス、トレースを読み込み、根本原因となるエンティティを特定する。結果はClaude Opus 4.7が47%でトップ、続いてGPT-5.5が46%、Qwen3.7 Maxが42%。オープンウェイトではGLM-5.1が40%で最高。

◈前モデル / 競合との比較

同じエージェント系ベンチマークのTerminal-Benchと比べても、ITBench-AAは圧倒的に難易度が高い。またモデルごとにターン数が大きく異なり、GPT-5.5は平均31ターンで46%なのに対し、Gemini 3.1 Pro Previewは83ターンかけても30%。調査しすぎると誤検知が増えるという現象が起きている。DeepSeek V4 Proは38%、Gemma 4 31Bが37%と、小型モデルも健闘している。

◈技術背景と意義

SREタスクは、本番環境で動くKubernetesクラスタのトラブルシューティング。リソース枯渇、ロールアウト失敗、コネクションプール枯渇、ネットワーク分断など、実際のインフラで起きる障害を再現している。人間のSREエンジニアでも経験と勘が求められる仕事で、AIにはかなりハードルが高い。

▸こんな人・用途に

エンタープライズIT運用の自動化を検討しているインフラチーム、SREエンジニアの補助ツール開発者、エージェント型AIの実用性を評価したい研究者に参考になるベンチマーク。

◆入手方法・リンク

クローズドソースのためGitHubリンク等はなし。詳細はArtificial AnalysisやIBM Researchの公式発表を参照。

公式発表を読む

SOURCE: Hugging Face (2026-05-27)

← LLM Watch トップへ

Hugging Face

allenai が olmo-eval: An evaluation workbench for the model development loop をリリース ── LLM開発の評価ループを劇的に効率化
ByLLM Watch編集部 2026年6月13日

Ai2がLLM開発の評価ループを効率化するツール「olmo-eval」を公開。エージェント評価をサポートし、プロンプト単位で詳細な分析が可能。

続きを読む allenai が olmo-eval: An evaluation workbench for the model development loop をリリース ── LLM開発の評価ループを劇的に効率化
OpenAI

OpenAI が Building self-improving tax agents with Codex をリリース ── 税務申告を自動化する自己改善型エージェント登場
ByLLM Watch編集部 2026年5月28日

OpenAIがThrive、Creteと協業しCodexで自己改善型税務エージェントを構築。申告自動化と精度向上を実現する取り組み。

続きを読む OpenAI が Building self-improving tax agents with Codex をリリース ── 税務申告を自動化する自己改善型エージェント登場
Hugging Face

Hugging Face が Direct Preference Optimization Beyond Chatbots をリリース ── OCRの無限ループ地獄をDPOで撲滅
ByLLM Watch編集部 2026年6月3日

チャットAI向けのDPO技術をOCRの無限ループ対策に応用。テキスト劣化率を平均59.4%も削減した驚きのアプローチを紹介。

続きを読む Hugging Face が Direct Preference Optimization Beyond Chatbots をリリース ── OCRの無限ループ地獄をDPOで撲滅
Hugging Face

Hugging Face が Meet HoloTab by HCompany. Your AI browser companion. をリリース
ByLLM Watch編集部 2026年4月15日

Hugging FaceのMeet HoloTab by HCompany. Your AI browser companion.リリース情報

続きを読む Hugging Face が Meet HoloTab by HCompany. Your AI browser companion. をリリース
Hugging Face

Hugging Faceの「Safetensors」がPyTorch Foundationへ移管 ── モデル共有のデファクトが中立性を獲得
ByLLM Watch編集部 2026年4月9日

Hugging Faceのセキュアなモデルフォーマット「Safetensors」がPyTorch Foundationへ移管。ガバナンスがLinux Foundationに移行し、ベンダー中立性を獲得。

続きを読む Hugging Faceの「Safetensors」がPyTorch Foundationへ移管 ── モデル共有のデファクトが中立性を獲得
OpenAI

OpenAI が Australian Payments Plus moves faster with ChatGPT and Codex をリリース ── 決済インフラの複雑さをAIで高速化
ByLLM Watch編集部 2026年7月8日

オーストラリアの決済企業AP+がChatGPT EnterpriseとCodexを導入。作業時間の節約と品質向上を実現しつつ、人間の判断を中心に据えた堅実なAI活用事例。

続きを読む OpenAI が Australian Payments Plus moves faster with ChatGPT and Codex をリリース ── 決済インフラの複雑さをAIで高速化

コメントを残すコメントをキャンセル