How NVIDIA AI-Q Reached #1 on DeepResearch Bench I and II カバー画像

Hugging Face が How NVIDIA AI-Q Reached #1 on DeepResearch Bench I and II を公開 ── 深い研究の「質」と「正確さ」を両立したオープンなアーキテクチャ

Byren_admin 2026年3月12日

HUGGING FACE

最終更新: 2026年03月12日 13:03　元記事 →

研究用AIエージェントの競争が激化する中、NVIDIAが強烈な一枚を切ってきました。DeepResearch Bench IとIIという2つの主要なベンチマークで、圧倒的な1位を獲得した「AI-Q」の存在感はすごいです。ただ点数が高いだけでなく、その中身が「オープンでモジュール化された設計図」である点に、開発者として胸が熱くなります。

▸何が変わったのか

NVIDIA AI-Qは、DeepResearch Bench Iで55.95、DeepResearch Bench IIで54.50というスコアを叩き出し、両部門で首位を達成しました。このエージェントは「Planner」「Researcher」「Orchestrator」という3つの主要なコンポーネントを持つマルチエージェントアーキテクチャを採用。NVIDIA NeMo Agent Toolkitとファインチューニング済みの「NVIDIA Nemotron 3 Super」モデルで構築されており、さらにアンサンブル機能やレポート洗練化モジュールをオプションで追加可能です。

◈前モデル / 競合との比較

多くのモデルが「分かりやすい文章（Bench I）」か「正確なデータ処理（Bench II）」のどちらかに偏りがちな中、AI-Qはこの両方でトップに立っている点が際立っています。

◈技術背景と意義

2つのベンチマークは補完的な関係にあり、Iは「読みやすさや要約力」、IIは「70以上の基準を使った事実の正確性や分析力」を評価します。AI-Qはこれらを両立することで、単に情報を集めるだけでなく、人間が読んで納得できる「信頼できるレポート」を自動生成できることを証明しました。企業が自分たちで所有・カスタマイズできる「オープンなブループリント」であるため、ブラックボックスになりにくいのも安心ポイントです。

▸こんな人・用途に

企業内のデータとWeb情報を統合して、引用付きの調査レポートを作成したい部署。高度な研究タスクを自動化しつつ、システムの中身を自分たちで制御したい開発者チーム。

◆入手方法・リンク

Hugging Face上で公開されている記事や関連ページを通じて、アーキテクチャの詳細や構築手順を確認することができます。

公式発表を読む

SOURCE: Hugging Face (2026-03-12)

← LLM Watch トップへ

OpenAI

OpenAI が A shared playbook for trustworthy third party evaluations をリリース ── フロンティアモデルの第三者評価をどう行うか指南
Byren_admin 2026年5月30日

OpenAIが最先端AIモデルの安全性を確認するための第三者評価ガイドラインを公開。モデルの能力やセーフガードの評価方法を解説。

続きを読む OpenAI が A shared playbook for trustworthy third party evaluations をリリース ── フロンティアモデルの第三者評価をどう行うか指南
OpenAI

OpenAI が GPT-5.5 Instant をリリース ── デフォルトモデルがより賢く、自分好みに進化
Byren_admin 2026年5月6日

OpenAIがChatGPTのデフォルトモデルをアップデート。新モデルGPT-5.5 Instantは正確性とパーソナライズ機能が強化されている。

続きを読む OpenAI が GPT-5.5 Instant をリリース ── デフォルトモデルがより賢く、自分好みに進化
Hugging Face

Hugging Face が Introducing Storage Buckets on the Hugging Face Hub をリリース ── Gitの限界を超えた「Xet」搭載、ML運用に最適なストレージ登場
Byren_admin 2026年3月11日2026年3月12日

Hugging FaceにS3ライクな新ストレージ登場。Xet技術で重複排除し転送効率UP。

続きを読む Hugging Face が Introducing Storage Buckets on the Hugging Face Hub をリリース ── Gitの限界を超えた「Xet」搭載、ML運用に最適なストレージ登場
OpenAI

OpenAI が Research with ChatGPT を公開 ── 検索と深掘りで最新情報を構造化するリサーチ機能
Byren_admin 2026年4月11日

OpenAIがResearch with ChatGPTを公開。searchとdeep researchで最新情報を取得・分析し、構造化された洞察を生成する機能。

続きを読む OpenAI が Research with ChatGPT を公開 ── 検索と深掘りで最新情報を構造化するリサーチ機能
OpenAI

OpenAI が Accelerating the cyber defense ecosystem that protects us all をリリース ── 1000万ドルの支援でサイバー防御を加速
Byren_admin 2026年4月17日

OpenAIがサイバー防衛エコシステム強化を発表。特化モデル「GPT-5.4-Cyber」と1000万ドルのAPIグラントを提供し、グローバルな防御力向上を目指す。

続きを読む OpenAI が Accelerating the cyber defense ecosystem that protects us all をリリース ── 1000万ドルの支援でサイバー防御を加速
Google DeepMind

Google DeepMind が Gemini for Science をリリース ── 科学のプロセス全体を加速するAIエージェント群
Byren_admin 2026年5月20日

Google DeepMindがGemini for Scienceを発表。Co-Scientist、AlphaEvolve、NotebookLMを活用し、科学のプロセス全体を加速する3つの実験ツールをGoogle Labsで公開。

続きを読む Google DeepMind が Gemini for Science をリリース ── 科学のプロセス全体を加速するAIエージェント群

▸何が変わったのか

◈前モデル / 競合との比較

◈技術背景と意義

▸こんな人・用途に

◆入手方法・リンク

類似投稿

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル