Introducing NVIDIA Nemotron 3 Nano Omni: Long-Context Multimodal Intelligence for Documents, Audio and Video Agents カバー画像

Hugging Face

Hugging Face が NVIDIA Nemotron 3 Nano Omni を公開 ── テキスト・画像・音声・動画を1つのモデルで処理、マルチモーダルの新しい本命

ByLLM Watch編集部 2026年4月29日

HUGGING FACE

最終更新: 2026年04月29日 01:02　元記事 →

NVIDIAがぶち込んできた。テキスト、画像、音声、動画を全部まとめて扱えるオムニモーダルモデル「Nemotron 3 Nano Omni」がHugging Faceに登場した。従来のビジョン言語モデルの枠を超えて、音声までネイティブで理解する設計。これ、かなりエグい。

▸何が変わったのか

前世代のNemotron Nano V2 VLは強力なビジョン言語モデルだったけど、今回はそこに音声と動画の理解が丸ごと追加された。アーキテクチャはNemotron 3 hybrid Mamba-Transformer Mixture-of-Expertsバックボーンに、C-RADIOv4-Hビジョンエンコーダー、Parakeet-TDT-0.6B-v2オーディオエンコーダーを組み合わせる構成。ベンチマークを見る限り、MMLongBench-Docで57.5（前世代は38.0）、OCRBenchV2-Enで65.8という数値を叩き出している。音声理解のVoiceBenchでは89.4を記録。Qwen3-Omni 30B-A3Bと比較しても、WorldSenseで55.4（相手は54.0）、DailyOmniで74.1（相手は73.6）と複数指標で上回っている。OSWorldベンチマークに至っては47.4対29.0で圧倒的。マルチモーダルユースケースでのスループットは最大9倍、単一ストリーム推論速度も2.9倍向上している。

◈前モデル / 競合との比較

前世代Nemotron Nano V2 VLと比べると、MMLongBench-Docで38.0→57.5、OSWorldで11.0→47.4と劇的な改善。特にGUI系タスクの伸びがすごい。Qwen3-Omni 30B-A3Bとの比較では、WorldSense（55.4 vs 54.0）、DailyOmni（74.1 vs 73.6）、VoiceBench（89.4 vs 88）で僅差ながらリード。OSWorldでは47.4 vs 29.0と大差をつけている。一方でScreenSpot-Proでは57.8 vs 59.7でわずかに下回る場面も。

◈技術背景と意義

これまでのAIモデルは「テキストだけ」「画像も見られる」みたいに、対応できる情報の種類が限られていた。Nemotron 3 Nano Omniは、文字、画像、音声、動画を全部ひとつのモデルで処理できる。Mamba-Transformerという2つの仕組みを組み合わせたアーキテクチャで、長いコンテキストも扱いやすい設計。たとえば長時間の会議動画を投げれば、映像も音声も同時に理解して要約できる。実用性が段違い。

▸こんな人・用途に

長文書の解析とOCRを高速かつ高精度に行いたい企業のドキュメント管理。動画+音声の両方を理解する必要がある会議録やインタビューの自動文字起こし・要約。GUI操作を伴うエージェント用途（ScreenSpot-ProやOSWorldでの高スコアが裏付け）。

◆入手方法・リンク

Hugging FaceでBF16、FP8、NVFP4の各チェックポイントがダウンロード可能。ソースコードは非公開。詳細なアーキテクチャやトレーニング手法についてはNemotron 3 Nano Omniレポートが公開されている。

公式発表を読む

SOURCE: Hugging Face (2026-04-28)

← LLM Watch トップへ

Hugging Face

Hugging Face が EVA-Bench Data 2.0: 3 Domains, 121 Tools, 213 Scenarios をリリース ── エンタープライズ向けボイスエージェントの評価が約4倍に拡張
ByLLM Watch編集部 2026年6月4日

EVA-Bench 2.0が3ドメイン213シナリオに拡張。GPT-5.4等で検証済みのエンタープライズ向けボイスエージェント評価データセット。

続きを読む Hugging Face が EVA-Bench Data 2.0: 3 Domains, 121 Tools, 213 Scenarios をリリース ── エンタープライズ向けボイスエージェントの評価が約4倍に拡張
Hugging Face

Hugging Face が IBMとUCバークレーの新研究を紹介 ── 企業のAIエージェントが失敗する「本当の理由」がついに判明
ByLLM Watch編集部 2026年2月27日2026年3月10日

企業のAIエージェントが失敗する理由を診断。IBMとUCバークレーがMASTとIT-Benchを公開

続きを読む Hugging Face が IBMとUCバークレーの新研究を紹介 ── 企業のAIエージェントが失敗する「本当の理由」がついに判明
Hugging Face

Hugging Face が Granite 4.0 1B Speech: Compact, Multilingual, and Built for the Edge をリリース ── パラメータ半減で日本語対応も実現した小型音声モデル
ByLLM Watch編集部 2026年3月10日2026年3月10日

Granite 4.0 1B Speech登場。パラメータ半減で精度向上と日本語対応を実現。

続きを読む Hugging Face が Granite 4.0 1B Speech: Compact, Multilingual, and Built for the Edge をリリース ── パラメータ半減で日本語対応も実現した小型音声モデル
Hugging Face

Hugging Face が What’s New in Mellea 0.4.0 + Granite Libraries Release をリリース ── LLMの「カオス」に構造を与えるIBMの新アプローチ
ByLLM Watch編集部 2026年3月21日

Mellea 0.4.0とGranite Librariesがリリース。構造化されたAIワークフロー構築を支援

続きを読む Hugging Face が What’s New in Mellea 0.4.0 + Granite Libraries Release をリリース ── LLMの「カオス」に構造を与えるIBMの新アプローチ
Google DeepMind

Google DeepMind が Gemini 3.1 Flash-Lite をリリース ── 圧倒的なスピードと低コストで最強コスパ実現
ByLLM Watch編集部 2026年3月4日2026年3月10日

Gemini 3.1 Flash-Lite登場。2.5倍高速化で激安、推論能力も高い最強コスパモデル。

続きを読む Google DeepMind が Gemini 3.1 Flash-Lite をリリース ── 圧倒的なスピードと低コストで最強コスパ実現
Hugging Face

Hugging Face × AWS が Strands Agents と LeRobot の統合を解説 ── データ収集から実機デプロイまでをひとつのエージェントで完結
ByLLM Watch編集部 2026年6月17日

AWS Strands Robots SDKとLeRobotが統合。Hubのデータセットから実機SO-101まで、ひとつのエージェントで完結するロボット開発パイプライン。

続きを読む Hugging Face × AWS が Strands Agents と LeRobot の統合を解説 ── データ収集から実機デプロイまでをひとつのエージェントで完結

コメントを残すコメントをキャンセル