Introducing NVIDIA Nemotron 3 Nano Omni: Long-Context Multimodal Intelligence for Documents, Audio and Video Agents カバー画像

Hugging Face が NVIDIA Nemotron 3 Nano Omni を公開 ── テキスト・画像・音声・動画を1つのモデルで処理、マルチモーダルの新しい本命

HUGGING FACE

最終更新: 2026年04月29日 01:02 元記事 →

NVIDIAがぶち込んできた。テキスト、画像、音声、動画を全部まとめて扱えるオムニモーダルモデル「Nemotron 3 Nano Omni」がHugging Faceに登場した。従来のビジョン言語モデルの枠を超えて、音声までネイティブで理解する設計。これ、かなりエグい。

何が変わったのか

前世代のNemotron Nano V2 VLは強力なビジョン言語モデルだったけど、今回はそこに音声と動画の理解が丸ごと追加された。アーキテクチャはNemotron 3 hybrid Mamba-Transformer Mixture-of-Expertsバックボーンに、C-RADIOv4-Hビジョンエンコーダー、Parakeet-TDT-0.6B-v2オーディオエンコーダーを組み合わせる構成。ベンチマークを見る限り、MMLongBench-Docで57.5(前世代は38.0)、OCRBenchV2-Enで65.8という数値を叩き出している。音声理解のVoiceBenchでは89.4を記録。Qwen3-Omni 30B-A3Bと比較しても、WorldSenseで55.4(相手は54.0)、DailyOmniで74.1(相手は73.6)と複数指標で上回っている。OSWorldベンチマークに至っては47.4対29.0で圧倒的。マルチモーダルユースケースでのスループットは最大9倍、単一ストリーム推論速度も2.9倍向上している。

前モデル / 競合との比較

前世代Nemotron Nano V2 VLと比べると、MMLongBench-Docで38.0→57.5、OSWorldで11.0→47.4と劇的な改善。特にGUI系タスクの伸びがすごい。Qwen3-Omni 30B-A3Bとの比較では、WorldSense(55.4 vs 54.0)、DailyOmni(74.1 vs 73.6)、VoiceBench(89.4 vs 88)で僅差ながらリード。OSWorldでは47.4 vs 29.0と大差をつけている。一方でScreenSpot-Proでは57.8 vs 59.7でわずかに下回る場面も。

技術背景と意義

これまでのAIモデルは「テキストだけ」「画像も見られる」みたいに、対応できる情報の種類が限られていた。Nemotron 3 Nano Omniは、文字、画像、音声、動画を全部ひとつのモデルで処理できる。Mamba-Transformerという2つの仕組みを組み合わせたアーキテクチャで、長いコンテキストも扱いやすい設計。たとえば長時間の会議動画を投げれば、映像も音声も同時に理解して要約できる。実用性が段違い。

こんな人・用途に

長文書の解析とOCRを高速かつ高精度に行いたい企業のドキュメント管理。動画+音声の両方を理解する必要がある会議録やインタビューの自動文字起こし・要約。GUI操作を伴うエージェント用途(ScreenSpot-ProやOSWorldでの高スコアが裏付け)。

入手方法・リンク

Hugging FaceでBF16、FP8、NVFP4の各チェックポイントがダウンロード可能。ソースコードは非公開。詳細なアーキテクチャやトレーニング手法についてはNemotron 3 Nano Omniレポートが公開されている。

SOURCE: Hugging Face (2026-04-28)

← LLM Watch トップへ

類似投稿

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です