Building a Fast Multilingual OCR Model with Synthetic Data カバー画像

Hugging Face

NVIDIA が高速マルチリンガルOCRモデル「Nemotron OCR v2」をリリース ── 合成データ1200万枚で多言語対応を突破

Byren_admin 2026年4月18日

HUGGING FACE

最終更新: 2026年04月18日 02:02　元記事 →

OCRの精度を決めるのは、アーキテクチャより「データ」だった──。NVIDIAが発表したNemotron OCR v2は、プログラムで生成した合成画像1200万枚を学習し、6言語に対応。非英語圏のNEDスコアを0.56〜0.92から0.035〜0.069まで劇的に改善した。実際の文書への汎化もしっかり確認されていて、これはかなり良いアプローチじゃないか。

▸何が変わったのか

前世代のNemotron OCR v1は英語に特化していて、他言語の文書を読ませると精度がガタ落ちしていた。v2では合成データパイプラインを構築し、フォント・色・背景・レイアウトを強力にランダム化した1200万枚の画像を生成。6言語に対応し、非英語言語のNEDスコアを0.035〜0.069まで下げた。速度面でも工夫があり、shared detection backboneの特徴量をrecognizerとrelational modelで再利用する設計により、A100 GPU 1枚で34.7 pages/secondを達成。データセット「nvidia/OCR-Synthetic-Multilingual-v1」とモデル「nvidia/nemotron-ocr-v2」がそれぞれ公開されている。

◈前モデル / 競合との比較

v1は英語専用で他言語文書の読み取りに失敗していたが、v2は合成データによる大規模学習で6言語に対応。NEDスコアも非英語圏で大幅に改善。同じ合成データアプローチでも、単純なレンダリングではなくレイアウト構造のランダム化に力を入れている点が差別化要因。

◈技術背景と意義

OCRモデルを訓練するには、画像内の文字位置を示すバウンディングボックスと書き起こしテキストのペアが大量に必要。手作業でのアノテーションは高品質だが、数百万枚規模になると費用も時間も現実的じゃない。Web上のPDFから抽出する手もあるけど、ノイズが多くて品質管理が地獄らしい。そこでNVIDIAが選んだのは「プログラムで文字を画像にレンダリングする」アプローチ。バウンディングボックスも読み順も全部自分で配置するから、ラベルは完璧。レイアウトや背景をランダムに変えまくることで、本物の文書にも通用する堅牢さを担保している。

▸こんな人・用途に

多言語文書の大量デジタル化を進める企業のバックオフィス自動化。スキャンされたPDFから正確にテキストを抽出したい研究者やデータエンジニア。フォントやテキストさえあれば任意の言語に拡張できるので、少数言語の文書処理にも応用が利く。

◆入手方法・リンク

データセットはHugging Faceの「nvidia/OCR-Synthetic-Multilingual-v1」、モデルは「nvidia/nemotron-ocr-v2」でそれぞれ入手可能。ブラウザ上で直接試せるNemotron OCR v2 demoも用意されている。

公式発表を読む

SOURCE: Hugging Face (2026-04-17)

← LLM Watch トップへ

OpenAI

OpenAI が Helping developers build safer AI experiences for teens をリリース ── 思春期の安全を守る新たな指針
Byren_admin 2026年3月25日

OpenAIがgpt-oss-safeguard用にティーン安全ポリシーをリリース。年齢特有のリスク管理を強化。

続きを読む OpenAI が Helping developers build safer AI experiences for teens をリリース ── 思春期の安全を守る新たな指針
Hugging Face

Hugging Face が Introducing Modular Diffusers – Composable Building Blocks for Diffusion Pipelines をリリース ── 拡散モデルのパイプライン構築がまるでレゴのように
Byren_admin 2026年3月6日2026年3月10日

Hugging Face、拡散モデルを「ブロック」単位で組み替え可能にする新機能

続きを読む Hugging Face が Introducing Modular Diffusers – Composable Building Blocks for Diffusion Pipelines をリリース ── 拡散モデルのパイプライン構築がまるでレゴのように
Hugging Face

Hugging Face が Meet HoloTab by HCompany. Your AI browser companion. をリリース
Byren_admin 2026年4月15日

Hugging FaceのMeet HoloTab by HCompany. Your AI browser companion.リリース情報

続きを読む Hugging Face が Meet HoloTab by HCompany. Your AI browser companion. をリリース
Hugging Face

Hugging Face が GGML and llama.cpp join HF to ensure the long-term progress of Local AI をリリース ── ローカルAIの未来が盤石に
Byren_admin 2026年2月27日2026年3月10日

Hugging Faceがllama.cppとGGMLを正式に受け入れ、ローカルAIの長期的な発展を約束。コミュニティの熱望が形に。

続きを読む Hugging Face が GGML and llama.cpp join HF to ensure the long-term progress of Local AI をリリース ── ローカルAIの未来が盤石に
Hugging Face

Hugging Face が TRL v1.0 をリリース ── 激動のポストトレーニング分野で「安定した基盤」を宣言
Byren_admin 2026年3月31日2026年4月2日

Hugging FaceがTRL v1.0をリリース。75以上のポストトレーニングメソッドを実装し、本番システムで使える安定した図書館へ進化。

続きを読む Hugging Face が TRL v1.0 をリリース ── 激動のポストトレーニング分野で「安定した基盤」を宣言
Hugging Face

Hugging Face が IBMとUCバークレーの新研究を紹介 ── 企業のAIエージェントが失敗する「本当の理由」がついに判明
Byren_admin 2026年2月27日2026年3月10日

企業のAIエージェントが失敗する理由を診断。IBMとUCバークレーがMASTとIT-Benchを公開

続きを読む Hugging Face が IBMとUCバークレーの新研究を紹介 ── 企業のAIエージェントが失敗する「本当の理由」がついに判明

コメントを残すコメントをキャンセル