Building a Fast Multilingual OCR Model with Synthetic Data カバー画像

NVIDIA が高速マルチリンガルOCRモデル「Nemotron OCR v2」をリリース ── 合成データ1200万枚で多言語対応を突破

HUGGING FACE

最終更新: 2026年04月18日 02:02 元記事 →

OCRの精度を決めるのは、アーキテクチャより「データ」だった──。NVIDIAが発表したNemotron OCR v2は、プログラムで生成した合成画像1200万枚を学習し、6言語に対応。非英語圏のNEDスコアを0.56〜0.92から0.035〜0.069まで劇的に改善した。実際の文書への汎化もしっかり確認されていて、これはかなり良いアプローチじゃないか。

何が変わったのか

前世代のNemotron OCR v1は英語に特化していて、他言語の文書を読ませると精度がガタ落ちしていた。v2では合成データパイプラインを構築し、フォント・色・背景・レイアウトを強力にランダム化した1200万枚の画像を生成。6言語に対応し、非英語言語のNEDスコアを0.035〜0.069まで下げた。速度面でも工夫があり、shared detection backboneの特徴量をrecognizerとrelational modelで再利用する設計により、A100 GPU 1枚で34.7 pages/secondを達成。データセット「nvidia/OCR-Synthetic-Multilingual-v1」とモデル「nvidia/nemotron-ocr-v2」がそれぞれ公開されている。

前モデル / 競合との比較

v1は英語専用で他言語文書の読み取りに失敗していたが、v2は合成データによる大規模学習で6言語に対応。NEDスコアも非英語圏で大幅に改善。同じ合成データアプローチでも、単純なレンダリングではなくレイアウト構造のランダム化に力を入れている点が差別化要因。

技術背景と意義

OCRモデルを訓練するには、画像内の文字位置を示すバウンディングボックスと書き起こしテキストのペアが大量に必要。手作業でのアノテーションは高品質だが、数百万枚規模になると費用も時間も現実的じゃない。Web上のPDFから抽出する手もあるけど、ノイズが多くて品質管理が地獄らしい。そこでNVIDIAが選んだのは「プログラムで文字を画像にレンダリングする」アプローチ。バウンディングボックスも読み順も全部自分で配置するから、ラベルは完璧。レイアウトや背景をランダムに変えまくることで、本物の文書にも通用する堅牢さを担保している。

こんな人・用途に

多言語文書の大量デジタル化を進める企業のバックオフィス自動化。スキャンされたPDFから正確にテキストを抽出したい研究者やデータエンジニア。フォントやテキストさえあれば任意の言語に拡張できるので、少数言語の文書処理にも応用が利く。

入手方法・リンク

データセットはHugging Faceの「nvidia/OCR-Synthetic-Multilingual-v1」、モデルは「nvidia/nemotron-ocr-v2」でそれぞれ入手可能。ブラウザ上で直接試せるNemotron OCR v2 demoも用意されている。

SOURCE: Hugging Face (2026-04-17)

← LLM Watch トップへ

類似投稿

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です