PP-OCRv6 on Hugging Face: 50-Language OCR from 1.5M to 34.5M Parameters カバー画像

Hugging Face が PP-OCRv6 on Hugging Face: 50-Language OCR from 1.5M to 34.5M Parameters をリリース ── 超軽量1.5Mから高精度34.5Mまで網羅する多言語OCR

HUGGING FACE

最終更新: 2026年06月22日 23:02 元記事 →

VLM(視覚言語モデル)がなんでもこなせる時代に、特化型OCRの進化が止まる気配はない。PaddlePaddleチームが投入した最新モデル「PP-OCRv6」は、1.5M paramsという超軽量サイズから34.5M paramsまで3段階を用意。エッジデバイスからサーバーまで幅広くカバーするこの構成、かなりエモい。

何が変わったのか

今回の大きな目玉は、1.5Mから34.5Mまでの3つのサイズ(tiny, small, medium)をラインナップした点だ。最大サイズのPP-OCRv6_mediumでは、検出Hmean 86.2%、認識精度 83.2%を達成。前バージョンのPP-OCRv5_serverと比べて、テキスト検出で+4.6ポイント、テキスト認識で+5.1ポイントも向上している。対応言語は50言語で、日本語や英語、中国語(簡体・繁体)を含む多言語処理が可能。さらに、新バックボーンのPPLCNetV4を検出・認識で統一採用し、テキスト検出にはRepLKFPNを導入している。

前モデル / 競合との比較

前バージョンの「PP-OCRv5_server」と比較して、テキスト検出精度が+4.6ポイント、テキスト認識精度が+5.1ポイントと大幅に向上している。

技術背景と意義

画像から文字を抜き出す技術は、VLMの台頭で「わざわざ専用モデルが要るの?」と思われがちだが、実際の現場では「軽さ」と「構造化された正確な出力」が死活問題になる。PP-OCRv6のような特化型モデルは、計算リソースが限られたエッジ環境でもサクサク動くのが強みだ。さらに、書類やスクリーンショット、工場の産業用ラベルといった複雑なシーンでも、テキストを正確に切り出して整理できる。この実戦投入レベルの使い勝手の良さは、専用モデルならではの魅力だ。

こんな人・用途に

– PP-OCRv6_tiny (1.5M params): 計算リソースが限られたエッジデバイスや、遅延を嫌う軽量なローカルOCR向け。
– PP-OCRv6_small (7.7M params): 計算コストを抑えたいスマホやデスクトップのアプリ、多言語OCRサービス向け。
– PP-OCRv6_medium (34.5M params): 精度が最優先されるサーバーサイドのパイプラインや、産業用ドキュメントの取り込み向け。

入手方法・リンク

Hugging Faceでオンラインデモ(PP-OCRv6 Online Demo)が公開されており、ブラウザ上ですぐに試せる。本番環境への導入には、PaddlePaddle、Transformers、ONNX Runtimeの各バックエンドが利用できる。

SOURCE: Hugging Face (2026-06-22)

← LLM Watch トップへ

類似投稿

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です