PP-OCRv6 on Hugging Face: 50-Language OCR from 1.5M to 34.5M Parameters カバー画像

Hugging Face

Hugging Face が PP-OCRv6 on Hugging Face: 50-Language OCR from 1.5M to 34.5M Parameters をリリース ── 超軽量1.5Mから高精度34.5Mまで網羅する多言語OCR

Byren_admin 2026年6月22日

HUGGING FACE

最終更新: 2026年06月22日 23:02　元記事 →

VLM（視覚言語モデル）がなんでもこなせる時代に、特化型OCRの進化が止まる気配はない。PaddlePaddleチームが投入した最新モデル「PP-OCRv6」は、1.5M paramsという超軽量サイズから34.5M paramsまで3段階を用意。エッジデバイスからサーバーまで幅広くカバーするこの構成、かなりエモい。

▸何が変わったのか

今回の大きな目玉は、1.5Mから34.5Mまでの3つのサイズ（tiny, small, medium）をラインナップした点だ。最大サイズのPP-OCRv6_mediumでは、検出Hmean 86.2%、認識精度 83.2%を達成。前バージョンのPP-OCRv5_serverと比べて、テキスト検出で+4.6ポイント、テキスト認識で+5.1ポイントも向上している。対応言語は50言語で、日本語や英語、中国語（簡体・繁体）を含む多言語処理が可能。さらに、新バックボーンのPPLCNetV4を検出・認識で統一採用し、テキスト検出にはRepLKFPNを導入している。

◈前モデル / 競合との比較

前バージョンの「PP-OCRv5_server」と比較して、テキスト検出精度が+4.6ポイント、テキスト認識精度が+5.1ポイントと大幅に向上している。

◈技術背景と意義

画像から文字を抜き出す技術は、VLMの台頭で「わざわざ専用モデルが要るの？」と思われがちだが、実際の現場では「軽さ」と「構造化された正確な出力」が死活問題になる。PP-OCRv6のような特化型モデルは、計算リソースが限られたエッジ環境でもサクサク動くのが強みだ。さらに、書類やスクリーンショット、工場の産業用ラベルといった複雑なシーンでも、テキストを正確に切り出して整理できる。この実戦投入レベルの使い勝手の良さは、専用モデルならではの魅力だ。

▸こんな人・用途に

– PP-OCRv6_tiny (1.5M params): 計算リソースが限られたエッジデバイスや、遅延を嫌う軽量なローカルOCR向け。
– PP-OCRv6_small (7.7M params): 計算コストを抑えたいスマホやデスクトップのアプリ、多言語OCRサービス向け。
– PP-OCRv6_medium (34.5M params): 精度が最優先されるサーバーサイドのパイプラインや、産業用ドキュメントの取り込み向け。

◆入手方法・リンク

Hugging Faceでオンラインデモ（PP-OCRv6 Online Demo）が公開されており、ブラウザ上ですぐに試せる。本番環境への導入には、PaddlePaddle、Transformers、ONNX Runtimeの各バックエンドが利用できる。

公式発表を読む

SOURCE: Hugging Face (2026-06-22)

← LLM Watch トップへ

OpenAI

OpenAI が Enterprises power agentic workflows in Cloudflare Agent Cloud with OpenAI をリリース ── Cloudflare上でGPT-5.4とCodexが利用可能に
Byren_admin 2026年4月14日

CloudflareがAgent CloudにOpenAIのGPT-5.4とCodexを統合。企業が安全かつ高速に実務向けAIエージェントを構築・展開できる環境が整った。

続きを読む OpenAI が Enterprises power agentic workflows in Cloudflare Agent Cloud with OpenAI をリリース ── Cloudflare上でGPT-5.4とCodexが利用可能に
Hugging Face

Hugging Face が IBMとUCバークレーの新研究を紹介 ── 企業のAIエージェントが失敗する「本当の理由」がついに判明
Byren_admin 2026年2月27日2026年3月10日

企業のAIエージェントが失敗する理由を診断。IBMとUCバークレーがMASTとIT-Benchを公開

続きを読む Hugging Face が IBMとUCバークレーの新研究を紹介 ── 企業のAIエージェントが失敗する「本当の理由」がついに判明
OpenAI

OpenAI が From model to agent: Equipping the Responses API with a computer environment をリリース ── Responses API が「エージェント」への進化を果たす
Byren_admin 2026年3月12日

Responses API がコンピュータ環境を獲得。シェルツールとコンテナで安全なエージェント実行が可能に。

続きを読む OpenAI が From model to agent: Equipping the Responses API with a computer environment をリリース ── Responses API が「エージェント」への進化を果たす
Hugging Face

PaddlePaddle が PaddleOCR 3.5 をリリース ── Transformers を推論バックエンドに指定できるようになった
Byren_admin 2026年5月19日

PaddleOCR 3.5がTransformers推論バックエンドに対応。PP-OCRv5やPaddleOCR-VL 1.5をHugging Faceエコシステムで簡単利用可能に。

続きを読む PaddlePaddle が PaddleOCR 3.5 をリリース ── Transformers を推論バックエンドに指定できるようになった
Google DeepMind

Google DeepMind が Gemini 3.5 Flash をアップデート ── PC操作エージェントがメインモデルに統合
Byren_admin 2026年6月25日

GoogleがGemini 3.5 Flashにコンピュータ操作機能をネイティブ統合。様々なアプリを横断して自動で作業するエージェント構築がいよいよ本格化する。

続きを読む Google DeepMind が Gemini 3.5 Flash をアップデート ── PC操作エージェントがメインモデルに統合
Hugging Face

Hugging Face が gradio.Server をリリース ── ReactやSvelteのフロントエンドをGradioバックエンドと直接連携可能に
Byren_admin 2026年4月7日

Hugging Faceのgradio.ServerがReact/Svelte等のカスタムフロントエンドとGradioバックエンドの直接連携を可能に

続きを読む Hugging Face が gradio.Server をリリース ── ReactやSvelteのフロントエンドをGradioバックエンドと直接連携可能に

コメントを残すコメントをキャンセル