PaddleOCR 3.5: Running OCR and Document Parsing Tasks with a Transformers Backend カバー画像

PaddlePaddle が PaddleOCR 3.5 をリリース ── Transformers を推論バックエンドに指定できるようになった

HUGGING FACE

最終更新: 2026年05月19日 01:02 元記事 →

OCRって地味にしんどい処理の代表格。特にRAGパイプラインを組むとき、PDFや画像から正確にテキストを抜く段階で鬼のように苦労する。PaddlePaddleチームが発表したPaddleOCR 3.5は、そんな前処理の悩みに真正面から切り込んでいる。最大のポイントはHugging Face Transformersを推論バックエンドとして使えるようになったこと。

何が変わったのか

推論エンジンのインターフェースが大幅に柔軟になった。`engine=”transformers”` と設定するだけで、対応するPaddleOCRモデルがTransformersバックエンドで動く。細かな設定は `engine_config` にまとめられて、dtype、デバイス配置、アテンションの実装方法まで制御可能。PP-OCRv5(OCRシリーズ)とPaddleOCR-VL 1.5(ドキュメント解析シリーズ)というモデル群が提供されている。パイプライン自体はPaddleOCR側が管理してくれるので、内部コンポーネントを一つずつ手動で呼ぶ必要はない。

前モデル / 競合との比較

前バージョンまでの推論バックエンドはPaddleの静的グラフ・動的グラフが主流だった。3.5では新たにTransformersがバックエンド選択肢に加わり、Hugging Face環境との親和性が大きく上がっている。

技術背景と意義

RAGやDocument AIで本当にむずかしいのは、LLMにデータを渡す前の「取り込み(ingestion)」の工程。PDF、スキャン文書、表、チャート、数式、複雑なレイアウト……これらを正確に構造化データに変換しないと、下流のLLMは間違ったコンテキストを拾ったり、 unreliable な回答を出したりする。PaddleOCRは PP-OCRv5 と PaddleOCR-VL 1.5 でこの文書取り込みに対応。今回Transformersバックエンドが加わったことで、Hugging Face中心の開発スタックに自然に組み込める。

こんな人・用途に

RAGシステムを構築していて、PDFや画像からの文書取り込みに苦戦している開発者。Hugging Faceエコシステム中心にツールを揃えていて、OCRも同じスタックにまとめたいチーム。Document AIパイプラインで表・チャート・数式を含む複雑なレイアウトを扱う必要がある案件。

入手方法・リンク

Hugging Face Spacesでライブデモが公開されている。実際に触って挙動を確認できる(https://huggingface.co/spaces/PaddlePaddle/paddleocr-3.5-transformers-demo)。

SOURCE: Hugging Face (2026-05-18)

← LLM Watch トップへ

類似投稿

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です