PaddlePaddle が PaddleOCR 3.5 をリリース ── Transformers を推論バックエンドに指定できるようになった
OCRって地味にしんどい処理の代表格。特にRAGパイプラインを組むとき、PDFや画像から正確にテキストを抜く段階で鬼のように苦労する。PaddlePaddleチームが発表したPaddleOCR 3.5は、そんな前処理の悩みに真正面から切り込んでいる。最大のポイントはHugging Face Transformersを推論バックエンドとして使えるようになったこと。
▸何が変わったのか
推論エンジンのインターフェースが大幅に柔軟になった。`engine=”transformers”` と設定するだけで、対応するPaddleOCRモデルがTransformersバックエンドで動く。細かな設定は `engine_config` にまとめられて、dtype、デバイス配置、アテンションの実装方法まで制御可能。PP-OCRv5(OCRシリーズ)とPaddleOCR-VL 1.5(ドキュメント解析シリーズ)というモデル群が提供されている。パイプライン自体はPaddleOCR側が管理してくれるので、内部コンポーネントを一つずつ手動で呼ぶ必要はない。
◈前モデル / 競合との比較
前バージョンまでの推論バックエンドはPaddleの静的グラフ・動的グラフが主流だった。3.5では新たにTransformersがバックエンド選択肢に加わり、Hugging Face環境との親和性が大きく上がっている。
◈技術背景と意義
RAGやDocument AIで本当にむずかしいのは、LLMにデータを渡す前の「取り込み(ingestion)」の工程。PDF、スキャン文書、表、チャート、数式、複雑なレイアウト……これらを正確に構造化データに変換しないと、下流のLLMは間違ったコンテキストを拾ったり、 unreliable な回答を出したりする。PaddleOCRは PP-OCRv5 と PaddleOCR-VL 1.5 でこの文書取り込みに対応。今回Transformersバックエンドが加わったことで、Hugging Face中心の開発スタックに自然に組み込める。
▸こんな人・用途に
RAGシステムを構築していて、PDFや画像からの文書取り込みに苦戦している開発者。Hugging Faceエコシステム中心にツールを揃えていて、OCRも同じスタックにまとめたいチーム。Document AIパイプラインで表・チャート・数式を含む複雑なレイアウトを扱う必要がある案件。
◆入手方法・リンク
Hugging Face Spacesでライブデモが公開されている。実際に触って挙動を確認できる(https://huggingface.co/spaces/PaddlePaddle/paddleocr-3.5-transformers-demo)。
SOURCE: Hugging Face (2026-05-18)


