PaddleOCR 3.5: Running OCR and Document Parsing Tasks with a Transformers Backend カバー画像

Hugging Face

PaddlePaddle が PaddleOCR 3.5 をリリース ── Transformers を推論バックエンドに指定できるようになった

ByLLM Watch編集部 2026年5月19日

HUGGING FACE

最終更新: 2026年05月19日 01:02　元記事 →

OCRって地味にしんどい処理の代表格。特にRAGパイプラインを組むとき、PDFや画像から正確にテキストを抜く段階で鬼のように苦労する。PaddlePaddleチームが発表したPaddleOCR 3.5は、そんな前処理の悩みに真正面から切り込んでいる。最大のポイントはHugging Face Transformersを推論バックエンドとして使えるようになったこと。

▸何が変わったのか

推論エンジンのインターフェースが大幅に柔軟になった。`engine=”transformers”` と設定するだけで、対応するPaddleOCRモデルがTransformersバックエンドで動く。細かな設定は `engine_config` にまとめられて、dtype、デバイス配置、アテンションの実装方法まで制御可能。PP-OCRv5（OCRシリーズ）とPaddleOCR-VL 1.5（ドキュメント解析シリーズ）というモデル群が提供されている。パイプライン自体はPaddleOCR側が管理してくれるので、内部コンポーネントを一つずつ手動で呼ぶ必要はない。

◈前モデル / 競合との比較

前バージョンまでの推論バックエンドはPaddleの静的グラフ・動的グラフが主流だった。3.5では新たにTransformersがバックエンド選択肢に加わり、Hugging Face環境との親和性が大きく上がっている。

◈技術背景と意義

RAGやDocument AIで本当にむずかしいのは、LLMにデータを渡す前の「取り込み（ingestion）」の工程。PDF、スキャン文書、表、チャート、数式、複雑なレイアウト……これらを正確に構造化データに変換しないと、下流のLLMは間違ったコンテキストを拾ったり、 unreliable な回答を出したりする。PaddleOCRは PP-OCRv5 と PaddleOCR-VL 1.5 でこの文書取り込みに対応。今回Transformersバックエンドが加わったことで、Hugging Face中心の開発スタックに自然に組み込める。

▸こんな人・用途に

RAGシステムを構築していて、PDFや画像からの文書取り込みに苦戦している開発者。Hugging Faceエコシステム中心にツールを揃えていて、OCRも同じスタックにまとめたいチーム。Document AIパイプラインで表・チャート・数式を含む複雑なレイアウトを扱う必要がある案件。

◆入手方法・リンク

Hugging Face Spacesでライブデモが公開されている。実際に触って挙動を確認できる（https://huggingface.co/spaces/PaddlePaddle/paddleocr-3.5-transformers-demo）。

公式発表を読む

SOURCE: Hugging Face (2026-05-18)

← LLM Watch トップへ

Hugging Face

Hugging Face が Build an Agent That Thinks Like a Data Scientist: How We Hit #1 on DABStep with Reusable Tool Generation をリリース
ByLLM Watch編集部 2026年3月13日

Hugging FaceのBuild an Agent That Thinks Like a Data Scientist: How We Hit #1 on DABStep with Reusable Tool Generationリリース情報

続きを読む Hugging Face が Build an Agent That Thinks Like a Data Scientist: How We Hit #1 on DABStep with Reusable Tool Generation をリリース
Hugging Face

Hugging Face が IBM and UC Berkeley Diagnose Why Enterprise Agents Fail Using IT-Bench and MAST を紹介 ── エージェントが仕事でドツボにハマる理由を解明
ByLLM Watch編集部 2026年2月27日2026年3月10日

IBMとUCバークレーが企業向けAIエージェントの失敗要因を分析。IT-BenchとMASTを使った新研究を紹介。

続きを読む Hugging Face が IBM and UC Berkeley Diagnose Why Enterprise Agents Fail Using IT-Bench and MAST を紹介 ── エージェントが仕事でドツボにハマる理由を解明
Hugging Face

Hugging Face が IBMとUCバークレーの新研究を紹介 ── 企業のAIエージェントが失敗する「本当の理由」がついに判明
ByLLM Watch編集部 2026年2月27日2026年3月10日

企業のAIエージェントが失敗する理由を診断。IBMとUCバークレーがMASTとIT-Benchを公開

続きを読む Hugging Face が IBMとUCバークレーの新研究を紹介 ── 企業のAIエージェントが失敗する「本当の理由」がついに判明
OpenAI

OpenAI が LifeSciBench をリリース ── 生命科学のリアルなタスクを評価する新ベンチマーク
ByLLM Watch編集部 2026年6月18日

OpenAIが生命科学のリアルな研究タスクを評価する新ベンチマーク「LifeSciBench」を発表。専門家が作成・レビューしたガチのテスト。

続きを読む OpenAI が LifeSciBench をリリース ── 生命科学のリアルなタスクを評価する新ベンチマーク
Google DeepMind

Google DeepMind が Measuring progress toward AGI: A cognitive framework をリリース
ByLLM Watch編集部 2026年3月18日

Google DeepMindのMeasuring progress toward AGI: A cognitive frameworkリリース情報

続きを読む Google DeepMind が Measuring progress toward AGI: A cognitive framework をリリース
Google DeepMind

Google DeepMind が Accelerating the frontiers of scientific discovery: Google’s $40M commitment to the Genesis Mission を発表 ── 科学発見を加速する4000万ドルのAIリソース提供
ByLLM Watch編集部 2026年7月23日

Googleが科学発見加速プロジェクト「Genesis Mission」に4000万ドルのAIリソースを提供。AlphaFold 3やAlphaEvolveなどの最先端モデルを研究者に公開。

続きを読む Google DeepMind が Accelerating the frontiers of scientific discovery: Google’s $40M commitment to the Genesis Mission を発表 ── 科学発見を加速する4000万ドルのAIリソース提供

コメントを残すコメントをキャンセル