Direct Preference Optimization Beyond Chatbots カバー画像

Hugging Face

Hugging Face が Direct Preference Optimization Beyond Chatbots をリリース ── OCRの無限ループ地獄をDPOで撲滅

ByLLM Watch編集部 2026年6月3日

HUGGING FACE

最終更新: 2026年06月03日 22:04　元記事 →

DPO（Direct Preference Optimization）といえば、チャットAIを人間の好みに合わせるためのアライメント技術というイメージが強い。でも、この技術を画像から文字を読み取るOCRの「無限ループ」バグの解決に流用するって聞いたら、ちょっと面白いと思わない？しかも効果が絶大らしい。

▸何が変わったのか

OCRモデルでよく発生する、同じ文字列を繰り返し出力してしまう「テキスト劣化」問題。これをSFT（教師ありファインチューニング）の後にDPOを適用することで劇的に改善した。テストしたすべてのオープンソースモデルファミリで劣化率が下がり、平均59.4%減、最大で87.6%減を記録。具体的にはNanonets-OCR2–3Bモデルで、劣化率が1.61%から0.20%まで落ちている。画期的なのは、人間の主観的な評価ではなく、モデル自身が出した「正しい文字起こし」と「無限ループした失敗作」のペアをそのままDPOの学習データにした点。これにより、SFT単体では突破できなかった「本番環境で許容できるレベル」への品質改善が実現した。

◈前モデル / 競合との比較

従来のSFT単体でも劣化率は下がるが、本番環境で使えるレベルまで到達するのは稀だった。SFTはトークンごとの予測を評価するため、反復ループを「出力レベルの失敗」として明確にペナルティを与えられないのが原因。今回の手法はSFTの後にDPOを追加し、出力全体を評価。劣化を明確な「間違い」としてラベル付けすることで、全テストモデルで例外なく劣化率を改善している。

◈技術背景と意義

画像からテキストを抽出するOCRモデルは、時折まるで壊れたレコードのように同じ単語を永遠に繰り返すバグを起こす。従来のSFTは「次はこの単語」とトークン単位でコツコツ教える手法だから、「文章全体がループしている」というレベルの粗相には気づけないのだ。そこでDPOの出番。DPOは「この出力は良し」「こっちはダメ」と、結果をまるごと比較させる仕組み。モデル自身が引き起こした無限ループの失敗作を「ダメな例」として学習させることで、AIに「こういう出力はしちゃいけないんだな」と構造的に気づかせることに成功した。

▸こんな人・用途に

契約書や帳票のデジタル化など、大規模なOCR処理で無限ループによるシステム停止を防ぎたい開発者。SFTだけでは限界を感じており、本番環境で耐えうる精度を引き出したいAIエンジニア。

◆入手方法・リンク

今回の手法を活用した「DharmaOCR」はHugging Faceで公開されている。詳細な論文やベンチマークも合わせて確認可能。

公式発表を読む

SOURCE: Hugging Face (2026-06-03)

← LLM Watch トップへ

Hugging Face

NVIDIA が Nemotron 向け合成Q&A生成手法を公開 ── GPQAで+11.1の劇的改善
ByLLM Watch編集部 2026年6月4日

NVIDIAのNemotron学習向け合成Q&A生成手法がGPQAで+11.1向上。約70タスクから高品質な学習データを自動生成するパイプラインを詳解。

続きを読む NVIDIA が Nemotron 向け合成Q&A生成手法を公開 ── GPQAで+11.1の劇的改善
OpenAI

OpenAI が GPT-5.6 をリリース ── トークンの知能と圧倒的コスパを両立
ByLLM Watch編集部 2026年7月10日

OpenAIの最新モデル「GPT-5.6」が登場。トークンごとの知能向上と1ドルあたりのパフォーマンス強化により、低コストで高度なタスクを処理可能に。

続きを読む OpenAI が GPT-5.6 をリリース ── トークンの知能と圧倒的コスパを両立
Hugging Face

Hugging Face が Bringing Robotics AI to Embedded Platforms: Dataset Recording, VLA Fine‑Tuning, and On‑Device Optimizations をリリース ── エッジデバイスでのVLA実装、システム設計が鍵に
ByLLM Watch編集部 2026年3月6日2026年3月10日

NXP、Hugging FaceでVLAモデルのエッジ展開ガイドを公開。非同期推論とデータ収集の極意。

続きを読む Hugging Face が Bringing Robotics AI to Embedded Platforms: Dataset Recording, VLA Fine‑Tuning, and On‑Device Optimizations をリリース ── エッジデバイスでのVLA実装、システム設計が鍵に
Hugging Face

Hugging Face が Cohere の開発者向けモデル North Mini Code をリリース ── 3Bのアクティブパラメータで120B超えの巨大モデルをぶっちぎるコーディング特化MoE
ByLLM Watch編集部 2026年6月10日

Cohereがリリースしたコーディング特化モデル「North Mini Code」。3Bのアクティブパラメータで120B超えのモデルを凌駕する驚異の性能を実現。

続きを読む Hugging Face が Cohere の開発者向けモデル North Mini Code をリリース ── 3Bのアクティブパラメータで120B超えの巨大モデルをぶっちぎるコーディング特化MoE
OpenAI

OpenAI が A shared playbook for trustworthy third party evaluations をリリース ── フロンティアモデルの第三者評価をどう行うか指南
ByLLM Watch編集部 2026年5月30日

OpenAIが最先端AIモデルの安全性を確認するための第三者評価ガイドラインを公開。モデルの能力やセーフガードの評価方法を解説。

続きを読む OpenAI が A shared playbook for trustworthy third party evaluations をリリース ── フロンティアモデルの第三者評価をどう行うか指南
OpenAI

OpenAI が Codex for every role, tool, and workflow をリリース ── 開発者以外のあらゆる職種向けに進化
ByLLM Watch編集部 2026年6月3日

OpenAIがCodexを大幅アップデート。pluginsやannotationsの追加により、アナリストやマーケターなど全職種のワークフローを支援する新展開。

続きを読む OpenAI が Codex for every role, tool, and workflow をリリース ── 開発者以外のあらゆる職種向けに進化

コメントを残すコメントをキャンセル