Direct Preference Optimization Beyond Chatbots カバー画像

Hugging Face が Direct Preference Optimization Beyond Chatbots をリリース ── OCRの無限ループ地獄をDPOで撲滅

HUGGING FACE

最終更新: 2026年06月03日 22:04 元記事 →

DPO(Direct Preference Optimization)といえば、チャットAIを人間の好みに合わせるためのアライメント技術というイメージが強い。でも、この技術を画像から文字を読み取るOCRの「無限ループ」バグの解決に流用するって聞いたら、ちょっと面白いと思わない?しかも効果が絶大らしい。

何が変わったのか

OCRモデルでよく発生する、同じ文字列を繰り返し出力してしまう「テキスト劣化」問題。これをSFT(教師ありファインチューニング)の後にDPOを適用することで劇的に改善した。テストしたすべてのオープンソースモデルファミリで劣化率が下がり、平均59.4%減、最大で87.6%減を記録。具体的にはNanonets-OCR2–3Bモデルで、劣化率が1.61%から0.20%まで落ちている。画期的なのは、人間の主観的な評価ではなく、モデル自身が出した「正しい文字起こし」と「無限ループした失敗作」のペアをそのままDPOの学習データにした点。これにより、SFT単体では突破できなかった「本番環境で許容できるレベル」への品質改善が実現した。

前モデル / 競合との比較

従来のSFT単体でも劣化率は下がるが、本番環境で使えるレベルまで到達するのは稀だった。SFTはトークンごとの予測を評価するため、反復ループを「出力レベルの失敗」として明確にペナルティを与えられないのが原因。今回の手法はSFTの後にDPOを追加し、出力全体を評価。劣化を明確な「間違い」としてラベル付けすることで、全テストモデルで例外なく劣化率を改善している。

技術背景と意義

画像からテキストを抽出するOCRモデルは、時折まるで壊れたレコードのように同じ単語を永遠に繰り返すバグを起こす。従来のSFTは「次はこの単語」とトークン単位でコツコツ教える手法だから、「文章全体がループしている」というレベルの粗相には気づけないのだ。そこでDPOの出番。DPOは「この出力は良し」「こっちはダメ」と、結果をまるごと比較させる仕組み。モデル自身が引き起こした無限ループの失敗作を「ダメな例」として学習させることで、AIに「こういう出力はしちゃいけないんだな」と構造的に気づかせることに成功した。

こんな人・用途に

契約書や帳票のデジタル化など、大規模なOCR処理で無限ループによるシステム停止を防ぎたい開発者。SFTだけでは限界を感じており、本番環境で耐えうる精度を引き出したいAIエンジニア。

入手方法・リンク

今回の手法を活用した「DharmaOCR」はHugging Faceで公開されている。詳細な論文やベンチマークも合わせて確認可能。

SOURCE: Hugging Face (2026-06-03)

← LLM Watch トップへ

類似投稿

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です