基盤モデル公式発表 official_blog Hugging Face Blog 原文公開: 2026/06/03 掲載: 2026/06/06

チャットボット以外でも成果を上げる直接選好最適化──OCR分野でテキスト崩壊率を6割削減

Knowledge Path

このニュースを理解するための知識

記事を読む前に、関連する用語、企業、業界マップを押さえると、ニュースの意味が立体的に見えてきます。

Wiki トークン AIモデルが文章を処理するための最小単位。入力長、料金、推論速度、文脈理解に関係する。 Wiki ファインチューニング 既存モデルに追加学習を行い、特定業務や文体、領域に合わせて調整する方法。 Company Hugging Face 企業DBで事業、競合、関連StoryGraphを見る Company SoftBank 企業DBで事業、競合、関連StoryGraphを見る Industry Map Hugging Face 開発者エコシステム Hugging Faceはオープンモデル提供元と企業AI基盤を接続し、モデル配布と開発者ツールの中心になっている。

チャットボット以外でも成果を上げる直接選好最適化──OCR分野でテキスト崩壊率を6割削減 — 画像出典：Hugging Face Blog

なぜ重要か

対話AI向けの調整手法DPOが、OCRの客観的エラー削減に転用できると実証されたことで、請求書処理など実務への導入障壁が下がる。正誤が明確なタスク全般で、教師あり学習の限界を補う標準工程としてDPOが組み込まれれば、AI活用の信頼性基準が書き換わる。

Key Points

この記事の要約

対話AIの調整手法DPOが、OCRの客観的な出力エラー修正にも有効だと実証された。

教師あり学習だけでは防げなかったテキスト崩壊を、モデル自身の失敗データで平均6割削減している。

正誤が明確なタスク全般で、SFTの限界を補う後工程としてDPOが標準化する可能性がある。

掲載日: 2026/06/06 原文公開日: 2026/06/03 一次情報種別: official_blog 一次情報を確認

構造

この記事が示す産業構造

対話AIの調整手法DPOが、OCRの客観的な出力エラー修正にも有効だと実証された。

関係企業

クラウド、モデル、供給網上の位置

Company DBとStoryGraphで、供給網上の位置を確認できます。

変化

何が変わるか

教師あり学習だけでは防げなかったテキスト崩壊を、モデル自身の失敗データで平均6割削減している。

次の論点

次に見るべきポイント

正誤が明確なタスク全般で、SFTの限界を補う後工程としてDPOが標準化する可能性がある。

大規模言語モデルの調整手法として知られる「直接選好最適化（DPO）」が、チャットボットの対話品質向上以外の領域で明確な効果を示した。ブラジルポルトガル語のOCR（光学文字認識）タスクにおいて、モデルがテキストを正常に出力できず繰り返しループに陥る「テキスト崩壊」現象に対し、DPOを適用することで平均59.4％の削減を達成している。

この記事を一言でいうと

教師ありファインチューニングだけでは取り除けなかったOCRモデルの反復出力エラー「テキスト崩壊」に対し、DPOを追加で実施することで、テストした全モデルでエラー発生率が低下した。平均削減率は59.4％、最大で87.6％に達した。

なぜ話題なのか

従来、DPOは人間の好みや対話の安全性・有用性に関するデータを用いてチャットモデルの挙動を調整する手法として知られてきた。今回のケースでは、会話のような主観的な評価基準が存在せず、正しい文字起こしと異常な繰り返し出力という明確な二項対立を学習信号として利用している点が新しい。また、学習データはモデル自身が失敗した際の出力から生成されており、外部の人手評価ではなくモデルの欠陥そのものを改善に転用している点が注目される。

一般読者や企業にどう関係するのか

OCRは請求書処理や契約書のデジタル化、行政文書の電子化といった業務の基盤技術であり、出力の信頼性は業務効率や後続の自動処理の精度に直結する。テキスト崩壊のような予測困難なエラーはシステム全体の稼働率を損なうため、DPOによる障害削減は企業の実運用において直接的な価値を持つ。日本語文書を扱う際にも文字種やレイアウトの複雑さから類似の崩壊現象が起こり得るため、国内企業が高性能OCRを内製またはカスタマイズする局面でDPOの適用は検討に値する。

AI業界の構造で見ると何が変わるのか

今回の成果は、DPOが「対話AIの価値観調整」専用という位置づけを超え、タスク固有の客観的な失敗を直接修正する学習段階として機能することを示している。OCRに限らず、音声認識や機械翻訳、コード生成など、正誤が明確に定義できるタスク全般で、SFTの限界を突破する後工程としてDPOが標準化する可能性がある。教師あり学習ではトークン単位の評価しか行わないため、系列全体としての失敗を捉えられない構造的な課題があり、DPOはその補完手段となる。

一次情報から確認できる事実

評価対象はオープンソースと商用を含む主要な視覚言語モデル群
ブラジルポルトガル語の構造化文書抽出タスクにおけるテキスト崩壊率を計測
教師ありファインチューニング後の時点で、テキスト崩壊率はモデルによって1％未満から33％超までばらつく
同一文書・同一モデルに対してDPOを追加適用したところ、全モデルでテキスト崩壊率が低下
平均削減率は59.4％、最大削減率は87.6％（Nanonets-OCR2–3Bにおいて1.61％→0.20％）
DPOの選好データは正しい文字起こし（選択）と崩壊ループ出力（拒否）で構成され、モデル自身の失敗出力に基づく

今後の論点

他の客観的タスク（音声認識、翻訳、コード生成）でのSFT＋DPOの有効性検証
テキスト崩壊以外の失敗モード（幻覚出力、構造逸脱）へのDPO拡張可能性
SFTでは崩壊率を一定以下に抑えられない根本原因の理論的解明
日本語を含む多言語文書での再現性評価と商用OCRサービスへの実装動向

Knowledge Graph

一次情報

種別: official_blog / 公式発表: Hugging Face Blog / 原文公開: 2026/06/03 / 掲載: 2026/06/06

URL: https://huggingface.co/blog/Dharma-AI/direct-preference-optimization-beyond-chatbots

一次情報方針構造分析手法編集方針

一次情報を確認 →

Industry Map

次に読むべき3本

基盤モデル 金融決済の“行動パターン”をAIが学習する時代へ──NVIDIAが取引基盤モデルの構築手法を公開 基盤モデル 医療AIの「聞き間違い」をどう防ぐか──合成音声で評価を高速化するNVIDIAの新手法 基盤モデル ChatGPTの「健康相談」、無料ユーザーにも高度な判断力が届く構造に

チャットボット以外でも成果を上げる直接選好最適化──OCR分野でテキスト崩壊率を6割削減

このニュースを理解するための知識

なぜ重要か

この記事の要約

この記事が示す産業構造

関連する企業

クラウド、モデル、供給網上の位置

何が変わるか

次に見るべきポイント

この記事を一言でいうと

なぜ話題なのか

一般読者や企業にどう関係するのか

AI業界の構造で見ると何が変わるのか

一次情報から確認できる事実

関連企業・関連技術

今後の論点

関連する知識

Wikiで理解する

企業DBで見る

StoryGraphで構造を見る

一次情報

関連する業界構造を見る

次に読むべき3本

この記事も読まれています

このニュースを理解するための知識

なぜ重要か

この記事の要約

この記事が示す産業構造

関連する企業

クラウド、モデル、供給網上の位置

何が変わるか

次に見るべきポイント

この記事を一言でいうと

なぜ話題なのか

一般読者や企業にどう関係するのか

AI業界の構造で見ると何が変わるのか

一次情報から確認できる事実

関連企業・関連技術

今後の論点

関連する知識

Wikiで理解する

企業DBで見る

StoryGraphで構造を見る

一次情報

関連する業界構造を見る

次に読むべき3本

関連記事

金融決済の“行動パターン”をAIが学習する時代へ──NVIDIAが取引基盤モデルの構築手法を公開

医療AIの「聞き間違い」をどう防ぐか──合成音声で評価を高速化するNVIDIAの新手法

ChatGPTの「健康相談」、無料ユーザーにも高度な判断力が届く構造に

GPT‑5.4が創薬化学の難反応を改善、自律型AI実験室が研究の「相棒」に

稀な遺伝病の診断にAI推論モデルが進展、未解決事例から18件の新たな診断を導く

ラック単位で推論コストが10分の1に──CoreWeaveがNVIDIA Vera Rubinで示すAIインフラの新水準

この記事も読まれています