オープンソースのAI推論エンジン「llama.cpp」に、DeepSeek-OCR 2と呼ばれる新しい画像認識モデルへの対応が追加されました。これにより、利用者はスキャンした書類やスクリーンショットから、より正確に文字情報を抽出できるようになります。とくに複雑なレイアウトの文書や、小さな文字が含まれる画像でも高い認識精度が期待できます。

この記事を一言でいうと

llama.cppがDeepSeek-OCR 2をサポートし、複数領域を同時に認識できる「マルチタイル動的解像度」機能によって、文書画像からのテキスト抽出精度が大幅に向上します。

なぜ話題なのか

llama.cppは、GPUがなくてもCPUだけで大規模言語モデルを動かせる軽量な推論エンジンとして、世界中の開発者に利用されています。これまでも画像を読み取る機能は搭載されていましたが、今回のアップデートで対応したDeepSeek-OCR 2は、一枚の画像を複数の領域に分割して個別に解析する仕組みを持ち、従来より細かい文字や複雑な文書構造にも対応できます。コードの変更内容を見ると、余分な計算を削減する最適化も同時に行われており、速度面でも改善が期待されます。

一般読者や企業にどう関係するのか

企業の業務現場では、紙の書類やPDFをデータ化するOCR(光学文字認識)の需要が依然として高い状況です。請求書処理、契約書の電子化、名刺管理など、あらゆる場面で「画像から正確に文字を取れるか」が業務効率を左右します。今回のllama.cppの更新は、こうしたOCR処理を自社サーバーやローカルPC上で完結させたい企業にとって、クラウドに依存しない選択肢を強化するものです。日本市場においても、個人情報保護の観点からデータを外部に出さずに処理したいというニーズに合致します。

AI業界の構造で見ると何が変わるのか

このアップデートが示す構造変化は、画像認識モデルと推論エンジンの分離が進んでいることです。これまでOCR機能は専用ソフトやクラウドAPIとして提供されることが主流でしたが、llama.cppのような汎用推論エンジンがマルチモーダル対応を進めることで、利用者はひとつのツールで文章生成も画像認識も完結できるようになります。これは、OpenAIやGoogleのような大手が提供する統合サービスに対抗する、オープンソース側の重要な一手といえます。また、macOS、Linux、Windows、Androidと幅広いプラットフォーム向けにビルド済みバイナリが提供されていることから、デバイスを選ばない展開力も注目すべき点です。

一次情報から確認できる事実

GitHub上のllama.cppリポジトリ(プルリクエスト#20975)から以下の事実が確認できます。DeepSeek-OCR 2のサポートが追加され、マルチタイル動的解像度に対応したこと。clip_image_f32にadd_viewsep機能が導入されたこと。両バージョンのDeepSeek-OCR実装において、不要なggml_cpy命令やno-opとなっていたggml_cont命令が削除され、処理が最適化されたこと。これらの変更はXuan-Son Nguyen氏によって共同作成されました。また、今回のリリース(b9414)では、macOS、iOS、Linux各種、Android、Windows向けのビルド済みバイナリが提供されています。

関連企業・関連技術

  • llama.cpp開発コミュニティ: 今回の変更をマージしたオープンソースプロジェクト。継続的にマルチモーダル機能を拡張中
  • DeepSeek: OCRモデルを開発したAI研究組織。画像認識分野での存在感を高めている
  • マルチタイル動的解像度技術: 画像を分割して処理する手法。高解像度画像の認識精度向上に寄与
  • マルチモーダルAI: テキストと画像を統合的に扱うAI技術。業界全体で競争が激化している領域

今後の論点

今後の焦点は、DeepSeek-OCR 2が実際の業務文書に対してどの程度の精度を発揮するのか、既存の商用OCRサービスと比較してどの位置づけになるのかという点です。また、llama.cppのマルチモーダル対応は今後も拡大すると考えられ、次にどのような画像認識モデルがサポートされるのかも開発者コミュニティの注目を集めるでしょう。ローカル環境でのOCR処理が実用的な水準に達すれば、企業のデータ処理フローに与える影響は小さくありません。