対話型AIが、考えている途中で突然沈黙してしまう。そんなユーザー体験のストレスを減らす技術修正が、オープンソースの大規模言語モデル(LLM)推論エンジン「llama.cpp」に行われた。修正対象はLiquid AI社が提供する「LFM2」および「LFM2.5」モデルの推論処理。推論過程での「応答の途切れ」と「メモリ漏れ」という二つの問題が解決され、macOS、Linux、Windows、Androidにまたがる幅広い環境での動作安定性が高まった。

この記事を一言でいうと

LLM推論エンジン「llama.cpp」の最新更新で、Liquid AIのLFM2/LFM2.5モデルにおける推論中の応答途切れとメモリ漏れが修正された。macOS Apple SiliconからWindowsのCUDA環境まで、多様なプラットフォームで動作確認が進んでいる。

なぜ話題なのか

推論モデルは、単に回答を返すだけでなく、思考プロセスを段階的に出力する。この「推論の往復(reasoning round-trip)」が途中で途切れると、ユーザーは不完全な思考の断片だけを見せられることになる。今回の修正は、そうした体験の破綻に直結するバグを塞ぐものだ。また、メモリ漏れの修正は長時間稼働や連続利用での安定性を左右する。推論モデルをビジネスや開発フローに組み込む際には、この種の信頼性が実用上の最低ラインとなる。

一般読者や企業にどう関係するのか

AIを業務に導入する企業にとって、モデルの「賢さ」と同じくらい「安定して動くこと」は重要だ。推論が途中で止まる不具合があると、自動化ワークフローや社内問い合わせ対応でのエラー率が上がる。とくに日本企業では、基幹業務へのAI組み込みが慎重に進められている段階であり、実証実験の段階でこの種のバグが検出されると導入判断に影響する。LFM2のような軽量推論モデルが安定稼働することで、エッジデバイスやオンプレミス環境での採用障壁が一つ下がる可能性がある。

AI業界の構造で見ると何が変わるのか

llama.cppは、GPUを持たないコンシューマーデバイスからデータセンターのLinuxサーバーまで、単一のコードベースでLLMを動作させる事実上の共通基盤になっている。今回の修正は、推論の「フォーマット」と「テンプレート」という抽象化レイヤーを通じてゲート制御されており、特定のプラットフォーム依存ではなくロジックの問題として解決されている。このアプローチは、モデル提供側と推論エンジン側の責任境界を明確にし、マルチプラットフォーム対応の開発効率を高める構造的な改善といえる。

一次情報から確認できる事実

修正は「common/chat」モジュールに対して行われ、LFM2/LFM2.5モデルの推論往復とメモリ漏れが対象。修正は推論フォーマットとテンプレートの対応状況によって条件分岐される形で実装されている。動作確認済みプラットフォームは以下の通り。

macOS/iOS

  • macOS Apple Silicon (arm64)
  • macOS Apple Silicon (arm64, KleidiAI有効)
  • macOS Intel (x64)(iOS XCFrameworkは明示的にDISABLED)

Linux

  • Ubuntu x64 (CPU)
  • Ubuntu arm64 (CPU)
  • Ubuntu s390x (CPU)
  • Ubuntu x64 (Vulkan)
  • Ubuntu arm64 (Vulkan)
  • Ubuntu x64 (ROCm 7.2)
  • Ubuntu x64 (OpenVINO)
  • Ubuntu x64 (SYCL FP32)(DISABLED)

Android

  • Android arm64 (CPU)

Windows

  • Windows x64 (CPU)
  • Windows arm64 (CPU)
  • Windows x64 (CUDA 12) - CUDA 12.4 DLLs
  • Windows x64 (CUDA 13) - CUDA 13.3 DLLs
  • Windows x64 (Vulkan)
  • Windows x64 (SYCL) DISABLED
  • Windows x64 (HIP)

openEuler

  • DISABLED(x86 310p、x86 910b ACL Graph、aarch64 310p、aarch64 910b ACL Graphの各構成が明示的に無効化されている)

UIカテゴリも記載されているが、具体的な修正内容は示されていない。

関連企業・関連技術

  • Liquid AI:LFM2/LFM2.5モデルの開発元。MIT発のスタートアップで、液体ニューラルネットワークをベースにした軽量・高効率モデルを展開している。
  • llama.cpp:MetaのLlamaモデル向けに始まったオープンソース推論エンジン。現在は多様なモデルアーキテクチャに対応し、エッジからクラウドまで幅広い実行環境を支える。
  • KleidiAI:Armが提供するAI推論最適化ライブラリ。macOS Apple Silicon環境での性能向上に寄与する。
  • ROCm / CUDA / Vulkan / SYCL / OpenVINO:各GPUおよびアクセラレータ向けの実行バックエンド。llama.cppのマルチプラットフォーム戦略を支える技術スタック。
  • openEuler:Huawei系のオープンソースOS。今回の更新では310pや910b(ACL Graph)といった中国市場向け構成が明示的に無効化されており、特定地域向け対応の選択的進行が読み取れる。

今後の論点

  • openEuler環境でのDISABLED状態は一時的なものか、それとも技術的または戦略的な判断による恒久的なものか。
  • LFM2/2.5以外の推論モデルに対しても、同様の「推論往復ロジック」の抽象化が横展開されるか。
  • Liquid AIのモデルロードマップとllama.cppの対応スケジュールの整合性は今後どう推移するか。
  • 日本市場で需要が高いオンプレミス推論環境(とくにx86系Linuxサーバー)でのLFM2/2.5の実運用テスト結果が共有されるか。