一部のレイヤーにだけ新型の高速化機構を載せるという設計思想が、モデルを動かすための読み込み処理と衝突し、起動できない問題が起きていた。今回の修正で、構造に合わせた柔軟な読み込みが可能になり、GLM-5.2が本来の省メモリ動作で稼働するようになった。

この記事を一言でいうと

GLM-5.2は「全レイヤーではなく一部のレイヤーにだけDSA(DeepSeek-Attentionに由来する軽量インデクサー)を載せる」設計をとったが、読み込み側が全レイヤーにその部品を要求したために起動できなかった。該当テンソルを任意扱いに変更する修正が行われ、モデルが動作するようになった。

なぜ話題なのか

この問題の背景には、大規模言語モデルの推論コストを下げるための「選択的アーキテクチャ」という新しい流れがある。GLM-5.2が採用するDSA(Lightning Indexer)は、すべてのレイヤーに均一に組み込むのではなく、モデルの主要なレイヤーだけに搭載されている。DeepSeek-V3.2では全レイヤーに均一に搭載されている方式とは対照的だ。今回表面化したのは、こうしたレイヤーごとに異なる構成を取るモデルを、既存の読み込みプログラムがうまく扱えず、起動に失敗するという互換性の問題である。

一般読者や企業にどう関係するのか

企業がAIモデルを自社環境で動かす際、モデルファイルを読み込む段階でエラーが発生すると、そもそも推論を始められない。今回の事象は、GLM-5.2のGGUF形式ファイルを手元のマシンやサーバーで実行しようとした開発者・企業のAI担当者が直面した起動障害に直結する。修正後は、Apple Silicon搭載のMac、Windows(CPU / CUDA / Vulkan)、Linux(x64 / arm64 / Vulkan / ROCm / OpenVINO / SYCL)、Android、iOSなど、幅広いプラットフォームでGLM-5.2が動作可能になった。日本企業がオンプレミスやエッジ環境で中国発の最新モデルを評価・導入する際の障壁がひとつ下がったことになる。

AI業界の構造で見ると何が変わるのか

この修正が示す構造上の変化は、モデル軽量化の「部分的適用」が本格化しつつある点だ。従来の高速化手法の多くは全レイヤー均一に適用される前提で設計されていた。GLM-5.2のように「一部のレイヤーにだけ軽量化機構を入れる」設計が増えると、モデルを配布するファイル形式や読み込みライブラリの側に「レイヤーごとに構成が異なること」を前提とした柔軟性が求められるようになる。

DeepSeek-V3.2のように全レイヤーにインデクサーを載せる均一モデルと、GLM-5.2のように選択的に載せるモデルが並存することで、読み込み側の互換性担保は新たな競争軸になる。推論エンジンの開発者にとっては、ファイルフォーマット仕様の解釈やテンソル存在チェックの設計が、そのまま対応モデル数とユーザー体験を左右する時代に入ったと言える。

一次情報から確認できる事実

一次情報から確認できるのは以下の点である。

  • GLM-5.2はDeepSeek由来の軽量インデクサー(indexer)を一部レイヤー(full layers)にのみ搭載しており、それ以外のレイヤーでは省略されている。
  • 修正前の読み込み処理(GLM_DSAローダー)は、全レイヤーに5つのインデクサーテンソルを要求していたため、該当テンソルが存在しないレイヤーで読み込みエラーが発生していた。
  • モデルグラフ自体はllama_model_deepseek2::graph(プレーンなMLA)であり、現時点ではインデクサーを使わずに動作する。
  • テンソルをTENSOR_NOT_REQUIRED扱いに変更することで、インデクサーがないレイヤーはnullptrとして読み込まれ、モデルはフルMLAアテンションとして稼働する。
  • 均一にインデクサーを持つDeepSeek-V3.2はこの修正による影響を受けない。
  • 動作確認対象プラットフォームは多岐にわたり、macOS(Apple Silicon / Intel / iOS)、Linux(Ubuntu x64 / arm64 / s390x、各種アクセラレータ対応)、Android arm64、Windows(x64 / arm64、各種GPU対応)が列挙されている。OpenEuler環境は今回の対象外と明記されている。

関連企業・関連技術

  • GLMシリーズ:今回修正対象となったGLM-5.2を開発する組織。部分的DSA採用という設計判断を行った。
  • DeepSeek:DSAのベースとなったMLA(Multi-head Latent Attention)およびインデクサー技術の源流。
  • llama.cpp / GGUF:今回の読み込み問題が発生したモデルフォーマットおよび推論フレームワーク。モデル配布の共通インフラとして、部分構成への対応が重要性を増している。
  • KleidiAI:Armアーキテクチャ向けのAI推論高速化ライブラリ。macOS Apple SiliconのKleidiAI有効ビルドが確認対象に含まれている。

今後の論点

GLM-5.2のインデクサーは現時点では「ロードされるが未使用」の状態であり、DSAの本来の高速化効果はまだ有効化されていない。次の焦点は、選択的に搭載されたインデクサーを実際に推論パスで活用するランタイム実装がいつ登場するかである。実装された場合、全レイヤー均一に適用する場合と比較して、推論速度やメモリ使用量にどのような差が出るのかが性能面での評価ポイントになる。また、GGUFのような共通フォーマットが、レイヤーごとのオプショナルな構成を標準仕様としてどう扱っていくのかも、エコシステム全体の設計課題として浮上している。