基盤モデル github_release llama.cpp GitHub Releases 原文公開: 2026/06/21 掲載: 2026/06/21

大規模言語モデル「GLM-5.2」の読み込み失敗を修正、軽量アーキテクチャ「DSA」の選択的適用が動作へ

Knowledge Path

このニュースを理解するための知識

記事を読む前に、関連する用語、企業、業界マップを押さえると、ニュースの意味が立体的に見えてきます。

Wiki AI推論 学習済みモデルに入力を与え、回答や予測を生成する実行処理。AIサービスの速度とコストを左右する。 Wiki CUDA NVIDIA GPUで汎用計算を行うための開発基盤。AI時代のNVIDIA優位を支える重要なソフトウェア資産。 Company Apple 企業DBで事業、競合、関連StoryGraphを見る Company Arm 企業DBで事業、競合、関連StoryGraphを見る Industry Map NVIDIA AIエコシステム NVIDIAはTSMCやHBMサプライヤーに支えられ、GPU、CUDA、AIサーバー基盤を通じて主要AI企業へ計算資源を供給している。

大規模言語モデル「GLM-5.2」の読み込み失敗を修正、軽量アーキテクチャ「DSA」の選択的適用が動作へ — 画像出典：llama.cpp GitHub Releases

なぜ重要か

軽量化の部分適用が現実になったことで、推論エンジン側に「層ごとに異なる構造」を前提とした読み込み設計が求められるようになった。企業のオンプレミス導入では、こうした互換性対応の遅れが中国発モデルを含む最新モデルの評価を阻む技術障壁となる。

Apple

Arm

Key Points

この記事の要約

モデル軽量化を一律ではなく必要な層だけに施す「選択的アーキテクチャ」が実用段階に入り、読み込み基盤に柔軟性を求める新たな競争軸が生まれた。

今回の修正で、MacやWindowsなど幅広い環境でGLM-5.2が動作可能となり、日本企業が中国発モデルをオンプレミス評価する際の技術障壁が一つ下がった。

推論エンジン開発者は、層ごとに異なる構造を前提としたファイル解釈や存在チェックの設計対応が、そのまま対応モデル数と開発者体験を左右する局面に入っている。

掲載日: 2026/06/21 原文公開日: 2026/06/21 一次情報種別: github_release 一次情報を確認

構造

この記事が示す産業構造

関係企業

クラウド、モデル、供給網上の位置

Apple はCompanyページとStoryGraphから、供給元、顧客、競合、技術依存を確認できます。

変化

何が変わるか

今回の修正で、MacやWindowsなど幅広い環境でGLM-5.2が動作可能となり、日本企業が中国発モデルをオンプレミス評価する際の技術障壁が一つ下がった。

次の論点

次に見るべきポイント

#nvidia #reasoning

一部のレイヤーにだけ新型の高速化機構を載せるという設計思想が、モデルを動かすための読み込み処理と衝突し、起動できない問題が起きていた。今回の修正で、構造に合わせた柔軟な読み込みが可能になり、GLM-5.2が本来の省メモリ動作で稼働するようになった。

この記事を一言でいうと

GLM-5.2は「全レイヤーではなく一部のレイヤーにだけDSA（DeepSeek-Attentionに由来する軽量インデクサー）を載せる」設計をとったが、読み込み側が全レイヤーにその部品を要求したために起動できなかった。該当テンソルを任意扱いに変更する修正が行われ、モデルが動作するようになった。

なぜ話題なのか

この問題の背景には、大規模言語モデルの推論コストを下げるための「選択的アーキテクチャ」という新しい流れがある。GLM-5.2が採用するDSA（Lightning Indexer）は、すべてのレイヤーに均一に組み込むのではなく、モデルの主要なレイヤーだけに搭載されている。DeepSeek-V3.2では全レイヤーに均一に搭載されている方式とは対照的だ。今回表面化したのは、こうしたレイヤーごとに異なる構成を取るモデルを、既存の読み込みプログラムがうまく扱えず、起動に失敗するという互換性の問題である。

一般読者や企業にどう関係するのか

企業がAIモデルを自社環境で動かす際、モデルファイルを読み込む段階でエラーが発生すると、そもそも推論を始められない。今回の事象は、GLM-5.2のGGUF形式ファイルを手元のマシンやサーバーで実行しようとした開発者・企業のAI担当者が直面した起動障害に直結する。修正後は、Apple Silicon搭載のMac、Windows（CPU / CUDA / Vulkan）、Linux（x64 / arm64 / Vulkan / ROCm / OpenVINO / SYCL）、Android、iOSなど、幅広いプラットフォームでGLM-5.2が動作可能になった。日本企業がオンプレミスやエッジ環境で中国発の最新モデルを評価・導入する際の障壁がひとつ下がったことになる。

AI業界の構造で見ると何が変わるのか

この修正が示す構造上の変化は、モデル軽量化の「部分的適用」が本格化しつつある点だ。従来の高速化手法の多くは全レイヤー均一に適用される前提で設計されていた。GLM-5.2のように「一部のレイヤーにだけ軽量化機構を入れる」設計が増えると、モデルを配布するファイル形式や読み込みライブラリの側に「レイヤーごとに構成が異なること」を前提とした柔軟性が求められるようになる。

DeepSeek-V3.2のように全レイヤーにインデクサーを載せる均一モデルと、GLM-5.2のように選択的に載せるモデルが並存することで、読み込み側の互換性担保は新たな競争軸になる。推論エンジンの開発者にとっては、ファイルフォーマット仕様の解釈やテンソル存在チェックの設計が、そのまま対応モデル数とユーザー体験を左右する時代に入ったと言える。

一次情報から確認できる事実

一次情報から確認できるのは以下の点である。

GLM-5.2はDeepSeek由来の軽量インデクサー（indexer）を一部レイヤー（full layers）にのみ搭載しており、それ以外のレイヤーでは省略されている。
修正前の読み込み処理（GLM_DSAローダー）は、全レイヤーに5つのインデクサーテンソルを要求していたため、該当テンソルが存在しないレイヤーで読み込みエラーが発生していた。
モデルグラフ自体はllama_model_deepseek2::graph（プレーンなMLA）であり、現時点ではインデクサーを使わずに動作する。
テンソルをTENSOR_NOT_REQUIRED扱いに変更することで、インデクサーがないレイヤーはnullptrとして読み込まれ、モデルはフルMLAアテンションとして稼働する。
均一にインデクサーを持つDeepSeek-V3.2はこの修正による影響を受けない。
動作確認対象プラットフォームは多岐にわたり、macOS（Apple Silicon / Intel / iOS）、Linux（Ubuntu x64 / arm64 / s390x、各種アクセラレータ対応）、Android arm64、Windows（x64 / arm64、各種GPU対応）が列挙されている。OpenEuler環境は今回の対象外と明記されている。

今後の論点

GLM-5.2のインデクサーは現時点では「ロードされるが未使用」の状態であり、DSAの本来の高速化効果はまだ有効化されていない。次の焦点は、選択的に搭載されたインデクサーを実際に推論パスで活用するランタイム実装がいつ登場するかである。実装された場合、全レイヤー均一に適用する場合と比較して、推論速度やメモリ使用量にどのような差が出るのかが性能面での評価ポイントになる。また、GGUFのような共通フォーマットが、レイヤーごとのオプショナルな構成を標準仕様としてどう扱っていくのかも、エコシステム全体の設計課題として浮上している。