大規模言語モデルを個人のパソコンで動かす試みは、GPUの枚数が増えるほど「どう分割するか」という微妙な設計判断に左右される。llama.cpp の最新ビルド b9434 では、Qwen 3.5 や 3.6 を3枚のGPUで動かす際のテンソル並列(TP)処理が修正された。一見小さな変更だが、マルチGPU推論の安定性に直結する調整だ。
この記事を一言でいうと
オープンソースのLLM推論フレームワーク「llama.cpp」が、Qwen 3.5/3.6系モデルを3GPU構成で実行する際のテンソル並列の分割粒度を修正した。特定の条件で発生していた「afmoe(適応的融合MoE)」の不整合が解消される。
なぜ話題なのか
llama.cpp は、Apple Silicon から NVIDIA GPU、さらには Vulkan や ROCm まで多様なハードウェアに対応する推論エンジンだ。クラウドを使わずローカルでLLMを動かす需要が広がるなか、マルチGPU環境の安定性は開発者コミュニティの死活問題といえる。
Qwen 3.5/3.6 は MoE(Mixture of Experts)アーキテクチャを採用しており、モデル内部で複数の「専門家」ネットワークを切り替えながら推論する。テンソル並列でモデルを分割する際、この MoE 構造とGPU間の分割粒度が一致しないと、計算結果にずれが生じたり、メモリ配置が非効率になったりする。今回の修正は、3GPU構成で生じていたそうした「歯車のずれ」を補正するものだ。
一般読者や企業にどう関係するのか
ローカルLLM推論は、データを外部に送れない企業や研究機関にとって不可欠な選択肢になりつつある。医療記録、契約書、社内技術文書などを扱う場合、API経由のクラウド推論ではなく、自社サーバー内で完結できることの価値は大きい。
マルチGPU環境はコスト面ではハードルがあるが、中古のデータセンター向けGPUや複数枚のコンシューマ向けGPUを組み合わせて使うケースも増えている。Qwenシリーズは中国・アリババクラウド発のモデルだが、日本語を含む多言語対応が評価されており、日本国内でもローカル推論の選択肢として注目されている。
とくに3GPU構成は、4GPUの一歩手前としてコストと性能のバランスを狙う構成だ。今回の修正によって、この「3枚挿し」の安定性が向上する点は、予算制約のある中小企業や個人開発者にとって実用的な意味を持つ。
AI業界の構造で見ると何が変わるのか
この修正が示すのは、大規模モデルの推論インフラが「クラウドAPI」と「ローカル推論エンジン」の二極で成熟しつつある現状だ。llama.cpp のようなコミュニティ主導プロジェクトが、Qwenのような特定モデル向けに最適化を積み重ねる動きは、NVIDIA の CUDA エコシステムだけに依存しない「マルチバックエンド推論」の地力をつける。
MoEモデルは GPT-4 や Gemini など商用APIの背後でも採用が広がっているが、ローカル推論での対応はまだ発展途上にある。afmoe のような適応的融合手法を正しく動作させるためのパッチが継続的に必要とされている事実は、MoE推論の最適化が今後の競争領域になることを示唆する。
一次情報から確認できる事実
- llama.cpp ビルド b9434 において、Qwen 3.5 および 3.6 向けにテンソル並列の粒度(granularity)が修正された
- 修正は 3GPU 構成での動作を対象としている
- afmoe(適応的融合MoE)に関するテンソル並列の修正も同時に行われている
- KleidiAI 有効版(macOS Apple Silicon)と SYCL FP32 版(Ubuntu x64)は今回のビルドで無効化されている
- 各プラットフォーム(macOS arm64/x64、iOS、Ubuntu各種、Windows各種、Android)向けのバイナリが同時にリリースされている
関連企業・関連技術
- llama.cpp: Meta の LLaMA モデル向けに始まった C++ 推論フレームワーク。現在は多様なモデルアーキテクチャに対応
- Qwen(通義千問): アリババクラウドが開発する大規模言語モデルシリーズ。MoEアーキテクチャを採用する 3.5/3.6 が最新版
- afmoe(Adaptive Fusion MoE): MoEモデルの専門家ネットワークを適応的に融合する手法。推論効率と精度の両立を狙う
- テンソル並列(TP): モデルの重み行列を行方向や列方向に分割し、複数GPUに分散配置する並列化手法
今後の論点
- 4GPU以上の構成や、3GPUかつ異種GPU混在環境での動作検証は行われているか
- Qwen以外のMoEモデル(MixtralやDeepSeek等)への波及効果はあるか
- KleidiAIやSYCL対応が無効化された理由は何か。今後の再開時期は
- マルチノード分散とテンソル並列の組み合わせ時に、同様の粒度問題が発生しないか