llama.cppがIBM発のSSM拡張をマージし大規模言語モデル推論の多様性が加速する

この記事の要約

IBMがモデル提供ではなく推論エンジンの基盤レイヤーに直接貢献した点に、AI産業の供給網におけるレイヤー間の競争再編が表れている。

Transformer以外のアーキテクチャへの対応強化は、エッジAIやオンデバイス推論の覇権をめぐるハードウェア戦略にも波及する布石となる。

このマージは、特定のAIモデルではなく、多様なアーキテクチャを支える共通推論基盤の重要性が高まっている流れを示している。

AI業界の推論基盤として急速に普及しているオープンソースプロジェクト「llama.cpp」が、ビルド番号b9204においてIBMの研究開発部門による新機能を統合した。今回マージされたプルリクエスト#23017は、状態空間モデル（SSM）の畳み込み次元を従来の最大値から15まで拡張する内容である。IBMのGabe Goodhart氏が署名し、AI補助なしの完全人力開発として提出されたこの変更は、MambaやStripedHyenaといった新興アーキテクチャの推論性能を底上げする構造的な布石となる。

背景：SSMアーキテクチャとTransformer代替の潮流

AI業界では2023年以降、Transformerアーキテクチャに代わる効率的なモデル設計への投資が急増している。中でもSSMは、シーケンス長に対する計算複雑性が線形である特性から、長文処理や低レイテンシ推論で優位性を発揮する。カーネギーメロン大学とTogether AIが開発したMamba、Together Computerが発表したStripedHyena、ColtLabのMambaVisionなどが代表例である。

これらのモデルが実運用に乗るには、GPUやNPU上で動作する推論ランタイムの対応が不可欠だ。llama.cppはその中核的役割を担っており、GGMLテンソルライブラリ上でCUDAやVulkan、SYCLなどを通じて多様なハードウェアに対応している。今回の変更は、SSMのパラメータ表現を規定するd_conv値を拡張し、より複雑な状態空間演算をGPUカーネル上で直接処理できるようにするものだ。

構造：IBMのコントリビューションが示す推論レイヤーの再編

このプルリクエストがマージされたブランチ「ModalityConditionalAdapters」は、マルチモーダル適応器の条件付き処理を目的としている。IBMはGraniteモデルシリーズで知られるが、今回の貢献はモデルそのものではなく、推論エンジンの下層を拡張する点に特徴がある。

畳み込み次元の拡張は、一見すると小さなパラメータ調整に見える。しかし、SSMの文脈では状態遷移行列の表現力に直結し、言語だけでなく画像や音声のモダリティ条件付き設計に影響を与える。IBMがこの領域にコミットした事実は、同社がHugging FaceのTransformersライブラリやvLLMとは異なる推論レイヤーを重視している戦略を示唆する。

加えてb9204のリリースバイナリ群を見ると、ROCm 7.2やOpenVINO 2026.0、SYCL FP32/FP16といったエッジからエンタープライズまでを網羅する提供が確認できる。SSMの効率的推論は特定のGPUアーキテクチャに依存しないC++実装との親和性が高く、llama.cppのマルチバックエンド戦略と合致する。

影響：モデル多様化が推論基盤の再設計を促す

現在のAI産業は、OpenAIのGPT-4oやGoogleのGemini 2.5 Proのような大規模Transformerモデルが注目を集める一方、エッジデプロイ向けには小型化とアーキテクチャ多様化が並行して進行している。Qualcomm、Apple、SamsungはオンデバイスAIのための推論エンジン開発を加速しており、SSM系モデルはその候補として位置づけられている。

llama.cppがSSMサポートを強化することは、ハードウェアベンダーの投資判断にも波及する。NVIDIAのCUDA独占が続くデータセンター向けと異なり、エッジ領域ではMediaTekやRockchipといったArm系SoCメーカーがSSMの線形計算特性を活かしたNPU設計を模索している。日本市場においては、Preferred NetworksのMN-CoreやソニーセミコンダクタソリューションズのエッジAIプラットフォームAITRIOSが、こうした推論ランタイムの多様化から間接的に恩恵を受ける可能性がある。

今後の論点：SSMネイティブアクセラレーションの可否

今回の変更はCUDA向けカーネル「ssm-conv.cu」の機能拡張にとどまるが、次の焦点はVulkanやOpenVINOバックエンドへの波及である。AndroidやiOS向けバイナリが既に提供されていることから、モバイルデバイス上でのSSM推論性能が今後のベンチマーク指標となる。

また、d_conv=15という値が実用上どのモデルで必要とされるのか、公開されているSSM系モデルのパラメータ調査が待たれる。Mamba-2の論文ではd_conv=4が標準であり、15という値は研究段階の大規模モデルやマルチモーダル融合層を想定している可能性が高い。

IBMがこの機能を必要とする独自モデルを開発中かどうかは未発表だが、Graniteシリーズの次世代アーキテクチャに関するシグナルとして注視すべきである。推論エンジンの進化は、モデルアーキテクチャの自由度を規定する。llama.cppの今回の決断は、AI産業の重心がモデル開発から推論最適化へと移行しつつある現状を映し出している。