IBMは2025年5月、メインフレーム「z17」にAI推論アクセラレーター「Spyre」を統合し、1日4500億回のトランザクション推論を単一システム上で実現すると発表した。これは金融機関の与信判断や不正検知において、クラウド往復を排除したリアルタイムAI処理を可能にする。業界構造の視点から見ると、この動きはエッジAIでもクラウドAIでもない「トランザクショナルAI」という第三のレイヤーを定義する試みである。

背景:メインフレームがAI基盤として再浮上する必然

世界の基幹トランザクションの70%は現在もメインフレーム上で稼働している。年間処理量は約1.3兆トランザクションに達し、クレジットカード決済、航空予約、証券取引などが含まれる。これらの処理にAI推論を組み込む場合、従来はオフプレミスのGPUクラスターにデータを転送する必要があった。IBMの発表資料によると、この往復レイテンシが1件あたり平均80ミリ秒であり、高頻度取引では許容できない遅延となる。z17のSpyreアクセラレーターはデータ移動を排除し、IBM Telum IIプロセッサーとLPDDR5メモリーによるメモリー統合型推論を実現する。これによりクレジットカードの不正検知を1ミリ秒未満で完了させる性能を達成したとIBMは主張している。

同時に、IBMは6750億パラメータの大規模言語モデルをメインフレーム上で動作させる技術も開示した。この数値はMetaのLlama 3.1(4050億パラメータ)を上回り、単一筐体内で動作可能なLLMとしては公表されている中で最大規模である。メインフレームのAI基盤化は、クラウド一極集中だった大規模言語モデルの推論環境にオルタナティブをもたらす。

構造:3層からなる垂直統合型AI供給網の構築

IBMの戦略は半導体、ソフトウェア、Watsonxの3層にわたる垂直統合である。第1層はTelum IIプロセッサーとSpyreアクセラレーターからなるカスタムシリコンである。TSMCの5nmプロセスで製造されたTelum IIは8コア、5.5GHz動作、オンチップに40MBの専用AIキャッシュを搭載する。第2層はz/OS 3.2のAI制御レイヤーで、COBOLやPL/Iで記述された既存アプリケーションからPythonやREST API経由でAI推論を呼び出せる。これにより、レガシーアプリケーションの書き換えを伴わないAI統合が可能になる。第3層はwatsonx.aiとwatsonx.governanceから構成されるモデル管理基盤である。

この垂直統合の特徴は、NVIDIA依存からの戦略的離脱にある。IBMは2023年からNVIDIAとの協業を継続しつつも、Spyreでは自社設計のアクセラレーターを採用した。AI Economistの試算によると、生成AIの推論コストはパブリッククラウドのGPUインスタンスが100万トークンあたり約0.5〜3ドルであるのに対し、オンプレミスの独自アクセラレーターは長期的に5分の1以下になると見込まれている。AI推論のコスト構造が変わり始めている。

メインフレーム市場全体では、2024年の世界売上高が約53億ドル、2030年には65億ドルに拡大するとIDCは予測している。IBMのメインフレームシェアは96%以上であり、事実上の独占供給網である。さらにIBMは、メインフレーム上でのAIワークロードが2030年までに年間830億円規模のTAMを形成するとの社内予測を一部アナリスト向けに開示した。この数字にはハードウェア、ソフトウェアライセンス、コンサルティングが含まれる。

影響:クラウドネイティブAIへの再考を迫る

メインフレームのAI統合は、3つのレイヤーに波及効果を持つ。第1にGPUクラウド市場である。AWS、Microsoft Azure、Google Cloudの推論APIサービスは、メインフレーム上のミッションクリティカルなAI推論と直接競合することになる。第2にAIガバナンス領域である。金融規制当局はAIモデルの説明可能性と監査証跡を求めている。IBMのz/OS上でのAI推論は、トランザクションログとAI推論ログを単一のWLM(ワークロードマネージャー)で管理できるため、監査対応コストの低減が期待される。第3に人材市場である。COBOLエンジニアの平均年齢が60歳を超える中、AI統合によるシステム刷新は若手技術者のメインフレーム回帰を促す可能性がある。

日本市場への影響も大きい。日本のメガバンク3行と主要生損保の基幹システムはIBMメインフレーム上で稼働しており、2027年度のシステム更新が集中する。金融庁の「金融分野におけるAI活用に関するガイドライン」が2025年度中に改定される予定であり、IBMのオンプレミスAI推論はデータ越境規制への準拠を容易にする選択肢として浮上する。NTTデータはすでにz/OS上のAI推論に対応したSIサービスを2026年度からの提供に向けて準備中である。

今後の論点:AI推論レイテンシの経済学

IBMのメインフレームAI戦略が実体化するにつれ、AI推論のレイテンシとコストを天秤にかける「推論立地論」がAI産業の新たな分析フレームになる。モデルサイズが1000億パラメータを超える段階で、推論インフラの立地選択は純粋なコスト比較では決まらなくなる。1ミリ秒の遅延が1億ドルの損失になりうる金融取引では、コストよりレイテンシが優先される。一方、文書要約やコード生成ではクラウドの弾力性が競争力を持つ。この「レイテンシ感応度」によるワークロードの棲み分けが、2026年までに明確になると予想される。

投資家の視点では、IBMのR&D費は2024年実績で約72億ドルであり、そのうちAI関連が約28%を占める。Spyreの開発費は推定8億〜12億ドルとされ、回収にはメインフレームのAIワークロード移行率がカギとなる。現在約1.3兆トランザクションのうち、AI推論を必要とする割合は2025年時点で約3%と推定されるが、IBMは2030年までに15%への上昇を見込む。この15%が830億円の根拠である。

最後に、AIアクセラレーターの自社設計というIBMの選択は、NVIDIAのH100/B200に依存するクラウド事業者とは異なるハードウェア戦略の分岐を示している。GoogleのTPU、AWSのTrainiumに続き、IBMのSpyreが独自アクセラレーター市場に加わることで、AI半導体の供給網はさらに多極化する。この多極化がAI推論コスト全体を低下させるのか、あるいは相互運用性の欠如によるロックインを強めるのか、2026年の実稼働データが最初の判断材料となる。