インドの決済プラットフォームPaytmが、米国のAI推論専用プロセッサ企業Groqとの提携を発表した。この発表で注目すべきは、単なる企業間契約ではない。決済と金融サービスのリアルタイム性をAIで支えるにはGPUよりLPUが適している、という明確な技術選択が示されたことだ。
なぜ決済基盤にLPUなのか
決済システムでAI推論を使う場合、許容される遅延は数百ミリ秒以下である。Paytmはインドで4億人以上の登録ユーザーと数千万の加盟店を抱え、取引量は1日あたり数億件に達する。この規模でAIによる不正検知やリスク判定を動かすには、推論の応答速度を担保できるハードウェアが必須となる。
Groqが開発したLPUは大規模言語モデルの推論に特化したプロセッサで、一般的なGPUが抱えるメモリ帯域のボトルネックを回避する設計を採用する。Groqの公開データによれば、Llama 3.1 70Bで毎秒約300トークン、70Bのモデルでも1秒あたり約250トークンの出力が可能だ。決済用途では生成速度より最初のトークンが出力されるまでの時間が重要であり、Groqはこれを大幅に短縮できる点を競争力としている。
Paytmはこのインフラ上で、利用者の行動パターンを解析するAI、加盟店向けのリアルタイムインサイト、音声による決済インターフェースの三領域を展開すると明かしている。いずれも応答の遅延がサービス品質に直結する領域だ。
インド発クラウドAI推論の供給構造
今回の提携で見落とせないのは、インドの通信大手Bharti Airtel傘下のデータセンター事業NxtraがGroqのLPUをホストする点である。これはクラウド型AI推論の供給構造に新しいモデルが生まれつつあることを示す。
従来のAI推論市場は、米国に拠点を置くハイパースケーラーがGPUを大量調達し、APIとして提供する形態が主流だった。しかしGroqは自社のチップを各地域のデータセンター事業者に設置させ、地域の規制やネットワーク事情に即した低遅延推論を可能にする分散型の供給モデルをとる。インド準備銀行は金融データの国内保存を義務付けており、Paytmのような決済事業者が国外のクラウドに依存するのは規制面で制約がある。Nxtraによる国内ホスティングはこの要件を満たす。
Groqは2024年からコンソーシアム形式でLPUの供給を拡大しており、サウジアラビアのAramco Digitalとも提携済みだ。特定のハイパースケーラーに依存せず、各国の通信・データセンター企業と直接組む戦略は、NVIDIAの供給網とは異なる第二のチャネルを形成しつつある。
AI推論チップ市場への影響
この提携は、大規模言語モデルを動かすプロセッサ市場の構造変化を示す一例となる。現在、AIトレーニング用途ではNVIDIAのH100およびB200が圧倒的なシェアを持つが、推論用途では選択肢が広がり始めている。GroqのLPUのほか、AMDのMI300X、CerebrasのCS-3、SambaNovaのSN40Lなどが実用段階に入りつつある。
特にインドのように、国内データ規制が厳しく人口規模が大きい市場では、推論コストと応答速度がAI導入の可否を分ける。Groqが主張する1トークンあたりのコスト効率が実際の大規模商用環境で検証されることで、エンタープライズAI市場におけるLPUアーキテクチャの評価が固まることになる。
日本市場にとっても意味はある。金融庁の監督指針は金融機関のシステム外部委託に際してデータ管理の追跡可能性を求めており、国内のデータセンターで完結する推論基盤の需要は高い。さくらインターネットやKDDIなどが国内AIインフラ構築を進めるなか、GPU以外の推論チップを選択肢に加えられるかが焦点となる。
注目すべき次の展開
Groqのロードマップでは2025年第2四半期に次世代LPUの提供が計画されており、推論性能はさらに数倍に高まる見込みだ。Paytmとの運用データはこの新チップの設計に反映される可能性が高い。
同時に、NVIDIAも2025年にBlackwellアーキテクチャの推論最適化版を投入すると報じられている。決済プラットフォームが求めるリアルタイム推論の領域で、どのアーキテクチャが最もコスト効率と応答速度を両立できるかという競争が本格化する。
もう一点、PaytmがAI推論を外販する可能性も排除できない。Paytmはすでに決済ゲートウェイを他社に提供しており、そこに組み込まれた不正検知AIがAPI化されれば、インド国内のフィンテック企業に共通の推論基盤が広がる。その場合、GroqとNxtraの組み合わせはインドの金融AIインフラのデファクト層を形成する道筋も見えてくる。