AI専用チップを開発するGroqが6.4億ドルのシリーズDラウンドを完了した。今回の資金調達はBlackRockが主導し、Cisco InvestmentsやSamsung Catalyst Fundも参加している。この金額が示すのは、AI市場の重心が「モデル学習」から「推論実行」へ明確にシフトし始めたという構造変化である。

なぜ推論向けチップに巨額資金が集まるのか

現在の生成AI市場を支えるNVIDIAのGPUは、もともと画像処理用に設計された回路をAI計算に転用している汎用プロセッサだ。学習フェーズでは莫大な並列計算能力が必須のためGPU優位は揺るがない。しかし推論フェーズでは事情が異なる。推論はユーザーからの問い合わせに対し、学習済みモデルが回答を生成する処理である。ここで求められるのは純粋な演算速度と、何より1トークンあたりの消費電力の低さだ。

Groqが開発するLPU(Language Processing Unit)は、この推論処理だけに特化したアーキテクチャを持つ。同社の発表によれば、現行製品は1秒間に約1256トークンを生成でき、これは人間のタイピング速度の約75倍に相当する。GPUが汎用性ゆえに抱えるメモリ転送のボトルネックを、LPUは決定論的スケジューリングで解消している点が技術的な核心だ。

半導体設計思想の分岐とサプライチェーン再編

今回の調達ラウンドにSamsung Catalyst Fundが参加した意味は大きい。Groqは製造をSamsungの4nmプロセスに依存しており、これはTSMCの先端プロセスに集中するNVIDIAやAMDとは異なる供給網を形成する。AI半導体の製造能力がTSMC一極集中から分散する動きは、地政学リスクを抱えるデータセンター事業者にとって調達の選択肢を増やすことになる。

さらにCiscoの参加は、推論処理がクラウドから企業内ネットワークのエッジ側に降りてくる未来を見据えている。現在はOpenAIやGoogleのAPIに推論を投げる構造が主流だが、レイテンシとデータ主権の観点から、企業が自社ネットワーク内に推論専用チップを置く需要が顕在化しつつある。Ciscoにとって自社のネットワーク機器とGroqのLPUの組み合わせは、エッジAI市場への入り口になり得る。

モデル開発者とAPI提供者の力学変化

推論コストが下がることは、AIモデルの提供形態そのものを変える。現在は「高性能ゆえに高コスト」なモデルと「軽量ゆえに低コスト」なモデルが価格で差別化されている。しかし専用チップにより1トークンあたりのコスト差が圧縮されれば、モデル開発者は性能で直接競争せざるを得なくなる。

ここでGroqが取っている戦略はチップ単体の販売ではなく、LPUを搭載したクラウドインスタンスの提供だ。GroqCloudを通じて開発者はAPI経由でLPUの推論速度を利用できる。これは半導体企業でありながら、AWSやAzureと同じレイヤーで顧客を囲い込むビジネスモデルである。NVIDIAがCUDAというソフトウェアエコシステムでロックインしたように、Groqは低レイテンシ推論体験そのもので開発者を引きつけようとしている。

日本市場への波及

日本国内のAIスタートアップやエンタープライズにとって、推論専用チップの台頭はモデル選定の自由度を高める。現在は国産LLMの開発が複数進行しているが、学習後の推論実行コストが事業化の障壁になるケースが多い。GroqCloudのようなサービスが日本語トークン処理でも高速動作を実証できれば、国内のAIサービス開発者はモデル性能の追求に資源を集中できる。

またSamsungの製造ラインを活用するGroqの動きは、Rapidusをはじめとする国内半導体産業にとっても示唆的だ。最先端ロジック以外のプロセスでもAI推論市場で勝負できる道があることを示す先例となる。

推論特化チップが直面する制約と指標

今後の焦点は二つある。第一にモデルの大規模化への追随だ。GPT-4級の巨大モデルの推論では、チップ単体の速度よりメモリ帯域幅と複数チップ間の通信効率がボトルネックになる。Groqは今回の資金で400人規模のエンジニアリングチームを拡大し、次世代チップ開発を加速するとしているが、NVIDIAのGB200のようなチップ間高速接続技術に対抗できるかが問われる。

第二に開発者エコシステムの臨界点だ。同社の発表資料では、2024年8月時点で44万人以上の開発者がGroqCloudを利用している。この数値が1年後にどう推移するかが、推論専用チップがGPUの代替になるのか、それとも補完的なニッチに留まるのかを判断する分岐点になる。