Google、デバイス上で動作するマルチモーダルAI Gemma 4を発表

米Googleは4月9日、オープンモデルとして提供する小型言語モデルの最新版「Gemma 4」を発表した。パラメータ数が10億強でありながら、画像とテキストを同時に理解するマルチモーダル機能を単一のGPUやスマートフォン上で実現する。クラウドに依存しないエッジAIの選択肢が大幅に広がることになる。

Gemma 4が達成した3つの技術的飛躍

Gemma 4シリーズは、パラメータ数1.2B（12億）、4B（40億）、9B（90億）の3つのモデルで構成される。最上位のGemma 4 9Bは、MetaのLlama 3.3 70BやMistral 3.1 24Bなど、パラメータ数が数倍から数十倍のモデルに匹敵する推論性能を叩き出した。画像とテキストを入力として受け付け、テキストを出力するマルチモーダル対応も、このクラスでは前例が少ない。

特筆すべきは、128Kトークンという広大なコンテキストウィンドウである。これは小説『戦争と平和』の全編を一度に処理できる容量に相当する。長大な文書の要約や、複数画像にまたがる分析が、クラウドにデータを送信することなく完結する。

Google DeepMindの技術責任者によれば、知識蒸留という手法で大規模モデルの知能を小型モデルへ圧縮する新技術を適用した。教師役の大規模モデルが内部で行う推論プロセスそのものを生徒モデルに学習させることで、単なる出力模倣を超えた深い理解を実現したという。

現場を変える軽量マルチモーダルの実力

このモデルが最も価値を発揮するのは、通信が不安定な現場や、プライバシー要件が厳格な領域である。Gemma 4 1.2Bモデルはスマートフォン単体で動作し、撮影した写真の内容をその場で解析できる。Googleのベンチマークによれば、9Bモデルは画像内の文字起こし精度を示す指標で、前世代比47%の改善を達成した。

製造業では、製品の外観検査に即応用できる可能性がある。検査装置に搭載したカメラ画像をクラウドに送らず、その場で不良品を判定する。医療現場では、患者の個人情報を含む診療画像を施設内のサーバーで処理し、意思決定を支援する。これらの用途で課題だったレイテンシとデータガバナンスの両面を解決に導く。

商用利用を加速する無償ライセンスの威力

GoogleはGemma 4に対し、商用利用を広く認めるGemmaライセンスを継続適用した。研究目的に留まらず、スタートアップや大企業が製品に組み込む際の障壁は極めて低い。過去2年間でGemmaモデルのダウンロード数は1億5000万回を超え、コミュニティが派生させたモデルは6万種類に達する。このエコシステムの拡大が、さらなる改良と普及を後押しする構図だ。

開発者向けには、Google AI Studioを通じたクラウドAPI提供も始まった。まずは無料枠で試し、本格導入時にスケールアップする導線も整備された。NVIDIAとの協業により、Jetson Orinのようなエッジデバイスへの最適化も急速に進む見通しである。

日本企業が直面するエッジAI再定義

この動きは、日本企業のAI戦略にも影響を与える。国内製造業の生産ラインでは、これまで画像検査に専用ハードウェアと高額なライセンス費用が必要だった。Gemma 4の登場により、汎用のGPUやCPU上で動作する安価な検査システムの開発が現実味を帯びる。

ある国内電機メーカーのAI開発責任者は「特定ベンダーに依存しない選択肢が増えることは、調達戦略上も価値が大きい」と評価する。小売業における店舗カメラの映像解析や、建設現場での安全管理といった用途でも、クラウド費用を抑えながら画像AIを導入する道が開ける。オープンモデルの成熟が、日本の現場DXを再加速させる触媒となるかどうか、開発者の手腕が問われる局面に入った。

元記事を読む（Hugging Face）→