AWS、生成AI基盤モデル向け新クラウド設計指針を発表

米アマゾン・ウェブ・サービス（AWS）は、大規模基盤モデルの学習と推論に最適化したクラウドアーキテクチャの構成要素を公開した。生成AI需要の急拡大を受け、計算資源の効率的な配分とコスト削減を両立させる設計指針を明示した形だ。主要クラウド事業者の中で、基盤モデル開発に特化したインフラ構成を体系化したのは初めてとなる。

計算クラスター設計の3層構造とは

AWSが提示した設計の中核は、学習用GPUクラスターの3層アーキテクチャである。最下層には高速ストレージ、中間層に大容量メモリを搭載した計算ノード群、最上層に分散処理を制御するヘッドノードを配置する構成だ。

各層間の通信には、最大3,200Gbpsの帯域幅を確保できるElastic Fabric Adapterを採用する。これにより、数千基のGPUを並列動作させる際に生じる通信ボトルネックを回避できる。AWSの内部テストでは、1,000基のNVIDIA H100 GPUを用いたGPT-3相当モデルの学習時間を、従来構成と比較して約23%短縮できたという。

計算リソースの動的な再構成も特徴である。学習ジョブの規模に応じて、GPUインスタンスの追加や削除を自動化するスクリプト群が含まれており、アイドル状態のGPUを最小限に抑えられる設計だ。

推論コストを8割削減するサーバーレス推論エンジン

推論フェーズでは、AWSが新たに開発したサーバーレス推論エンジンが中核を担う。基盤モデルの重みを複数の小型インスタンスに分割配置し、リクエスト量に比例して自動スケールする仕組みである。

あるEコマース企業が1日あたり500万リクエストを処理する画像生成APIで実証実験したところ、GPUインスタンスを常時稼働させる方式と比較して、月間コストを約82%削減できたとの報告がある。レイテンシの中央値も、最初のトークン生成まで420ミリ秒、後続トークンは1トークンあたり38ミリ秒を維持している。

コールドスタート問題に対しては、モデル重みの事前キャッシュと段階的なメモリ割り当てによって対処した。初回リクエスト時の起動遅延は最大2.8秒に抑えられており、実運用に耐える水準と評価されている。

マルチモーダル対応を加速するデータパイプライン

学習データの前処理を担うデータパイプラインも、今回の発表に含まれる重要な構成要素だ。テキスト、画像、音声、動画の4つのモダリティに対応し、各データ形式に適した前処理を自動で選択する機能を備える。

パイプラインはApache Sparkをベースに構築されており、ペタバイト規模のデータセットに対して水平スケーリングが可能だ。AWSによると、1.2ペタバイトのマルチモーダルデータセットを72時間以内に処理できる性能を持つ。

データ品質の担保機能も組み込まれている。重複検出、有害コンテンツフィルタリング、著作権リスクの高いデータのフラグ付けなど、基盤モデル開発者が直面する法的・倫理的課題に対応する仕組みを標準装備した。

日本企業への影響とエンタープライズAIの変容

このアーキテクチャ公開によって、日本の大手製造業や金融機関が独自基盤モデルを開発する際のインフラ障壁が下がる可能性がある。これまで基盤モデル開発には数千万ドル単位の先行投資が必要とされてきたが、AWSの試算では、最小構成で月額8万ドルからの開発環境構築が可能になる見通しだ。

東京に拠点を置くあるクラウドインテグレーターは、この設計指針をベースにした国産基盤モデル向けインフラ構築サービスを年度内に開始すると表明している。日本語に特化した700億パラメータ級モデルの学習を、国内データセンター内で完結できる点が差別化要因になるとの見方を示した。

ただし、NVIDIA H100 GPUの供給制約は引き続き課題として残る。AWSは自社開発のTrainium2チップをH100の代替として位置づけており、2025年半ばまでに全リージョンで利用可能になる計画だ。Trainium2の採用により、同規模のGPUインスタンスと比較して最大40%のコスト削減を見込んでいる。

この発表はAWS re:Invent 2024での基調講演に先立って行われたもので、各構成要素は全てAWSマネジメントコンソールから利用可能な状態で提供が開始されている。生成AIインフラの民主化が、エンタープライズ市場でどのような競争変動を引き起こすか、年明け以降の各社の動きが焦点となる。

元記事を読む（Hugging Face）→