ロボットが目の前のコップをつかもうとするとき、本当に必要なのは「いまここにある映像」より「このあとコップがどう動くか」の予測だ。従来の映像AIは、すでに起こった動きを解析する「知覚」が中心だった。これに対し、米国の研究機関Ai2が発表した「MolmoMotion」は、画像・3次元座標・言語指示の3つを手がかりに、物体の未来の3D軌道を直接予測する。知覚から予測へ、映像AIの重心が変わる可能性がある。

この記事を一言でいうと

MolmoMotionは、動画の1コマ・物体上の3Dポイント・「木のボウルを動かして回転させて」といった言語指示を与えると、その物体が数秒後にどのような3D軌道を描くかを予測するモデルである。予測性能は既存手法を大きく上回り、ロボットの動作計画や映像生成の制御に応用できる。

なぜ話題なのか

映像AIの多くは「すでに起きた動き」を追跡・認識する方向で発展してきた。ところがロボット操作や物理的に矛盾のない映像生成には、未来の運動を事前に推定する「動作予測」が欠かせない。MolmoMotionは物体の種類を問わずに3D空間での移動を言語指示と紐づけて予測できる点で、これまでの人体や手など特定カテゴリー向け動作予測とは一線を画す。さらに予測結果を3D点群の軌跡として出力するため、計算負荷が高いフル動画のレンダリングを回避し、ロボットの実時間制御や低遅延映像生成にもつなげやすい設計になっている。

一般読者や企業にどう関係するのか

たとえば倉庫内でピッキング作業をするロボットにとって、対象物が滑ったり転がったりする前に軌道を予測できれば、把持の成功率が上がる。映像制作の現場では、編集者が自然言語で「次のフレームでカップを左にずらして傾けて」と指示するだけで、物理的に破綻のない映像を合成できる可能性が生まれる。日本企業では、物流・製造ラインの自動化や、ゲーム・アニメ制作におけるモーション生成の省力化との接点が考えられる。既存のロボットシミュレーターや3D映像パイプラインに組み込むことで、動作指示をプログラムではなく日本語の指示文で与えられるようになるかもしれない。

AI業界の構造で見ると何が変わるのか

これまで映像AIの競争は「認識精度」と「生成品質」の2軸で進んできたが、MolmoMotionはその中間にあたる「動作予測」という新しいレイヤーを明確に打ち出している。モデルそのものだけでなく、116万本の動画から構築した3D点群軌跡付きデータセット「MolmoMotion-1M」と、人手検証済みベンチマーク「PointMotionBench」も同時公開されたことで、動作予測をめぐる研究開発と評価の基盤が一気に整備された格好だ。クラウドやAPI経由での動作予測サービスが登場すれば、ロボット向け制御ソフトウェアや映像生成SaaSの差別化要因になる可能性がある。物体の種類を限定しない汎用動作予測は、基盤モデル型のロボット操作や自律走行システムの性能を底上げする要素技術として位置づけられる。

一次情報から確認できる事実

  • MolmoMotionは、RGB画像・物体上のクエリポイント・動作説明文(例「Move and rotate the wooden bowl with fruit on the table」)を入力とし、当該物体の将来の3D点軌跡を予測するモデルである。
  • 既存の動作予測モデルより大幅に高い性能を示した。
  • 116万動画からなるデータセット「MolmoMotion-1M」と、2700本の人手検証済み評価用データ「PointMotionBench」を公開している。
  • モデルの重み・データセット・コード・プロジェクトページがHugging FaceとGitHubで公開されている。
  • ロボットの計画や、軌跡で条件付けした映像生成などの下流タスクへの有用性が示唆されている。
  • 3Dの表現形式として、物体に固定されたワールド座標系の3D点を採用しており、クラス非依存(人体・手・剛体など特定カテゴリーに限定しない)である点が強調されている。

関連企業・関連技術

  • Ai2(Allen Institute for AI):MolmoMotionの開発元。オープンな研究資源の公開を積極的に進める非営利研究機関。
  • Hugging Face:モデル・データセット・デモの公開プラットフォームとして利用されている。
  • ロボット操作の基盤モデル(例:RT-2、Octoなど):動作予測を組み込むことで将来軌道を考慮した計画立案が可能になる。
  • 映像生成モデル(Sora、Stable Video Diffusionなど):軌跡条件付きの生成によって物理的一貫性の向上が期待される。

今後の論点

  • 言語指示による動作予測の精度が、指示の曖昧さや物体の複雑さによってどの程度変動するのか。
  • 実ロボット環境での推論速度や、実機への導入に必要なキャリブレーション工程の検証。
  • 日本語を含む多言語指示への対応や、日本企業が持つ独自データでの追加訓練の可否。
  • 動作予測を悪用したディープフェイクや不正操作への対策が十分に議論されるか。
  • オープンなベンチマークとデータセットが、動作予測分野全体の標準指標として定着するかどうか。