基盤モデル公式発表 official_blog Hugging Face Blog 原文公開: 2026/06/17 掲載: 2026/06/18

【AIが見た動画の“このあと”を言語で指示して当てさせる——3D動作予測の新モデルが変えるロボットと映像生成の設計図】

Knowledge Path

このニュースを理解するための知識

記事を読む前に、関連する用語、企業、業界マップを押さえると、ニュースの意味が立体的に見えてきます。

Wiki 基盤モデル 多様なアプリの土台になる大規模AIモデル。文章、画像、音声、コードなどの生成や理解を支える。 Wiki API AIモデルやサービスをアプリから呼び出すための接続口。AIを製品に組み込む基本レイヤー。 Company OpenAI 企業DBで事業、競合、関連StoryGraphを見る Company Runway 企業DBで事業、競合、関連StoryGraphを見る Industry Map OpenAI エコシステム OpenAIはMicrosoft Azureを中核のクラウド基盤として活用し、ChatGPT、API、Sora、Codex、Agentsを展開している。

【AIが見た動画の“このあと”を言語で指示して当てさせる——3D動作予測の新モデルが変えるロボットと映像生成の設計図】 — 画像出典：Hugging Face Blog

なぜ重要か

映像AIの焦点が「認識」から「動作予測」へ移ることで、ロボット制御と映像生成の両分野で言語による直感的な指示が可能になる。物流自動化やアニメ制作の現場で、プログラミング不要の工程設計が現実味を帯びてきた。

Key Points

この記事の要約

映像AIの競争が「認識」や「生成」に加え、物体の未来を3Dで予測する「動作計画」へ拡大し始めた。

言語指示と3D軌跡を直結する設計は、ロボットの実時間制御やAPI経由の映像生成サービスと親和性が高い。

物流・製造の自動化や映像制作の現場で、動作指示をプログラミング不要の日本語で与えられる可能性が開ける。

掲載日: 2026/06/18 原文公開日: 2026/06/17 一次情報種別: official_blog 一次情報を確認

構造

この記事が示す産業構造

映像AIの競争が「認識」や「生成」に加え、物体の未来を3Dで予測する「動作計画」へ拡大し始めた。

関係企業

クラウド、モデル、供給網上の位置

Company DBとStoryGraphで、供給網上の位置を確認できます。

変化

何が変わるか

言語指示と3D軌跡を直結する設計は、ロボットの実時間制御やAPI経由の映像生成サービスと親和性が高い。

次の論点

次に見るべきポイント

物流・製造の自動化や映像制作の現場で、動作指示をプログラミング不要の日本語で与えられる可能性が開ける。

ロボットが目の前のコップをつかもうとするとき、本当に必要なのは「いまここにある映像」より「このあとコップがどう動くか」の予測だ。従来の映像AIは、すでに起こった動きを解析する「知覚」が中心だった。これに対し、米国の研究機関Ai2が発表した「MolmoMotion」は、画像・3次元座標・言語指示の3つを手がかりに、物体の未来の3D軌道を直接予測する。知覚から予測へ、映像AIの重心が変わる可能性がある。

この記事を一言でいうと

MolmoMotionは、動画の1コマ・物体上の3Dポイント・「木のボウルを動かして回転させて」といった言語指示を与えると、その物体が数秒後にどのような3D軌道を描くかを予測するモデルである。予測性能は既存手法を大きく上回り、ロボットの動作計画や映像生成の制御に応用できる。

なぜ話題なのか

映像AIの多くは「すでに起きた動き」を追跡・認識する方向で発展してきた。ところがロボット操作や物理的に矛盾のない映像生成には、未来の運動を事前に推定する「動作予測」が欠かせない。MolmoMotionは物体の種類を問わずに3D空間での移動を言語指示と紐づけて予測できる点で、これまでの人体や手など特定カテゴリー向け動作予測とは一線を画す。さらに予測結果を3D点群の軌跡として出力するため、計算負荷が高いフル動画のレンダリングを回避し、ロボットの実時間制御や低遅延映像生成にもつなげやすい設計になっている。

一般読者や企業にどう関係するのか

たとえば倉庫内でピッキング作業をするロボットにとって、対象物が滑ったり転がったりする前に軌道を予測できれば、把持の成功率が上がる。映像制作の現場では、編集者が自然言語で「次のフレームでカップを左にずらして傾けて」と指示するだけで、物理的に破綻のない映像を合成できる可能性が生まれる。日本企業では、物流・製造ラインの自動化や、ゲーム・アニメ制作におけるモーション生成の省力化との接点が考えられる。既存のロボットシミュレーターや3D映像パイプラインに組み込むことで、動作指示をプログラムではなく日本語の指示文で与えられるようになるかもしれない。

AI業界の構造で見ると何が変わるのか

これまで映像AIの競争は「認識精度」と「生成品質」の2軸で進んできたが、MolmoMotionはその中間にあたる「動作予測」という新しいレイヤーを明確に打ち出している。モデルそのものだけでなく、116万本の動画から構築した3D点群軌跡付きデータセット「MolmoMotion-1M」と、人手検証済みベンチマーク「PointMotionBench」も同時公開されたことで、動作予測をめぐる研究開発と評価の基盤が一気に整備された格好だ。クラウドやAPI経由での動作予測サービスが登場すれば、ロボット向け制御ソフトウェアや映像生成SaaSの差別化要因になる可能性がある。物体の種類を限定しない汎用動作予測は、基盤モデル型のロボット操作や自律走行システムの性能を底上げする要素技術として位置づけられる。

一次情報から確認できる事実

MolmoMotionは、RGB画像・物体上のクエリポイント・動作説明文（例「Move and rotate the wooden bowl with fruit on the table」）を入力とし、当該物体の将来の3D点軌跡を予測するモデルである。
既存の動作予測モデルより大幅に高い性能を示した。
116万動画からなるデータセット「MolmoMotion-1M」と、2700本の人手検証済み評価用データ「PointMotionBench」を公開している。
モデルの重み・データセット・コード・プロジェクトページがHugging FaceとGitHubで公開されている。
ロボットの計画や、軌跡で条件付けした映像生成などの下流タスクへの有用性が示唆されている。
3Dの表現形式として、物体に固定されたワールド座標系の3D点を採用しており、クラス非依存（人体・手・剛体など特定カテゴリーに限定しない）である点が強調されている。