Hugging Face が MolmoMotion: Language-guided 3D motion forecasting をリリース ── テキスト指示で未来の動きを3D予測
過去の動画から動きを追跡する技術はもう珍しくないけど、「次にどう動くか」を予測するのは難易度が跳ね上がる。そこにガチで挑んだのが、Allen AIの新しいモデル「MolmoMotion」だ。動画の1フレームと3Dポイント、そして「机の上のフルーツボウルを動かして回転させて」といったテキスト指示を入力すると、未来の3D軌跡を高精度に予測してしまう。これがなかなかエグい。
▸何が変わったのか
従来のモーション認識は「過去に起きたこと」を振り返るのが基本だった。しかしMolmoMotionは、与えられた状況から「未来の動き」を予測する。動画フレーム、オブジェクト上の3Dポイント、そしてアクションのテキスト説明を入力するだけで、数秒後の3D空間での軌跡を高い精度で予測するんだ。既存の予測手法と比べても、大幅に強力なパフォーマンスを叩き出している。しかも、特定のテンプレート(人や剛体など)に縛られない「Class-agnostic」、視点が変わってもブレない「View-stable」という強力な特徴を持つ。加えて、116万本もの動画から抽出した「MolmoMotion-1M」データセットや、人手で検証された2.7Kのクリップを含むベンチマーク「PointMotionBench」も同時にリリースされた。
◈前モデル / 競合との比較
既存の予測手法と比べて「大幅に強力なパフォーマンス(substantially stronger performance)」を達成しているのが最大のポイント。人間の体や手などの特定のカテゴリーに依存しないため、あらゆる対象の動きを汎用的に扱えるのが強みだ。
◈技術背景と意義
例えばロボットにコップを取らせる時、ロボットは「コップに触れる前にどう動くか」を予測しないといけない。物理的に正しい動画を生成するAIも、次のリアルな動きを知る必要がある。つまり、動きの予測は次世代のロボット工学や映像制作に不可欠な技術なんだ。MolmoMotionは、動画をレンダリングする重い処理なしに、オブジェクトを3Dポイントとして表現するだけで効率的にこれを実現している。
▸こんな人・用途に
・ロボット工学の事前プランニング:対象物に触れる前の動きを正確に予測できるため、ロボットの制御に直結する。
・軌跡を条件付けした動画生成(trajectory-conditioned video generation):物理的に破綻しないリアルなフレーム作成に役立つ。
◆入手方法・リンク
Hugging Faceでモデルのコレクションが公開されている。また、データセット「MolmoMotion-1M」やベンチマークもHugging Faceからアクセス可能だ。プロジェクトページやテクニカルレポート、GitHubリポジトリ(molmo-motion.git)も合わせて公開されている。
SOURCE: Hugging Face (2026-06-17)

