Tencent が Hy-Embodied-0.5-VLA-RoboTwin をリリース ── ロボット操作タスクで成功率90%超を叩き出すVLAモデル

TENCENTOSS

最終更新: 2026年06月15日 13:04　元記事 →

TencentのロボットAIモデルがかなりアグレッシブです。今回公開された「Hy-Embodied-0.5-VLA-RoboTwin」は、画像と言語を見て実際に物理的なロボットを動かす仕組みですが、なんとベンチマークで成功率90%超を達成しています。データ収集からリアルワールドでのデプロイメントまでを一気通貫でまとめてきていて、ロボット工学の未来が一気に近づいた感がすごい。

▸何が変わったのか

今回のモデルは、Hy-Embodied-0.5 MoTをバックボーンとするVLAシステムの事前学習済み版（Hy-Embodied-0.5-VLA-UMI）を、RoboTwin 2.0の全50種類の双腕操作タスクでファインチューニングしたチェックポイント。最大の目玉は、RoboTwin 2.0ベンチマークでClean設定90.9%、Randomized設定90.1%という驚異的な成功率を記録し、公開済みのVLA手法の中でトップクラスの性能を叩き出した点。アーキテクチャ面では、フローマッチングアクションエキスパートやコンパクトなメモリエンコーダーを搭載し、K=6フレーム（現在＋過去5フレーム）の動画エンコーダで時系列を処理。さらに、アクションホライズンH=20（3倍ダウンサンプリング）を採用し、より長期的な動きを予測・制御できるよう設計されています。

◈前モデル / 競合との比較

ベースとなった事前学習済みモデル「Hy-Embodied-0.5-VLA-UMI」と比較して、RoboTwin 2.0の特定タスクに特化させたSFT版という位置づけです。グローバルバッチサイズ128、32基のGPU（4ノード×8）を用いた本格的な学習プロセスを経て、タスク固有の成功率を大きく引き上げています。

◈技術背景と意義

簡単に言うと、AIがカメラ映像と指示言葉を見て「手をどう動かすべきか」までを直接計算するシステムです。実機のデータ集めは大変ですが、このモデルは1万時間以上の高精細デモデータで事前学習させたベースを持っています。しかも、ロボット特有の物理パラメータ（運動学）から独立した「Delta-chunk action representation」を採用しているのが秀逸で、これによって全く異なる4種類の実機ロボット平台へ知識を転移できるとのこと。シミュレーションで鍛えた頭脳を、スッと現実のロボットに持っていけるというわけです。ロボット開発のハードルをガクッと下げる大注目のアプローチですね。

▸こんな人・用途に

RoboTwin 2.0ベンチマークに含まれる50種類の多様な双腕操作タスクの研究・検証用途に最適。また、異なるロボットアームや環境間での知識転移（クロスエンボディメント転移）を実証したいロボティクス研究者や、FlowPROなどの報酬最適化手法を試したいVLAモデル開発者に役立つはずです。

◆入手方法・リンク

モデルはオープンソースとしてHugging Faceで公開されています。Hugging Faceのリポジトリ「tencent/Hy-Embodied-0.5-VLA-RoboTwin」から、モデル权重やトークナイザー、設定ファイル一式をダウンロード可能です。提供されているPythonコードから `snapshot_download` を使って簡単に読み込めます。

公式発表を読む

SOURCE: Tencent (2026-06-11)

← LLM Watch トップへ

Tencent が Hy-Embodied-0.5-VLA-RoboTwin をリリース ── ロボット操作タスクで成功率90%超を叩き出すVLAモデル

▸何が変わったのか

◈前モデル / 競合との比較

◈技術背景と意義

▸こんな人・用途に

◆入手方法・リンク

Mistral が Mistral-Small-4-119B-2603-eagle をリリース ── 推論・コード・ビジネスを1つに統合したハイブリッドモンスター

Tencent が HY-World-2.0 をリリース ── 動画じゃない、遊べるリアル3Dアセットを直接生成

Tencent が HY-OmniWeaving をリリース ── テキスト・画像・動画を自由に入力できる統合動画生成モデル

ByteDance が SimArt をリリース ── 可動する3D構造をマルチモーダル入力から生成

Zhipu AI が SCAIL-2 をリリース ── 骨格推定なしでエンドツーエンドのキャラクターアニメーションを実現

MiniMax が MiniMax-M3 をリリース ── 100万コンテキストを20分の1の計算量で処理する超大型モデル

コメントを残すコメントをキャンセル

▸何が変わったのか

◈前モデル / 競合との比較

◈技術背景と意義

▸こんな人・用途に

◆入手方法・リンク

類似投稿

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル