Hy-Embodied-0.5-VLA-RoboTwin カバー画像

Tencent が Hy-Embodied-0.5-VLA-RoboTwin をリリース ── ロボット操作タスクで成功率90%超を叩き出すVLAモデル

TENCENTOSS

最終更新: 2026年06月15日 13:04 元記事 →

TencentのロボットAIモデルがかなりアグレッシブです。今回公開された「Hy-Embodied-0.5-VLA-RoboTwin」は、画像と言語を見て実際に物理的なロボットを動かす仕組みですが、なんとベンチマークで成功率90%超を達成しています。データ収集からリアルワールドでのデプロイメントまでを一気通貫でまとめてきていて、ロボット工学の未来が一気に近づいた感がすごい。

何が変わったのか

今回のモデルは、Hy-Embodied-0.5 MoTをバックボーンとするVLAシステムの事前学習済み版(Hy-Embodied-0.5-VLA-UMI)を、RoboTwin 2.0の全50種類の双腕操作タスクでファインチューニングしたチェックポイント。最大の目玉は、RoboTwin 2.0ベンチマークでClean設定90.9%、Randomized設定90.1%という驚異的な成功率を記録し、公開済みのVLA手法の中でトップクラスの性能を叩き出した点。アーキテクチャ面では、フローマッチングアクションエキスパートやコンパクトなメモリエンコーダーを搭載し、K=6フレーム(現在+過去5フレーム)の動画エンコーダで時系列を処理。さらに、アクションホライズンH=20(3倍ダウンサンプリング)を採用し、より長期的な動きを予測・制御できるよう設計されています。

前モデル / 競合との比較

ベースとなった事前学習済みモデル「Hy-Embodied-0.5-VLA-UMI」と比較して、RoboTwin 2.0の特定タスクに特化させたSFT版という位置づけです。グローバルバッチサイズ128、32基のGPU(4ノード×8)を用いた本格的な学習プロセスを経て、タスク固有の成功率を大きく引き上げています。

技術背景と意義

簡単に言うと、AIがカメラ映像と指示言葉を見て「手をどう動かすべきか」までを直接計算するシステムです。実機のデータ集めは大変ですが、このモデルは1万時間以上の高精細デモデータで事前学習させたベースを持っています。しかも、ロボット特有の物理パラメータ(運動学)から独立した「Delta-chunk action representation」を採用しているのが秀逸で、これによって全く異なる4種類の実機ロボット平台へ知識を転移できるとのこと。シミュレーションで鍛えた頭脳を、スッと現実のロボットに持っていけるというわけです。ロボット開発のハードルをガクッと下げる大注目のアプローチですね。

こんな人・用途に

RoboTwin 2.0ベンチマークに含まれる50種類の多様な双腕操作タスクの研究・検証用途に最適。また、異なるロボットアームや環境間での知識転移(クロスエンボディメント転移)を実証したいロボティクス研究者や、FlowPROなどの報酬最適化手法を試したいVLAモデル開発者に役立つはずです。

入手方法・リンク

モデルはオープンソースとしてHugging Faceで公開されています。Hugging Faceのリポジトリ「tencent/Hy-Embodied-0.5-VLA-RoboTwin」から、モデル权重やトークナイザー、設定ファイル一式をダウンロード可能です。提供されているPythonコードから `snapshot_download` を使って簡単に読み込めます。

SOURCE: Tencent (2026-06-11)

← LLM Watch トップへ

類似投稿

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です