Hy-Embodied-0.5-VLA-UMI カバー画像

Tencent が Hy-Embodied-0.5-VLA-UMI をリリース ── 1万時間の実データ学習で達成したロボット汎用モデル

TENCENTOSS

最終更新: 2026年06月15日 13:06 元記事 →

Tencentのロボティクス研究チームが、かなり本気度の高いロボット操作モデルを公開した。名前は「Hy-Embodied-0.5-VLA-UMI」。なんと1万時間以上の実データを使って学習させており、その圧倒的な学習規模にまず驚かされる。物理世界で動くロボットの頭脳が、ここまで進化しているとは。

何が変わったのか

最大の注目ポイントは、10,000時間以上の高精度なUMIデモンストレーションデータを使って事前学習されている点。アーキテクチャはHy-Embodied-0.5 MoTをバックボーンとし、370Mパラメータのデュアルタワー・フローマッチングトランスフォーマーをアクションエキスパートとして搭載している。アクションは10Hzで動き、ロボットアームのxyz座標、回転、グリッパーの開閉状態を10次元で表現して細かく制御可能だ。RoboTwin 2.0ベンチマークでは90.9%(Clean)/ 90.1%(Randomized)という圧倒的なスコアを記録。4つの異なる実機プラットフォームで安定稼働するという、実世界への適応力の高さも見せている。

前モデル / 競合との比較

特定のロボットの物理構造に依存しすぎない設計が大きな特徴で、4つの異なる実機プラットフォームでのクロスエンボディメント転移を確認済み。専用モデルと比べて汎用性の高さが際立つ。

技術背景と意義

VLA(Vision-Language-Action)モデルとは、カメラの映像と人間の言葉による指示を受け取って、ロボットの具体的な動きを直接出力するAIのこと。「見て・理解して・動かす」を一気通貫でこなせるのが強みだ。今回のモデルは、直近の複数フレームの記憶を保持するエンコーダーを備えており、より人間らしく連続的な手先の動かし方ができる。さらに、特定のロボットの形状に依存しない「delta-chunk action representation」という工夫が凝らされており、異なるロボットにも応用しやすい設計となっている。

こんな人・用途に

– 異なるメーカー・形状のロボットアームに同じモデルを適用したい研究者
– 家事や工場作業など、繊細な指先の操作を自動化したい開発者
– VLAモデルの強力なファインチューニングベースとして活用したいエンジニア

入手方法・リンク

モデルはHugging Faceから誰でもダウンロード可能。safetensors形式の重みやトークナイザー、推論に必要な正規化統計データなどが一式揃っている。Python用のロードスクリプトも提供されているのですぐに試せる。

SOURCE: Tencent (2026-06-11)

← LLM Watch トップへ

類似投稿

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です