Tencent が Hy-Embodied-0.5-VLA-UMI をリリース ── 1万時間の実データ学習で達成したロボット汎用モデル

TENCENTOSS

最終更新: 2026年06月15日 13:06　元記事 →

Tencentのロボティクス研究チームが、かなり本気度の高いロボット操作モデルを公開した。名前は「Hy-Embodied-0.5-VLA-UMI」。なんと1万時間以上の実データを使って学習させており、その圧倒的な学習規模にまず驚かされる。物理世界で動くロボットの頭脳が、ここまで進化しているとは。

▸何が変わったのか

最大の注目ポイントは、10,000時間以上の高精度なUMIデモンストレーションデータを使って事前学習されている点。アーキテクチャはHy-Embodied-0.5 MoTをバックボーンとし、370Mパラメータのデュアルタワー・フローマッチングトランスフォーマーをアクションエキスパートとして搭載している。アクションは10Hzで動き、ロボットアームのxyz座標、回転、グリッパーの開閉状態を10次元で表現して細かく制御可能だ。RoboTwin 2.0ベンチマークでは90.9%（Clean）/ 90.1%（Randomized）という圧倒的なスコアを記録。4つの異なる実機プラットフォームで安定稼働するという、実世界への適応力の高さも見せている。

◈前モデル / 競合との比較

特定のロボットの物理構造に依存しすぎない設計が大きな特徴で、4つの異なる実機プラットフォームでのクロスエンボディメント転移を確認済み。専用モデルと比べて汎用性の高さが際立つ。

◈技術背景と意義

VLA（Vision-Language-Action）モデルとは、カメラの映像と人間の言葉による指示を受け取って、ロボットの具体的な動きを直接出力するAIのこと。「見て・理解して・動かす」を一気通貫でこなせるのが強みだ。今回のモデルは、直近の複数フレームの記憶を保持するエンコーダーを備えており、より人間らしく連続的な手先の動かし方ができる。さらに、特定のロボットの形状に依存しない「delta-chunk action representation」という工夫が凝らされており、異なるロボットにも応用しやすい設計となっている。

▸こんな人・用途に

– 異なるメーカー・形状のロボットアームに同じモデルを適用したい研究者
– 家事や工場作業など、繊細な指先の操作を自動化したい開発者
– VLAモデルの強力なファインチューニングベースとして活用したいエンジニア

◆入手方法・リンク

モデルはHugging Faceから誰でもダウンロード可能。safetensors形式の重みやトークナイザー、推論に必要な正規化統計データなどが一式揃っている。Python用のロードスクリプトも提供されているのですぐに試せる。

公式発表を読む

SOURCE: Tencent (2026-06-11)

← LLM Watch トップへ

Tencent が Hy-Embodied-0.5-VLA-UMI をリリース ── 1万時間の実データ学習で達成したロボット汎用モデル

▸何が変わったのか

◈前モデル / 競合との比較

◈技術背景と意義

▸こんな人・用途に

◆入手方法・リンク

Alibaba (Qwen) が Qwen3-ASR-0.6B-hf をリリース

Alibaba (Qwen) が Qwen3-1.7B-Base-W32K-L0_100 をリリース ── LLMのブラックボックスを解き明かすSAEモジュール

Tencent が Sequential-Hidden-Decoding-8B-n4 をリリース ── 推論ステップを「隠し」て性能を爆上げ

Tencent が Covo-Audio-Chat をリリース ── 音声から音声へ、テキストを介さないエンドツーエンド対話

Tencent が Penguin-VL-2B をリリース ── LLMを「目」に改造した画期的な効率化モデル

Tencent が Hy-MT1.5-1.8B-1.25bit をリリース ── 440MBで33言語翻訳、スマホでサクサク動く極限の軽量モデル

コメントを残すコメントをキャンセル

▸何が変わったのか

◈前モデル / 競合との比較

◈技術背景と意義

▸こんな人・用途に

◆入手方法・リンク

類似投稿

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル