Tencent が HY-Embodied-0.5-X をリリース ── エッジで動く実世界ロボット向け基盤モデル、10ベンチマークでSOTA
Tencentのロボティクスチームが、かなり面白いものをオープンソースで出してきた。実世界のロボット向けに特化した基盤モデル「HY-Embodied-0.5-X」で、総パラメータ4B・活性化2Bというエッジ前提のサイズながら、10の主要ベンチマークでSOTAを叩き出している。ロボットの「見る」から「やる」までを一本のモデルで繋げようという野心作だ。
▸何が変わったのか
前バージョンのHY-Embodied-0.5 MoT-2Bアーキテクチャ(総パラメータ4B、活性化2B)をベースに、実世界のロボット相互作用に特化した強化版としてリリース。10の主流なEmbodied Task-PlanningベンチマークでSOTAを達成し、うち7つでエッジ側ドメインモデルとして1位を獲得。微細な操作理解、空間推論、アクション予測、リスク評価、マルチモーダル参照グラウンディング、長期計画(Long-Horizon Planning)の各機能を専用強化。推論コードとトレーニングコードも同時公開されている。
◈前モデル / 競合との比較
前バージョンのHY-Embodied-0.5と比較して、実世界のロボット相互作用で直面する具体的な問題により密着した強化が施されている。特に微細な操作の理解、空間的な推論、リスク判定、失敗の振り返り機能が強化され、視覚理解や対話を超えて実際のロボットインタラクションのループに近い挙動を実現。エッジ前提のサイズを保ちつつ、7つのベンチマークでエッジ側ドメインモデル中1位を獲得している。
◈技術背景と意義
Embodied AI(身体知AI)は、AIが画面の中じゃなく物理的な現実世界で「体を動かして働く」ための技術分野。ロボットがカメラで状況を捉え、「何をすべきか」を考え、実際に手足を動かす——この「理解→推論→行動」のループをこなせるモデルが求められてる。今までのAIは「見る」や「話す」が得意だったけど、物理世界で「やる」になると話が別。そこをエッジデバイスでリアルタイムに動くサイズで実現しようというのがこのモデルの狙い。16GB VRAMのGPUで動くから、現場のロボットに載せられる。
▸こんな人・用途に
実世界での物体把持や操作が必要な産業用ロボット・マニピュレータの制御。複数ステップが連続する長期タスク(料理、組み立て、片付けなど)の計画と実行。エッジデバイス上でリアルタイム推論が必要な自律移動ロボットの意思決定。
◆入手方法・リンク
Hugging Faceでモデルと推論・トレーニングコードが公開されている(tencent/HY-Embodied-0.5-X)。transformersの特定コミット(9293856c419762ebf98fbe2bd9440f9ce7069f1a)が必要で、PyTorch 2.10.0、CUDA 12.6、16GB以上のVRAMを持つNVIDIA GPU環境で動作する。
SOURCE: Tencent (2026-04-23)