Tencent が HY-Embodied-0.5 をリリース ── 思考モードを搭載した画像言語モデル
TencentがHugging Faceで新しいオープンソースモデルを公開。説明文の大部分はまだプレースホルダーだが、公開された推論コードからかなり野心的な仕組みが見えてくる。画像とテキストを処理するアーキテクチャに、なんと「思考モード」が組み込まれている。
▸何が変わったのか
リリースされた「HY-Embodied-0.5」は、画像と言語を統合的に処理するモデル。推論スクリプト内で `AutoModelForImageTextToText` が使われており、画像入力に対応していることがわかる。注目は `enable_thinking` というパラメータ。このフラグを切り替えることで、モデルの思考プロセスをオン・オフできる仕組みだ。また、動作環境として PyTorch 2.8.0、CUDA 12.6、Python 3.12+ を推奨している。モデルのサイズは8GBで、実行には16GB以上のVRAMが必要。
◈技術背景と意義
モデル名に入っている「Embodied(身体性)」という言葉から、ロボット工学や実世界のタスク実行を狙ったAIである可能性が高い。カメラの画像を見て現状を把握し、深く思考(Thinking)した上で次のアクションを決めるような使い方を想定しているのだろう。16GBのVRAMで動くよう設計されているので、ハイエンドのコンシューマー向けGPUでもローカル推論が可能だ。
▸こんな人・用途に
– ロボットやドローンの視覚認識と行動計画
– 画像を伴う複雑な推論タスク(思考モードを活用)
– 次世代マルチモーダルアーキテクチャの研究・検証
◆入手方法・リンク
Hugging Faceの「tencent/HY-Embodied-0.5」から誰でもダウンロード可能。推論コードを実行すると自動的にモデルウェイト(8GB)がダウンロードされる仕組みになっている。
SOURCE: Tencent (2026-04-02)