ByteDance が SimArt をリリース ── 可動する3D構造をマルチモーダル入力から生成
ByteDanceがHugging Faceで「SimArt」の事前学習済み重みを公開した。テキストや画像などのマルチモーダルな入力から、関節の動く3Dモデルを生成できるらしい。ただの静的な3Dアセットじゃなくて、関節構造を持ったオブジェクトをAIが構築するというアプローチがかなり面白い。
▸何が変わったのか
リリースされたのは主に2つのモデルディレクトリ。`simartmllm/` にはマルチモーダル大規模言語モデル(MLLM)の重みが含まれていて、ベースは `Qwen3-VL-8B`(または類似のQwen-VLアーキテクチャ)からのファインチューニング。こちらは入力から `URDFファイル`(関節付き3D構造のデータ)を生成する役割を担う。もう一方の `simartvqvae/` は3Dパーツのジオメトリを離散潜在空間で扱うための Sparse VQ-VAE。`encoder.pt`、`vq.pt`、`decoder.pt` とファイルがしっかり分かれている。
◈技術背景と意義
URDFはロボットの関節やリンクなどの構造を記述するデータフォーマット。つまり、このモデルが扱うのは「ただの形」ではなく「どう動くか」まで含めた3Dデータだ。また、VQ-VAEという技術を使って、複雑な3D形状をコンパクトなデータ(離散潜在空間)に変換・復元している。これを挟むことで、LLMがより効率的に3Dの形状を理解・処理できるようになっている。
▸こんな人・用途に
・ロボット工学の研究者が、プロンプトから関節構造を持つプロトタイプのロボットモデルを素早く作りたいとき
・ゲーム開発やVTuberのアバター制作で、画像から動きのある3Dモデルのベース構造を生成したいとき
SOURCE: ByteDance (2026-05-19)