Tencent が HY-World-2.0 をリリース ── 動画じゃない、遊べるリアル3Dアセットを直接生成
ついに「遊べる」3Dワールドを直接生成するモデルがオープンソースで登場。これまでのAIは動画を生成して「見る」だけだったけど、今回のアプローチは根本的に異なる。かなりエグい発表だ。
▸何が変わったのか
最大の衝撃は、出力がピクセルの「動画」ではなく、実在する「3Dアセット」である点。テキストや単一画像から、メッシュやGaussian Splattings(3DGS)といった3Dデータを直接生成する。しかも、生成されたデータはBlenderやUnity、Unreal Engineなどのゲームエンジンにそのままインポートして編集可能。現在、フレームワークの一部である「WorldMirror 2.0」の推論コードとモデルウェイトがHugging Faceで公開されている。
◈前モデル / 競合との比較
従来の動画生成型モデル(Genie 3, Cosmos, HY-World 1.5)が編集不可能なピクセル動画を出力していたのに対し、HY-World 2.0は完全に編集可能なリアル3Dアセット(メッシュ / 3DGS)を出力する。さらに、クローズドソースである「Marble」に匹敵する結果を出す、初のオープンソースSOTA(最高水準)モデルであると謳っている。
◈技術背景と意義
これまでのワールドモデル(例えばGenie 3やCosmosなど)は、ピクセル単位で動画を生成するいわば「映画を上映する」仕組みだった。でも、再生が終わればそこには何も残らない。一方、HY-World 2.0は、テキストや画像から「プレイできるゲームのステージ」そのものを3D空間として構築してしまう。永続性があって、自由に歩き回れるうえに形状も変えられる。3D生成における完全なパラダイムシフトだ。
▸こんな人・用途に
・UnityやUnreal Engineを使うゲーム開発者:テキストや画像から瞬時にベースとなる3Dマップを生成し、開発をスピードアップさせたい用途に。
・3Dアーティストやクリエイター:ゼロからのモデリング作業を大幅にショートカットし、プロトタイピングに活用したいケース。
・VR/メタバース開発者:膨大な時間がかかる空間構築のコストを劇的に下げたい場面。
◆入手方法・リンク
Hugging Faceにて、WorldMirror 2.0の推論コードとモデルウェイトがすでに公開されている。HY-Pano 2.0やWorldStereo 2.0など、フルセットのリリースは今後の「Coming Soon」を待つ必要がある。
SOURCE: Tencent (2026-04-10)