Tencent が HY-OmniWeaving をリリース ── テキスト・画像・動画を自由に入力できる統合動画生成モデル
TencentのHunyuanチームが、かなり野心的な動画生成モデルを公開した。テキスト、複数画像、動画を好きに混ぜて入力できるうえに、ユーザーの意図を推論していい感じに動画を作ってくれるという。オープンソースでこのレベルのモデルが出てくるとは本当に熱い。
▸何が変わったのか
OmniWeavingは、HunyuanVideo-1.5をバックボーンに採用した統合動画生成モデル。MLLM + MMDiT + VAEの統合フレームワークで、インターリーブされた(混在する)テキスト・画像・動画入力を処理可能。特にMLLMの「Thinking Mode」を活性化する改良が加えられており、入力の曖昧さを解消してユーザーの意図を推論する仕組みを実装している。評価用ベンチマークとして「IntelligentVBench」も同時リリース。
◈前モデル / 競合との比較
Seedance-2.0などのプロプライエタリシステムが高性能だった一方で、オープンソースモデルは大きく遅れをとっていた。OmniWeavingは、オープンソースの統合動画生成モデルの中でSoTA(最高性能)を達成したと主張している。
◈技術背景と意義
従来の動画生成は「テキストから動画」が基本だったけど、OmniWeavingはもっと自由。例えば「この画像の人物と、この動画の背景を組み合わせて、こんなテキストのシーンを作って」みたいな複雑な指示に対応できる。MLLMが指示を理解し、VAEが画像や動画を圧縮し、MMDiTがそれらを統合して高品質な動画を生成する仕組み。Seedance-2.0のようなプロプライエタリモデルに匹敵する性能を、オープンソースで実現したのが大きい。
▸こんな人・用途に
複数の参考画像から一貫した世界観の動画を作りたいクリエイター。商品画像とテキスト説明からプロモーション動画を生成したいマーケター。既存動画の雰囲気を別素材と組み合わせて再構成したい映像制作担当者。
SOURCE: Tencent (2026-03-31)