Unicom-Unified-Multimodal-Modeling-via-Compressed-Continuous-Semantic-Representations カバー画像

Tencent が UniCom をリリース ── 圧縮連続表現で理解も生成も両立する統合マルチモーダルモデル

TENCENTOSS

最終更新: 2026年04月13日 20:03 元記事 →

マルチモーダルAIで「画像を理解する」のと「画像を生成する」のを同時に高性能にするの、めちゃくちゃ難しいんだよね。TencentのHunyuanチームがこの難問に挑んだ研究成果がHugging Faceに公開されていた。発想の転換というか、地味だけど効きそうなアプローチが使われている。

何が変わったのか

従来の統合マルチモーダルモデルは離散 visual tokenizer で橋渡しする手法が主流だったけど、離散化すると細かいセマンティック情報が落ちて理解タスクの性能がイマイチに。一方で CLIP や SigLIP のような連続表現をそのまま使うと、高次元の生成モデリングで収束が遅くて学習が不安定になるジレマがあった。UniCom は「圧縮された連続表現」でこの問題を解決。チャンネル次元を減らすのが空間ダウンサンプリングより再構築・生成で効果的だと実証していて、attention-based semantic compressor で密集した特徴量をコンパクトな統一表現に蒸留。さらに Transfusion アーキテクチャが query-based 設計を収束と一貫性で上回ると検証済み。VAE に頼らなくても画像の一貫性を維持しつつ、画像編集で優れた制御性を発揮する。

前モデル / 競合との比較

統合モデルの中で state-of-the-art の生成性能を達成。VAE なしでも画像一貫性を維持できるのは他の統合モデルとの明確な差別化ポイント。

技術背景と意義

画像を「理解」するAIと「生成」するAIは、画像の捉え方が根本的に違う。理解側は意味がわかればピクセルの詳細はいらない、生成側はピクセル単位の再現がいる。だから一つのモデルで両方やろうとすると、どちらかが犠牲になることが多かった。UniCom の面白いのは、画像の情報を「ギュッと圧縮」しつつ「連続的な意味」は残す中間表現を作ったこと。これにより理解にも生成にも使える共通の言語ができたイメージ。

こんな人・用途に

画像の編集で高い制御性が求められるクリエイティブ作業。理解と生成をシームレスに行き来する画像検索+生成パイプライン。

入手方法・リンク

Hugging Face でメインチェックポイント、デコーダー、Flux VAE、SigLIP2 ビジョンエンコーダーが公開中。GitHub リポジトリ(https://github.com/Tencent-Hunyuan/UniCom)にセットアップ手順とサンプルコードあり。

SOURCE: Tencent (2026-04-09)

← LLM Watch トップへ

類似投稿

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です