Unicom-Unified-Multimodal-Modeling-via-Compressed-Continuous-Semantic-Representations カバー画像

Tencent

Tencent が UniCom をリリース ── 圧縮連続表現で理解も生成も両立する統合マルチモーダルモデル

Byren_admin 2026年4月13日

TENCENTOSS

最終更新: 2026年04月13日 20:03　元記事 →

マルチモーダルAIで「画像を理解する」のと「画像を生成する」のを同時に高性能にするの、めちゃくちゃ難しいんだよね。TencentのHunyuanチームがこの難問に挑んだ研究成果がHugging Faceに公開されていた。発想の転換というか、地味だけど効きそうなアプローチが使われている。

▸何が変わったのか

従来の統合マルチモーダルモデルは離散 visual tokenizer で橋渡しする手法が主流だったけど、離散化すると細かいセマンティック情報が落ちて理解タスクの性能がイマイチに。一方で CLIP や SigLIP のような連続表現をそのまま使うと、高次元の生成モデリングで収束が遅くて学習が不安定になるジレマがあった。UniCom は「圧縮された連続表現」でこの問題を解決。チャンネル次元を減らすのが空間ダウンサンプリングより再構築・生成で効果的だと実証していて、attention-based semantic compressor で密集した特徴量をコンパクトな統一表現に蒸留。さらに Transfusion アーキテクチャが query-based 設計を収束と一貫性で上回ると検証済み。VAE に頼らなくても画像の一貫性を維持しつつ、画像編集で優れた制御性を発揮する。

◈前モデル / 競合との比較

統合モデルの中で state-of-the-art の生成性能を達成。VAE なしでも画像一貫性を維持できるのは他の統合モデルとの明確な差別化ポイント。

◈技術背景と意義

画像を「理解」するAIと「生成」するAIは、画像の捉え方が根本的に違う。理解側は意味がわかればピクセルの詳細はいらない、生成側はピクセル単位の再現がいる。だから一つのモデルで両方やろうとすると、どちらかが犠牲になることが多かった。UniCom の面白いのは、画像の情報を「ギュッと圧縮」しつつ「連続的な意味」は残す中間表現を作ったこと。これにより理解にも生成にも使える共通の言語ができたイメージ。

▸こんな人・用途に

画像の編集で高い制御性が求められるクリエイティブ作業。理解と生成をシームレスに行き来する画像検索＋生成パイプライン。

◆入手方法・リンク

Hugging Face でメインチェックポイント、デコーダー、Flux VAE、SigLIP2 ビジョンエンコーダーが公開中。GitHub リポジトリ（https://github.com/Tencent-Hunyuan/UniCom）にセットアップ手順とサンプルコードあり。

公式発表を読む

SOURCE: Tencent (2026-04-09)

← LLM Watch トップへ

Tencent

Tencent が Sequential-Hidden-Decoding-8B-n4 をリリース ── 推論ステップを「隠し」て性能を爆上げ
Byren_admin 2026年3月10日

Tencentが「Sequential-Hidden-Decoding-8B-n4」を公開。Embedding追加のみで性能を引き出す新手法。

続きを読む Tencent が Sequential-Hidden-Decoding-8B-n4 をリリース ── 推論ステップを「隠し」て性能を爆上げ
Mistral

Mistral が Leanstral-2603 をリリース
Byren_admin 2026年3月17日

MistralのLeanstral-2603リリース情報

続きを読む Mistral が Leanstral-2603 をリリース
Alibaba (Qwen)

Alibaba (Qwen) が Qwen3.6-35B-A3B をリリース ── 総パラメ35Bでアクティブ3B、驚異的な軽さとコーディング性能
Byren_admin 2026年4月16日2026年4月17日

AlibabaがQwen3.6-35B-A3Bをリリース。総パラメ35B/アクティブ3Bの超軽量設計で最大101万トークンを処理し、コーディングエージェント性能が大幅向上。

続きを読む Alibaba (Qwen) が Qwen3.6-35B-A3B をリリース ── 総パラメ35Bでアクティブ3B、驚異的な軽さとコーディング性能
Alibaba (Qwen)

Alibaba (Qwen) が Qwen3.5-122B-A10B をリリース ── 122Bの知性を10Bの軽さで実現する野心的なアーキテクチャ
Byren_admin 2026年2月26日2026年3月10日

AlibabaがQwen3.5-122B-A10BをOSS公開。122Bの知性を10Bの軽さで実現する新構造が話題。

続きを読む Alibaba (Qwen) が Qwen3.5-122B-A10B をリリース ── 122Bの知性を10Bの軽さで実現する野心的なアーキテクチャ
Tencent

Tencent が StableToken をリリース ── ノイズ環境でも壊れない堅牢な音声トークナイザ
Byren_admin 2026年2月28日2026年3月10日

Tencent、ノイズに強い音声トークナイザ「StableToken」をOSSとして公開。競合を凌駕する耐性を獲得。

続きを読む Tencent が StableToken をリリース ── ノイズ環境でも壊れない堅牢な音声トークナイザ
Tencent

Tencent が HY-World-2.0 をリリース ── 動画じゃない、遊べるリアル3Dアセットを直接生成
Byren_admin 2026年4月16日

Tencentがオープンソースで公開したHY-World 2.0は、テキストや画像から編集可能なリアル3D空間を直接生成する革新的なモデルです。

続きを読む Tencent が HY-World-2.0 をリリース ── 動画じゃない、遊べるリアル3Dアセットを直接生成

コメントを残すコメントをキャンセル