Tencent が UniCom をリリース ── 圧縮連続表現で理解も生成も両立する統合マルチモーダルモデル
Tencent Hunyuan が圧縮連続表現で理解と生成を統合する UniCom を OSS 公開。VAE なしで画像編集の制御性がすごい。
Tencent Hunyuan が圧縮連続表現で理解と生成を統合する UniCom を OSS 公開。VAE なしで画像編集の制御性がすごい。
Tencentが画像と言語を処理するオープンソースモデル「HY-Embodied-0.5」を公開。16GB VRAMで動作し、思考モードも搭載。
Tencent HunyuanがOmniWeavingをリリース。テキスト・画像・動画の自由な組み合わせで高品質な動画を生成するオープンソースモデル。
TencentがSequential Hidden Decoding手法でシーケンス長を8倍に拡張した8Bモデルを公開。Qwen3ベースでコンテキスト131Kトークン対応。
Tencentが公開したVersaViTは、LLMとの言語推論からピクセルレベルの画像理解までこなす万能視覚エンコーダー。
Tencentが音声を直接処理する7Bパラメータのエンドツーエンド音声言語モデルCovo-Audio-ChatをOSSで公開。
Tencentが「Sequential-Hidden-Decoding-8B-n4」を公開。Embedding追加のみで性能を引き出す新手法。
TencentがLLMベースのビジョンエンコーダを採用したVLM「Penguin-VL-2B」をOSSで公開。効率的な動画理解が特徴。
Tencentが「Penguin-Encoder」を公開。CLIPではなくLLMをベースとした独自のビジョンエンコーダ。
TencentがPenguin-VL-8BをOSS公開。LLMベースの視覚エンコーダと動画理解機能を搭載。