Tencent が Unified_Audio_Schema をリリース ── 聴いて話す、音声の理解と生成を統合したマルチモーダルモデル
Tencentがテキストと音声の相互入出力に対応したUnified Audio Schemaを公開。感情や非言語情報の理解・生成が可能に。
Tencentがテキストと音声の相互入出力に対応したUnified Audio Schemaを公開。感情や非言語情報の理解・生成が可能に。
Tencentがオープンソースで公開したHY-World 2.0は、テキストや画像から編集可能なリアル3D空間を直接生成する革新的なモデルです。
Tencent HunyuanがCVPR 2026採択のDisCaをOSS公開。学習可能なFeature Cachingで動画生成を高速化しつつ品質を維持する新手法。
Tencent Hunyuan が圧縮連続表現で理解と生成を統合する UniCom を OSS 公開。VAE なしで画像編集の制御性がすごい。
Tencentが画像と言語を処理するオープンソースモデル「HY-Embodied-0.5」を公開。16GB VRAMで動作し、思考モードも搭載。
Tencent HunyuanがOmniWeavingをリリース。テキスト・画像・動画の自由な組み合わせで高品質な動画を生成するオープンソースモデル。
TencentがSequential Hidden Decoding手法でシーケンス長を8倍に拡張した8Bモデルを公開。Qwen3ベースでコンテキスト131Kトークン対応。
Tencentが公開したVersaViTは、LLMとの言語推論からピクセルレベルの画像理解までこなす万能視覚エンコーダー。
Tencentが音声を直接処理する7Bパラメータのエンドツーエンド音声言語モデルCovo-Audio-ChatをOSSで公開。
Tencentが「Sequential-Hidden-Decoding-8B-n4」を公開。Embedding追加のみで性能を引き出す新手法。