Tencent が Unified_Audio_Schema をリリース ── 聴いて話す、音声の理解と生成を統合したマルチモーダルモデル
Tencentがテキストと音声の相互入出力に対応したUnified Audio Schemaを公開。感情や非言語情報の理解・生成が可能に。
Tencentがテキストと音声の相互入出力に対応したUnified Audio Schemaを公開。感情や非言語情報の理解・生成が可能に。
AlibabaがQwen3.6-35B-A3Bをリリース。総パラメ35B/アクティブ3Bの超軽量設計で最大101万トークンを処理し、コーディングエージェント性能が大幅向上。
Tencentがオープンソースで公開したHY-World 2.0は、テキストや画像から編集可能なリアル3D空間を直接生成する革新的なモデルです。
Tencent HunyuanがCVPR 2026採択のDisCaをOSS公開。学習可能なFeature Cachingで動画生成を高速化しつつ品質を維持する新手法。
Tencent Hunyuan が圧縮連続表現で理解と生成を統合する UniCom を OSS 公開。VAE なしで画像編集の制御性がすごい。
MiniMax-M2.7は自己進化サイクルを実装したエージェント特化モデル。MLE Bench Liteでメダル率66.6%、本番障害復旧を3分未満で達成。
Tencentが画像と言語を処理するオープンソースモデル「HY-Embodied-0.5」を公開。16GB VRAMで動作し、思考モードも搭載。
Zhipu AIのGLM-5.1がHugging Faceに登場。長時間の自律作業で真価を発揮するエージェント特化型で、SWE-Bench Pro等でSOTAを達成。
Tencent HunyuanがOmniWeavingをリリース。テキスト・画像・動画の自由な組み合わせで高品質な動画を生成するオープンソースモデル。
TencentがSequential Hidden Decoding手法でシーケンス長を8倍に拡張した8Bモデルを公開。Qwen3ベースでコンテキスト131Kトークン対応。