Tencent が VersaViT をリリース ── マルチモーダル向けの万能視覚エンコーダー
Tencentが公開したVersaViTは、LLMとの言語推論からピクセルレベルの画像理解までこなす万能視覚エンコーダー。
Tencentが公開したVersaViTは、LLMとの言語推論からピクセルレベルの画像理解までこなす万能視覚エンコーダー。
Mistral Small 4登場。119Bパラメータのハイブリッドモデルが推論・コードを統合、Apache 2.0でOSS化。
MistralのLeanstral-2603リリース情報
Tencentが音声を直接処理する7Bパラメータのエンドツーエンド音声言語モデルCovo-Audio-ChatをOSSで公開。
Tencentが「Sequential-Hidden-Decoding-8B-n4」を公開。Embedding追加のみで性能を引き出す新手法。
TencentがLLMベースのビジョンエンコーダを採用したVLM「Penguin-VL-2B」をOSSで公開。効率的な動画理解が特徴。
Tencentが「Penguin-Encoder」を公開。CLIPではなくLLMをベースとした独自のビジョンエンコーダ。
TencentがPenguin-VL-8BをOSS公開。LLMベースの視覚エンコーダと動画理解機能を搭載。
Tencent、画像編集のための新フレームワーク「HY-WU」をOSSで公開。学習なしでアダプターを生成する記憶メカニズムが革新的。
Alibaba (Qwen)のQwen3.5-2B-Baseリリース情報