VersaViT カバー画像

Tencent

Tencent が VersaViT をリリース ── マルチモーダル向けの万能視覚エンコーダー

Byren_admin 2026年3月29日2026年3月29日

TENCENTOSS

最終更新: 2026年03月29日 07:46　元記事 →

AIの「目」の役割を担う視覚モデルに、かなりアツいアプローチが登場。Tencentがオープンソースで公開した「VersaViT」は、これまで別々のモデルで対応していたタスクを1つでこなせる可能性を秘めている。

▸何が変わったのか

VersaViTは、マルチモーダルシステムの視覚エンコーダーとして特化してチューニングされたVision Transformer。学習には「multi-task collaborative post-training recipe」が採用されている。LLMと組み合わせた「vision–language understanding」のような言語媒介推論から、セグメンテーションや深度推定といった「pixel-level understanding」まで、ひとつのモデルで高精度にこなすのが最大の特徴。

◈技術背景と意義

画像をAIに理解させる「視覚エンコーダー」は、画像全体の雰囲気を掴むのが得意なタイプと、ピクセル単位で輪郭などを捉えるのが得意なタイプに分かれがち。VersaViTは、複数のタスクで協調的に事後学習させる手法を採用。これにより、広い意味の理解からピクセル単位の精密な解析まで、ひとつのモデルでこなせる「万能な目」を実現している。

▸こんな人・用途に

– LLMと連携させた高度な視覚言語モデル（VLM）のバックボーン構築
– セグメンテーションや深度推定など、ピクセル単位の精密な画像認識が必要なシステム

◆入手方法・リンク

Hugging Faceの`transformers`ライブラリに対応済み。`AutoImageProcessor`とモデルの読み込みコードが提供されているのですぐに試せる。

公式発表を読む

SOURCE: Tencent (2026-03-20)

← LLM Watch トップへ

Tencent

Tencent が HY-Embodied-0.5 をリリース ── 思考モードを搭載した画像言語モデル
Byren_admin 2026年4月9日

Tencentが画像と言語を処理するオープンソースモデル「HY-Embodied-0.5」を公開。16GB VRAMで動作し、思考モードも搭載。

続きを読む Tencent が HY-Embodied-0.5 をリリース ── 思考モードを搭載した画像言語モデル
Alibaba (Qwen)

Alibaba (Qwen) が Qwen3.5-122B-A10B をリリース ── 122Bの知性を10Bの軽さで実現する野心的なアーキテクチャ
Byren_admin 2026年2月26日2026年3月10日

AlibabaがQwen3.5-122B-A10BをOSS公開。122Bの知性を10Bの軽さで実現する新構造が話題。

続きを読む Alibaba (Qwen) が Qwen3.5-122B-A10B をリリース ── 122Bの知性を10Bの軽さで実現する野心的なアーキテクチャ
Tencent

Tencent が StableToken をリリース ── ノイズ環境でも壊れない堅牢な音声トークナイザ
Byren_admin 2026年2月28日2026年3月10日

Tencent、ノイズに強い音声トークナイザ「StableToken」をOSSとして公開。競合を凌駕する耐性を獲得。

続きを読む Tencent が StableToken をリリース ── ノイズ環境でも壊れない堅牢な音声トークナイザ
Alibaba (Qwen)

Alibaba (Qwen) が Qwen3.5-2B-Base をリリース
Byren_admin 2026年3月2日2026年3月10日

Alibaba (Qwen)のQwen3.5-2B-Baseリリース情報

続きを読む Alibaba (Qwen) が Qwen3.5-2B-Base をリリース
Tencent

Tencent が HY-WU をリリース ── 学習不要でアダプターを生成する「ニューラルメモリ」搭載
Byren_admin 2026年3月6日2026年3月10日

Tencent、画像編集のための新フレームワーク「HY-WU」をOSSで公開。学習なしでアダプターを生成する記憶メカニズムが革新的。

続きを読む Tencent が HY-WU をリリース ── 学習不要でアダプターを生成する「ニューラルメモリ」搭載
Tencent

Tencent が Penguin-VL-2B をリリース ── LLMを「目」に改造した画期的な効率化モデル
Byren_admin 2026年3月7日2026年3月10日

TencentがLLMベースのビジョンエンコーダを採用したVLM「Penguin-VL-2B」をOSSで公開。効率的な動画理解が特徴。

続きを読む Tencent が Penguin-VL-2B をリリース ── LLMを「目」に改造した画期的な効率化モデル

コメントを残すコメントをキャンセル