Tencent が VersaViT をリリース ── マルチモーダル向けの万能視覚エンコーダー
AIの「目」の役割を担う視覚モデルに、かなりアツいアプローチが登場。Tencentがオープンソースで公開した「VersaViT」は、これまで別々のモデルで対応していたタスクを1つでこなせる可能性を秘めている。
▸何が変わったのか
VersaViTは、マルチモーダルシステムの視覚エンコーダーとして特化してチューニングされたVision Transformer。学習には「multi-task collaborative post-training recipe」が採用されている。LLMと組み合わせた「vision–language understanding」のような言語媒介推論から、セグメンテーションや深度推定といった「pixel-level understanding」まで、ひとつのモデルで高精度にこなすのが最大の特徴。
◈技術背景と意義
画像をAIに理解させる「視覚エンコーダー」は、画像全体の雰囲気を掴むのが得意なタイプと、ピクセル単位で輪郭などを捉えるのが得意なタイプに分かれがち。VersaViTは、複数のタスクで協調的に事後学習させる手法を採用。これにより、広い意味の理解からピクセル単位の精密な解析まで、ひとつのモデルでこなせる「万能な目」を実現している。
▸こんな人・用途に
– LLMと連携させた高度な視覚言語モデル(VLM)のバックボーン構築
– セグメンテーションや深度推定など、ピクセル単位の精密な画像認識が必要なシステム
◆入手方法・リンク
Hugging Faceの`transformers`ライブラリに対応済み。`AutoImageProcessor`とモデルの読み込みコードが提供されているのですぐに試せる。
SOURCE: Tencent (2026-03-20)