Penguin-Encoder カバー画像

Tencent が Penguin-Encoder をリリース ── LLMそのものをビジョンエンコーダーに転用した新機軸

TENCENTOSS

最終更新: 2026年03月07日 17:02 元記事 →

ビジョン言語モデル(VLM)の常識を覆すような、テンセントの新モデル「Penguin-Encoder」が登場しました。なんと、画像の理解のために「CLIP」などの専用モデルではなく、テキスト専用LLMをそのままベースにしているんです。この大胆なアプローチ、個人的にかなり興味深いです。

何が変わったのか

テンセントから「PenguinVL-Encoder」が公開されました。このモデルは、一般的に使われているCLIPやSigLIPのようなコントラスト学習済みビジョンエンコーダーを使わず、事前学習済みのテキスト専用LLM(Qwen3-0.6B)を初期値としているのが特徴です。画像の空間情報を扱うために、双方向アテンションと2D-RoPEを追加して改造されています。これにより、コントラスト学習と自己回帰言語モデルの間の目的の不一致を回避。ビジュアルと言語の親和性を高める設計になっています。同時に、Qwen3-1.7Bベースの「PenguinVL-2B」とQwen3-8Bベースの「PenguinVL-8B」もリリースされています。

前モデル / 競合との比較

従来のVLMで標準的に使われているCLIPやSigLIPなどのコントラスト学習モデルとは異なり、テキスト専用LLMを直接ビジョンエンコーダとして転用している点が最大の違いです。

技術背景と意義

従来のVLMは「画像を見る専用のAI(CLIPなど)」と「文章を考えるAI(LLM)」を組み合わせていたので、どうしても翻訳のようなズレが生じていました。しかし、このPenguin-Encoderは最初から「文章を読むAI」の構造そのものを「画像を読む」ように改造しているんです。こうすることで、画像と文章を全く同じルールで処理でき、より深い理解ができるようになるという理屈です。まさにLLMのポテンシャルを限界まで引き出す試みと言えます。

入手方法・リンク

Hugging Faceから「tencent/Penguin-Encoder」などのモデル名で入手可能で、`transformers`ライブラリを使った推論コードも提供されています。

SOURCE: Tencent (2026-03-05)

← LLM Watch トップへ

類似投稿

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です