Penguin-Encoder カバー画像

Tencent

Tencent が Penguin-Encoder をリリース ── LLMそのものをビジョンエンコーダーに転用した新機軸

Byren_admin 2026年3月7日2026年3月10日

TENCENTOSS

最終更新: 2026年03月07日 17:02　元記事 →

ビジョン言語モデル（VLM）の常識を覆すような、テンセントの新モデル「Penguin-Encoder」が登場しました。なんと、画像の理解のために「CLIP」などの専用モデルではなく、テキスト専用LLMをそのままベースにしているんです。この大胆なアプローチ、個人的にかなり興味深いです。

▸何が変わったのか

テンセントから「PenguinVL-Encoder」が公開されました。このモデルは、一般的に使われているCLIPやSigLIPのようなコントラスト学習済みビジョンエンコーダーを使わず、事前学習済みのテキスト専用LLM（Qwen3-0.6B）を初期値としているのが特徴です。画像の空間情報を扱うために、双方向アテンションと2D-RoPEを追加して改造されています。これにより、コントラスト学習と自己回帰言語モデルの間の目的の不一致を回避。ビジュアルと言語の親和性を高める設計になっています。同時に、Qwen3-1.7Bベースの「PenguinVL-2B」とQwen3-8Bベースの「PenguinVL-8B」もリリースされています。

◈前モデル / 競合との比較

従来のVLMで標準的に使われているCLIPやSigLIPなどのコントラスト学習モデルとは異なり、テキスト専用LLMを直接ビジョンエンコーダとして転用している点が最大の違いです。

◈技術背景と意義

従来のVLMは「画像を見る専用のAI（CLIPなど）」と「文章を考えるAI（LLM）」を組み合わせていたので、どうしても翻訳のようなズレが生じていました。しかし、このPenguin-Encoderは最初から「文章を読むAI」の構造そのものを「画像を読む」ように改造しているんです。こうすることで、画像と文章を全く同じルールで処理でき、より深い理解ができるようになるという理屈です。まさにLLMのポテンシャルを限界まで引き出す試みと言えます。

◆入手方法・リンク

Hugging Faceから「tencent/Penguin-Encoder」などのモデル名で入手可能で、`transformers`ライブラリを使った推論コードも提供されています。

公式発表を読む

SOURCE: Tencent (2026-03-05)

← LLM Watch トップへ

Zhipu AI

Zhipu AI が GLM-5.1 をリリース ── 長く動かすほど賢くなるエージェント特化型
Byren_admin 2026年4月8日

Zhipu AIのGLM-5.1がHugging Faceに登場。長時間の自律作業で真価を発揮するエージェント特化型で、SWE-Bench Pro等でSOTAを達成。

続きを読む Zhipu AI が GLM-5.1 をリリース ── 長く動かすほど賢くなるエージェント特化型
Tencent

Tencent が Covo-Audio-Chat をリリース ── 音声から音声へ、テキストを介さないエンドツーエンド対話
Byren_admin 2026年3月16日

Tencentが音声を直接処理する7Bパラメータのエンドツーエンド音声言語モデルCovo-Audio-ChatをOSSで公開。

続きを読む Tencent が Covo-Audio-Chat をリリース ── 音声から音声へ、テキストを介さないエンドツーエンド対話
Alibaba (Qwen)

Alibaba (Qwen) が Qwen3.6-35B-A3B をリリース ── 総パラメ35Bでアクティブ3B、驚異的な軽さとコーディング性能
Byren_admin 2026年4月16日2026年4月17日

AlibabaがQwen3.6-35B-A3Bをリリース。総パラメ35B/アクティブ3Bの超軽量設計で最大101万トークンを処理し、コーディングエージェント性能が大幅向上。

続きを読む Alibaba (Qwen) が Qwen3.6-35B-A3B をリリース ── 総パラメ35Bでアクティブ3B、驚異的な軽さとコーディング性能
Tencent

Tencent が Penguin-VL-2B をリリース ── LLMを「目」に改造した画期的な効率化モデル
Byren_admin 2026年3月7日2026年3月10日

TencentがLLMベースのビジョンエンコーダを採用したVLM「Penguin-VL-2B」をOSSで公開。効率的な動画理解が特徴。

続きを読む Tencent が Penguin-VL-2B をリリース ── LLMを「目」に改造した画期的な効率化モデル
Tencent

Tencent が HY-WU をリリース ── 学習不要でアダプターを生成する「ニューラルメモリ」搭載
Byren_admin 2026年3月6日2026年3月10日

Tencent、画像編集のための新フレームワーク「HY-WU」をOSSで公開。学習なしでアダプターを生成する記憶メカニズムが革新的。

続きを読む Tencent が HY-WU をリリース ── 学習不要でアダプターを生成する「ニューラルメモリ」搭載
Alibaba (Qwen)

Alibaba (Qwen) が Qwen3.5-122B-A10B をリリース ── 122Bの知性を10Bの軽さで実現する野心的なアーキテクチャ
Byren_admin 2026年2月26日2026年3月10日

AlibabaがQwen3.5-122B-A10BをOSS公開。122Bの知性を10Bの軽さで実現する新構造が話題。

続きを読む Alibaba (Qwen) が Qwen3.5-122B-A10B をリリース ── 122Bの知性を10Bの軽さで実現する野心的なアーキテクチャ

コメントを残すコメントをキャンセル