Tencent が Penguin-VL-2B をリリース ── LLMを「目」に改造した画期的な効率化モデル
Tencentから新しいマルチモーダルモデル「Penguin-VL」が登場しました。このモデル、何がスゴイって、通常使われるCLIPやSigLIPといった画像エンコーダを使わず、LLMそのものを画像処理用に改造してるんです。まさに効率性の限界を探るような挑戦的な構造で、個人的にそのアプローチはかなり注目しちゃいます。
▸何が変わったのか
通常のVLMはCLIPなどの対照学習ベースのエンコーダを使いますが、Penguin-VLはQwen3-0.6BというテキストLLMをベースにした「LLM-based Vision Encoder」を採用。双方向アテンションと2D-RoPEを導入して空間モデリングを行い、言語モデルとの親和性を高めています。動画理解では「Temporal Redundancy-Aware (TRA)」というトークン圧縮戦略で長時間の動画推論を可能に。アーキテクチャは「LLM初期化エンコーダ」「軽量MLPプロジェクタ」「Qwen3言語バックボーン」の3つで構成され、2B、8Bサイズに加え、エンコーダ単体の公開も行われました。
◈前モデル / 競合との比較
既存の多くのVLMはCLIPやSigLIPを利用していますが、Penguin-VLはLLMをエンコーダとして初期化する点で一線を画します。2Bというコンパクトなサイズで、画像や動画のベンチマークにおいて競争力のある性能を維持しているのが強みです。
◈技術背景と意義
画像とテキストを組み合わせるモデルは、これまで「CLIP」のような画像とテキストを近づける学習済みモデルを「目」として使うのが常套手段でした。しかし、Penguin-VLはテキストを読むためのLLMの頭脳を、そのまま「目」として使うように改造した点が画期的。これにより、画像を捉える感覚と言語を処理する感覚のズレを解消し、よりスムーズに画像を理解できるようになる狙いがあります。動画の無駄な情報を削ぎ落として長時間の映像を扱える技術も地味に効いてきそうです。
▸こんな人・用途に
軽量ながら画像、ドキュメント、OCR、数学、動画と幅広いタスクに対応できるため、リソースが限られたエッジデバイスへの展開が期待できます。特に、長時間の動画を要約・解析したいが、巨大なクラスタは使いたくないようなシチュエーションに最適。手元のPCで動く動画理解AIとして、個人開発者にも使い勝手が良さそうです。
◆入手方法・リンク
モデルはHugging Faceから直接ダウンロード可能で、「tencent/Penguin-VL-2B」などの名前で公開されています。PythonのTransformersライブラリを使って、trust_remote_code=Trueを指定するだけで、簡単に推論を試すことができます。
▸Redditの反応
TencentがPenguin-VLの8Bと2Bモデルを出した投稿が上がっているものの、まだコメントはゼロで静かなスタート。RedditのLocalLLaMA界隈でも具体的な反応が出てくるのは、もう少し先になりそうだ。
SOURCE: Tencent (2026-03-05)