Penguin-VL-2B カバー画像

Tencent

Tencent が Penguin-VL-2B をリリース ── LLMを「目」に改造した画期的な効率化モデル

Byren_admin 2026年3月7日2026年3月10日

TENCENTOSS

最終更新: 2026年03月07日 21:04　元記事 →

Tencentから新しいマルチモーダルモデル「Penguin-VL」が登場しました。このモデル、何がスゴイって、通常使われるCLIPやSigLIPといった画像エンコーダを使わず、LLMそのものを画像処理用に改造してるんです。まさに効率性の限界を探るような挑戦的な構造で、個人的にそのアプローチはかなり注目しちゃいます。

▸何が変わったのか

通常のVLMはCLIPなどの対照学習ベースのエンコーダを使いますが、Penguin-VLはQwen3-0.6BというテキストLLMをベースにした「LLM-based Vision Encoder」を採用。双方向アテンションと2D-RoPEを導入して空間モデリングを行い、言語モデルとの親和性を高めています。動画理解では「Temporal Redundancy-Aware (TRA)」というトークン圧縮戦略で長時間の動画推論を可能に。アーキテクチャは「LLM初期化エンコーダ」「軽量MLPプロジェクタ」「Qwen3言語バックボーン」の3つで構成され、2B、8Bサイズに加え、エンコーダ単体の公開も行われました。

◈前モデル / 競合との比較

既存の多くのVLMはCLIPやSigLIPを利用していますが、Penguin-VLはLLMをエンコーダとして初期化する点で一線を画します。2Bというコンパクトなサイズで、画像や動画のベンチマークにおいて競争力のある性能を維持しているのが強みです。

◈技術背景と意義

画像とテキストを組み合わせるモデルは、これまで「CLIP」のような画像とテキストを近づける学習済みモデルを「目」として使うのが常套手段でした。しかし、Penguin-VLはテキストを読むためのLLMの頭脳を、そのまま「目」として使うように改造した点が画期的。これにより、画像を捉える感覚と言語を処理する感覚のズレを解消し、よりスムーズに画像を理解できるようになる狙いがあります。動画の無駄な情報を削ぎ落として長時間の映像を扱える技術も地味に効いてきそうです。

▸こんな人・用途に

軽量ながら画像、ドキュメント、OCR、数学、動画と幅広いタスクに対応できるため、リソースが限られたエッジデバイスへの展開が期待できます。特に、長時間の動画を要約・解析したいが、巨大なクラスタは使いたくないようなシチュエーションに最適。手元のPCで動く動画理解AIとして、個人開発者にも使い勝手が良さそうです。

◆入手方法・リンク

モデルはHugging Faceから直接ダウンロード可能で、「tencent/Penguin-VL-2B」などの名前で公開されています。PythonのTransformersライブラリを使って、trust_remote_code=Trueを指定するだけで、簡単に推論を試すことができます。

公式発表を読む

▸Redditの反応

TencentがPenguin-VLの8Bと2Bモデルを出した投稿が上がっているものの、まだコメントはゼロで静かなスタート。RedditのLocalLLaMA界隈でも具体的な反応が出てくるのは、もう少し先になりそうだ。

SOURCE: Tencent (2026-03-05)

← LLM Watch トップへ

Alibaba (Qwen)

Alibaba (Qwen) が Qwen3.6-35B-A3B をリリース ── 総パラメ35Bでアクティブ3B、驚異的な軽さとコーディング性能
Byren_admin 2026年4月16日2026年4月17日

AlibabaがQwen3.6-35B-A3Bをリリース。総パラメ35B/アクティブ3Bの超軽量設計で最大101万トークンを処理し、コーディングエージェント性能が大幅向上。

続きを読む Alibaba (Qwen) が Qwen3.6-35B-A3B をリリース ── 総パラメ35Bでアクティブ3B、驚異的な軽さとコーディング性能
Tencent

Tencent が UniCom をリリース ── 圧縮連続表現で理解も生成も両立する統合マルチモーダルモデル
Byren_admin 2026年4月13日

Tencent Hunyuan が圧縮連続表現で理解と生成を統合する UniCom を OSS 公開。VAE なしで画像編集の制御性がすごい。

続きを読む Tencent が UniCom をリリース ── 圧縮連続表現で理解も生成も両立する統合マルチモーダルモデル
Tencent

Tencent が Covo-Audio-Chat をリリース ── 音声から音声へ、テキストを介さないエンドツーエンド対話
Byren_admin 2026年3月16日

Tencentが音声を直接処理する7Bパラメータのエンドツーエンド音声言語モデルCovo-Audio-ChatをOSSで公開。

続きを読む Tencent が Covo-Audio-Chat をリリース ── 音声から音声へ、テキストを介さないエンドツーエンド対話
Tencent

Tencent が Sequential-Hidden-Decoding-8B-n8-Instruct をリリース ── 同じTransformerでシーケンス長を8倍に伸ばす異色のアプローチ
Byren_admin 2026年3月31日2026年3月31日

TencentがSequential Hidden Decoding手法でシーケンス長を8倍に拡張した8Bモデルを公開。Qwen3ベースでコンテキスト131Kトークン対応。

続きを読む Tencent が Sequential-Hidden-Decoding-8B-n8-Instruct をリリース ── 同じTransformerでシーケンス長を8倍に伸ばす異色のアプローチ
Tencent

Tencent が HY-OmniWeaving をリリース ── テキスト・画像・動画を自由に入力できる統合動画生成モデル
Byren_admin 2026年4月3日

Tencent HunyuanがOmniWeavingをリリース。テキスト・画像・動画の自由な組み合わせで高品質な動画を生成するオープンソースモデル。

続きを読む Tencent が HY-OmniWeaving をリリース ── テキスト・画像・動画を自由に入力できる統合動画生成モデル
Tencent

Tencent が Penguin-Encoder をリリース ── LLMそのものをビジョンエンコーダーに転用した新機軸
Byren_admin 2026年3月7日2026年3月10日

Tencentが「Penguin-Encoder」を公開。CLIPではなくLLMをベースとした独自のビジョンエンコーダ。

続きを読む Tencent が Penguin-Encoder をリリース ── LLMそのものをビジョンエンコーダーに転用した新機軸

コメントを残すコメントをキャンセル