Penguin-VL-8B カバー画像

Tencent

Tencent が Penguin-VL-8B をリリース ── VLMの効率限界に挑む新アーキテクチャ

Byren_admin 2026年3月7日2026年3月10日

TENCENTOSS

最終更新: 2026年03月07日 21:03　元記事 →

Tencentがまた面白いもんを出してきたね。Penguin-VL-8BというVLM（Vision-Language Model）なんだけど、これまでの常識を覆す設計になっている。なんと、視覚エンコーダーにCLIPやSigLIPといった「対比学習」モデルを使わず、テキスト専用LLMを改造して流用しているんだ。

▸何が変わったのか

視覚エンコーダーに「Qwen3-0.6B」をベースにしたLLMベースのエンコーダを採用し、双方向注意機構と2D-RoPEで空間モデリングを実現。動画理解のためには「Temporal Redundancy-Aware (TRA) token compression」という戦略でトークンを動的に割り振り、長い動画も限られたコンテキストウィンドウ内で推論できるようにした。モデル全体はLLM初期化エンコーダー、軽量MLPプロジェクター、Qwen3言語バックボーンで構成される統一アーキテクチャだ。

◈前モデル / 競合との比較

従来のVLM（CLIP/SigLIPベース）と異なり、視覚エンコーダにLLMを初期値として用いる点が最大の違い。対比学習と自己回帰言語モデリングの目的の不一致を回避することで、より密な結合を実現している。

◈技術背景と意義

普通のVLMは、画像の理解にCLIPみたいな「画像とテキストをペアにして学習したモデル」を使うんだけど、学習の目的がLLM（文章を予測する）とちょっとズレてるんだよね。Penguin-VLはここを解決していて、テキスト専用LLMを視覚エンコーダに流用することで、画像の特徴と言語バックボーンがシームレスにつながる。つまり、「視覚情報も言葉のルールで解釈しちゃおう」という大胆なアプローチで、効率限界を探っているわけだ。

▸こんな人・用途に

画像やドキュメント、OCR、数式を含むリッチなコンテンツを理解したい場合。特に長時間の動画コンテンツを要約・解析する用途に強そうだ。リソース限られた環境で、8Bクラスの堅実なモデルをデプロイしたい開発者向け。

◆入手方法・リンク

Hugging Faceで「tencent/Penguin-VL-8B」が公開されており、Transformersライブラリ経由で誰でも利用可能だ。Penguin-VL-2Bやエンコーダ単体のモデルも同時にリリースされている。

公式発表を読む

▸Redditの反応

Tencentが新モデル「Penguin-VL」をリリースしたみたいだけど、まだLocalLLaMA界隈では反応が薄い感じ。スコアも低いしコメントもないから、みんな詳細をチェック中か、これからの評価待ちってところだろうね。

SOURCE: Tencent (2026-03-05)

← LLM Watch トップへ

Zhipu AI

Zhipu AI が GLM-5.1 をリリース ── 長く動かすほど賢くなるエージェント特化型
Byren_admin 2026年4月8日

Zhipu AIのGLM-5.1がHugging Faceに登場。長時間の自律作業で真価を発揮するエージェント特化型で、SWE-Bench Pro等でSOTAを達成。

続きを読む Zhipu AI が GLM-5.1 をリリース ── 長く動かすほど賢くなるエージェント特化型
Tencent

Tencent が HY-Embodied-0.5 をリリース ── 思考モードを搭載した画像言語モデル
Byren_admin 2026年4月9日

Tencentが画像と言語を処理するオープンソースモデル「HY-Embodied-0.5」を公開。16GB VRAMで動作し、思考モードも搭載。

続きを読む Tencent が HY-Embodied-0.5 をリリース ── 思考モードを搭載した画像言語モデル
Tencent

Tencent が HY-WU をリリース ── 学習不要でアダプターを生成する「ニューラルメモリ」搭載
Byren_admin 2026年3月6日2026年3月10日

Tencent、画像編集のための新フレームワーク「HY-WU」をOSSで公開。学習なしでアダプターを生成する記憶メカニズムが革新的。

続きを読む Tencent が HY-WU をリリース ── 学習不要でアダプターを生成する「ニューラルメモリ」搭載
Tencent

Tencent が StableToken をリリース ── ノイズ環境でも壊れない堅牢な音声トークナイザ
Byren_admin 2026年2月28日2026年3月10日

Tencent、ノイズに強い音声トークナイザ「StableToken」をOSSとして公開。競合を凌駕する耐性を獲得。

続きを読む Tencent が StableToken をリリース ── ノイズ環境でも壊れない堅牢な音声トークナイザ
MiniMax

MiniMax が MiniMax-M2.7 をリリース ── 自己進化するエージェント特化モデル、本番障害を3分未満で復旧
Byren_admin 2026年4月12日

MiniMax-M2.7は自己進化サイクルを実装したエージェント特化モデル。MLE Bench Liteでメダル率66.6%、本番障害復旧を3分未満で達成。

続きを読む MiniMax が MiniMax-M2.7 をリリース ── 自己進化するエージェント特化モデル、本番障害を3分未満で復旧
Tencent

Tencent が Sequential-Hidden-Decoding-8B-n8-Instruct をリリース ── 同じTransformerでシーケンス長を8倍に伸ばす異色のアプローチ
Byren_admin 2026年3月31日2026年3月31日

TencentがSequential Hidden Decoding手法でシーケンス長を8倍に拡張した8Bモデルを公開。Qwen3ベースでコンテキスト131Kトークン対応。

続きを読む Tencent が Sequential-Hidden-Decoding-8B-n8-Instruct をリリース ── 同じTransformerでシーケンス長を8倍に伸ばす異色のアプローチ

コメントを残すコメントをキャンセル