Introducing Gemma 4 12B: a unified, encoder-free multimodal model カバー画像

Google DeepMind が Gemma 4 12B をリリース ── エンコーダーレスで16GB VRAM動作する野心的なマルチモーダルモデル

GOOGLE DEEPMIND

最終更新: 2026年06月10日 00:03 元記事 →

ついに来た、という感じ。ローカル環境で高度なAIエージェントを動かしたい人にとってはかなり嬉しいニュースだ。Google DeepMindが発表した「Gemma 4 12B」は、画像や音声の処理を担う巨大なエンコーダーを廃止しつつ、わずか16GBのメモリでサクサク動くという。

何が変わったのか

これまでのシリーズではエッジ向けのE4Bと、より高度な26B Mixture of Experts (MoE)が存在していたが、今回の12Bはその絶妙な中間を埋めるモデル。最大のトピックは「エンコーダーフリー」の統一アーキテクチャを採用した点。視覚と音声の入力を別々のエンコーダーで翻訳するのをやめ、直接LLMのバックボーンに流し込む仕組みになった。ビジョン処理には軽量なエンベディングモジュールを採用。さらにミッドサイズモデルとして初めてネイティブの音声入力に対応し、Multi-Token Prediction (MTP) ドラフターを搭載してレイテンシの低減も図っている。

前モデル / 競合との比較

上位モデルである26B MoEに迫るベンチマークスコアを叩き出しつつ、総メモリフットプリントはその半分以下に抑えられている。エッジ向けのE4Bと高性能モデルのいいとこ取りをしたポジションだ。

技術背景と意義

普通のマルチモーダルAIは、画像や音声をAIが理解できる形に変換するための「翻訳機(エンコーダー)」を別途くっつけるのが当たり前だった。ただ、これがメモリを消費し、処理の遅れ(レイテンシ)の原因にもなっていた。今回の設計は、その翻訳機を思い切って削ぎ落とし、視覚と音声のデータを直接AIの頭脳部分に入力するという挑戦。これにより、ユーザーの手元にある一般的なPCでも、高速かつ高度な推論が可能になったわけだ。

こんな人・用途に

16GBのVRAMまたはユニファイドメモリを搭載したラップトップで、マルチステップ推論を伴うエージェントワークフローをローカル実行したい開発者。ウェアラブルロボットアームの制御やエンタープライズ向けAIセキュリティなど、エッジデバイスでの高度なマルチモーダル処理を必要とするプロジェクト。

入手方法・リンク

提供テキストによるとApache 2.0ライセンスでリリースされ、開発者エコシステム全体でサポートされる見込み。公式の GitHub リンク等の詳細情報は現時点では不明。

SOURCE: Google DeepMind (2026-06-09)

← LLM Watch トップへ

類似投稿

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です