Introducing Gemma 4 12B: a unified, encoder-free multimodal model カバー画像

Google DeepMind が Gemma 4 12B をリリース ── エンコーダーレスで16GB VRAM動作する野心的なマルチモーダルモデル

ByLLM Watch編集部 2026年6月10日

GOOGLE DEEPMIND

最終更新: 2026年06月10日 00:03　元記事 →

ついに来た、という感じ。ローカル環境で高度なAIエージェントを動かしたい人にとってはかなり嬉しいニュースだ。Google DeepMindが発表した「Gemma 4 12B」は、画像や音声の処理を担う巨大なエンコーダーを廃止しつつ、わずか16GBのメモリでサクサク動くという。

▸何が変わったのか

これまでのシリーズではエッジ向けのE4Bと、より高度な26B Mixture of Experts (MoE)が存在していたが、今回の12Bはその絶妙な中間を埋めるモデル。最大のトピックは「エンコーダーフリー」の統一アーキテクチャを採用した点。視覚と音声の入力を別々のエンコーダーで翻訳するのをやめ、直接LLMのバックボーンに流し込む仕組みになった。ビジョン処理には軽量なエンベディングモジュールを採用。さらにミッドサイズモデルとして初めてネイティブの音声入力に対応し、Multi-Token Prediction (MTP) ドラフターを搭載してレイテンシの低減も図っている。

◈前モデル / 競合との比較

上位モデルである26B MoEに迫るベンチマークスコアを叩き出しつつ、総メモリフットプリントはその半分以下に抑えられている。エッジ向けのE4Bと高性能モデルのいいとこ取りをしたポジションだ。

◈技術背景と意義

普通のマルチモーダルAIは、画像や音声をAIが理解できる形に変換するための「翻訳機（エンコーダー）」を別途くっつけるのが当たり前だった。ただ、これがメモリを消費し、処理の遅れ（レイテンシ）の原因にもなっていた。今回の設計は、その翻訳機を思い切って削ぎ落とし、視覚と音声のデータを直接AIの頭脳部分に入力するという挑戦。これにより、ユーザーの手元にある一般的なPCでも、高速かつ高度な推論が可能になったわけだ。

▸こんな人・用途に

16GBのVRAMまたはユニファイドメモリを搭載したラップトップで、マルチステップ推論を伴うエージェントワークフローをローカル実行したい開発者。ウェアラブルロボットアームの制御やエンタープライズ向けAIセキュリティなど、エッジデバイスでの高度なマルチモーダル処理を必要とするプロジェクト。

◆入手方法・リンク

提供テキストによるとApache 2.0ライセンスでリリースされ、開発者エコシステム全体でサポートされる見込み。公式の GitHub リンク等の詳細情報は現時点では不明。

公式発表を読む

SOURCE: Google DeepMind (2026-06-09)

← LLM Watch トップへ

Hugging Face

Hugging Face 発の新ツール「Her · हेर」がリリース ── Claude Codeの暴走を調査する「探偵」
ByLLM Watch編集部 2026年6月7日

Claude Codeの.jsonlセッションログを解析し、エージェントの挙動やトークン消費、リスクの高い操作を特定するツール「Her · हेर」が登場した。

続きを読む Hugging Face 発の新ツール「Her · हेर」がリリース ── Claude Codeの暴走を調査する「探偵」
Hugging Face

Hugging Face が What’s New in Mellea 0.4.0 + Granite Libraries Release をリリース ── LLMの「カオス」に構造を与えるIBMの新アプローチ
ByLLM Watch編集部 2026年3月21日

Mellea 0.4.0とGranite Librariesがリリース。構造化されたAIワークフロー構築を支援

続きを読む Hugging Face が What’s New in Mellea 0.4.0 + Granite Libraries Release をリリース ── LLMの「カオス」に構造を与えるIBMの新アプローチ
OpenAI

OpenAI が GPT-5.5 の Bio Bug Bounty を発表 ── 生物学的リスクの脱獄探しに最大25,000ドル
ByLLM Watch編集部 2026年4月24日

OpenAIがGPT-5.5の生物学的安全性をテストするBug Bountyを発表。universal jailbreak発見に最大25,000ドルの報酬。

続きを読む OpenAI が GPT-5.5 の Bio Bug Bounty を発表 ── 生物学的リスクの脱獄探しに最大25,000ドル
OpenAI

OpenAI が Patch the Planet: a Daybreak initiative to support open source maintainers をリリース ── OSSメンテナーをAIと専門家の目で徹底支援
ByLLM Watch編集部 2026年6月24日

OpenAIがOSSメンテナー支援の新取り組み「Patch the Planet」を発表。AIと専門家レビューで脆弱性の発見から修正までを強力にサポート。

続きを読む OpenAI が Patch the Planet: a Daybreak initiative to support open source maintainers をリリース ── OSSメンテナーをAIと専門家の目で徹底支援
OpenAI

OpenAI が Helping developers build safer AI experiences for teens をリリース ── 思春期の安全を守る新たな指針
ByLLM Watch編集部 2026年3月25日

OpenAIがgpt-oss-safeguard用にティーン安全ポリシーをリリース。年齢特有のリスク管理を強化。

続きを読む OpenAI が Helping developers build safer AI experiences for teens をリリース ── 思春期の安全を守る新たな指針
Hugging Face

Hugging Face が Granite Embedding Multilingual R2: Open Apache 2.0 Multilingual Embeddings with 32K Context — Best Sub-100M Retrieval Quality をリリース ── 100Mパラメータ未満で最高峰、32Kコンテキスト対応の多言語Embedding
ByLLM Watch編集部 2026年5月15日

IBM Granite Embedding Multilingual R2がリリース。97Mモデルで最高峰の多言語検索品質と32Kコンテキストを実現。

続きを読む Hugging Face が Granite Embedding Multilingual R2: Open Apache 2.0 Multilingual Embeddings with 32K Context — Best Sub-100M Retrieval Quality をリリース ── 100Mパラメータ未満で最高峰、32Kコンテキスト対応の多言語Embedding

▸何が変わったのか

◈前モデル / 競合との比較

◈技術背景と意義

▸こんな人・用途に

◆入手方法・リンク

類似投稿

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル