Introducing Gemma 4 12B: a unified, encoder-free multimodal model カバー画像

Google DeepMind

Google DeepMind が Gemma 4 12B をリリース ── エンコーダーレスの統合アーキテクチャ、16GBメモリで動くマルチモーダル

ByLLM Watch編集部 2026年6月10日

GOOGLE DEEPMIND

最終更新: 2026年06月10日 00:03　元記事 →

Google DeepMindから、ノートPCでガッツリ動く新しいマルチモーダルモデル「Gemma 4 12B」が登場。これまでのマルチモーダルにつきものだったエンコーダーを完全に無くし、視覚と音声を直接処理する仕組みはかなりエモい。手元の16GBメモリ環境で高度な推論までこなせるというのだから、これはローカル勢として震えるアップデートだ。

▸何が変わったのか

最大のトピックは、マルチモーダル処理にありがちな別々のエンコーダーを排除した「エンコーダーフリーアーキテクチャ」を採用した点。画像や音声を別個に変換する手間が省かれ、遅延やメモリ消費を大幅にカットしている。しかも、初のミッドサイズモデルとして「ネイティブオーディオ入力」に対応。26BのMixture of Experts (MoE)モデルに迫る推論性能を持ちながら、VRAM 16GB（またはユニファイドメモリ16GB）でローカル実行が可能だ。さらに、推論レイテンシを減らす「Multi-Token Prediction (MTP) drafters」も標準搭載している。

◈前モデル / 競合との比較

エッジ向けの「E4B」と、より高度な「26B MoE」の間を埋めるミッドレンジの位置づけ。26Bモデルに肉薄するベンチマークスコアを叩き出しつつ、総メモリフットプリントはその半分以下に収まっている。また、Gemma 4シリーズ全体で1億5000万ダウンロードを突破しているだけに、コミュニティの期待度もかなり高い。

◈技術背景と意義

従来のAIモデルは、画像や音声を言葉として理解させるために「エンコーダー」という通訳機を別途用意していた。これがメモリを食うし、処理の遅れにもつながっていたんだ。今回の仕組みなら、通訳を介さずに視覚と音声の情報を直接LLMのバックボーンに流し込める。これにより、普通のノートPCでもサクサクと高度な認識やエージェント的な動作ができるというワケ。Apache 2.0ライセンスで提供されているのも嬉しい限りだ。

▸こんな人・用途に

– 16GBメモリの一般的なノートPCで、高度なマルチモーダル処理やエージェントワークフローを構築したいローカルAI開発者
– 遅延を嫌うリアルタイム処理が必要な、ウェアラブルロボットアームやエンタープライズ向けAIセキュリティ用途
– 視覚・音声を統合的に扱うプロトタイプを、手軽な環境でサクッと試したいクリエイター

◆入手方法・リンク

Apache 2.0ライセンスの下で公開されており、開発者エコシステム全体でサポートされている。具体的なダウンロードリンク等の詳細は公式発表を待ちたい。

公式発表を読む

SOURCE: Google DeepMind (2026-06-09)

← LLM Watch トップへ

Hugging Face

Hugging Face が How to Use Transformers.js in a Chrome Extension をリリース ── Gemma 4を拡張機能で動かす最新アーキテクチャ
ByLLM Watch編集部 2026年4月24日

Transformers.jsとGemma 4 E2Bを用いたChrome拡張機能開発ガイドが公開。MV3環境で最適なアーキテクチャ設計に注目。

続きを読む Hugging Face が How to Use Transformers.js in a Chrome Extension をリリース ── Gemma 4を拡張機能で動かす最新アーキテクチャ
Hugging Face

Hugging Face × AWS が Strands Agents と LeRobot の統合を解説 ── データ収集から実機デプロイまでをひとつのエージェントで完結
ByLLM Watch編集部 2026年6月17日

AWS Strands Robots SDKとLeRobotが統合。Hubのデータセットから実機SO-101まで、ひとつのエージェントで完結するロボット開発パイプライン。

続きを読む Hugging Face × AWS が Strands Agents と LeRobot の統合を解説 ── データ収集から実機デプロイまでをひとつのエージェントで完結
Hugging Face

Hugging Face が What’s New in Mellea 0.4.0 + Granite Libraries Release をリリース ── LLMの「カオス」に構造を与えるIBMの新アプローチ
ByLLM Watch編集部 2026年3月21日

Mellea 0.4.0とGranite Librariesがリリース。構造化されたAIワークフロー構築を支援

続きを読む Hugging Face が What’s New in Mellea 0.4.0 + Granite Libraries Release をリリース ── LLMの「カオス」に構造を与えるIBMの新アプローチ
Google DeepMind

Google DeepMind が Gemini 3.5 Flash Cyber を発表 ── 防御側に超コスパ最強の武器を
ByLLM Watch編集部 2026年7月22日

Google DeepMindがサイバーセキュリティ特化モデル「Gemini 3.5 Flash Cyber」を発表。軽量・高速モデルを活かし、低コストで脆弱性の発見と修正を爆速化する。

続きを読む Google DeepMind が Gemini 3.5 Flash Cyber を発表 ── 防御側に超コスパ最強の武器を
Hugging Face

Hugging Face が PP-OCRv6 on Hugging Face: 50-Language OCR from 1.5M to 34.5M Parameters をリリース ── 超軽量1.5Mから高精度34.5Mまで網羅する多言語OCR
ByLLM Watch編集部 2026年6月22日

PaddlePaddleチームの最新多言語OCR「PP-OCRv6」が登場。1.5M〜34.5Mの3サイズ展開で50言語をサポートし、前モデルから大幅に精度向上。

続きを読む Hugging Face が PP-OCRv6 on Hugging Face: 50-Language OCR from 1.5M to 34.5M Parameters をリリース ── 超軽量1.5Mから高精度34.5Mまで網羅する多言語OCR
Hugging Face

Hugging Face が Multimodal Embedding & Reranker Models with Sentence Transformers をリリース ── テキスト・画像・音声・動画を同じAPIで扱えるマルチモーダル対応が到来
ByLLM Watch編集部 2026年4月9日

Sentence Transformers v5.4でテキスト・画像・音声・動画を同じAPIで扱うマルチモーダル埋め込み・リランカーが追加

続きを読む Hugging Face が Multimodal Embedding & Reranker Models with Sentence Transformers をリリース ── テキスト・画像・音声・動画を同じAPIで扱えるマルチモーダル対応が到来

コメントを残すコメントをキャンセル