Hugging Face が Welcome Gemma 4: Frontier multimodal intelligence on device をリリース ── 画像・音声・テキスト対応の超優秀なマルチモーダルモデル登場

HUGGING FACE

最終更新: 2026年04月05日 05:02 元記事 →

Google DeepMindの最新モデル「Gemma 4」がHugging Faceに登場。画像、テキスト、音声をさばけるマルチモーダルモデルで、しかもエッジデバイス上でも動くサイズがしっかりラインナップされている。リリース前のテスト版を触ったエンジニアが「デフォルトで優秀すぎて、ファインチューニングの良さを見つけるのが大変だった」と舌を巻くほどの出来栄え。これはかなり熱い。

何が変わったのか

用意されたのは4つのモデルサイズ。2.3B(実効パラメータ)、4.5B(実効パラメータ)の小型モデルから、31BのDenseモデル、そして4Bのパラメータをアクティブ化する26BのMoE(Mixture of Experts)モデルまで揃っている。コンテキストウィンドウも小型モデルで128k、大きいモデルは256kをサポート。小型の「E2B」「E4B」に至っては音声入力にも対応している。画像エンコーダーも改良され、アスペクト比の可変に対応したほか、速度・メモリ・品質のバランスを調整できる仕組みが導入された。

前モデル / 競合との比較

前世代のGemma-3nからマルチモーダル機能を引き継ぎつつ、画像エンコーダーが大幅アップデート。可変アスペクト比やトークン数の調整機能が追加され、複雑な機能は排除してライブラリ間の互換性や量子化のしやすさを極限まで高めている。

技術背景と意義

最近のAIトレンドである「マルチモーダル」を、デバイス上で実用的に動かせるサイズで実現してきたのが本当にエグい。スマホやローカルPCでもサクサク動く2.3Bモデルがあれば、クラウド通信なしで画像や音声を理解するAIアシスタントを作れる。Apache 2.0ライセンスで「truly open」を謳っているため、個人開発から商用利用まで幅広く活用できるのも嬉しいポイントだ。

こんな人・用途に

・オフライン環境やスマホなど、エッジデバイスで動く音声・画像認識AIの開発(E2B / E4Bモデル)
・大量の画像や動画を扱う、長文コンテキストが必要なRAGやエージェント構築(31B / 26B A4Bモデル)

Redditの反応

Gemma 4とQwen3.5の比較を中心に、Qwen3.5の性能を称賛する声と、Gemma 4の深い思考能力に驚く声が交錯しています。ローカルLLM界隈で両モデルへの熱い注目が集まっている雰囲気です。

r/LocalLLaMA▲ 259

「「Qwen3.5の27bモデル、マジで化け物だわ」。シンプルながら圧倒的な性能に驚きを隠せない様子。」

u/Apprehensive-View583
r/LocalLLaMA▲ 130

「両方を並べて使ってみたけど、画像理解においてはQwen3.5の方が圧倒的に優秀だったという報告。」

u/Different_Fix_2217
r/LocalLLaMA▲ 87

「Gemma 4の31Bモデルにビジュネル暗号のヒントを与えたら、200トークン程度であっさり解読。その思考力にびっくり。」

u/AnticitizenPrime
r/LocalLLaMA▲ 60

「「複雑な問題なら16分も考え続けたけど、通常のチャットならサクサク。まさに理想の挙動だね」と納得の声。」

u/Specter_Origin

入手方法・リンク

transformers、llama.cpp、MLX、WebGPU、Rustなど主要な推論エンジン・ライブラリにすでに対応済み。Hugging FaceのモデルページからbaseおよびIT(Instruction Tuned)の各チェックポイントを直接ダウンロード可能だ。

SOURCE: Hugging Face (2026-04-02)

← LLM Watch トップへ

類似投稿

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です