Introducing Mellum2: A 12B Mixture-of-Experts Model by JetBrains カバー画像

Hugging Face

Hugging Face が Mellum2: A 12B Mixture-of-Experts Model by JetBrains をリリース ── 12BパラメータのMoE、推論は2.5Bで2倍速

ByLLM Watch編集部 2026年6月2日

HUGGING FACE

最終更新: 2026年06月02日 01:02　元記事 →

JetBrainsがコード補完から汎用タスクへと狙いを広げた新モデル「Mellum2」を公開した。総パラメータ12Bに対して、推論時にアクティブになるのはわずか2.5B。この「持てる力を全部は使わない」アーキテクチャがなかなかエモい。

▸何が変わったのか

Mellum2は、テキストとコードに特化した12BパラメータのMixture-of-Experts（MoE）モデル。トークンごとにアクティブになるパラメータは2.5Bのみで、同等サイズのモデルと比較して推論速度が2倍以上高速。もともとコード補完モデルだったMellumの進化版で、ルーティング、RAG、サブエージェント、要約など幅広いタスクをカバーする。しかもApache 2.0ライセンスで提供されている。

◈前モデル / 競合との比較

同等サイズのオープンモデルと競合レベルのベンチマーク性能を維持しつつ、推論速度は2倍以上高速。前バージョンがコード補完に特化していたのに対し、Mellum2は自然言語タスクにも対応するよう機能が拡張されている。

◈技術背景と意義

MoE（Mixture-of-Experts）は、モデル内部に複数の「専門家」を用意し、入力に応じて必要な一部だけを動かす仕組み。今回は12Bの知識量を持ちつつ、実際に動くのは2.5B分だけ。これにより、重いモデルの賢さを保ったまま、軽いモデル並みの速さで動かせる。マルチモーダルには対応せず、あえてテキストとコードに絞っているのも特徴。

▸こんな人・用途に

複数モデルを連携させるシステムでの軽量ルーティングやオーケストレーション、RAGパイプラインでのコンテキスト圧縮や要約、エージェントのサブタスク（計画・検証・変換など）での活用が想定されている。

◆入手方法・リンク

Hugging Faceのコレクションページからモデルをダウンロード可能。詳細なアーキテクチャやベンチマークについては技術レポート（arXiv）が公開されている。

公式発表を読む

SOURCE: Hugging Face (2026-06-01)

← LLM Watch トップへ

Hugging Face

Hugging Face が PP-OCRv6 on Hugging Face: 50-Language OCR from 1.5M to 34.5M Parameters をリリース ── 超軽量1.5Mから高精度34.5Mまで網羅する多言語OCR
ByLLM Watch編集部 2026年6月22日

PaddlePaddleチームの最新多言語OCR「PP-OCRv6」が登場。1.5M〜34.5Mの3サイズ展開で50言語をサポートし、前モデルから大幅に精度向上。

続きを読む Hugging Face が PP-OCRv6 on Hugging Face: 50-Language OCR from 1.5M to 34.5M Parameters をリリース ── 超軽量1.5Mから高精度34.5Mまで網羅する多言語OCR
OpenAI

OpenAI が Safety and alignment in an era of long-horizon models をリリース ── 長時間稼働AIがもたらす新たな安全リスクと向き合う
ByLLM Watch編集部 2026年7月21日

OpenAIが長時間稼働するAIモデルのデプロイから得た安全リスクや失敗例、改善策の知見を共有。次世代AIの安全性を考える上で必見の内容。

続きを読む OpenAI が Safety and alignment in an era of long-horizon models をリリース ── 長時間稼働AIがもたらす新たな安全リスクと向き合う
OpenAI

OpenAI が ChatGPT Images 2.0 をリリース ── テキスト描画と多言語対応が大幅向上
ByLLM Watch編集部 2026年4月23日2026年4月25日

OpenAIがChatGPT Images 2.0をリリース。テキスト描画、多言語サポート、高度な視覚推論を備えた最先端モデル。

続きを読む OpenAI が ChatGPT Images 2.0 をリリース ── テキスト描画と多言語対応が大幅向上
Hugging Face

Hugging Face が AI evals are becoming the new compute bottleneck をリリース ── AIの評価コストがついに学習費を超える
ByLLM Watch編集部 2026年4月30日

Hugging Faceが警告、AI評価コストが許容範囲を超える。エージェント評価で数万ドル、モデル開発のコストを超す可能性も。

続きを読む Hugging Face が AI evals are becoming the new compute bottleneck をリリース ── AIの評価コストがついに学習費を超える
Hugging Face

Hugging Face が Granite Embedding Multilingual R2: Open Apache 2.0 Multilingual Embeddings with 32K Context — Best Sub-100M Retrieval Quality をリリース ── 100Mパラメータ未満で最高峰、32Kコンテキスト対応の多言語Embedding
ByLLM Watch編集部 2026年5月15日

IBM Granite Embedding Multilingual R2がリリース。97Mモデルで最高峰の多言語検索品質と32Kコンテキストを実現。

続きを読む Hugging Face が Granite Embedding Multilingual R2: Open Apache 2.0 Multilingual Embeddings with 32K Context — Best Sub-100M Retrieval Quality をリリース ── 100Mパラメータ未満で最高峰、32Kコンテキスト対応の多言語Embedding
Google DeepMind

Google DeepMind が Nano Banana 2 Lite と Gemini Omni Flash をリリース ── 画像生成4秒＆動画の編集も会話で完結
ByLLM Watch編集部 2026年7月1日

Google DeepMindが、4秒で画像生成＆1K枚0.034ドルの「Nano Banana 2 Lite」と動画編集モデル「Gemini Omni Flash」をリリース。

続きを読む Google DeepMind が Nano Banana 2 Lite と Gemini Omni Flash をリリース ── 画像生成4秒＆動画の編集も会話で完結

コメントを残すコメントをキャンセル