Hugging Face が Mellum2: A 12B Mixture-of-Experts Model by JetBrains をリリース ── 12BパラメータのMoE、推論は2.5Bで2倍速
JetBrainsがコード補完から汎用タスクへと狙いを広げた新モデル「Mellum2」を公開した。総パラメータ12Bに対して、推論時にアクティブになるのはわずか2.5B。この「持てる力を全部は使わない」アーキテクチャがなかなかエモい。
▸何が変わったのか
Mellum2は、テキストとコードに特化した12BパラメータのMixture-of-Experts(MoE)モデル。トークンごとにアクティブになるパラメータは2.5Bのみで、同等サイズのモデルと比較して推論速度が2倍以上高速。もともとコード補完モデルだったMellumの進化版で、ルーティング、RAG、サブエージェント、要約など幅広いタスクをカバーする。しかもApache 2.0ライセンスで提供されている。
◈前モデル / 競合との比較
同等サイズのオープンモデルと競合レベルのベンチマーク性能を維持しつつ、推論速度は2倍以上高速。前バージョンがコード補完に特化していたのに対し、Mellum2は自然言語タスクにも対応するよう機能が拡張されている。
◈技術背景と意義
MoE(Mixture-of-Experts)は、モデル内部に複数の「専門家」を用意し、入力に応じて必要な一部だけを動かす仕組み。今回は12Bの知識量を持ちつつ、実際に動くのは2.5B分だけ。これにより、重いモデルの賢さを保ったまま、軽いモデル並みの速さで動かせる。マルチモーダルには対応せず、あえてテキストとコードに絞っているのも特徴。
▸こんな人・用途に
複数モデルを連携させるシステムでの軽量ルーティングやオーケストレーション、RAGパイプラインでのコンテキスト圧縮や要約、エージェントのサブタスク(計画・検証・変換など)での活用が想定されている。
SOURCE: Hugging Face (2026-06-01)


