Introducing Mellum2: A 12B Mixture-of-Experts Model by JetBrains カバー画像

Hugging Face が Mellum2: A 12B Mixture-of-Experts Model by JetBrains をリリース ── 12BパラメータのMoE、推論は2.5Bで2倍速

HUGGING FACE

最終更新: 2026年06月02日 01:02 元記事 →

JetBrainsがコード補完から汎用タスクへと狙いを広げた新モデル「Mellum2」を公開した。総パラメータ12Bに対して、推論時にアクティブになるのはわずか2.5B。この「持てる力を全部は使わない」アーキテクチャがなかなかエモい。

何が変わったのか

Mellum2は、テキストとコードに特化した12BパラメータのMixture-of-Experts(MoE)モデル。トークンごとにアクティブになるパラメータは2.5Bのみで、同等サイズのモデルと比較して推論速度が2倍以上高速。もともとコード補完モデルだったMellumの進化版で、ルーティング、RAG、サブエージェント、要約など幅広いタスクをカバーする。しかもApache 2.0ライセンスで提供されている。

前モデル / 競合との比較

同等サイズのオープンモデルと競合レベルのベンチマーク性能を維持しつつ、推論速度は2倍以上高速。前バージョンがコード補完に特化していたのに対し、Mellum2は自然言語タスクにも対応するよう機能が拡張されている。

技術背景と意義

MoE(Mixture-of-Experts)は、モデル内部に複数の「専門家」を用意し、入力に応じて必要な一部だけを動かす仕組み。今回は12Bの知識量を持ちつつ、実際に動くのは2.5B分だけ。これにより、重いモデルの賢さを保ったまま、軽いモデル並みの速さで動かせる。マルチモーダルには対応せず、あえてテキストとコードに絞っているのも特徴。

こんな人・用途に

複数モデルを連携させるシステムでの軽量ルーティングやオーケストレーション、RAGパイプラインでのコンテキスト圧縮や要約、エージェントのサブタスク(計画・検証・変換など)での活用が想定されている。

入手方法・リンク

Hugging Faceのコレクションページからモデルをダウンロード可能。詳細なアーキテクチャやベンチマークについては技術レポート(arXiv)が公開されている。

SOURCE: Hugging Face (2026-06-01)

← LLM Watch トップへ

類似投稿

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です