MiniMax-M3-MXFP8 カバー画像

MiniMax が MiniMax-M3-MXFP8 をリリース ── 約428Bパラメータのネイティブマルチモーダル、100万コンテキストをスパースアテンションで高速処理

MINIMAXOSS

最終更新: 2026年06月12日 23:03 元記事 →

MiniMaxがぶっ飛んだスペックのマルチモーダルモデルを引っ張り出してきた。総パラメータ約428B、そのうち約23Bを活性化しつつ100万コンテキストをさばくというMoEアーキテクチャ。しかもネイティブマルチモーダルで、テキスト・画像・動画を最初から混ぜて学習している。

何が変わったのか

従来のGQAに代わり、MiniMax Sparse Attention(MSA)という独自のスパースアテンション機構を導入。これがかなり効いていて、1Mコンテキストにおいて前世代のM2と比べてプリフィルが9倍、デコードが15倍速い。トークンあたりの計算量はなんと1/20に削減されている。さらに「thinking」と「non-thinking」の2つの推論モードを切り替え可能で、複雑なエージェントタスクにはthinking、チャットやコード補完にはnon-thinkingという使い分けができる。

前モデル / 競合との比較

前世代のM2と比較して、1Mコンテキストでのプリフィル速度が9倍、デコード速度が15倍に向上。トークンあたりの計算量は1/20に削減されている。

技術背景と意義

最近のLLMは長文を食わせると計算量が爆発する問題がある。通常のアテンションだと、コンテキストが長くなるほどメモリと計算リソースが二次関数的に増えてしまう。そこでMSAのような「スパースアテンション」が活躍する。全トークンを均等に見るのではなく、重要な部分だけを選択的に処理することで、100万トークンという超長文を現実的なリソースで捌けるようにしている。MXFP8という量子化技術も組み合わせることで、428Bという巨大モデルを扱いやすくしているわけだ。

こんな人・用途に

長期間のタスクを自律的にこなすコーディングアシスタントやエージェント用途(thinkingモード)。リアルタイム性が求められるチャットやコード補完(non-thinkingモード)。大量のドキュメントやコードベースを一度に読み込ませる長文処理。

入手方法・リンク

Hugging Faceでオープンソースとして公開中。ローカル推論にはSGLang、vLLM、Transformersが推奨されている。API経由ならMiniMax AgentまたはMiniMax APIが利用可能。

SOURCE: MiniMax (2026-06-02)

← LLM Watch トップへ

類似投稿

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です