MiniMax が MiniMax-M3-MXFP8 をリリース ── 約428Bパラメータのネイティブマルチモーダル、100万コンテキストをスパースアテンションで高速処理
MiniMaxがぶっ飛んだスペックのマルチモーダルモデルを引っ張り出してきた。総パラメータ約428B、そのうち約23Bを活性化しつつ100万コンテキストをさばくというMoEアーキテクチャ。しかもネイティブマルチモーダルで、テキスト・画像・動画を最初から混ぜて学習している。
▸何が変わったのか
従来のGQAに代わり、MiniMax Sparse Attention(MSA)という独自のスパースアテンション機構を導入。これがかなり効いていて、1Mコンテキストにおいて前世代のM2と比べてプリフィルが9倍、デコードが15倍速い。トークンあたりの計算量はなんと1/20に削減されている。さらに「thinking」と「non-thinking」の2つの推論モードを切り替え可能で、複雑なエージェントタスクにはthinking、チャットやコード補完にはnon-thinkingという使い分けができる。
◈前モデル / 競合との比較
前世代のM2と比較して、1Mコンテキストでのプリフィル速度が9倍、デコード速度が15倍に向上。トークンあたりの計算量は1/20に削減されている。
◈技術背景と意義
最近のLLMは長文を食わせると計算量が爆発する問題がある。通常のアテンションだと、コンテキストが長くなるほどメモリと計算リソースが二次関数的に増えてしまう。そこでMSAのような「スパースアテンション」が活躍する。全トークンを均等に見るのではなく、重要な部分だけを選択的に処理することで、100万トークンという超長文を現実的なリソースで捌けるようにしている。MXFP8という量子化技術も組み合わせることで、428Bという巨大モデルを扱いやすくしているわけだ。
▸こんな人・用途に
長期間のタスクを自律的にこなすコーディングアシスタントやエージェント用途(thinkingモード)。リアルタイム性が求められるチャットやコード補完(non-thinkingモード)。大量のドキュメントやコードベースを一度に読み込ませる長文処理。
◆入手方法・リンク
Hugging Faceでオープンソースとして公開中。ローカル推論にはSGLang、vLLM、Transformersが推奨されている。API経由ならMiniMax AgentまたはMiniMax APIが利用可能。
SOURCE: MiniMax (2026-06-02)