MiniMax が MiniMax-M3 をリリース ── 100万コンテキストを20分の1の計算量で処理する超大型モデル
中国のMiniMaxが、総パラメータ約428Bという超大規模モデルをオープンソースで公開した。コンテキスト長はなんと100万(1M)。これだけでも规格が狂っているが、独自の仕組みで前モデルから圧倒的な高速化を実現していて、その進化の幅に正直驚かされた。
▸何が変わったのか
最大のトピックは「MiniMax Sparse Attention (MSA)」の搭載。従来のGQAに代わり、100万トークンという超長文脈での計算量とメモリ使用量を劇的に削減した。前世代のM2と比較して、1Mコンテキストでのプレフィル処理が9倍、デコード処理が15倍も高速化。トークンあたりの計算量はなんと20分の1に抑えられている。さらに、最初からテキスト・画像・動画を混合して学習する「ネイティブマルチモーダル」を採用。用途に応じて複雑な推論を行う「thinking」モードと、リアルタイム性が求められる「non-thinking」モードを切り替えられる点も実用的だ。
◈前モデル / 競合との比較
前世代モデルであるM2との比較において、100万コンテキストでの推論速度がプレフィル9倍、デコード15倍に跳ね上がった点が圧倒的な進化。単なる精度向上だけでなく、実用における速度面の壁をブレイクスルーしてきている。
◈技術背景と意義
AIにおいてコンテキストが長くなればなるほど、計算コストが爆発的に増えるのが長年の悩みの種だった。今回MiniMaxが導入したMSAは、関連性の高い情報だけに絞って注意を向ける「疎注意機構」の一種。これにより、品質を落とさずに処理のボトルネックを解消している。また、総パラメータ428Bに対してアクティブパラメータが約23Bに抑えられていることから、巨大な知識ベースを持ちつつも推論時は軽量に動くMoE(Mixture of Experts)アーキテクチャを採用しているとみられる。
▸こんな人・用途に
エージェント用途:長期的なタスクを実行する自律型エージェントや、複雑なコーディングタスクに「thinking」モードで対応。
リアルタイム補完:チャット対話やその場でのコード補完など、レイテンシが命のシーンで「non-thinking」モードを活用。
マルチモーダル分析:テキスト、画像、動画を横断した深い意味の融合が求められるリサーチやコンテンツ分析。
◆入手方法・リンク
モデルはHuggingFaceでダウンロード可能。ローカル環境での推論には「SGLang」「vLLM」「Transformers」の利用が推奨されている。API経由で手軽に試したい場合は「MiniMax API」や「MiniMax Agent」が用意されている。
SOURCE: MiniMax (2026-06-02)