MiniMax-M3 カバー画像

MiniMax が MiniMax-M3 をリリース ── 100万コンテキストを20分の1の計算量で処理する超大型モデル

MINIMAXOSS

最終更新: 2026年06月12日 23:06 元記事 →

中国のMiniMaxが、総パラメータ約428Bという超大規模モデルをオープンソースで公開した。コンテキスト長はなんと100万(1M)。これだけでも规格が狂っているが、独自の仕組みで前モデルから圧倒的な高速化を実現していて、その進化の幅に正直驚かされた。

何が変わったのか

最大のトピックは「MiniMax Sparse Attention (MSA)」の搭載。従来のGQAに代わり、100万トークンという超長文脈での計算量とメモリ使用量を劇的に削減した。前世代のM2と比較して、1Mコンテキストでのプレフィル処理が9倍、デコード処理が15倍も高速化。トークンあたりの計算量はなんと20分の1に抑えられている。さらに、最初からテキスト・画像・動画を混合して学習する「ネイティブマルチモーダル」を採用。用途に応じて複雑な推論を行う「thinking」モードと、リアルタイム性が求められる「non-thinking」モードを切り替えられる点も実用的だ。

前モデル / 競合との比較

前世代モデルであるM2との比較において、100万コンテキストでの推論速度がプレフィル9倍、デコード15倍に跳ね上がった点が圧倒的な進化。単なる精度向上だけでなく、実用における速度面の壁をブレイクスルーしてきている。

技術背景と意義

AIにおいてコンテキストが長くなればなるほど、計算コストが爆発的に増えるのが長年の悩みの種だった。今回MiniMaxが導入したMSAは、関連性の高い情報だけに絞って注意を向ける「疎注意機構」の一種。これにより、品質を落とさずに処理のボトルネックを解消している。また、総パラメータ428Bに対してアクティブパラメータが約23Bに抑えられていることから、巨大な知識ベースを持ちつつも推論時は軽量に動くMoE(Mixture of Experts)アーキテクチャを採用しているとみられる。

こんな人・用途に

エージェント用途:長期的なタスクを実行する自律型エージェントや、複雑なコーディングタスクに「thinking」モードで対応。
リアルタイム補完:チャット対話やその場でのコード補完など、レイテンシが命のシーンで「non-thinking」モードを活用。
マルチモーダル分析:テキスト、画像、動画を横断した深い意味の融合が求められるリサーチやコンテンツ分析。

入手方法・リンク

モデルはHuggingFaceでダウンロード可能。ローカル環境での推論には「SGLang」「vLLM」「Transformers」の利用が推奨されている。API経由で手軽に試したい場合は「MiniMax API」や「MiniMax Agent」が用意されている。

SOURCE: MiniMax (2026-06-02)

← LLM Watch トップへ

類似投稿

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です