MiniMax が MiniMax-M3 をリリース ── 100万コンテキストを20分の1の計算量で処理する超大型モデル

MINIMAXOSS

最終更新: 2026年06月12日 23:06　元記事 →

中国のMiniMaxが、総パラメータ約428Bという超大規模モデルをオープンソースで公開した。コンテキスト長はなんと100万（1M）。これだけでも规格が狂っているが、独自の仕組みで前モデルから圧倒的な高速化を実現していて、その進化の幅に正直驚かされた。

▸何が変わったのか

最大のトピックは「MiniMax Sparse Attention (MSA)」の搭載。従来のGQAに代わり、100万トークンという超長文脈での計算量とメモリ使用量を劇的に削減した。前世代のM2と比較して、1Mコンテキストでのプレフィル処理が9倍、デコード処理が15倍も高速化。トークンあたりの計算量はなんと20分の1に抑えられている。さらに、最初からテキスト・画像・動画を混合して学習する「ネイティブマルチモーダル」を採用。用途に応じて複雑な推論を行う「thinking」モードと、リアルタイム性が求められる「non-thinking」モードを切り替えられる点も実用的だ。

◈前モデル / 競合との比較

前世代モデルであるM2との比較において、100万コンテキストでの推論速度がプレフィル9倍、デコード15倍に跳ね上がった点が圧倒的な進化。単なる精度向上だけでなく、実用における速度面の壁をブレイクスルーしてきている。

◈技術背景と意義

AIにおいてコンテキストが長くなればなるほど、計算コストが爆発的に増えるのが長年の悩みの種だった。今回MiniMaxが導入したMSAは、関連性の高い情報だけに絞って注意を向ける「疎注意機構」の一種。これにより、品質を落とさずに処理のボトルネックを解消している。また、総パラメータ428Bに対してアクティブパラメータが約23Bに抑えられていることから、巨大な知識ベースを持ちつつも推論時は軽量に動くMoE（Mixture of Experts）アーキテクチャを採用しているとみられる。

▸こんな人・用途に

エージェント用途：長期的なタスクを実行する自律型エージェントや、複雑なコーディングタスクに「thinking」モードで対応。
リアルタイム補完：チャット対話やその場でのコード補完など、レイテンシが命のシーンで「non-thinking」モードを活用。
マルチモーダル分析：テキスト、画像、動画を横断した深い意味の融合が求められるリサーチやコンテンツ分析。

◆入手方法・リンク

モデルはHuggingFaceでダウンロード可能。ローカル環境での推論には「SGLang」「vLLM」「Transformers」の利用が推奨されている。API経由で手軽に試したい場合は「MiniMax API」や「MiniMax Agent」が用意されている。

公式発表を読む

SOURCE: MiniMax (2026-06-02)

← LLM Watch トップへ

MiniMax が MiniMax-M3 をリリース ── 100万コンテキストを20分の1の計算量で処理する超大型モデル

▸何が変わったのか

◈前モデル / 競合との比較

◈技術背景と意義

▸こんな人・用途に

◆入手方法・リンク

MiniMax が MiniMax-M2.7 をリリース ── 自己進化するエージェント特化モデル、本番障害を3分未満で復旧

Tencent が Hy-MT2-1.8B をリリース ── 1.25ビット量子化で440MB、デバイス上で動く33言語翻訳モデル

Alibaba (Qwen) が Qwen3-ASR-0.6B-hf をリリース

Mistral が Leanstral-2603 をリリース

Tencent が HY-World-2.0 をリリース ── 動画じゃない、遊べるリアル3Dアセットを直接生成

Tencent が UniCom をリリース ── 圧縮連続表現で理解も生成も両立する統合マルチモーダルモデル

コメントを残すコメントをキャンセル

▸何が変わったのか

◈前モデル / 競合との比較

◈技術背景と意義

▸こんな人・用途に

◆入手方法・リンク

類似投稿

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル