MiniMax-M3-MXFP8 カバー画像

MiniMax

MiniMax が MiniMax-M3-MXFP8 をリリース ── 約428Bパラメータのネイティブマルチモーダル、100万コンテキストをスパースアテンションで高速処理

Byren_admin 2026年6月12日

MINIMAXOSS

最終更新: 2026年06月12日 23:03　元記事 →

MiniMaxがぶっ飛んだスペックのマルチモーダルモデルを引っ張り出してきた。総パラメータ約428B、そのうち約23Bを活性化しつつ100万コンテキストをさばくというMoEアーキテクチャ。しかもネイティブマルチモーダルで、テキスト・画像・動画を最初から混ぜて学習している。

▸何が変わったのか

従来のGQAに代わり、MiniMax Sparse Attention（MSA）という独自のスパースアテンション機構を導入。これがかなり効いていて、1Mコンテキストにおいて前世代のM2と比べてプリフィルが9倍、デコードが15倍速い。トークンあたりの計算量はなんと1/20に削減されている。さらに「thinking」と「non-thinking」の2つの推論モードを切り替え可能で、複雑なエージェントタスクにはthinking、チャットやコード補完にはnon-thinkingという使い分けができる。

◈前モデル / 競合との比較

前世代のM2と比較して、1Mコンテキストでのプリフィル速度が9倍、デコード速度が15倍に向上。トークンあたりの計算量は1/20に削減されている。

◈技術背景と意義

最近のLLMは長文を食わせると計算量が爆発する問題がある。通常のアテンションだと、コンテキストが長くなるほどメモリと計算リソースが二次関数的に増えてしまう。そこでMSAのような「スパースアテンション」が活躍する。全トークンを均等に見るのではなく、重要な部分だけを選択的に処理することで、100万トークンという超長文を現実的なリソースで捌けるようにしている。MXFP8という量子化技術も組み合わせることで、428Bという巨大モデルを扱いやすくしているわけだ。

▸こんな人・用途に

長期間のタスクを自律的にこなすコーディングアシスタントやエージェント用途（thinkingモード）。リアルタイム性が求められるチャットやコード補完（non-thinkingモード）。大量のドキュメントやコードベースを一度に読み込ませる長文処理。

◆入手方法・リンク

Hugging Faceでオープンソースとして公開中。ローカル推論にはSGLang、vLLM、Transformersが推奨されている。API経由ならMiniMax AgentまたはMiniMax APIが利用可能。

公式発表を読む

SOURCE: MiniMax (2026-06-02)

← LLM Watch トップへ

DeepSeek

DeepSeek が DeepSeek-V4 をリリース ── 1Mコンテキストで演算コスト大幅削減の超進化
Byren_admin 2026年6月27日

DeepSeekがV4シリーズをプレビュー公開。100万トークン対応で計算量を27%、KVキャッシュを10%に削減し、圧倒的な長文処理効率を実現。

続きを読む DeepSeek が DeepSeek-V4 をリリース ── 1Mコンテキストで演算コスト大幅削減の超進化
Tencent

Tencent が HY-OmniWeaving をリリース ── テキスト・画像・動画を自由に入力できる統合動画生成モデル
Byren_admin 2026年4月3日

Tencent HunyuanがOmniWeavingをリリース。テキスト・画像・動画の自由な組み合わせで高品質な動画を生成するオープンソースモデル。

続きを読む Tencent が HY-OmniWeaving をリリース ── テキスト・画像・動画を自由に入力できる統合動画生成モデル
Tencent

Tencent が HY-WU をリリース ── 学習不要でアダプターを生成する「ニューラルメモリ」搭載
Byren_admin 2026年3月6日2026年3月10日

Tencent、画像編集のための新フレームワーク「HY-WU」をOSSで公開。学習なしでアダプターを生成する記憶メカニズムが革新的。

続きを読む Tencent が HY-WU をリリース ── 学習不要でアダプターを生成する「ニューラルメモリ」搭載
Alibaba (Qwen)

Alibaba (Qwen) が Qwen3-ASR-1.7B-hf をリリース
Byren_admin 2026年6月26日

Alibaba (Qwen)のQwen3-ASR-1.7B-hfリリース情報

続きを読む Alibaba (Qwen) が Qwen3-ASR-1.7B-hf をリリース
Tencent

Tencent が Universal_Audio_Tokenizer をリリース ── セマンティックと音響の溝を埋めるシングルコードブック設計
Byren_admin 2026年6月2日

Tencentが音声の「意味」と「音質」を単一トークナイザーで両立するUniversal Audio TokenizerをOSS公開。

続きを読む Tencent が Universal_Audio_Tokenizer をリリース ── セマンティックと音響の溝を埋めるシングルコードブック設計
Mistral

Mistral が Leanstral-2603 をリリース
Byren_admin 2026年3月17日

MistralのLeanstral-2603リリース情報

続きを読む Mistral が Leanstral-2603 をリリース

コメントを残すコメントをキャンセル