Moonshot AI が Kimi-K2.6 をリリース ── 1TパラメータMoE、エージェント性能でGPT-5.4を凌駕する場面あり
Moonshot AIがKimi-K2.6をHugging Faceで公開した。総パラメータ1TのMoEモデルで、推論時の活性化参数は32B。DeepSearchQAのF1スコア92.5は、GPT-5.4の78.6を大きく突き放している。エージェント系ベンチマーク全般でかなり良い勝負をしていて、これはただの規模自慢じゃない。
▸何が変わったのか
まずアーキテクチャが注目ポイント。384のエキスパートからトークンごとに8つを選択するMoE構成で、総パラメータ1Tに対して活性化は32B。実用的な推論コストに収まっている。コンテキスト長は256K。ビジョンエンコーダにはMoonViT(400Mパラメータ)を搭載し、ネイティブマルチモーダル。最大の特徴は「Elevated Agent Swarm」で、300のサブエージェントが4000の協調ステップを並列実行できる。タスクを自動分解して、ドキュメント、ウェブサイト、スプレッドシートを一気に生成。BrowseComp Agent Swarmスコア86.3はGPT-5.4の78.4を圧倒。SWE-Bench Proでも58.6と、GPT-5.4の57.7を僅差で上回った。
◈前モデル / 競合との比較
前バージョンのK2.5と比較すると、BrowseCompは74.9→83.2、Toolathlonは27.8→50.0、MCPMarkは29.5→55.9とエージェント系で大幅に改善。SWE-Bench Proも50.7→58.6へ跳ね上がった。GPT-5.4やClaude Opus 4.6といった最新モデルに対し、DeepSearchQAのF1で92.5(GPT-5.4は78.6)、BrowseComp Agent Swarmで86.3(GPT-5.4は78.4)と明確に優越する場面が複数ある。一方でAPEX-Agentsは27.9とGPT-5.4の33.3に及ばず、HLE-Full(toolsなし)でも34.7とGPT-5.4の39.8に劣る。得意不得意がはっきりしている。
◈技術背景と意義
MoE(Mixture-of-Experts)は「専門家チーム制」のような仕組み。巨大なモデル全体を毎回動かすのではなく、入力に応じて適切な専門家だけを活性化する。だから1Tパラメータという規模でありながら、実際の計算量は32B分で済む。エージェントスウォームは更に面白くて、複数のAIエージェントが役割分担して一つのタスクを協調実行する。人間のチーム開発みたいなもの。これが自律的に動くようになると、AIの実用性が一段上がる。
▸こんな人・用途に
長時間の複雑なコーディングタスク(Rust、Go、Python多言語対応で、フロントエンド〜DevOps〜パフォーマンス最適化まで)。プロンプトや画像入力から本格的なUIを生成するデザイン作業。24時間自律で動くバックグラウンドエージェント(スケジュール管理、コード実行、クロスプラットフォーム操作を無人で遂行)。
▸Redditの反応
Kimi K2.6のリリースに対し、r/LocalLLaMAでは期待と興奮が凄まじい。ローカル動作には重すぎるという悲鳴も上がっているものの、Opus級の高性能モデルが来たと熱狂する空気感が漂っている。
「「144GBの自分の環境でも動かせないモデルがまた一つ増えちゃった :)」って、ローカル勢にはちょっとしんどいサイズ感のようで、少し諦め混じりのコメント。」
「「後から見るとこれ、めっちゃ笑えるわ」。以前のリーク投稿を振り返って、まさか本当にドロップしたのかとニヤニヤしながら盛り上がってる。」
「「みんな重要なこと見逃してるよ。Kimi K2.6 Codeはコード特化のファインチューンだ!Mythosを見てうちもいけるって思ったのかもね」って、コーディング性能にかなり期待。」
「「余談だけど、CursorのComposer 2.1モデルの学習が始まったらしいよ」と、別の気になるAIコーディングツールの最新情報もサラッと共有されてる。」
「「みんな集まれ、家にOpus 4.7があるぞ」だって。K2.6のポテンシャルをOpus級と評して、このモデルの性能にめちゃくちゃ期待してるのが伝わってくる。」
SOURCE: Moonshot AI (2026-04-14)