Alibaba (Qwen) が Qwen3.6-35B-A3B をリリース ── 総パラメ35Bでアクティブ3B、驚異的な軽さとコーディング性能
Qwen3.5のリリースから間もなく、まさかの「Qwen3.6」がいきなりHugging Faceに降ってきた。しかも総パラメータ35Bに対して、実際に動くのはたった3Bという超絶技巧なMoEモデルだ。これがコーディングエージェントのベンチマークで大型モデルを凌駕するスコアを出しており、かなりエグい。
▸何が変わったのか
最大の衝撃は、256人のエキスパートのうち8つのルーティング+1つの共有エキスパートのみを活性化させるというMoE(専門家混合)の極致みたいな設計だ。そのくせ、ネイティブで262,144、最大1,010,000トークンという超長文脈に対応している。コーディングエージェント機能が強化され、フロントエンドのワークフローやリポジトリ単位の推論が流暢にこなせるほか、過去のメッセージから推論コンテキストを保持する「Thinking Preservation」という新機能も導入された。
◈前モデル / 競合との比較
SWE-bench Verifiedで73.4、Terminal-Bench 2.0で51.5を記録し、Gemma4-31Bなどの競合を大きく突き放している。特にツール利用を測るMCPMarkでは37.0を叩き出し、前バージョンのQwen3.5-35BA3B(27.0)から大幅な進化を遂げた。
◈技術背景と意義
MoEは、タスクに応じてAIの頭脳の一部(専門家)だけをスイッチングして使う省エネ技術。今回はGated DeltaNetとGated Attentionをハイブリッドで組み込む最新アーキテクチャを採用している。パラメータ効率が異常に高いため、ローカル環境でもハイスペックマシンがあれば動かせる可能性がある。
▸こんな人・用途に
コーディング特化で反復開発もしやすい設計のため、自律型コーディングエージェントとしての実用性が高い。超長文脈を活かした大規模リポジトリの丸ごと解析や、コストを抑えつつ高度な推論が必要な開発タスクにうってつけだ。
▸Redditの反応
新しい量子化フォーマットの投稿はそこそこのアップボートを集めたものの、コメント数は少なめ。「他の量子化と何が違うの?」という少し懐疑的なツッコミが入る一方で、実際に試してみる意欲は感じられる、冷静だけど悪くない雰囲気。
「「oQ4は全体が4bitじゃなくて、重要なレイヤーの精度を高めた4bit平均」って言ってるけど……それって他の普通の量子化と同じことじゃない?(古いQn_0/1とかは別として)って感じの鋭いツッコミ。」
「これは最高。oMLXでのテストはすごく楽しんでるよ。キャッシュやdflashの実装がかなり好みだから、このoQ量子化版も実際に試してみるね。ありがとう!」
◆入手方法・リンク
Hugging Faceでオープンウェイトとして公開されており、誰でもダウンロード可能。vLLMやSGLang、KTransformersなど主要な推論エンジンですぐに動かせる。
SOURCE: Alibaba (Qwen) (2026-04-15)
