Alibaba (Qwen) が Qwen3.5-35B-A3B-Base-W128K-L0_100 をリリース ── Qwenの頭の中を覗き見るSAE解釈モジュール
AIモデルの頭の中で何が起きてるのか、気になったことある? アリババのQwenチームがまさにそれを実現するツールを投下した。Sparse Autoencoder(SAE)をQwen3.5の隠れ層に組み込んだ「Qwen-Scope」——これはLLMのブラックボックスを開けるための、かなり本気なアプローチだ。
▸何が変わったのか
今回リリースされたのは新しい対話AIじゃない。Qwen3.5-35B-A3Bの内部を解析するための Sparse Autoencoder モジュール「Qwen-Scope」だ。全40層(レイヤー0〜39)それぞれに対応するSAEチェックポイントが用意されている。各SAEは131,072の幅(dsae)を持ち、隠れ層サイズ2,048に対して64倍の拡張率を設定。TopK SAEアーキテクチャを採用し、各フォワードパスでちょうど100個の特徴量を非ゼロとして保持する仕組み。Hook pointはResidual stream。ファイル形式はPyTorchの.pt dictで、エンコーダ・デコーダの重み行列とバイアスが含まれている。
◈技術背景と意義
LLMはパラメータの海で、何を根拠に回答してるのか人間にはさっぱりわからない。そこでSAEの出番。スパース性制約をかけることで、モデルの内部表現を「疎で解釈しやすい特徴」に自動分解できる。つまり、どのニューロンが「猫」に反応し、どのパターンが「否定語」を拾っているのか——そういうのを可視化できる。Qwen-Scopeは、この手法をQwen3.5に特化して訓練したもの。モデルの最適化や推論制御にも応用が期待できるらしい。
▸こんな人・用途に
・AI研究者:Qwenの内部メカニズムを分析し、ステアリング可能な推論制御やモデル最適化に活用
・データサイエンティスト:評価サンプルの分布分析・比較、データ分類・合成タスクへの応用
・LLMの挙動を理解したい開発者:ポストトレーニング済みモデルの内部プロセス探索にも流用可能
SOURCE: Alibaba (Qwen) (2026-04-27)
