Alibaba (Qwen) が Qwen-Scope (SAE) をリリース ── Qwen3-30B-A3Bの内部を131,072次元で解読
LLMの「ブラックボックス問題」にまた一つアプローチが届いた。AlibabaのQwenチームが、モデル内部の仕組みを解読する「Qwen-Scope」をHugging Faceに公開した。Sparse Autoencoder(SAE)を使って、Qwen3-30B-A3Bの隠れ層から解釈可能な特徴を抽出する仕組み。LLMの脳内をマッピングするような試みで、個人的にかなりワクワクする方向性。
▸何が変わったのか
Qwen-ScopeはQwen3およびQwen3.5シリーズ上で訓練された解釈可能性モジュール。SAE width(dsae)を131,072、Hidden size(dmodel)を2,048に設定し、Expansion factorは64×。アーキテクチャはTopK SAEで、各forward passで厳密に100個の特徴を非ゼロとして保持する。レジデュアルストリームをhook pointとして、全48層(0–47)をカバー。各層のチェックポイントはPyTorch .pt形式の辞書で提供され、Wenc、Wdec、benc、bdecの4つのテンソルが含まれる。
◈技術背景と意義
LLMは巨大な数値計算の塊で、「なぜその回答が出たのか」が分かりにくい。SAE(Sparse Autoencoder)はこの問題に取り組む技術で、モデル内部の表現を「スパース(疎)な」形に変換することで、人間が解読しやすい特徴に分解する。スパース性制約をかけることで、高く分離された低冗長な特徴を自動抽出できる。Anthropicもこの手法に力を入れていて、LLMの解釈可能性研究では今かなり注目の領域。
▸こんな人・用途に
LLMの挙動を分析したい研究者──「なぜこの出力になったのか」を内部特徴から追える。モデル最適化に取り組むエンジニア──制御可能な推論(steerable inference)やデータ分類・合成に活用可能。評価サンプルの分布分析や比較にも使えるらしい。
◆入手方法・リンク
Hugging Faceで公開中。各層のSAEチェックポイント(layer0.sae.pt〜layer47.sae.pt)がダウンロードできる。READMEにはtransformersライブラリを使った特徴抽出のデモコードも記載されている。
SOURCE: Alibaba (Qwen) (2026-04-27)
