Alibaba (Qwen) が Qwen3-1.7B-Base-W32K-L0_100 をリリース ── LLMのブラックボックスを解き明かすSAEモジュール
LLMの頭の中で何が起きているのか、その謎を解き明かす面白いアプローチが登場した。AlibabaがQwenシリーズの内部メカニズムを分析するための解釈可能性モジュール「Qwen-Scope」をオープンソースで公開したのだ。これはモデルの挙動を深く理解したい開発者にとって、かなり熱いツールになりそうだ。
▸何が変わったのか
今回リリースされたのは、Qwen3およびQwen3.5モデル上で学習されたSparse Autoencoders(SAE)のチェックポイント。ベースモデルには「Qwen3-1.7B」が採用されている。注目の仕様として、隠れ層の次元数(dmodel)は2048、SAEの幅(dsae)は32768に設定され、16倍の拡張率を誇る。各フォワードパスでちょうど100個の特徴量を保持する「TopK SAE」アーキテクチャを採用しており、レイヤー0から27までの全28層のResidual streamにフックをかけてデータを抽出できる。
◈技術背景と意義
最近AI界隈でバズっている「スパースオートエンコーダ(SAE)」は、AIのブラックボックスを開くための強力なツールだ。膨大なネットワークの中から、意味がバラバラに整理された「低冗長で解釈しやすい特徴量」を自動で抽出してくれる。これにより、AIがなぜその回答をしたのか、どんなデータに反応しているのかを人間が追跡可能になる。AIの思考プロセスを可視化する、めちゃくちゃエキサイティングな技術と言える。
▸こんな人・用途に
・AIの安全性や内部挙動のメカニズムを研究したい研究者
・推論コントロールの精度を上げたいデベロッパー
・評価サンプルの分布分析や、データ分類・合成を効率よく行いたいデータサイエンティスト
◆入手方法・リンク
Hugging Faceでモデルが公開されている。PythonとPyTorch環境があれば、提供されているコードを使って簡単にResidual streamから特徴量を抽出可能だ。
SOURCE: Alibaba (Qwen) (2026-04-27)
