Qwen3-30B-A3B-Base-W128K-L0_100 カバー画像

Alibaba (Qwen) が Qwen-Scope (SAE) をリリース ── Qwen3-30B-A3Bの内部を131,072次元で解読

ALIBABA (QWEN)OSS

最終更新: 2026年04月30日 18:06 元記事 →

LLMの「ブラックボックス問題」にまた一つアプローチが届いた。AlibabaのQwenチームが、モデル内部の仕組みを解読する「Qwen-Scope」をHugging Faceに公開した。Sparse Autoencoder(SAE)を使って、Qwen3-30B-A3Bの隠れ層から解釈可能な特徴を抽出する仕組み。LLMの脳内をマッピングするような試みで、個人的にかなりワクワクする方向性。

何が変わったのか

Qwen-ScopeはQwen3およびQwen3.5シリーズ上で訓練された解釈可能性モジュール。SAE width(dsae)を131,072、Hidden size(dmodel)を2,048に設定し、Expansion factorは64×。アーキテクチャはTopK SAEで、各forward passで厳密に100個の特徴を非ゼロとして保持する。レジデュアルストリームをhook pointとして、全48層(0–47)をカバー。各層のチェックポイントはPyTorch .pt形式の辞書で提供され、Wenc、Wdec、benc、bdecの4つのテンソルが含まれる。

技術背景と意義

LLMは巨大な数値計算の塊で、「なぜその回答が出たのか」が分かりにくい。SAE(Sparse Autoencoder)はこの問題に取り組む技術で、モデル内部の表現を「スパース(疎)な」形に変換することで、人間が解読しやすい特徴に分解する。スパース性制約をかけることで、高く分離された低冗長な特徴を自動抽出できる。Anthropicもこの手法に力を入れていて、LLMの解釈可能性研究では今かなり注目の領域。

こんな人・用途に

LLMの挙動を分析したい研究者──「なぜこの出力になったのか」を内部特徴から追える。モデル最適化に取り組むエンジニア──制御可能な推論(steerable inference)やデータ分類・合成に活用可能。評価サンプルの分布分析や比較にも使えるらしい。

入手方法・リンク

Hugging Faceで公開中。各層のSAEチェックポイント(layer0.sae.pt〜layer47.sae.pt)がダウンロードできる。READMEにはtransformersライブラリを使った特徴抽出のデモコードも記載されている。

SOURCE: Alibaba (Qwen) (2026-04-27)

← LLM Watch トップへ

類似投稿

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です