Qwen3-1.7B-Base-W32K-L0_100 カバー画像

Alibaba (Qwen)

Alibaba (Qwen) が Qwen3-1.7B-Base-W32K-L0_100 をリリース ── LLMのブラックボックスを解き明かすSAEモジュール

ByLLM Watch編集部 2026年4月30日

ALIBABA (QWEN)OSS

最終更新: 2026年04月30日 18:07　元記事 →

LLMの頭の中で何が起きているのか、その謎を解き明かす面白いアプローチが登場した。AlibabaがQwenシリーズの内部メカニズムを分析するための解釈可能性モジュール「Qwen-Scope」をオープンソースで公開したのだ。これはモデルの挙動を深く理解したい開発者にとって、かなり熱いツールになりそうだ。

▸何が変わったのか

今回リリースされたのは、Qwen3およびQwen3.5モデル上で学習されたSparse Autoencoders（SAE）のチェックポイント。ベースモデルには「Qwen3-1.7B」が採用されている。注目の仕様として、隠れ層の次元数（dmodel）は2048、SAEの幅（dsae）は32768に設定され、16倍の拡張率を誇る。各フォワードパスでちょうど100個の特徴量を保持する「TopK SAE」アーキテクチャを採用しており、レイヤー0から27までの全28層のResidual streamにフックをかけてデータを抽出できる。

◈技術背景と意義

最近AI界隈でバズっている「スパースオートエンコーダ（SAE）」は、AIのブラックボックスを開くための強力なツールだ。膨大なネットワークの中から、意味がバラバラに整理された「低冗長で解釈しやすい特徴量」を自動で抽出してくれる。これにより、AIがなぜその回答をしたのか、どんなデータに反応しているのかを人間が追跡可能になる。AIの思考プロセスを可視化する、めちゃくちゃエキサイティングな技術と言える。

▸こんな人・用途に

・AIの安全性や内部挙動のメカニズムを研究したい研究者
・推論コントロールの精度を上げたいデベロッパー
・評価サンプルの分布分析や、データ分類・合成を効率よく行いたいデータサイエンティスト

◆入手方法・リンク

Hugging Faceでモデルが公開されている。PythonとPyTorch環境があれば、提供されているコードを使って簡単にResidual streamから特徴量を抽出可能だ。

公式発表を読む

SOURCE: Alibaba (Qwen) (2026-04-27)

← LLM Watch トップへ

DeepSeek

DeepSeek が DeepSeek-V4 をリリース ── 1兆6000億パラメータで100万トークンの処理コストを劇的に削減
ByLLM Watch編集部 2026年6月27日

DeepSeekが「DeepSeek-V4」をリリース。1兆6000億パラメータでありながら、100万トークン処理時の計算コストを劇的に削減することに成功した超効率MoEモデル。

続きを読む DeepSeek が DeepSeek-V4 をリリース ── 1兆6000億パラメータで100万トークンの処理コストを劇的に削減
Tencent

Tencent が HY-Embodied-0.5-X をリリース ── エッジで動く実世界ロボット向け基盤モデル、10ベンチマークでSOTA
ByLLM Watch編集部 2026年4月24日

Tencentが実世界ロボット向け基盤モデルHY-Embodied-0.5-XをOSS公開。4B/2Bのエッジサイズで10ベンチマークSOTA達成。

続きを読む Tencent が HY-Embodied-0.5-X をリリース ── エッジで動く実世界ロボット向け基盤モデル、10ベンチマークでSOTA
Mistral

Mistral が Leanstral-1.5-119B-A6B をリリース ── 数学の証明すらこなす最強のコードエージェント
ByLLM Watch編集部 2026年7月4日

Mistralが数学の定理証明やコード検証に特化したエージェントモデル「Leanstral-1.5-119B-A6B」を公開。119BパラメータのMoEモデル。

続きを読む Mistral が Leanstral-1.5-119B-A6B をリリース ── 数学の証明すらこなす最強のコードエージェント
Zhipu AI

Zhipu AI が GLM-5.1 をリリース ── 長く動かすほど賢くなるエージェント特化型
ByLLM Watch編集部 2026年4月8日

Zhipu AIのGLM-5.1がHugging Faceに登場。長時間の自律作業で真価を発揮するエージェント特化型で、SWE-Bench Pro等でSOTAを達成。

続きを読む Zhipu AI が GLM-5.1 をリリース ── 長く動かすほど賢くなるエージェント特化型
Alibaba (Qwen)

Alibaba (Qwen) が Qwen3.5-0.8B-Base をリリース ── 0.8Bで最大100万トークン対応の超軽量モデル
ByLLM Watch編集部 2026年3月2日2026年3月10日

Alibabaが0.8Bパラメータの「Qwen3.5-0.8B-Base」を公開。100万トークン超対応で衝撃。

続きを読む Alibaba (Qwen) が Qwen3.5-0.8B-Base をリリース ── 0.8Bで最大100万トークン対応の超軽量モデル
ByteDance

ByteDance が SimArt をリリース ── 可動する3D構造をマルチモーダル入力から生成
ByLLM Watch編集部 2026年5月28日

ByteDanceがSimArtの重みを公開。Qwen3-VL-8Bベースのモデルで、マルチモーダル入力から関節付き3D構造を生成。

続きを読む ByteDance が SimArt をリリース ── 可動する3D構造をマルチモーダル入力から生成

コメントを残すコメントをキャンセル