Alibaba (Qwen) が Qwen3.5-0.8B-Base をリリース ── 0.8Bで最大100万トークン対応の超軽量モデル
AlibabaのQwenチームが、またとんでもないスリムモデルを投下してきました。たったの0.8B(8億)パラメータという小型モデルでありながら、ネイティブで26万トークン、最大では100万トークン超えのコンテキスト長に対応しているんです。このスペック、小規模モデルの常識を覆す勢いじゃないでしょうか。
▸何が変わったのか
Hugging Faceで「Qwen3.5-0.8B-Base」が公開されました。パラメータ数はわずか0.8Bですが、ネイティブのコンテキスト長は262,144トークン、拡張すれば1,010,000トークンまで処理可能です。アーキテクチャはGated DeltaNetとGated Attentionを組み合わせたHybrid構造を採用し、スパースなMixture-of-Expertsと融合することで効率化を図っています。Hugging Face Transformers、vLLM、SGLangなど主要なフレームワークとの互換性も確保されています。なお、チャット用ではなく、ファインチューニングや研究目的の「Pre-trained only」モデルとなっています。
◈前モデル / 競合との比較
前世代のQwen3シリーズと比較して、Qwen3.5ではGated Delta NetworksとスパースなMixture-of-Expertsを組み合わせた「Efficient Hybrid Architecture」が導入されています。
◈技術背景と意義
通常、小さいモデルは長い文章を処理するのが苦手ですが、このモデルは「Gated DeltaNet」という仕組みを導入することで、省メモリかつ高速に長文を理解できるようになっています。Mixture-of-Experts(専門家の混合)技術も使われており、必要な計算パーツだけを動かすことで効率的に推論を行うのがポイント。つまり、ハイエクスペックなGPUがなくても、巨大なドキュメントの分析や検索をさせられるってわけです。研究や開発用途に特化したベースモデルなので、これを土台に自分好みに育てるのが想定されています。
▸こんな人・用途に
手元のPCレベルの環境で、巨大なログデータや長文書の要約・分析モデルをファインチューニングしたい研究者や開発者。限られたリソースで、効率的にRAG(検索拡張生成)の実験をしてみたいエンジニア。
▸Redditの反応
Qwen 3.5の大型モデルたちが凄まじい性能を出していることに、Reddit中が大盛り上がりしているね。ただベンチマークの信頼性には疑問を持つ層もいて、冷静な視点も飛び交っている感じだ。
「直接比較しやすくするのが先決だろ。こういう見づらいグラフにする意味ってあるの?って感じ。」
「35Bの性能がマジで狂ってる。これは正気じゃないレベルのやばさだね。」
「最近のベンチはスコアチューニングされすぎだから信用できないよ。実地での使い勝手こそが本当のテストだね。」
◆入手方法・リンク
モデルの重みと設定ファイルはHugging Face上で公開されており、誰でも自由にダウンロード可能です。vLLMやSGLangなどの推論フレームワークと互換性があります。
SOURCE: Alibaba (Qwen) (2026-02-28)