Alibaba (Qwen) が Qwen3.5-0.8B-Base をリリース ── 0.8Bで最大100万トークン対応の超軽量モデル

ALIBABA (QWEN)OSS

最終更新: 2026年03月04日 08:02　元記事 →

AlibabaのQwenチームが、またとんでもないスリムモデルを投下してきました。たったの0.8B（8億）パラメータという小型モデルでありながら、ネイティブで26万トークン、最大では100万トークン超えのコンテキスト長に対応しているんです。このスペック、小規模モデルの常識を覆す勢いじゃないでしょうか。

▸何が変わったのか

Hugging Faceで「Qwen3.5-0.8B-Base」が公開されました。パラメータ数はわずか0.8Bですが、ネイティブのコンテキスト長は262,144トークン、拡張すれば1,010,000トークンまで処理可能です。アーキテクチャはGated DeltaNetとGated Attentionを組み合わせたHybrid構造を採用し、スパースなMixture-of-Expertsと融合することで効率化を図っています。Hugging Face Transformers、vLLM、SGLangなど主要なフレームワークとの互換性も確保されています。なお、チャット用ではなく、ファインチューニングや研究目的の「Pre-trained only」モデルとなっています。

◈前モデル / 競合との比較

前世代のQwen3シリーズと比較して、Qwen3.5ではGated Delta NetworksとスパースなMixture-of-Expertsを組み合わせた「Efficient Hybrid Architecture」が導入されています。

◈技術背景と意義

通常、小さいモデルは長い文章を処理するのが苦手ですが、このモデルは「Gated DeltaNet」という仕組みを導入することで、省メモリかつ高速に長文を理解できるようになっています。Mixture-of-Experts（専門家の混合）技術も使われており、必要な計算パーツだけを動かすことで効率的に推論を行うのがポイント。つまり、ハイエクスペックなGPUがなくても、巨大なドキュメントの分析や検索をさせられるってわけです。研究や開発用途に特化したベースモデルなので、これを土台に自分好みに育てるのが想定されています。

▸こんな人・用途に

手元のPCレベルの環境で、巨大なログデータや長文書の要約・分析モデルをファインチューニングしたい研究者や開発者。限られたリソースで、効率的にRAG（検索拡張生成）の実験をしてみたいエンジニア。

▸Redditの反応

Qwen 3.5の大型モデルたちが凄まじい性能を出していることに、Reddit中が大盛り上がりしているね。ただベンチマークの信頼性には疑問を持つ層もいて、冷静な視点も飛び交っている感じだ。

r/LocalLLaMA▲ 105

「直接比較しやすくするのが先決だろ。こういう見づらいグラフにする意味ってあるの？って感じ。」

u/LagOps91

r/LocalLLaMA▲ 51

「35Bの性能がマジで狂ってる。これは正気じゃないレベルのやばさだね。」

u/Illustrious-Lime-863

r/LocalLLaMA▲ 22

「最近のベンチはスコアチューニングされすぎだから信用できないよ。実地での使い勝手こそが本当のテストだね。」

u/Zugzwang_CYOA

◆入手方法・リンク

モデルの重みと設定ファイルはHugging Face上で公開されており、誰でも自由にダウンロード可能です。vLLMやSGLangなどの推論フレームワークと互換性があります。

公式発表を読む

SOURCE: Alibaba (Qwen) (2026-02-28)

← LLM Watch トップへ

Alibaba (Qwen) が Qwen3.5-0.8B-Base をリリース ── 0.8Bで最大100万トークン対応の超軽量モデル

▸何が変わったのか

◈前モデル / 競合との比較

◈技術背景と意義

▸こんな人・用途に

▸Redditの反応

◆入手方法・リンク

Tencent が Penguin-VL-8B をリリース ── VLMの効率限界に挑む新アーキテクチャ

Tencent が DisCa をリリース ── 動画生成の高速化、「学習できるキャッシュ」で品質を死守

Tencent が Penguin-VL-2B をリリース ── LLMを「目」に改造した画期的な効率化モデル

Tencent が HY-World-2.0 をリリース ── 動画じゃない、遊べるリアル3Dアセットを直接生成

Tencent が Sequential-Hidden-Decoding-8B-n8-Instruct をリリース ── 同じTransformerでシーケンス長を8倍に伸ばす異色のアプローチ

Alibaba (Qwen) が Qwen3.6-35B-A3B をリリース ── 総パラメ35Bでアクティブ3B、驚異的な軽さとコーディング性能

コメントを残すコメントをキャンセル

▸何が変わったのか

◈前モデル / 競合との比較

◈技術背景と意義

▸こんな人・用途に

▸Redditの反応

◆入手方法・リンク

類似投稿

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル