Tencent が Sequential-Hidden-Decoding-8B-n8-Instruct をリリース ── 同じTransformerでシーケンス長を8倍に伸ばす異色のアプローチ
Tencentがかなり変わり種のモデルを公開した。同じトークン列に対して複数のEmbedding行列を用意し、結果をインターリーブしてTransformerに放り込む――それだけでシーケンス長を8倍にスケールできるという。発想がシンプルで逆に悔しい。
▸何が変わったのか
基盤アーキテクチャはQwen3-8B-Base。その上で「Sequential Hidden Decoding」という手法を適用し、n=8(8倍スケール)のモデルを構築している。コンテキスト長は131072トークン。Dtypeはbfloat16。今回リリースされたのはそのインストラクションチューニング版で、対話・指示追従タスク向けに調整済み。推論にはパッチ済みのSGLangが必須で、`–chunked-prefill-size -1`や`–attention-backend fa3`の指定が安定性とパフォーマンスに重要らしい。ライセンスはSequential-Hidden-Decoding固有の条項に準拠。
◈前モデル / 競合との比較
同シリーズにはBase版が3種類あり、それぞれn=2(2倍)、n=4(4倍)、n=8(8倍)のスケールに対応。今回のInstruct版はn=8相当を指示追従向けにファインチューニングしたもの。スケール倍率が上がるほど内部で処理するシーケンスが長くなるため、バッチサイズを控えめにするなど推論時のチューニングが重要になる。
◈技術背景と意義
普通、長文を扱いたいならコンテキスト窓を広げるか、工夫して圧縮するしかない。でもこのモデルは別の道を通る。同じ文章に対してEmbedding(単語のようなものを数値ベクトルに変換する処理)を複数パターン用意し、それらを交互に並べ直してからTransformerに食わせる。Transformer本体はいじらず、入力の準備だけで8倍の長さを捌けるという仕組み。8Bというコンパクトなモデルサイズで13万トークンのコンテキストをカバーできるのは、コスト面でも魅力的。
▸こんな人・用途に
長文ドキュメントの要約や質疑応答など、大コンテキストが前提のタスクに向いている。SGLang経由でOpenAI互換APIとして動くので、既存のツールチェーンに組み込みやすい点も実戦向き。
◆入手方法・リンク
HuggingFaceで`tencent/Sequential-Hidden-Decoding-8B-n8-Instruct`として公開中。`trust-remote-code`フラグが必要で、リポジトリにカスタムアーキテクチャファイル(`configurationqwen3scaleseq.py`、`modelingqwen3scaleseq.py`)が同梱されている。GitHubリンクは現時点で不明。
SOURCE: Tencent (2026-03-31)