Sequential-Hidden-Decoding-8B-n8-Instruct カバー画像

Tencent が Sequential-Hidden-Decoding-8B-n8-Instruct をリリース ── 同じTransformerでシーケンス長を8倍に伸ばす異色のアプローチ

TENCENTOSS

最終更新: 2026年03月31日 21:07 元記事 →

Tencentがかなり変わり種のモデルを公開した。同じトークン列に対して複数のEmbedding行列を用意し、結果をインターリーブしてTransformerに放り込む――それだけでシーケンス長を8倍にスケールできるという。発想がシンプルで逆に悔しい。

何が変わったのか

基盤アーキテクチャはQwen3-8B-Base。その上で「Sequential Hidden Decoding」という手法を適用し、n=8(8倍スケール)のモデルを構築している。コンテキスト長は131072トークン。Dtypeはbfloat16。今回リリースされたのはそのインストラクションチューニング版で、対話・指示追従タスク向けに調整済み。推論にはパッチ済みのSGLangが必須で、`–chunked-prefill-size -1`や`–attention-backend fa3`の指定が安定性とパフォーマンスに重要らしい。ライセンスはSequential-Hidden-Decoding固有の条項に準拠。

前モデル / 競合との比較

同シリーズにはBase版が3種類あり、それぞれn=2(2倍)、n=4(4倍)、n=8(8倍)のスケールに対応。今回のInstruct版はn=8相当を指示追従向けにファインチューニングしたもの。スケール倍率が上がるほど内部で処理するシーケンスが長くなるため、バッチサイズを控えめにするなど推論時のチューニングが重要になる。

技術背景と意義

普通、長文を扱いたいならコンテキスト窓を広げるか、工夫して圧縮するしかない。でもこのモデルは別の道を通る。同じ文章に対してEmbedding(単語のようなものを数値ベクトルに変換する処理)を複数パターン用意し、それらを交互に並べ直してからTransformerに食わせる。Transformer本体はいじらず、入力の準備だけで8倍の長さを捌けるという仕組み。8Bというコンパクトなモデルサイズで13万トークンのコンテキストをカバーできるのは、コスト面でも魅力的。

こんな人・用途に

長文ドキュメントの要約や質疑応答など、大コンテキストが前提のタスクに向いている。SGLang経由でOpenAI互換APIとして動くので、既存のツールチェーンに組み込みやすい点も実戦向き。

入手方法・リンク

HuggingFaceで`tencent/Sequential-Hidden-Decoding-8B-n8-Instruct`として公開中。`trust-remote-code`フラグが必要で、リポジトリにカスタムアーキテクチャファイル(`configurationqwen3scaleseq.py`、`modelingqwen3scaleseq.py`)が同梱されている。GitHubリンクは現時点で不明。

SOURCE: Tencent (2026-03-31)

← LLM Watch トップへ

類似投稿

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です