Tencent が Sequential-Hidden-Decoding-8B-n8-Instruct をリリース ── 同じTransformerでシーケンス長を8倍に伸ばす異色のアプローチ

TENCENTOSS

最終更新: 2026年03月31日 21:07　元記事 →

Tencentがかなり変わり種のモデルを公開した。同じトークン列に対して複数のEmbedding行列を用意し、結果をインターリーブしてTransformerに放り込む――それだけでシーケンス長を8倍にスケールできるという。発想がシンプルで逆に悔しい。

▸何が変わったのか

基盤アーキテクチャはQwen3-8B-Base。その上で「Sequential Hidden Decoding」という手法を適用し、n=8（8倍スケール）のモデルを構築している。コンテキスト長は131072トークン。Dtypeはbfloat16。今回リリースされたのはそのインストラクションチューニング版で、対話・指示追従タスク向けに調整済み。推論にはパッチ済みのSGLangが必須で、`–chunked-prefill-size -1`や`–attention-backend fa3`の指定が安定性とパフォーマンスに重要らしい。ライセンスはSequential-Hidden-Decoding固有の条項に準拠。

◈前モデル / 競合との比較

同シリーズにはBase版が3種類あり、それぞれn=2（2倍）、n=4（4倍）、n=8（8倍）のスケールに対応。今回のInstruct版はn=8相当を指示追従向けにファインチューニングしたもの。スケール倍率が上がるほど内部で処理するシーケンスが長くなるため、バッチサイズを控えめにするなど推論時のチューニングが重要になる。

◈技術背景と意義

普通、長文を扱いたいならコンテキスト窓を広げるか、工夫して圧縮するしかない。でもこのモデルは別の道を通る。同じ文章に対してEmbedding（単語のようなものを数値ベクトルに変換する処理）を複数パターン用意し、それらを交互に並べ直してからTransformerに食わせる。Transformer本体はいじらず、入力の準備だけで8倍の長さを捌けるという仕組み。8Bというコンパクトなモデルサイズで13万トークンのコンテキストをカバーできるのは、コスト面でも魅力的。

▸こんな人・用途に

長文ドキュメントの要約や質疑応答など、大コンテキストが前提のタスクに向いている。SGLang経由でOpenAI互換APIとして動くので、既存のツールチェーンに組み込みやすい点も実戦向き。

◆入手方法・リンク

HuggingFaceで`tencent/Sequential-Hidden-Decoding-8B-n8-Instruct`として公開中。`trust-remote-code`フラグが必要で、リポジトリにカスタムアーキテクチャファイル（`configurationqwen3scaleseq.py`、`modelingqwen3scaleseq.py`）が同梱されている。GitHubリンクは現時点で不明。

公式発表を読む

SOURCE: Tencent (2026-03-31)

← LLM Watch トップへ

Tencent が Sequential-Hidden-Decoding-8B-n8-Instruct をリリース ── 同じTransformerでシーケンス長を8倍に伸ばす異色のアプローチ

▸何が変わったのか

◈前モデル / 競合との比較

◈技術背景と意義

▸こんな人・用途に

◆入手方法・リンク

Alibaba (Qwen) が Qwen3.6-35B-A3B をリリース ── 総パラメ35Bでアクティブ3B、驚異的な軽さとコーディング性能

Tencent が Sequential-Hidden-Decoding-8B-n4 をリリース ── 推論ステップを「隠し」て性能を爆上げ

Tencent が HY-World-2.0 をリリース ── 動画じゃない、遊べるリアル3Dアセットを直接生成

Zhipu AI が GLM-5.1 をリリース ── 長く動かすほど賢くなるエージェント特化型

Alibaba (Qwen) が Qwen3.5-0.8B-Base をリリース ── 0.8Bで最大100万トークン対応の超軽量モデル

Mistral が Leanstral-2603 をリリース

コメントを残すコメントをキャンセル

▸何が変わったのか

◈前モデル / 競合との比較

◈技術背景と意義

▸こんな人・用途に

◆入手方法・リンク

類似投稿

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル