Sequential-Hidden-Decoding-8B-n4 カバー画像

Tencent が Sequential-Hidden-Decoding-8B-n4 をリリース ── 推論ステップを「隠し」て性能を爆上げ

TENCENTOSS

最終更新: 2026年03月10日 22:03 元記事 →

コンテキスト長を延ばす競争が激化する中、Tencentが全く異なるアプローチ「Sequential Hidden Decoding」をOSSで公開しました。モデル構造はそのままで、Embeddingパラメータだけを追加して推論能力を高めるという手法は、かなり理にかなっていますし、そのスコアの伸び率を見ると「これはやばい」と思わずにはいられません。

何が変わったのか

Qwen3-8B-Baseをベースとした「Sequential-Hidden-Decoding-8B-n4」がリリースされました。最大の特徴は、追加のEmbeddingパラメータ(3.1B)のみでシークエンス長を4倍(Scale: 4×)にスケールしている点です。学習トークン数は150B、データ型はbfloat16で、これはベースモデルであり、チャット用途にはファインチューニングが必要です。同じ手法でn=2やn=8のバリエーションも存在しますが、n=4は追加パラメータと性能のバランスが良いモデルとなっています。

前モデル / 競合との比較

提供されたベンチマークでは、ベースライン(8B Baseline)と比較してBBHが78.8から83.0へ、Hellaswagは79.7から85.0へと顕著なスコア向上が見られます。n=8モデル(MATH: 61.1, GSM8K: 94.6)と比べるとやや劣りますが、追加パラメータが3.1Bとn=8の5.6Bよりも少ないため、リソース効率と性能の良いバランスを実現しているようです。

技術背景と意義

通常、モデルを賢くするには全体を大きくするか、コンテキストを長くしますが、ここでは「隠れた推論」を増やすというアイデアを採用しています。同じトークン列を独立したn個の埋め込み行列で符号化し、交互に並べ替えてTransformerに通すと、内部的にn倍の長さを処理したことになります。実際に次のトークンを予測するのは最後の埋め込みだけで、それ以外は連続的な潜在空間で「思考」するためのステップとして機能します。これにより、計算量は増えますが、Transformer本体の重みは変えずに推論能力を高められるのがメリットです。

こんな人・用途に

モデルの能力限界をベンチマークで測定したい研究者。自社データを用いて独自の指示チューニングモデル(SFT/RLHF)を作成したい開発者。

入手方法・リンク

モデルはHugging Faceから入手可能ですが、推論にはパッチが当てられたSGLangが必要です。プロジェクトページで提供されているDockerイメージやフォークされたリポジトリを利用して環境を構築できます。

SOURCE: Tencent (2026-03-10)

← LLM Watch トップへ

類似投稿

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です