Tencent が Sequential-Hidden-Decoding-8B-n4 をリリース ── 推論ステップを「隠し」て性能を爆上げ

TENCENTOSS

最終更新: 2026年03月10日 22:03　元記事 →

コンテキスト長を延ばす競争が激化する中、Tencentが全く異なるアプローチ「Sequential Hidden Decoding」をOSSで公開しました。モデル構造はそのままで、Embeddingパラメータだけを追加して推論能力を高めるという手法は、かなり理にかなっていますし、そのスコアの伸び率を見ると「これはやばい」と思わずにはいられません。

▸何が変わったのか

Qwen3-8B-Baseをベースとした「Sequential-Hidden-Decoding-8B-n4」がリリースされました。最大の特徴は、追加のEmbeddingパラメータ（3.1B）のみでシークエンス長を4倍（Scale: 4×）にスケールしている点です。学習トークン数は150B、データ型はbfloat16で、これはベースモデルであり、チャット用途にはファインチューニングが必要です。同じ手法でn=2やn=8のバリエーションも存在しますが、n=4は追加パラメータと性能のバランスが良いモデルとなっています。

◈前モデル / 競合との比較

提供されたベンチマークでは、ベースライン（8B Baseline）と比較してBBHが78.8から83.0へ、Hellaswagは79.7から85.0へと顕著なスコア向上が見られます。n=8モデル（MATH: 61.1, GSM8K: 94.6）と比べるとやや劣りますが、追加パラメータが3.1Bとn=8の5.6Bよりも少ないため、リソース効率と性能の良いバランスを実現しているようです。

◈技術背景と意義

通常、モデルを賢くするには全体を大きくするか、コンテキストを長くしますが、ここでは「隠れた推論」を増やすというアイデアを採用しています。同じトークン列を独立したn個の埋め込み行列で符号化し、交互に並べ替えてTransformerに通すと、内部的にn倍の長さを処理したことになります。実際に次のトークンを予測するのは最後の埋め込みだけで、それ以外は連続的な潜在空間で「思考」するためのステップとして機能します。これにより、計算量は増えますが、Transformer本体の重みは変えずに推論能力を高められるのがメリットです。

▸こんな人・用途に

モデルの能力限界をベンチマークで測定したい研究者。自社データを用いて独自の指示チューニングモデル（SFT/RLHF）を作成したい開発者。

◆入手方法・リンク

モデルはHugging Faceから入手可能ですが、推論にはパッチが当てられたSGLangが必要です。プロジェクトページで提供されているDockerイメージやフォークされたリポジトリを利用して環境を構築できます。

公式発表を読む

SOURCE: Tencent (2026-03-10)

← LLM Watch トップへ

Tencent が Sequential-Hidden-Decoding-8B-n4 をリリース ── 推論ステップを「隠し」て性能を爆上げ

▸何が変わったのか

◈前モデル / 競合との比較

◈技術背景と意義

▸こんな人・用途に

◆入手方法・リンク

Tencent が UniCom をリリース ── 圧縮連続表現で理解も生成も両立する統合マルチモーダルモデル

Mistral が Leanstral-2603 をリリース

Tencent が VersaViT をリリース ── マルチモーダル向けの万能視覚エンコーダー

Tencent が Unified_Audio_Schema をリリース ── 聴いて話す、音声の理解と生成を統合したマルチモーダルモデル

Tencent が Penguin-Encoder をリリース ── LLMそのものをビジョンエンコーダーに転用した新機軸

Tencent が Penguin-VL-2B をリリース ── LLMを「目」に改造した画期的な効率化モデル

コメントを残すコメントをキャンセル

▸何が変わったのか

◈前モデル / 競合との比較

◈技術背景と意義

▸こんな人・用途に

◆入手方法・リンク

類似投稿

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル