StableToken カバー画像

Tencent

Tencent が StableToken をリリース ── ノイズ環境でも壊れない堅牢な音声トークナイザ

ByLLM Watch編集部 2026年2月28日2026年3月10日

TENCENTOSS

最終更新: 2026年02月28日 17:15　元記事 →

音声AIの最大の弱点である「ノイズ」に対して、Tencentから非常に強力なカードが切られました。その名も「StableToken」。ノイズが多い環境でも安定したパフォーマンスを発揮するという音声トークナイザで、実測のスペックを見て驚かされるレベルです。

▸何が変わったのか

Tencentが公開した「StableToken」は、ノイズに強いセマンティック音声トークナイザとして登場。フレームレート25Hz、コードブックサイズ8,192、BPSは325というスペックを持ち、雑音が混じる環境での動作に特化しています。従来の最強モデルと比べて、単位編集距離（UED）を60%も低減させたとのことで、その耐性は本物。再構成品質（MOS）や単語誤り率（WER）のスコアも、GLM-4-Voice-TokenizerやS3、CosyVoice2といった競合を上回っており、音声LLMの堅牢性を高める技術として注目を集めています。

◈前モデル / 競合との比較

競合するGLM-4-Voice-Tokenizer（UED 31.10%）、S3 Tokenizer（UED 26.17%）、CosyVoice2（UED 38.66%）と比較して、StableTokenのUEDは10.17%という圧倒的な低さを記録。再構成品質であるMOSスコアもLibriSpeechやSEEDベンチマークにおいて全般的に競合を上回り、ノイズ耐性と音質の両立を実現しています。

◈技術背景と意義

音声をAIが理解できるトークン（コード）に変換する「トークナイザ」は、音声LLMの心臓部です。しかし、従来のモデルは背景ノイズがあるとトークンがズレてしまい、認識精度がガタ落ちする問題がありました。StableTokenは、離散的な音声表現学習を行うことで、こうしたノイズの影響を受けにくい構造を実現。これにより、日常の雑音が混じるような実用的なシーンでも、音声LLMが高い精度を維持できるようになります。

▸こんな人・用途に

カフェや街頭など、背景ノイズが避けられない環境での音声認識・対話システムを開発しているエンジニア。ノイズ耐性の高い音声LLM（SpeechLLM）の研究や構築を進めている開発チーム。

◆入手方法・リンク

GitHubからリポジトリをクローンし、必要なライブラリをインストールすることで利用可能。モデルはHugging Faceから「tencent/StableToken」としてダウンロードでき、トークン化から音声再構成までの推論コードも提供されています。

公式発表を読む

SOURCE: Tencent (2026-02-26)

← LLM Watch トップへ

Moonshot AI

Moonshot AI が Kimi-K2.6 をリリース ── 1TパラメータMoE、エージェント性能でGPT-5.4を凌駕する場面あり
ByLLM Watch編集部 2026年4月21日

Moonshot AIがKimi-K2.6をオープンソースで公開。1T/32B MoE、256Kコンテキスト、エージェントスウォーム対応。DeepSearchQAでGPT-5.4を大幅に上回るスコアを記録。

続きを読む Moonshot AI が Kimi-K2.6 をリリース ── 1TパラメータMoE、エージェント性能でGPT-5.4を凌駕する場面あり
Mistral

Mistral が Mistral-Small-4-119B-2603-eagle をリリース ── 推論・コード・ビジネスを1つに統合したハイブリッドモンスター
ByLLM Watch編集部 2026年3月17日

Mistral Small 4登場。119Bパラメータのハイブリッドモデルが推論・コードを統合、Apache 2.0でOSS化。

続きを読む Mistral が Mistral-Small-4-119B-2603-eagle をリリース ── 推論・コード・ビジネスを1つに統合したハイブリッドモンスター
Zhipu AI

Zhipu AI が SCAIL-2 をリリース ── 骨格推定なしでエンドツーエンドのキャラクターアニメーションを実現
ByLLM Watch編集部 2026年6月9日

Zhipu AIがオープンソースのキャラクター動画モデル「SCAIL-2」を公開。骨格抽出なしでエンドツーエンド駆動し、動物の動きにも対応。

続きを読む Zhipu AI が SCAIL-2 をリリース ── 骨格推定なしでエンドツーエンドのキャラクターアニメーションを実現
Tencent

Tencent が UniCom をリリース ── 圧縮連続表現で理解も生成も両立する統合マルチモーダルモデル
ByLLM Watch編集部 2026年4月13日

Tencent Hunyuan が圧縮連続表現で理解と生成を統合する UniCom を OSS 公開。VAE なしで画像編集の制御性がすごい。

続きを読む Tencent が UniCom をリリース ── 圧縮連続表現で理解も生成も両立する統合マルチモーダルモデル
MiniMax

MiniMax が MiniMax-M3 をリリース ── 100万コンテキストを20分の1の計算量で処理する超大型モデル
ByLLM Watch編集部 2026年6月12日

MiniMaxが約428Bパラメータのオープンソースモデル「MiniMax-M3」を公開。独自の疎注意機構で100万コンテキストの処理を劇的に高速化。

続きを読む MiniMax が MiniMax-M3 をリリース ── 100万コンテキストを20分の1の計算量で処理する超大型モデル
Tencent

Tencent が HY-World-2.0 をリリース ── 動画じゃない、遊べるリアル3Dアセットを直接生成
ByLLM Watch編集部 2026年4月16日

Tencentがオープンソースで公開したHY-World 2.0は、テキストや画像から編集可能なリアル3D空間を直接生成する革新的なモデルです。

続きを読む Tencent が HY-World-2.0 をリリース ── 動画じゃない、遊べるリアル3Dアセットを直接生成

コメントを残すコメントをキャンセル