Tencent が StableToken をリリース ── ノイズ環境でも壊れない堅牢な音声トークナイザ
音声AIの最大の弱点である「ノイズ」に対して、Tencentから非常に強力なカードが切られました。その名も「StableToken」。ノイズが多い環境でも安定したパフォーマンスを発揮するという音声トークナイザで、実測のスペックを見て驚かされるレベルです。
▸何が変わったのか
Tencentが公開した「StableToken」は、ノイズに強いセマンティック音声トークナイザとして登場。フレームレート25Hz、コードブックサイズ8,192、BPSは325というスペックを持ち、雑音が混じる環境での動作に特化しています。従来の最強モデルと比べて、単位編集距離(UED)を60%も低減させたとのことで、その耐性は本物。再構成品質(MOS)や単語誤り率(WER)のスコアも、GLM-4-Voice-TokenizerやS3、CosyVoice2といった競合を上回っており、音声LLMの堅牢性を高める技術として注目を集めています。
◈前モデル / 競合との比較
競合するGLM-4-Voice-Tokenizer(UED 31.10%)、S3 Tokenizer(UED 26.17%)、CosyVoice2(UED 38.66%)と比較して、StableTokenのUEDは10.17%という圧倒的な低さを記録。再構成品質であるMOSスコアもLibriSpeechやSEEDベンチマークにおいて全般的に競合を上回り、ノイズ耐性と音質の両立を実現しています。
◈技術背景と意義
音声をAIが理解できるトークン(コード)に変換する「トークナイザ」は、音声LLMの心臓部です。しかし、従来のモデルは背景ノイズがあるとトークンがズレてしまい、認識精度がガタ落ちする問題がありました。StableTokenは、離散的な音声表現学習を行うことで、こうしたノイズの影響を受けにくい構造を実現。これにより、日常の雑音が混じるような実用的なシーンでも、音声LLMが高い精度を維持できるようになります。
▸こんな人・用途に
カフェや街頭など、背景ノイズが避けられない環境での音声認識・対話システムを開発しているエンジニア。ノイズ耐性の高い音声LLM(SpeechLLM)の研究や構築を進めている開発チーム。
◆入手方法・リンク
GitHubからリポジトリをクローンし、必要なライブラリをインストールすることで利用可能。モデルはHugging Faceから「tencent/StableToken」としてダウンロードでき、トークン化から音声再構成までの推論コードも提供されています。
SOURCE: Tencent (2026-02-26)