StableToken カバー画像

Tencent が StableToken をリリース ── ノイズ環境でも壊れない堅牢な音声トークナイザ

TENCENTOSS

最終更新: 2026年02月28日 17:15 元記事 →

音声AIの最大の弱点である「ノイズ」に対して、Tencentから非常に強力なカードが切られました。その名も「StableToken」。ノイズが多い環境でも安定したパフォーマンスを発揮するという音声トークナイザで、実測のスペックを見て驚かされるレベルです。

何が変わったのか

Tencentが公開した「StableToken」は、ノイズに強いセマンティック音声トークナイザとして登場。フレームレート25Hz、コードブックサイズ8,192、BPSは325というスペックを持ち、雑音が混じる環境での動作に特化しています。従来の最強モデルと比べて、単位編集距離(UED)を60%も低減させたとのことで、その耐性は本物。再構成品質(MOS)や単語誤り率(WER)のスコアも、GLM-4-Voice-TokenizerやS3、CosyVoice2といった競合を上回っており、音声LLMの堅牢性を高める技術として注目を集めています。

前モデル / 競合との比較

競合するGLM-4-Voice-Tokenizer(UED 31.10%)、S3 Tokenizer(UED 26.17%)、CosyVoice2(UED 38.66%)と比較して、StableTokenのUEDは10.17%という圧倒的な低さを記録。再構成品質であるMOSスコアもLibriSpeechやSEEDベンチマークにおいて全般的に競合を上回り、ノイズ耐性と音質の両立を実現しています。

技術背景と意義

音声をAIが理解できるトークン(コード)に変換する「トークナイザ」は、音声LLMの心臓部です。しかし、従来のモデルは背景ノイズがあるとトークンがズレてしまい、認識精度がガタ落ちする問題がありました。StableTokenは、離散的な音声表現学習を行うことで、こうしたノイズの影響を受けにくい構造を実現。これにより、日常の雑音が混じるような実用的なシーンでも、音声LLMが高い精度を維持できるようになります。

こんな人・用途に

カフェや街頭など、背景ノイズが避けられない環境での音声認識・対話システムを開発しているエンジニア。ノイズ耐性の高い音声LLM(SpeechLLM)の研究や構築を進めている開発チーム。

入手方法・リンク

GitHubからリポジトリをクローンし、必要なライブラリをインストールすることで利用可能。モデルはHugging Faceから「tencent/StableToken」としてダウンロードでき、トークン化から音声再構成までの推論コードも提供されています。

SOURCE: Tencent (2026-02-26)

← LLM Watch トップへ

類似投稿

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です