Tencent が Unified_Audio_Schema をリリース ── 聴いて話す、音声の理解と生成を統合したマルチモーダルモデル
音声AIの進化がまた一段と進んだ印象。Tencentが「Unified Audio Schema」をオープンソースで公開した。単なる文字起こしにとどまらず、声のトーンや背景のノイズまで捉えて、テキストと音声を混ぜてやり取りできるというのがすごい。
▸何が変わったのか
一番の特徴は、テキストと音声を交互に(interleaved)入出力できる点。ベースのLLMには「Qwen2.5-7B」を採用し、音声エンコーダには「AuT encoder」を使用している。音声からテキストを書き起こすASRだけでなく、テキストから音声を合成するTTSや、音声キャプショニングまでこなす。生成された音声トークンから波形を復元するには、別途「StableToken decoder」を使う仕組みだ。
◈技術背景と意義
従来の音声AIは「言葉を正確に文字にする」ことに重きを置いていた。しかし実際の会話は、話し方やため息、背景の環境音など、言葉以外の情報がたくさん詰まっている。このフレームワークは、そうした「言語以外の要素」と「書き起こし」を切り分けて理解・再構築しようとしているのが面白い。しかも、回答をテキストと音声でミックスして返せるので、より人間に近いナチュラルな対話が期待できる。
▸こんな人・用途に
– 声のニュアンスや感情を汲み取って応答を返す、より高精度な音声対話アシスタント
– 単なる文字起こしではなく、会議の空気感や背景の状況までテキストで言語化する分析ツール
◆入手方法・リンク
モデルの重みはHugging Faceで公開されている。推論を実行するには、GitHubリポジトリからコードをクローンし、音声波形の復元に必要な「StableToken」のデコーダも合わせてダウンロードする必要がある。
SOURCE: Tencent (2026-04-03)