Unified_Audio_Schema カバー画像

Tencent が Unified_Audio_Schema をリリース ── 聴いて話す、音声の理解と生成を統合したマルチモーダルモデル

TENCENTOSS

最終更新: 2026年04月17日 13:03 元記事 →

音声AIの進化がまた一段と進んだ印象。Tencentが「Unified Audio Schema」をオープンソースで公開した。単なる文字起こしにとどまらず、声のトーンや背景のノイズまで捉えて、テキストと音声を混ぜてやり取りできるというのがすごい。

何が変わったのか

一番の特徴は、テキストと音声を交互に(interleaved)入出力できる点。ベースのLLMには「Qwen2.5-7B」を採用し、音声エンコーダには「AuT encoder」を使用している。音声からテキストを書き起こすASRだけでなく、テキストから音声を合成するTTSや、音声キャプショニングまでこなす。生成された音声トークンから波形を復元するには、別途「StableToken decoder」を使う仕組みだ。

技術背景と意義

従来の音声AIは「言葉を正確に文字にする」ことに重きを置いていた。しかし実際の会話は、話し方やため息、背景の環境音など、言葉以外の情報がたくさん詰まっている。このフレームワークは、そうした「言語以外の要素」と「書き起こし」を切り分けて理解・再構築しようとしているのが面白い。しかも、回答をテキストと音声でミックスして返せるので、より人間に近いナチュラルな対話が期待できる。

こんな人・用途に

– 声のニュアンスや感情を汲み取って応答を返す、より高精度な音声対話アシスタント
– 単なる文字起こしではなく、会議の空気感や背景の状況までテキストで言語化する分析ツール

入手方法・リンク

モデルの重みはHugging Faceで公開されている。推論を実行するには、GitHubリポジトリからコードをクローンし、音声波形の復元に必要な「StableToken」のデコーダも合わせてダウンロードする必要がある。

SOURCE: Tencent (2026-04-03)

← LLM Watch トップへ

類似投稿

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です