Unified_Audio_Schema カバー画像

Tencent

Tencent が Unified_Audio_Schema をリリース ── 聴いて話す、音声の理解と生成を統合したマルチモーダルモデル

Byren_admin 2026年4月17日

TENCENTOSS

最終更新: 2026年04月17日 13:03　元記事 →

音声AIの進化がまた一段と進んだ印象。Tencentが「Unified Audio Schema」をオープンソースで公開した。単なる文字起こしにとどまらず、声のトーンや背景のノイズまで捉えて、テキストと音声を混ぜてやり取りできるというのがすごい。

▸何が変わったのか

一番の特徴は、テキストと音声を交互に（interleaved）入出力できる点。ベースのLLMには「Qwen2.5-7B」を採用し、音声エンコーダには「AuT encoder」を使用している。音声からテキストを書き起こすASRだけでなく、テキストから音声を合成するTTSや、音声キャプショニングまでこなす。生成された音声トークンから波形を復元するには、別途「StableToken decoder」を使う仕組みだ。

◈技術背景と意義

従来の音声AIは「言葉を正確に文字にする」ことに重きを置いていた。しかし実際の会話は、話し方やため息、背景の環境音など、言葉以外の情報がたくさん詰まっている。このフレームワークは、そうした「言語以外の要素」と「書き起こし」を切り分けて理解・再構築しようとしているのが面白い。しかも、回答をテキストと音声でミックスして返せるので、より人間に近いナチュラルな対話が期待できる。

▸こんな人・用途に

– 声のニュアンスや感情を汲み取って応答を返す、より高精度な音声対話アシスタント
– 単なる文字起こしではなく、会議の空気感や背景の状況までテキストで言語化する分析ツール

◆入手方法・リンク

モデルの重みはHugging Faceで公開されている。推論を実行するには、GitHubリポジトリからコードをクローンし、音声波形の復元に必要な「StableToken」のデコーダも合わせてダウンロードする必要がある。

公式発表を読む

SOURCE: Tencent (2026-04-03)

← LLM Watch トップへ

Tencent

Tencent が DisCa をリリース ── 動画生成の高速化、「学習できるキャッシュ」で品質を死守
Byren_admin 2026年4月15日

Tencent HunyuanがCVPR 2026採択のDisCaをOSS公開。学習可能なFeature Cachingで動画生成を高速化しつつ品質を維持する新手法。

続きを読む Tencent が DisCa をリリース ── 動画生成の高速化、「学習できるキャッシュ」で品質を死守
Tencent

Tencent が Penguin-Encoder をリリース ── LLMそのものをビジョンエンコーダーに転用した新機軸
Byren_admin 2026年3月7日2026年3月10日

Tencentが「Penguin-Encoder」を公開。CLIPではなくLLMをベースとした独自のビジョンエンコーダ。

続きを読む Tencent が Penguin-Encoder をリリース ── LLMそのものをビジョンエンコーダーに転用した新機軸
Tencent

Tencent が HY-OmniWeaving をリリース ── テキスト・画像・動画を自由に入力できる統合動画生成モデル
Byren_admin 2026年4月3日

Tencent HunyuanがOmniWeavingをリリース。テキスト・画像・動画の自由な組み合わせで高品質な動画を生成するオープンソースモデル。

続きを読む Tencent が HY-OmniWeaving をリリース ── テキスト・画像・動画を自由に入力できる統合動画生成モデル
Zhipu AI

Zhipu AI が GLM-5.1 をリリース ── 長く動かすほど賢くなるエージェント特化型
Byren_admin 2026年4月8日

Zhipu AIのGLM-5.1がHugging Faceに登場。長時間の自律作業で真価を発揮するエージェント特化型で、SWE-Bench Pro等でSOTAを達成。

続きを読む Zhipu AI が GLM-5.1 をリリース ── 長く動かすほど賢くなるエージェント特化型
Tencent

Tencent が Covo-Audio-Chat をリリース ── 音声から音声へ、テキストを介さないエンドツーエンド対話
Byren_admin 2026年3月16日

Tencentが音声を直接処理する7Bパラメータのエンドツーエンド音声言語モデルCovo-Audio-ChatをOSSで公開。

続きを読む Tencent が Covo-Audio-Chat をリリース ── 音声から音声へ、テキストを介さないエンドツーエンド対話
Tencent

Tencent が Sequential-Hidden-Decoding-8B-n4 をリリース ── 推論ステップを「隠し」て性能を爆上げ
Byren_admin 2026年3月10日

Tencentが「Sequential-Hidden-Decoding-8B-n4」を公開。Embedding追加のみで性能を引き出す新手法。

続きを読む Tencent が Sequential-Hidden-Decoding-8B-n4 をリリース ── 推論ステップを「隠し」て性能を爆上げ

コメントを残すコメントをキャンセル