Covo-Audio-Chat カバー画像

Tencent が Covo-Audio-Chat をリリース ── 音声から音声へ、テキストを介さないエンドツーエンド対話

TENCENTOSS

最終更新: 2026年03月16日 17:03 元記事 →

Tencentから音声対話の世界を揺るがしそうなモデルが登場しました。「Covo-Audio-Chat」は、テキスト変換を経ずに音声を直接処理・生成する7Bパラメータのエンドツーエンドモデル。特に低遅延の全二重通信を実現する点には、思わず声を上げたくなる衝撃を受けました。

何が変わったのか

Tencentがオープンソースとして「Covo-Audio-Chat」を公開。このモデルは7Bパラメータを持つエンドツーエンドの大型音声言語モデルで、連続的な音声入力を直接処理し、統一されたアーキテクチャ内で音声出力を生成します。LLMのバックボーンには「Qwen2.5-7B」、オーディオエンコーダーには「Whisper」の重みをそれぞれ初期化して使用。さらに、連続的な音響特徴量、離散的な音声トークン、自然言語テキストを統合する「3モーダル音声・テキストインターリーブ」機能を搭載し、高品質なTTSボイスを転送・共有可能な文脈適応メソッドも開発されています。

前モデル / 競合との比較

同等規模のモデルと比較して、音声対話や音声理解、全二重音声対話において最先端(SOTA)またはそれに匹敵する性能を達成しています。バックボーンとして強力なQwen2.5-7Bを採用しているため、ゼロから学習したモデルよりも高い基礎能力が期待できるでしょう。

技術背景と意義

従来の音声AIは「音声認識→テキスト処理→音声合成」というステップを踏むため、どうしても遅延や情報のロスが発生しがちでした。しかし、Covo-Audioは音声の波形的な特徴そのものを言語モデルと統合して処理するため、より人間に近い自然なやり取りが可能になります。特に「知能と話者の分離」という技術により、話者の声色(ボイス)を維持しつつ、対話の知能部分を柔軟に操作できるのが大きなポイントです。これにより、感情やリズムといった韻律情報を損なわず、意味のある会話を生成できるようになります。

こんな人・用途に

低遅延でのリアルタイム対話が必要な次世代音声アシスタントの開発。
音声認識や合成、理解を一つのモデルで行いたいアプリケーション。

入手方法・リンク

Hugging Faceの「tencent/Covo-Audio-Chat」リポジトリからモデルをダウンロード可能です。GitHub「Tencent/Covo-Audio」でコードが公開されており、Python 3.11以上の環境で手順に従ってインストール後、`example.sh`を実行するだけで推論を試すことができます。

SOURCE: Tencent (2026-03-16)

← LLM Watch トップへ

類似投稿

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です