Tencent が Covo-Audio-Chat をリリース ── 音声から音声へ、テキストを介さないエンドツーエンド対話

TENCENTOSS

最終更新: 2026年03月16日 17:03　元記事 →

Tencentから音声対話の世界を揺るがしそうなモデルが登場しました。「Covo-Audio-Chat」は、テキスト変換を経ずに音声を直接処理・生成する7Bパラメータのエンドツーエンドモデル。特に低遅延の全二重通信を実現する点には、思わず声を上げたくなる衝撃を受けました。

▸何が変わったのか

Tencentがオープンソースとして「Covo-Audio-Chat」を公開。このモデルは7Bパラメータを持つエンドツーエンドの大型音声言語モデルで、連続的な音声入力を直接処理し、統一されたアーキテクチャ内で音声出力を生成します。LLMのバックボーンには「Qwen2.5-7B」、オーディオエンコーダーには「Whisper」の重みをそれぞれ初期化して使用。さらに、連続的な音響特徴量、離散的な音声トークン、自然言語テキストを統合する「3モーダル音声・テキストインターリーブ」機能を搭載し、高品質なTTSボイスを転送・共有可能な文脈適応メソッドも開発されています。

◈前モデル / 競合との比較

同等規模のモデルと比較して、音声対話や音声理解、全二重音声対話において最先端（SOTA）またはそれに匹敵する性能を達成しています。バックボーンとして強力なQwen2.5-7Bを採用しているため、ゼロから学習したモデルよりも高い基礎能力が期待できるでしょう。

◈技術背景と意義

従来の音声AIは「音声認識→テキスト処理→音声合成」というステップを踏むため、どうしても遅延や情報のロスが発生しがちでした。しかし、Covo-Audioは音声の波形的な特徴そのものを言語モデルと統合して処理するため、より人間に近い自然なやり取りが可能になります。特に「知能と話者の分離」という技術により、話者の声色（ボイス）を維持しつつ、対話の知能部分を柔軟に操作できるのが大きなポイントです。これにより、感情やリズムといった韻律情報を損なわず、意味のある会話を生成できるようになります。

▸こんな人・用途に

低遅延でのリアルタイム対話が必要な次世代音声アシスタントの開発。
音声認識や合成、理解を一つのモデルで行いたいアプリケーション。

◆入手方法・リンク

Hugging Faceの「tencent/Covo-Audio-Chat」リポジトリからモデルをダウンロード可能です。GitHub「Tencent/Covo-Audio」でコードが公開されており、Python 3.11以上の環境で手順に従ってインストール後、`example.sh`を実行するだけで推論を試すことができます。

公式発表を読む

SOURCE: Tencent (2026-03-16)

← LLM Watch トップへ

Tencent が Covo-Audio-Chat をリリース ── 音声から音声へ、テキストを介さないエンドツーエンド対話

▸何が変わったのか

◈前モデル / 競合との比較

◈技術背景と意義

▸こんな人・用途に

◆入手方法・リンク

Tencent が HY-World-2.0 をリリース ── 動画じゃない、遊べるリアル3Dアセットを直接生成

Alibaba (Qwen) が Qwen3.5-122B-A10B をリリース ── 122Bの知性を10Bの軽さで実現する野心的なアーキテクチャ

Mistral が Leanstral-2603 をリリース

Tencent が HY-WU をリリース ── 学習不要でアダプターを生成する「ニューラルメモリ」搭載

Tencent が Penguin-Encoder をリリース ── LLMそのものをビジョンエンコーダーに転用した新機軸

Zhipu AI が GLM-5.1 をリリース ── 長く動かすほど賢くなるエージェント特化型

コメントを残すコメントをキャンセル

▸何が変わったのか

◈前モデル / 競合との比較

◈技術背景と意義

▸こんな人・用途に

◆入手方法・リンク

類似投稿

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル