Google DeepMind が Gemini 3.1 Flash TTS をリリース ── 自然言語で感情を操る次世代音声モデル

GOOGLE DEEPMIND

最終更新: 2026年04月16日 02:03　元記事 →

テキストから音声を生み出すTTS技術、ここ半年で本当に進化が激しいよね。そんななかGoogle DeepMindが「Gemini 3.1 Flash TTS」を突然投下してきた。なんと70以上の言語に対応しつつ、自然言語の指示で細かな感情や話すペースまで自在にコントロールできるらしい。これはかなりヤバいクオリティになりそうだ。

▸何が変わったのか

最大の目玉は、プロンプト内で「Audio tags」を使って声のスタイルやペースを直接指定できるようになった点。テキストで「もっと早く」「落ち着いたトーンで」みたいに指示するだけで、AIがそれを反映して読み上げてくれる。もちろん日本語を含む70以上の言語に対応。さらに、生成された音声にはすべて「SynthID」による透かし（ウォーターマーク）が自動で埋め込まれる仕様になっており、フェイクディープフェイク対策もバッチリだ。

◈前モデル / 競合との比較

以前のモデルと比べて、最大の進化は「表現力の自然さ」と「コントロールのしやすさ」。そして何より、高品質でありながら低コストで利用できる点が競合に対する強烈なアドバンテージになっている。

◈技術背景と意義

従来のTTS（テキスト読み上げ）は、どうしても「機械が喋っている感」が拭えず、感情表現などお手上げだった。しかし今回のモデルは、人間の「間」や「息遣い」のようなニュアンスを自然に再現できるレベルに到達している。ブラインドテストを数千回行う「Artificial Analysis TTS leaderboard」というベンチマークでは、Eloスコア「1,211」という高得点を叩き出し、高品質かつ低コストの「most attractive quadrant（最も魅力的な象限）」に位置づけられた。このスコアは単なる自己申告ではなく、実際の人間の評価に基づくものなので説得力がある。

▸こんな人・用途に

Google AI Studioを使えば、開発者が音声を細かく調整してその設定をエクスポートし、アプリに組み込むことが可能。また、一般ユーザーやクリエイターにとっては、Google Workspaceの「Google Vids」で動画のナレーションを自然な感情付きで付ける用途がすぐ思いつく。企業向けにはVertex AI経由で独自の音声エージェントを構築するような使い方も想定されるだろう。

▸Redditの反応

新モデルのリリースにしては反応は薄め。強力なライバルであるChatGPT-4oの音声機能と比較する声が多く、特に固有名詞の認識精度に対しては懐疑的な空気感が漂っている。

r/singularity▲ 1

「ChatGPT 4oの音声より良くなったの？ Geminiの音声は、まだ私の名前すらちゃんと認識してくれないんだけど。」

u/BlueberryWorried6493

◆入手方法・リンク

開発者向けにはGemini APIおよびGoogle AI Studioでプレビュー版が利用可能。企業はVertex AI経由で触ることができる。また、一般のWorkspaceユーザーであれば、Google Vidsの機能を通じてですぐに試せる。

公式発表を読む

SOURCE: Google DeepMind (2026-04-15)

← LLM Watch トップへ

Google DeepMind が Gemini 3.1 Flash TTS をリリース ── 自然言語で感情を操る次世代音声モデル

▸何が変わったのか

◈前モデル / 競合との比較

◈技術背景と意義

▸こんな人・用途に

▸Redditの反応

◆入手方法・リンク

Hugging Face が Keep the Tokens Flowing: Lessons from 16 Open-Source RL Libraries をリリース

OpenAI が How Balyasny Asset Management built an AI research engine for investing をリリース ── GPT-5.4を使った投資分析エンジンが登場

Google DeepMind が Gemma 4 をリリース ── バイト単位で最も強力なオープンモデル登場

OpenAI が Extending single-minus amplitudes to gravitons を公開 ── GPT-5.2 Pro が量子重力の謎に挑む

Hugging Face が Build a Domain-Specific Embedding Model in Under a Day をリリース ── 1日で作れる自社専用モデルの衝撃

Hugging Face が What’s New in Mellea 0.4.0 + Granite Libraries Release をリリース

コメントを残すコメントをキャンセル

▸何が変わったのか

◈前モデル / 競合との比較

◈技術背景と意義

▸こんな人・用途に

▸Redditの反応

◆入手方法・リンク

類似投稿

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル