Google DeepMind が Gemini 3.1 Flash TTS をリリース ── 自然言語で感情を操る次世代音声モデル
テキストから音声を生み出すTTS技術、ここ半年で本当に進化が激しいよね。そんななかGoogle DeepMindが「Gemini 3.1 Flash TTS」を突然投下してきた。なんと70以上の言語に対応しつつ、自然言語の指示で細かな感情や話すペースまで自在にコントロールできるらしい。これはかなりヤバいクオリティになりそうだ。
▸何が変わったのか
最大の目玉は、プロンプト内で「Audio tags」を使って声のスタイルやペースを直接指定できるようになった点。テキストで「もっと早く」「落ち着いたトーンで」みたいに指示するだけで、AIがそれを反映して読み上げてくれる。もちろん日本語を含む70以上の言語に対応。さらに、生成された音声にはすべて「SynthID」による透かし(ウォーターマーク)が自動で埋め込まれる仕様になっており、フェイクディープフェイク対策もバッチリだ。
◈前モデル / 競合との比較
以前のモデルと比べて、最大の進化は「表現力の自然さ」と「コントロールのしやすさ」。そして何より、高品質でありながら低コストで利用できる点が競合に対する強烈なアドバンテージになっている。
◈技術背景と意義
従来のTTS(テキスト読み上げ)は、どうしても「機械が喋っている感」が拭えず、感情表現などお手上げだった。しかし今回のモデルは、人間の「間」や「息遣い」のようなニュアンスを自然に再現できるレベルに到達している。ブラインドテストを数千回行う「Artificial Analysis TTS leaderboard」というベンチマークでは、Eloスコア「1,211」という高得点を叩き出し、高品質かつ低コストの「most attractive quadrant(最も魅力的な象限)」に位置づけられた。このスコアは単なる自己申告ではなく、実際の人間の評価に基づくものなので説得力がある。
▸こんな人・用途に
Google AI Studioを使えば、開発者が音声を細かく調整してその設定をエクスポートし、アプリに組み込むことが可能。また、一般ユーザーやクリエイターにとっては、Google Workspaceの「Google Vids」で動画のナレーションを自然な感情付きで付ける用途がすぐ思いつく。企業向けにはVertex AI経由で独自の音声エージェントを構築するような使い方も想定されるだろう。
▸Redditの反応
新モデルのリリースにしては反応は薄め。強力なライバルであるChatGPT-4oの音声機能と比較する声が多く、特に固有名詞の認識精度に対しては懐疑的な空気感が漂っている。
「ChatGPT 4oの音声より良くなったの? Geminiの音声は、まだ私の名前すらちゃんと認識してくれないんだけど。」
◆入手方法・リンク
開発者向けにはGemini APIおよびGoogle AI Studioでプレビュー版が利用可能。企業はVertex AI経由で触ることができる。また、一般のWorkspaceユーザーであれば、Google Vidsの機能を通じてですぐに試せる。
SOURCE: Google DeepMind (2026-04-15)


