Google DeepMind が Gemini 3.1 Flash Live をリリース ── 音声AIの常識を変えるリアルタイム対話
ついにGoogleから、音声AIの常識を覆すようなモデルが登場した。Gemini 3.1 Flash Liveは、まるで人間と話しているかのようなリアルタイム対話を実現し、その滑らかさには思わず驚かされる。
▸何が変わったのか
Googleが謳う「最高品質」の音声モデルとなり、遅延の低減と精度の向上で対話のリズムが劇的に向上。特に「ComplexFuncBench Audio」というベンチマークでは90.8%というスコアを叩き出し、マルチステップなタスク処理能力を証明している。さらに、実世界のような遮断や躊躇が発生する状況を想定した「Scale AIのAudio MultiChallenge」では、思考機能をオンにした状態で36.1%を記録。音声のトーン理解も深まり、より自然な会話が可能に。誤情報拡散を防ぐため、すべての音声には透かしが入る仕組みだ。
◈前モデル / 競合との比較
前世代モデルと比較して、特にマルチステップな関数呼び出しを含むベンチマーク(ComplexFuncBench Audio)で大きなリードを示している。音質の高さと対話の自然さにおいて、過去最高のレベルに達したとのこと。
◈技術背景と意義
音声AIの進化は、ただ文字を音声に変換するだけの時代は終わった。このモデルは、相手の声のニュアンスやトーン、そして会話中の遮断さえも理解して、人間のように「思考」しながら応答を生成する。開発者が複雑なボイスエージェントを構築する際、この処理速度と正確性は革命的な意味を持つだろう。
▸こんな人・用途に
複雑なタスクをこなすボイスアシスタントの開発者。自然なやり取りが求められるカスタマーサポート業務の担当企業。200カ国以上で利用可能な検索機能やGemini Liveを使う一般ユーザー。
◆入手方法・リンク
開発者はGoogle AI Studio内のGemini Live APIを通じてプレビュー版にアクセス可能で、企業向けには「Gemini Enterprise for Customer Experience」での提供が始まっている。一般ユーザーはSearch LiveやGemini Liveですぐに体験できる。
SOURCE: Google DeepMind (2026-03-26)


