Google DeepMind が Gemini 3.5 Live Translate をリリース ── 話者の抑揚やペースをそのままに、70言語以上をほぼリアルタイムで翻訳

ByLLM Watch編集部 2026年6月10日

GOOGLE DEEPMIND

最終更新: 2026年06月10日 01:03　元記事 →

翻訳技術の常識が変わりそうなアップデートが飛び込できた。Googleが発表した「Gemini 3.5 Live Translate」は、なんと70以上の言語をほぼリアルタイムで音声から音声へ直接翻訳してくれる。話者の声のトーンや話すスピードまで再現してくれるというのだから、これはかなりエグい。

▸何が変わったのか

最大のトピックは、70以上の言語を自動検出し、話者の「イントネーション」「ペース」「ピッチ」を保持したまま自然な翻訳音声を生成する点。従来のように話者が話し終わるのを待つターンバイターン方式ではなく、音声をストリーミングしながら連続的に翻訳を生成。文脈を待つか即座に訳すかのトレードオフを自動で調整し、話者からわずか数秒遅れで途切れることなく追従する。さらに、騒がしく予測不能な環境にも耐えうるノイズロバスト性も備えている。

◈前モデル / 競合との比較

従来のシステムは話者の発話終了を待ってから翻訳を開始するため、会話にどうしても間が生まれてしまった。今回のモデルは、文脈による品質向上と即時性のバランスを取りながら連続的に音声を生成し続ける点が根本的に異なる。

◈技術背景と意義

これまでのリアルタイム翻訳は、「音声認識」→「テキスト翻訳」→「音声合成」という工程を踏むため、 inevitable な遅延や不自然な間が発生しがちだった。しかし今回のモデルは、音声を直接ストリーミング処理することでこの壁を突破。ただ文字を訳すだけでなく、話者の声音やリズムまでコピーするので、まるでその人が流暢に別の言語を喋っているかのような体験に近づいている。機械越しのコミュニケーションのストレスが、劇的に減りそうだ。

▸こんな人・用途に

Grabのような配車アプリで、ドライバーと旅行者が母国語のままリアルタイムで意思疎通する場面（実際に月1000万件以上の音声通話でテストが進んでいる）。AgoraやLiveKitなどのプラットフォームを活用し、多言語対応のライブ配信や語学レッスンアプリを開発する用途。

◆入手方法・リンク

開発者は「Google AI Studio」および「Gemini Live API」のパブリックプレビューから利用可能。企業向けには「Google Meet」でのプライベートプレビューが開始されている。一般ユーザーは、AndroidおよびiOS版の「Google Translate」ですぐに体験できる。

公式発表を読む

SOURCE: Google DeepMind (2026-06-09)

← LLM Watch トップへ