OpenAI が Advancing voice intelligence with new models in the API をリリース ── 音声AIの常識が変わる
OpenAIが音声APIに新しいモデルを追加した。しかもリアルタイム対応。推論、翻訳、文字起こしを音声のままこなせるというのだから、これはかなり熱い。ようやく「話しかければそのまま答えが返ってくる」世界が現実になりそう。
▸何が変わったのか
OpenAI APIに「realtime voice models」が追加された。注目すべきは、これらのモデルが「reason(推論)」「translate(翻訳)」「transcribe(文字起こし)」の3つをこなせる点。音声入力に対して、途中でテキスト変換を挟まずに直接処理できる。より自然でインテリジェントな音声体験を実現する、と公式は謳っている。
◈技術背景と意義
従来の音声AIは「音声→テキスト→処理→テキスト→音声」という工程を踏むのが普通だった。無駄が多くて、レスポンスも遅くなる。今回のリアルタイム音声モデルは、この往復を大幅にショートカットできる可能性がある。音声のまま推論したり翻訳したりできるなら、対話のラグはほぼゼロに近づく。これは体験が根本的に変わる。
▸こんな人・用途に
リアルタイム通訳が必要な国際会議やオンラインミーティング。音声ベースのカスタマーサポートで即座に応答が必要な場面。会議の同時文字起こしと要約をまとめてやりたいケース。
SOURCE: OpenAI (2026-05-07)