Can Voice Agents Handle Bilingual Customers? Benchmarking Frontier ASR on Code-Switched Speech カバー画像

Hugging Face

Hugging Face 記事で紹介 ── バイリンガルの「チャンポン発話」に音声AIはついていけるか？新ベンチマークが公開

ByLLM Watch編集部 2026年6月10日

HUGGING FACE

最終更新: 2026年06月10日 05:02　元記事 →

世界の半数以上の人々が日常的に2つ以上の言語を使いこなす。文の途中でスッと英語から別の言語に切り替わる「コードスイッチング」は、私たちにとっては超自然なコミュニケーション手段だ。でも、それをAIの音声エージェントが正確に聞き取るのは意外と難しい。エンタープライズ環境で現在のASR（自動音声認識）がどこまで通用するのか、気になる検証結果が公開された。

▸何が変わったのか

ServiceNowのAIチームが、企業内のHRやITサポートを想定した独自のデータセットとベンチマークを構築。対象となる言語ペアは「Spanish-English」「French-English」「Canadian French-English」「German-English」の4種類だ。評価指標には、単なる文字起こしの正確さである「WER」だけでなく、意味の保持率を測る「SWER」、最終的な回答への悪影響を測る「AER」の3つを採用。これらは「AU-Harness」という評価ツール上で公開されている。検証の結果、ElevenLabs Scribe V2、Gemini 3 Flash、Assembly AI Universal 3-Proが各指標でトップクラスのパフォーマンスを発揮した。

◈前モデル / 競合との比較

今回の検証にはフロンティアモデルからオープンソースのASR、LALM（大規模オーディオ言語モデル）まで7つのシステムが含まれている。言語ペアやモデルごとにコードスイッチングによるペナルティ（性能低下）の度合いが異なり、中でもElevenLabs Scribe V2、Gemini 3 Flash、Assembly AI Universal 3-Proが強い結果を残した。

◈技術背景と意義

バイリンガル話者が「給料の件なんだけど、this month’s payroll is wrong」みたいに文の途中で言語を混ぜるテクニックを「コードスイッチング」と呼ぶ。音声認識（ASR）で最初の書き起こしをミスると、そのエラーが後工程のシステムにまで波及して大惨事になる。特に企業のカスタマーサポートなどでは、ちょっとした聞き間違いが重大なトラブルに発展しかねない。このベンチマークは、文字が合っているかだけでなく「意味」や「最終的なタスクの成功率」まで含めて厳しく評価している点が本当にエモい。

▸こんな人・用途に

グローバル展開しており、多言語を話す顧客を抱えるカスタマーセンターやITヘルプデスク。社内のHR（人事）システムや給与・パスワードリセット対応の社内向け音声ボット開発。

◆入手方法・リンク

データセットとベンチマークは「AU-Harness」というツールを通じて提供されている。詳細やその他のモデル比較結果はHugging Faceのブログ記事を参照。

公式発表を読む

SOURCE: Hugging Face (2026-06-09)

← LLM Watch トップへ

OpenAI

OpenAI が TanStack npm サプライチェーン攻撃への対応を発表 ── macOS アプリの更新期限は2026年6月12日
ByLLM Watch編集部 2026年5月14日

OpenAIがTanStack「Mini Shai-Hulud」サプライチェーン攻撃への対応を公開。macOSアプリは2026年6月12日までに更新必須。

続きを読む OpenAI が TanStack npm サプライチェーン攻撃への対応を発表 ── macOS アプリの更新期限は2026年6月12日
OpenAI

OpenAI が Introducing OpenAI Presence をリリース ── 企業向けの音声＆チャットAIエージェントを構築する新プラットフォーム
ByLLM Watch編集部 2026年7月23日

OpenAIがエンタープライズ向けAIエージェントプラットフォーム「OpenAI Presence」を発表。信頼できる音声・チャットAIを社内外のワークフローに導入できる。

続きを読む OpenAI が Introducing OpenAI Presence をリリース ── 企業向けの音声＆チャットAIエージェントを構築する新プラットフォーム
Hugging Face

Hugging Face が GLM-5.2 をリリース ── 100万トークンを安定処理するロングホライズン特化モデル
ByLLM Watch編集部 2026年6月17日

GLM-5.2が100万トークンのコンテキストを安定処理。長期タスク能力でOpusやGPT-5.5に肉薄する驚異のモデル。

続きを読む Hugging Face が GLM-5.2 をリリース ── 100万トークンを安定処理するロングホライズン特化モデル
Hugging Face

Hugging Face が Keep the Tokens Flowing: Lessons from 16 Open-Source RL Libraries をリリース
ByLLM Watch編集部 2026年3月10日2026年3月10日

Hugging FaceのKeep the Tokens Flowing: Lessons from 16 Open-Source RL Librariesリリース情報

続きを読む Hugging Face が Keep the Tokens Flowing: Lessons from 16 Open-Source RL Libraries をリリース
Hugging Face

Hugging Face 発の新ツール「Her · हेर」がリリース ── Claude Codeの暴走を調査する「探偵」
ByLLM Watch編集部 2026年6月7日

Claude Codeの.jsonlセッションログを解析し、エージェントの挙動やトークン消費、リスクの高い操作を特定するツール「Her · हेर」が登場した。

続きを読む Hugging Face 発の新ツール「Her · हेर」がリリース ── Claude Codeの暴走を調査する「探偵」
Hugging Face

Hugging Face が We got local models to triage the OpenClaw repo for FREE!* を発表 ── クラウドAPI依存からの脱却
ByLLM Watch編集部 2026年6月23日

Hugging FaceがローカルLLMをエージェントとして活用し、OpenClawのissueをAPI制限なしで無料・リアルタイムに自動トリアージする手法を公開。

続きを読む Hugging Face が We got local models to triage the OpenClaw repo for FREE!* を発表 ── クラウドAPI依存からの脱却

コメントを残すコメントをキャンセル