Hugging Face が Unlocking asynchronicity in continuous batching を解説 ── GPUの待ち時間を削る非同期アプローチ
Hugging FaceがLLM推論最適化シリーズの第2弾を公開。テーマは「非同期バッチング」。H200を1時間$5で回しても、1日なら$120。GPUを遊ばせてる余裕はない──そういう話。前回はContinuous Batchingの基礎だったけど、今回はその先にある「CPUとGPUの協調」に切り込んでる。
▸何が変わったのか
従来のContinuous Batchingは同期処理(synchronous)が前提だった。GPUが計算してる間はCPUが待機し、CPUがバッチ準備してる間はGPUが待機する。この交互待ちが、1秒間に何百回もループする処理では無視できないロスになる。記事によると、アイドル時間は総ランタイムの約4分の1を占めることもあるとのこと。解決策は「asynchronous batching」。CPU側のバッチ準備とGPU側の計算を完全に分離し、並列で動かすことでGPUを常に稼働状態に保つ。
◈前モデル / 競合との比較
同期バッチングでは、GPU計算後にCPUがバッチ更新を行う間、GPUが完全にアイドルになる。プロファイリング結果(8Bモデル、バッチサイズ32、8Kトークン生成)では、このアイドルギャップが累積して大きなスループット低下を引き起こしていることが可視化されている。非同期バッチングはこのCPU・GPUの交代待ちをなくし、両者の並列動作を実現する。
◈技術背景と意義
LLMの推論では、GPUが計算するだけじゃなくて、CPU側でも「どのリクエストを処理するか」「KVキャッシュの更新」「終了したリクエストの退出」「新規リクエストの受け入れ」みたいな準備作業がある。同期処理だと、このCPU作業が終わるまでGPUは何もしない。非同期にすると、GPUが前のバッチを計算してる最中に、CPUは次のバッチの準備を進める。要するに手待ち時間をなくす工夫。
▸こんな人・用途に
H200などの高価なGPUを本番環境でフル稼働させたい推論サービス運営者。バッチサイズ32で8Kトークン生成のような重いワークロードを扱うケース。コスト最適化が至上命題のAPIプロバイダー。
◆入手方法・リンク
Hugging Face Blogにて公開中。クローズドソースのためGitHubリンクはなし。記事内ではInference Endpoints(H200が$5/時間)への言及もある。
SOURCE: Hugging Face (2026-05-14)


