vLLM V0 to V1: Correctness Before Corrections in RL カバー画像

ServiceNow-AI が vLLM V0 to V1 のRL移行で直面した罠を公開 ── ログ確率のズレが学習を破壊する話

HUGGING FACE

最終更新: 2026年05月07日 05:02 元記事 →

強化学習でAIを訓練してると、推論エンジンが返す「この単語の確率」の計算がちょっとでも違うだけで学習が暴走する。ServiceNow-AIのチームがvLLMをV0からV1に移行したとき、まさにこれに直面した。修正点は4つだけど、どれも学習の安定性に直結していてかなりエグい。

何が変わったのか

問題の根源は「train-inference mismatch」──推論エンジンとトレーナーでログ確率の計算が噛み合ってない状態。vLLM V1はV0から大幅な書き直しが入ってて、同じ入力でも内部の挙動が変わってた。具体的に修正したのは4点:rollout logprobsの処理、V1固有のランタイムデフォルト、inflight weight-updateのパス、最終投影に使うfp32 lm_head。参照環境はvLLM 0.8.5、V1側はvLLM 0.18.1。GSPO訓練で発覚したけど、PPOやGRPOでも同じ問題が起きる。

前モデル / 競合との比較

vLLM V0(0.8.5)とV1(0.18.1)を比較すると、初期V1はclip rate・KL・entropy・rewardですぐにV0から乖離。4つの修正を適用した後のV1は、V0とほぼ同じ軌跡に収束。特にfp32 lm_headの修正が効いてる。

技術背景と意義

RLでAIを訓練するとき、推論エンジンは「次に来る単語の確率」を返す。トレーナーはこの確率を使って方策の比率やKL、クリップレート、エントロピー、報酬を計算する。ここで推論エンジンが返す数値が少しでも違うと、学習ダイナミクス全体が崩れる。vLLM V1は内部構造が大きく変わったから、この「数値の一致」を地道に検証する必要があった。

こんな人・用途に

PPO・GRPO・GSPOなどのオンラインRLで大規模モデルを訓練してる研究者。vLLMをロールアウト生成に使ってるRLパイプラインのエンジニア。推論エンジンのアップデート後に学習曲線が崩れた経験があるチーム。

入手方法・リンク

Hugging Faceのブログ記事として公開中。コードはクローズドソースのためGitHubリンクなし。

SOURCE: Hugging Face (2026-05-06)

← LLM Watch トップへ

類似投稿

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です