ServiceNow-AI が vLLM V0 to V1 のRL移行で直面した罠を公開 ── ログ確率のズレが学習を破壊する話
強化学習でAIを訓練してると、推論エンジンが返す「この単語の確率」の計算がちょっとでも違うだけで学習が暴走する。ServiceNow-AIのチームがvLLMをV0からV1に移行したとき、まさにこれに直面した。修正点は4つだけど、どれも学習の安定性に直結していてかなりエグい。
▸何が変わったのか
問題の根源は「train-inference mismatch」──推論エンジンとトレーナーでログ確率の計算が噛み合ってない状態。vLLM V1はV0から大幅な書き直しが入ってて、同じ入力でも内部の挙動が変わってた。具体的に修正したのは4点:rollout logprobsの処理、V1固有のランタイムデフォルト、inflight weight-updateのパス、最終投影に使うfp32 lm_head。参照環境はvLLM 0.8.5、V1側はvLLM 0.18.1。GSPO訓練で発覚したけど、PPOやGRPOでも同じ問題が起きる。
◈前モデル / 競合との比較
vLLM V0(0.8.5)とV1(0.18.1)を比較すると、初期V1はclip rate・KL・entropy・rewardですぐにV0から乖離。4つの修正を適用した後のV1は、V0とほぼ同じ軌跡に収束。特にfp32 lm_headの修正が効いてる。
◈技術背景と意義
RLでAIを訓練するとき、推論エンジンは「次に来る単語の確率」を返す。トレーナーはこの確率を使って方策の比率やKL、クリップレート、エントロピー、報酬を計算する。ここで推論エンジンが返す数値が少しでも違うと、学習ダイナミクス全体が崩れる。vLLM V1は内部構造が大きく変わったから、この「数値の一致」を地道に検証する必要があった。
▸こんな人・用途に
PPO・GRPO・GSPOなどのオンラインRLで大規模モデルを訓練してる研究者。vLLMをロールアウト生成に使ってるRLパイプラインのエンジニア。推論エンジンのアップデート後に学習曲線が崩れた経験があるチーム。
SOURCE: Hugging Face (2026-05-06)

