vLLM V0 to V1: Correctness Before Corrections in RL カバー画像

Hugging Face

ServiceNow-AI が vLLM V0 to V1 のRL移行で直面した罠を公開 ── ログ確率のズレが学習を破壊する話

ByLLM Watch編集部 2026年5月7日

HUGGING FACE

最終更新: 2026年05月07日 05:02　元記事 →

強化学習でAIを訓練してると、推論エンジンが返す「この単語の確率」の計算がちょっとでも違うだけで学習が暴走する。ServiceNow-AIのチームがvLLMをV0からV1に移行したとき、まさにこれに直面した。修正点は4つだけど、どれも学習の安定性に直結していてかなりエグい。

▸何が変わったのか

問題の根源は「train-inference mismatch」──推論エンジンとトレーナーでログ確率の計算が噛み合ってない状態。vLLM V1はV0から大幅な書き直しが入ってて、同じ入力でも内部の挙動が変わってた。具体的に修正したのは4点：rollout logprobsの処理、V1固有のランタイムデフォルト、inflight weight-updateのパス、最終投影に使うfp32 lm_head。参照環境はvLLM 0.8.5、V1側はvLLM 0.18.1。GSPO訓練で発覚したけど、PPOやGRPOでも同じ問題が起きる。

◈前モデル / 競合との比較

vLLM V0（0.8.5）とV1（0.18.1）を比較すると、初期V1はclip rate・KL・entropy・rewardですぐにV0から乖離。4つの修正を適用した後のV1は、V0とほぼ同じ軌跡に収束。特にfp32 lm_headの修正が効いてる。

◈技術背景と意義

RLでAIを訓練するとき、推論エンジンは「次に来る単語の確率」を返す。トレーナーはこの確率を使って方策の比率やKL、クリップレート、エントロピー、報酬を計算する。ここで推論エンジンが返す数値が少しでも違うと、学習ダイナミクス全体が崩れる。vLLM V1は内部構造が大きく変わったから、この「数値の一致」を地道に検証する必要があった。

▸こんな人・用途に

PPO・GRPO・GSPOなどのオンラインRLで大規模モデルを訓練してる研究者。vLLMをロールアウト生成に使ってるRLパイプラインのエンジニア。推論エンジンのアップデート後に学習曲線が崩れた経験があるチーム。

◆入手方法・リンク

Hugging Faceのブログ記事として公開中。コードはクローズドソースのためGitHubリンクなし。

公式発表を読む

SOURCE: Hugging Face (2026-05-06)

← LLM Watch トップへ

Hugging Face

Hugging Face が IBMとUCバークレーの新研究を紹介 ── 企業のAIエージェントが失敗する「本当の理由」がついに判明
ByLLM Watch編集部 2026年2月27日2026年3月10日

企業のAIエージェントが失敗する理由を診断。IBMとUCバークレーがMASTとIT-Benchを公開

続きを読む Hugging Face が IBMとUCバークレーの新研究を紹介 ── 企業のAIエージェントが失敗する「本当の理由」がついに判明
Hugging Face

Hugging Face が From Hugging Face to Amazon SageMaker Studio in one click をリリース ── AWSの面倒な初期設定をスキップしてワンクリックで学習・デプロイ
ByLLM Watch編集部 2026年7月8日

Hugging FaceとAmazon SageMaker Studioのワンクリック連携が発表。面倒なIAM権限設定や環境構築を自動化し、モデルをすぐにファインチューニング・デプロイ可能に。

続きを読む Hugging Face が From Hugging Face to Amazon SageMaker Studio in one click をリリース ── AWSの面倒な初期設定をスキップしてワンクリックで学習・デプロイ
Hugging Face

Hugging Face が Shipping huggingface_hub every week with AI, open tools, and a human in the loop をリリース ── AIと人間の協業で面倒なリリース業務を自動化
ByLLM Watch編集部 2026年6月23日

Hugging FaceがAIとオープンソースツール、人間の確認を組み合わせ、huggingface_hubの毎週リリースを実現したワークフローを公開。

続きを読む Hugging Face が Shipping huggingface_hub every week with AI, open tools, and a human in the loop をリリース ── AIと人間の協業で面倒なリリース業務を自動化
OpenAI

OpenAI が OpenAI Privacy Filter をリリース ── 個人情報を検出・マスキングする新モデル
ByLLM Watch編集部 2026年4月23日2026年4月24日

OpenAIがテキスト内の個人情報（PII）を高精度に検出・マスキングする新モデル「OpenAI Privacy Filter」を発表。

続きを読む OpenAI が OpenAI Privacy Filter をリリース ── 個人情報を検出・マスキングする新モデル
Hugging Face

Hugging Face が We got local models to triage the OpenClaw repo for FREE!* を発表 ── クラウドAPI依存からの脱却
ByLLM Watch編集部 2026年6月23日

Hugging FaceがローカルLLMをエージェントとして活用し、OpenClawのissueをAPI制限なしで無料・リアルタイムに自動トリアージする手法を公開。

続きを読む Hugging Face が We got local models to triage the OpenClaw repo for FREE!* を発表 ── クラウドAPI依存からの脱却
Hugging Face

Hugging Face が AI Agent 用語集を公開 ── Harness と Scaffold の違い、ちゃんと説明してみた
ByLLM Watch編集部 2026年5月26日

AIエージェント用語の混乱を解消。HarnessとScaffoldの違いをICLR 2026後の議論を基に整理したHugging Faceの用語集。

続きを読む Hugging Face が AI Agent 用語集を公開 ── Harness と Scaffold の違い、ちゃんと説明してみた

コメントを残すコメントをキャンセル