Task-Seeded Synthetic Q&A Generation for Nemotron Pretraining カバー画像

NVIDIA が Nemotron 向け合成Q&A生成手法を公開 ── GPQAで+11.1の劇的改善

HUGGING FACE

最終更新: 2026年06月04日 21:02 元記事 →

LLMの学習データって、量より質――って言われるけど、具体的にどう質を上げるのか。NVIDIAがNemotronシリーズの学習で使ってる「Task-Seeded Synthetic Q&A Generation」の中身を詳しく解説していて、これがかなり参考になる。特にGPQA(専門職レベルの難問ベンチマーク)で+11.1って数字は正直すごい。

何が変わったのか

公開タスクのトレーニングデータを「種」にして、類似問題と理由付き回答を合成生成するパイプライン。約70タスク・約700サブタスクを網羅。Nemotron-3 Nanoでの100Bトークン継続実験で、MMLU-Pro +1.8、average code +1.9、commonsense understanding +1.6、GPQA +11.1を達成。数学スコアは安定を維持。スキーマチェック、フォーマットチェック、重複排除、多数決回答チェックで品質を担保。評価用データは生成に使わない設計で、テスト漏洩を防止。

技術背景と意義

LLMにテキストを大量に読ませるだけじゃ、賢くならない。問題と回答のペアを構造化された形で学ぶ必要がある。この手法は既存のタスクデータから「似た問題」を人工的に作り出し、回答に理由や関連知識を付与してから学習に使う仕組み。要するに「良質な例題を大量に生成してから勉強させる」というアプローチ。数学を大量に解くだけでなく、解法の思考プロセスも一緒に学ぶ感じ。

入手方法・リンク

記事はHugging Faceのブログで公開中。パイプライン自体はクローズドソースで、コードの公開は現時点ではない。

SOURCE: Hugging Face (2026-06-04)

← LLM Watch トップへ

類似投稿

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です