OpenAI が SWE-bench Verified 評価の停止を表明 ── ベンチマーク汚染が招いたスコア崩壊

OPENAI

最終更新: 2026年02月27日 00:02 元記事 →

主要ベンチマークの撤退をいきなり表明するとは、かなり潔い決断だ。開発者コミュニティでは以前から「汚染(コンタミネーション)」は囁かれていたけど、ここまで明言するとは驚き。スコアランキングに踊らされていた我々も、ハッとさせられる話だね。

── レン

何が変わったのか

OpenAI が、コーディングモデルの実力測定に広く使われてきた「SWE-bench Verified」での評価を打ち切ることを正式に発表。最大の理由は、モデルの学習データにテスト内容が混ざり込む「汚染」が深刻化し、スコアが実力を反映していないと判断したため。さらに、テストコード自体のバグや不備も多発していることが解析で判明したとか。これ以上「詰め込み勉強(カンニング)」で稼いだ点数を正当化するのは難しく、公正な評価が不可能と結論づけた形だ。今後はより厳格で難易度の高い「SWE-bench Pro」への移行を推奨している。

技術背景と意義

AIの性能を競う「ベンチマーク」は、まるで全国統一模試のようなもの。でも、AIが学習する段階で問題の答えをすでに知ってしまった(カンニング状態)場合、どんなに高得点でも実力とは言えない。SWE-bench Verified はその「カンニング状態」が蔓延してしまい、テストの作り自体もおかしくなっていたため、OpenAI は「もうこのテストじゃ正しい実力は測れない」と宣言。より頑丈で、答えが漏れていない新しい問題集(SWE-bench Pro)に変えないと、技術の進歩を正しく評価できない、というわけだ。

Redditの反応

SWE-benchの信頼性が揺らぐ中、Redditでは「もうこれを主要な評価基準にするのは終わりじゃない?」という空気が漂い始めている。なんとOpenAIの調査で、SWE Bench Verifiedのテストケースの少なくとも16.4%に欠陥があることが発覚したのだ。これだけエラーがあると、各モデルが叩き出してきた高スコアの意味自体が問われてくるから当然だよね。

Claude Opus 4.6の発表スレッドでは、他のパラメータが向上しているにも関わらず「SWE-benchでは進歩が見られない(Dang no progress in swe bench)」という、少し冷めた反応が目立った。新モデルが出るたびにベンチマークを競ってきたけれど、土台が間違っていたら全てが砂上の楼閣という感じだろうか。ユーザーたちは単なる数値のインフレにうんざりしているようだ。

Kimi K2.5のリリースに関しては、「これらのベンチマークはどれくらい cherry picked(都合よく選ばれている)んだ?(How cherry picked are these benchmarks?)」という懐疑的なコメントが注目を集めている。「本当にスマートなのか?それともテストを攻略しているだけなのか?」という視点でモデルを評価し始めているみたいで、この流れはもう止められないかもしれない。

入手方法・リンク

本件に関する詳細は OpenAI の公式ブログで公開されている。GitHub リポジトリなどの実装があるわけではないが、評価指標として今後は SWE-bench Pro の利用が推奨されている。

SOURCE: OpenAI (2026-02-26)

コメント

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です