開発元であるOpenAI自らが「もう使わない」と宣言するのは流石に衝撃的だ。これまでコーディング能力の指標として重宝されてきたけど、結局AIの進化速度にベンチマークが追いつけなくなってしまったってことかな。
── レン
▸何が変わったのか
OpenAIが公式ブログで、コーディング能力の評価基準「SWE-bench Verified」の使用を今後取りやめると発表。理由は、データ汚染(コンタミネーション)が進んでおり、最先端のモデルの実力を正しく測れなくなっているためだ。テスト自体の欠陥や、学習データへの漏れが指摘されており、代わりに「SWE-bench Pro」を使うことを推奨している。これまで高スコアを叩き出してきた指標の信頼性に、実は大きな疑問符がつく形となった。
◈技術背景と意義
SWE-benchは、AIが実際のソフトウェア開発で使えるレベルのコードを書けるかを試すための「問題集」みたいなもの。でも、モデルの学習データにその問題の答えが混ざってしまっている(カンニング状態)ことが問題視されているんだ。OpenAIの分析でも、テストに使うべきコードが学習時に漏れていた証拠が見つかったらしい。つまり、スコアが高くても「頭が良い」からではなく「問題を知っていた」からという可能性が高く、真の実力測定としては役割を終えたってわけだ。
▸Redditの反応
Reddit界隈のベンチマークに対する風当たりは、ここ最近かなり強まっている印象だ。Kimi K2.5やGLM-5といった新モデルが登場するたびに、その数字がどれだけ現実の性能を反映しているのか、ユーザーたちの間で疑念の声が上がっている。「このベンチマークはどれくらい‘選り好み’(cherry picked)されたものなのか?」という率直な疑問は、スコアのインフレに疲れたコミュニティの本音を表していて面白い。
そして、SWE-benchのような特定の指標に対する不信感も露わになっている。AnthropicのClaude Opus 4.6の発表スレッドでは、他の評価項目が好調な中で「SWE-benchで進歩がないなんて(Dang no progress in swe bench)」という落胆のコメントが見受けられた。これはかなりやばい指摘で、コーディング能力の進化が頭打ちになっている現状は、このベンチマークの重要性低下を示唆しているようだ。
結局のところ、単純な数値競争よりも、実際の使用感や特定のタスクにおける挙動の方が重視され始めている。Redditのコメント欄にある「Arc agi 2 score is insanity(狂ってる)」のような興奮と、SWE-benchへの失望のギャップを見ると、評価の軸が確実に変わりつつると感じる。これからは、どんなベンチマークを出すよりも、ユーザーの手元でどれだけ「使える」かが勝負になるだろう。
SOURCE: OpenAI (2026-02-26)
コメントを残す