Zhipu AI が GLM-5.1 をリリース ── 長く動かすほど賢くなるエージェント特化型
Zhipu AIがいきなり次世代フラッグシップモデル「GLM-5.1」をHugging Faceに公開した。最大の衝撃は、長時間動かせば動かすほど賢くなるというエージェント特化の設計。これまでのAIがすぐに行き詰まっていた課題に対して、劇的なブレイクスルーを起こしているかもしれない。
▸何が変わったのか
前モデルであるGLM-5は、最初はサクサク解決するものの、すぐに手詰まりを起こす厄介な癖があった。しかしGLM-5.1は、曖昧な問題に対する判断力が抜群に改善されている。複雑な問題を分解し、実験し、結果を読み取り、何が阻害要因かを正確に特定できるのだ。数百ラウンドの反復や数千回のツール呼び出しをこなしてもパフォーマンスが落ちない。「The longer it runs, the better the result(長く実行するほど、結果が良くなる)」という設計思想はかなりエグい。
◈前モデル / 競合との比較
ベンチマーク「HLE」ではツールなしで31.0、ツールあり(w/ Tools)で52.3を記録し、GPT-5.4の52.1やClaude Opus 4.6の53.1に肉薄。「AIME 2026」でも95.3を叩き出し、トップクラスのモデル群と完全に互角の戦いを繰り広げている。
◈技術背景と意義
従来のLLMは、人間が指示を出して1回答える「一発勝負」が得意だった反面、自律的に作業を続けるエージェント用途だとミスを積み重ねて破綻しやすかった。今回のGLM-5.1は、まさにその「長期的な自律作業」に特化して鍛えられたモデル。コーディングやターミナル操作のベンチマークである「SWE-Bench Pro」や「Terminal-Bench 2.0」でSOTAを獲得している。AIにアプリ開発のような複雑なタスクを任せる未来が、一気现実味を帯びてきた。
▸こんな人・用途に
NL2Repoのようなリポジトリ丸ごと生成など、大規模なコーディング作業。Terminal-Bench 2.0で評価されたような、実際のターミナル環境を伴うリアルなシステム構築・運用タスク。
▸Redditの反応
GLM-5.1のリリースに対し、Gemma 4やDeepSeek v4など他のモデルと比較しながら議論が白熱している。オープンウェイトの早期公開を期待する声が多く、ローカルLLM界隈のワクワク感が一気に高まっている空気感だ。
「このスクショを見るに、オープンウェイト版のリリースがかなり近そうだね。ローカルで動かせる日が待ち遠しい!」
「GLM-5.1が出たのにDeepSeek v4がまだなのは驚き。HuaweiのAscendチップでの学習に手こずってるのかも?」
「Gemma 4に負けてても驚かないね。あれはミニGeminiみたいなものだし。GLM 5.1の真価はコーディングで発揮されるはず。」
「最近のトレンドはガチで興奮する。次世代モデルなら、Intel B70みたいな単一GPUでもフロンティアクオリティを動かせる。」
「Gemmaはイエスマンにならず、ちゃんと対話できるのが良い。Qwenみたいに過度に迎合してくるのはちょっと苦手だな。」
◆入手方法・リンク
現在はHugging Faceでオープンソースとして公開されている。API経由で試したい場合は「Z.ai API Platform」を利用可能。数日中には「chat.z.ai」でもチャット形式で触れるようになる予定。
SOURCE: Zhipu AI (2026-04-03)
