Zhipu AI が GLM-5.1 をリリース ── 長く動かすほど賢くなるエージェント特化型

ZHIPU AIOSS

最終更新: 2026年04月08日 02:04　元記事 →

Zhipu AIがいきなり次世代フラッグシップモデル「GLM-5.1」をHugging Faceに公開した。最大の衝撃は、長時間動かせば動かすほど賢くなるというエージェント特化の設計。これまでのAIがすぐに行き詰まっていた課題に対して、劇的なブレイクスルーを起こしているかもしれない。

▸何が変わったのか

前モデルであるGLM-5は、最初はサクサク解決するものの、すぐに手詰まりを起こす厄介な癖があった。しかしGLM-5.1は、曖昧な問題に対する判断力が抜群に改善されている。複雑な問題を分解し、実験し、結果を読み取り、何が阻害要因かを正確に特定できるのだ。数百ラウンドの反復や数千回のツール呼び出しをこなしてもパフォーマンスが落ちない。「The longer it runs, the better the result（長く実行するほど、結果が良くなる）」という設計思想はかなりエグい。

◈前モデル / 競合との比較

ベンチマーク「HLE」ではツールなしで31.0、ツールあり（w/ Tools）で52.3を記録し、GPT-5.4の52.1やClaude Opus 4.6の53.1に肉薄。「AIME 2026」でも95.3を叩き出し、トップクラスのモデル群と完全に互角の戦いを繰り広げている。

◈技術背景と意義

従来のLLMは、人間が指示を出して1回答える「一発勝負」が得意だった反面、自律的に作業を続けるエージェント用途だとミスを積み重ねて破綻しやすかった。今回のGLM-5.1は、まさにその「長期的な自律作業」に特化して鍛えられたモデル。コーディングやターミナル操作のベンチマークである「SWE-Bench Pro」や「Terminal-Bench 2.0」でSOTAを獲得している。AIにアプリ開発のような複雑なタスクを任せる未来が、一気现実味を帯びてきた。

▸こんな人・用途に

NL2Repoのようなリポジトリ丸ごと生成など、大規模なコーディング作業。Terminal-Bench 2.0で評価されたような、実際のターミナル環境を伴うリアルなシステム構築・運用タスク。

▸Redditの反応

GLM-5.1のリリースに対し、Gemma 4やDeepSeek v4など他のモデルと比較しながら議論が白熱している。オープンウェイトの早期公開を期待する声が多く、ローカルLLM界隈のワクワク感が一気に高まっている空気感だ。

r/LocalLLaMA▲ 302

「このスクショを見るに、オープンウェイト版のリリースがかなり近そうだね。ローカルで動かせる日が待ち遠しい！」

u/Few_Painter_5588

r/LocalLLaMA▲ 105

「GLM-5.1が出たのにDeepSeek v4がまだなのは驚き。HuaweiのAscendチップでの学習に手こずってるのかも？」

u/power97992

r/LocalLLaMA▲ 80

「Gemma 4に負けてても驚かないね。あれはミニGeminiみたいなものだし。GLM 5.1の真価はコーディングで発揮されるはず。」

u/atape_1

r/LocalLLaMA▲ 26

「最近のトレンドはガチで興奮する。次世代モデルなら、Intel B70みたいな単一GPUでもフロンティアクオリティを動かせる。」

u/LeucisticBear

r/LocalLLaMA▲ 20

「Gemmaはイエスマンにならず、ちゃんと対話できるのが良い。Qwenみたいに過度に迎合してくるのはちょっと苦手だな。」

u/ambient_temp_xeno

◆入手方法・リンク

現在はHugging Faceでオープンソースとして公開されている。API経由で試したい場合は「Z.ai API Platform」を利用可能。数日中には「chat.z.ai」でもチャット形式で触れるようになる予定。

公式発表を読む

SOURCE: Zhipu AI (2026-04-03)

← LLM Watch トップへ

Zhipu AI が GLM-5.1 をリリース ── 長く動かすほど賢くなるエージェント特化型

▸何が変わったのか

◈前モデル / 競合との比較

◈技術背景と意義

▸こんな人・用途に

▸Redditの反応

◆入手方法・リンク

Alibaba (Qwen) が Qwen-Scope (SAE) をリリース ── Qwen3-30B-A3Bの内部を131,072次元で解読

Alibaba (Qwen) が Qwen3.5-122B-A10B をリリース ── 122Bの知性を10Bの軽さで実現する野心的なアーキテクチャ

Tencent が Hy3-preview をリリース ── 295B MoEの怪物、コード・エージェント性能がヤバい

Alibaba (Qwen) が Qwen3.5-35B-A3B-Base-W128K-L0_100 をリリース ── Qwenの頭の中を覗き見るSAE解釈モジュール

Tencent が VersaViT をリリース ── マルチモーダル向けの万能視覚エンコーダー

MiniMax が MiniMax-M2.7 をリリース ── 自己進化するエージェント特化モデル、本番障害を3分未満で復旧

コメントを残すコメントをキャンセル

▸何が変わったのか

◈前モデル / 競合との比較

◈技術背景と意義

▸こんな人・用途に

▸Redditの反応

◆入手方法・リンク

類似投稿

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル