Gemini 3.5 カバー画像

Google DeepMind が Gemini 3.5 Flash をアップデート ── PC操作エージェントがメインモデルに統合

GOOGLE DEEPMIND

最終更新: 2026年06月25日 02:04 元記事 →

待ってましたの機能更新。ついに「コンピュータ操作(computer use)」機能が標準搭載された。AIが自らブラウザやアプリを操作して作業をこなす未来が、また一歩身近になった印象だ。個人開発者だけでなく、エンタープライズの業務自動化をガチで狙いに来ている。

何が変わったのか

これまでスタンドアロンの「Gemini 2.5」でのみ使えたコンピュータ操作機能が、メインの「Gemini 3.5 Flash」にネイティブ統合されたのが最大のニュース。開発者は3.5 Flashを使って、ブラウザ、モバイル、デスクトップ環境全体を認識し、推論して行動を起こすエージェントを構築できる。ソフトウェアの継続的テストや知識作業など、長期的で複雑なエンタープライズ自動化タスクのパフォーマンスが向上している。さらに安全面も徹底されており、プロンプトインジェクションリスクを減らすための「対抗訓練(adversarial training)」を実施。機密性の高い操作にはユーザー確認を要求したり、間接的なプロンプトインジェクションを検知したら自動でタスクを停止するエンタープライズ向けセーフガードも追加された。

前モデル / 競合との比較

以前はスタンドアロンの「Gemini 2.5 computer use model」としてのみ提供されていたが、今回は主力の軽量モデル「3.5 Flash」に直接統合されたことで、より手軽に開発パイプラインへ組み込みやすくなった。

技術背景と意義

AIが画面を見て人間の代わりにマウスやキーボードを操作する、それが「コンピュータ操作」機能。特定のツール連携ではなく、人間がPCを扱うようにどんなアプリでも横断的に動けるのが最大の強みだ。複雑な定型業務をAIに丸投げできるため、作業効率化の可能性が一気に広がる。Googleはセキュリティ面でも「防御の重層化(defense-in-depth)」アプローチを掲げており、安全なサンドボックス環境や人間の確認ループを組み合わせることを推奨している。

こんな人・用途に

・長時間の継続的ソフトウェアテストや、プロフェッショナルアプリを横断するエンタープライズ向けの知識作業
・自社のドキュメントがアクセシビリティ基準を満たしているかをAIに自律監査させる業務(リリースノートでも実演されている)

入手方法・リンク

「Gemini API」または「Gemini Enterprise Agent Platform」経由で今すぐ利用可能。Browserbaseがホストするデモ環境でも機能を試せるので、まずは触ってみたいという場合も安心だ。

SOURCE: Google DeepMind (2026-06-24)

← LLM Watch トップへ

類似投稿

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です