Google DeepMind が Gemini Omni をリリース ── 対話で動画を編集、あらゆる入力から生成可能な新モデル
ついにGoogle DeepMindが、テキストや画像だけでなく「動画」をネイティブに操る新モデルを引っ張り出してきた。入力した映像や音声をベースに、物理法則や文脈を理解した高品質な動画を生成・編集できる「Gemini Omni」が登場だ。チャットの感覚で映像をいじれるので、これはかなりエグい。
▸何が変わったのか
今回ロールアウトされたのはOmniファミリーの最初のモデル「Gemini Omni Flash」。画像、音声、動画、テキストを組み合わせて入力し、高品質な動画を出力できる。最大の注目ポイントは「対話による動画編集」が可能な点。単発のプロンプトで終わらず、前の文脈やキャラクターの一貫性、物理法則を保ったまま何度でも修正できる。例えば「鏡に触れると液体のように波打たせ、腕を鏡の素材に変える」「部屋の照明を暗くし、手の上に浮かぶガラス球の中に無限に続く部屋を作る」といった複雑な指示にも対応する。
◈前モデル / 競合との比較
昨年画像生成や編集に活用されていた「Nano Banana」から進化を遂げている。単なる静止画から、時間軸を持った動画の生成・編集へとスケールアップしたことが大きく異なる。さらに複数ターンの対話を通じて、元のシーンの意図を失わずに編集を重ねられる点が、従来のツールにはない強み。
◈技術背景と意義
従来の映像生成AIは「指定された絵を作る」ことに特化していたが、OmniはGemini本来の「推論能力」と「創造力」を掛け合わせているのが特徴。そのため、単に見た目だけ模倣するのではなく、現実世界の知識に基づいて「次に何が起こるべきか」を理解している。専門用語を抜きにすれば、「世界の常識を理解している映像監督」と一緒に作業しているような感覚に近い。
▸こんな人・用途に
「スマホで撮った動画のアクションや背景をガラッと変えたい」というSNSクリエイターから、「カメラアングルや環境を微調整したい映像制作者」まで幅広く活用できそう。特にプロンプトの例にあるような「球体の中に無限再帰する部屋」のようなVFX的アイデアを、自然言語の指示だけで実装したいクリエイターにはうってつけだ。
▸Redditの反応
Gemini Omniへの反応はかなり割れてる。Seedance 2.0と比較して厳しい声も多いけど、音楽生成への驚きや教育への期待などポジティブな熱量もしっかりある。
「ミュージシャンとして言わせてもらうと、BGMも同じ動画生成で作られてるならマジでヤバい。クオリティ高すぎ。」
「パーソナライズされた教育が来るぞ!自分に合った学習スタイルを理解して説明してくれる世界。めちゃくちゃ助かる。」
「公平に言うとバックフリップはめちゃくちゃ難しいからね。そこまで期待するのも酷な気がする。」
「これ、Seedance 2.0のレベルには全然届いてないね……正直かなり厳しいわ。」
「動画生成で勝つのはOpenAIのSoraだったな。でもOpenAIの実力は確かだし、依然として最強の一角であることは間違いない。」
◆入手方法・リンク
現在は「Gemini Omni Flash」として、Gemini app、Google Flow、YouTube Shortsにて順次提供が開始されている。外部APIやオープンソースでの公開予定については不明。
SOURCE: Google DeepMind (2026-05-17)

