Gemini Omni
リーク中 · Google I/O 2026

Gemini Omni
テキスト・画像・動画・音声を 1 つのモデルで

2026 年 5 月初旬の複数のリーク情報によると、Gemini Omni は Google が I/O 2026 で発表予定の統合マルチモーダルモデルで、単一の Gemini 学習システム内でテキスト・画像・動画・同期音声を生成します。

統合モデル 同期音声 チャット内編集
Omni
Text
Image
Video
Audio

主要スペック

5–10s クリップ長
1080p 最大解像度
16:9 · 9:16 · 1:1 アスペクト比
I/O 2026 発表予定
機能

制作パイプライン全体を 1 つのモデルに集約

Veo / Sora 2 / Seedance 2.0 / Kling などの専用動画モデルとは異なり、Gemini Omni は言語推論・画像生成・動画生成・音声合成を同じアーキテクチャに収めます。

ネイティブなマルチモーダル出力

1 つのプロンプトでテキスト・キーフレーム・動画を同時生成。キャラクター・スタイル・ライティングが各フォーマット間で一貫します。

統一された Gemini スタック

専用モデルを連結する必要はもうありません。テキスト・画像・動画・音声が同じ重みと長いコンテキストを共有します。

同期ネイティブ音声

環境音・スコア・対話が映像と同じフォワードパス内で揃えられます。足音は拍に乗り、口の動きは初回エクスポートからスピーチと合います。

チャット内で直接編集

自然言語でオブジェクトの差し替え・ライティング変更・カメラワーク調整が可能。Nano Banana の編集思想を踏襲し、再生成不要。

リミックスとステアリング

既存クリップをアップロードしプロンプトで方向修正。参照画像・動画・音声を 1 つの指示にまとめられます。

テンプレートとスタイル

製品広告・Reels・MV・シネマティック短編の組み込みテンプレで初心者の敷居を下げ、カメラ言語の一貫性を保ちます。

仕様

基調講演前にわかっていること

以下の数値は Reddit/X のリークと TestingCatalog、Programming Insider、OfficeChai 等の報道をまとめたものです。

項目 判明している情報
モデルファミリー Google Gemini — Veo 系列の後継ブランド
モデル ID bard_eac_video_generation_omni / v3smm-lora-prod
クリップ長 1 回の生成で 5 / 8 / 10 秒、アプリ内で連結可能
解像度 480p / 720p / 1080p
アスペクト比 16:9、9:16、1:1
音声 ネイティブ合成、ワンパスで同期
入力 テキスト / 画像 / 動画 / 音声リファレンス
アクセス Gemini アプリ内ステージング、API は I/O 後を予定
クォータ目安 報告によれば AI Pro の 2 回の Omni 生成で 1 日の約 86% を消費
アーキテクチャ

3 つの製品ラインを 1 つの Omni に統合

Google の生成系スタックはこれまで Veo(動画)、Nano Banana / Imagen(画像)、Gemini(テキスト)に分かれていました。Omni はこれらを 1 つのアーキテクチャにまとめます。

以前

Veo 3.1

動画 + ネイティブ音声

Nano Banana / Imagen

画像生成と編集

Gemini 2.5 / 3.x

推論 · 長コンテキスト

現在 · Omni

Gemini Omni

テキスト · 画像 · 動画 · 音声、1 モデル 1 プロンプト

Text Image Video Audio
ユースケース

1 つのブリーフから公開可能なコンテンツへ

統合モデル + 長コンテキスト + 同期音声により、1 つの一貫したブリーフで完成した編集物まで一気通貫で制作できます。

01

製品広告

ヒーローショット、パッケージ公開、ライフスタイルカットを環境音とともに納品。

02

Reels & Shorts

マイクオン対話とビート同期モーションを備えた 9:16 縦型クリップ。SNS 滞在向け。

03

ミュージックビデオ

トラックを参照すれば Omni がビートに合わせて編集、複数ショットで人物の一貫性を維持。

04

シネマティック短編

10 秒の omni-clip を複数つなぎ、連続したライティング・人物・音床を保ちます。

05

ランディングページのヒーローループ

SaaS / ファッション / DTC 向けのループ可能な 16:9 雰囲気素材、ブランド色と無音耐性込み。

06

解説とチュートリアル

台本をリップシンク付きナレーション映像に変換し、環境音設計も一致。

比較

2026 年の動画生成市場での Omni の立ち位置

Artificial Analysis、Looksy AI、Oimi AI、公式発表からの集約。ベンチマークではなく方向性の把握用。

モデル 提供元 アーキテクチャ ネイティブ音声 クリップ長
Gemini Omni Omni
Google 統合 Omni(動画 + 画像 + 音声) ワンパス同期 5 / 8 / 10s
Veo 3.1
Google 専用動画モデル 対応 約 8s
Seedance 2.0
ByteDance 専用マルチモーダル動画 対応 最大 15s / ショット
Sora 2
OpenAI 専用動画モデル 対応 約 20s
Kling V3.0
Kuaishou 専用動画モデル 限定的 約 10s
タイムライン

最初のリークから I/O 2026 のステージへ

公開報道日順、随時更新中。

  1. 2026 · 05 · 02

    最初の "Powered by Omni" 文字列

    X ユーザー @Thomas16937378 が Gemini 動画タブ内で "Start with an idea or try a template. Powered by Omni." を発見。

  2. 2026 · 05 · 11

    Gemini モバイル内に完全プレビューカード

    TestingCatalog と Chetaslua が "Meet our new video model" カード、完全モデル ID、10 秒上限を確認。

  3. 2026 · 05 · 12 – 18

    デモが拡散

    "黒板で三角関数を解く教授" のクリップがテキスト一貫性と物理的忠実度を示し、Veo 3.1 との比較が活発化。

  4. 2026 · 05 · 19 – 20

    Google I/O 2026 での発表予定

    メインステージでの Omni 発表が広く予想され、Flash / Pro ティア、API、サブスクリプション再編が伴う可能性。

FAQ

Gemini Omni についてよくある質問

Gemini Omni とは何ですか?

Google が間もなく発表する統合マルチモーダルモデルで、1 つのアーキテクチャ内でテキスト・画像・動画・同期音声を生成します。Veo・Imagen・Gemini の統合形と言えます。

いつリリースされますか?

2026 年 5 月中旬時点ではまだリーク段階。Google I/O 2026(5 月 19–20 日)のメインステージでの発表が広く期待されています。

Veo 3.1 との関係は?

メタデータからは Omni が Veo スタックを技術的に継承していますが、Veo ブランドは廃止され、動画機能が Gemini のテキスト・画像層に統合されます。

本当に音声も生成しますか?

はい。環境音・スコア・対話が動画と同じパスで生成されます。それが "omni" という名称の理由でもあります。

現在のクリップ長制限は?

リークされたモデル ID では 1 回の生成あたり 5、8、10 秒。クライアント層で複数連結可能です。

価格設定はどうなりますか?

未確定。Reddit のスクショでは 2 回の Omni 生成で AI Pro の 1 日クォータの約 86% を消費しており、"Ultra / Pro Plus" 級の上位ティアが想定されます。