ネイティブなマルチモーダル出力
1 つのプロンプトでテキスト・キーフレーム・動画を同時生成。キャラクター・スタイル・ライティングが各フォーマット間で一貫します。
Veo / Sora 2 / Seedance 2.0 / Kling などの専用動画モデルとは異なり、Gemini Omni は言語推論・画像生成・動画生成・音声合成を同じアーキテクチャに収めます。
1 つのプロンプトでテキスト・キーフレーム・動画を同時生成。キャラクター・スタイル・ライティングが各フォーマット間で一貫します。
専用モデルを連結する必要はもうありません。テキスト・画像・動画・音声が同じ重みと長いコンテキストを共有します。
環境音・スコア・対話が映像と同じフォワードパス内で揃えられます。足音は拍に乗り、口の動きは初回エクスポートからスピーチと合います。
自然言語でオブジェクトの差し替え・ライティング変更・カメラワーク調整が可能。Nano Banana の編集思想を踏襲し、再生成不要。
既存クリップをアップロードしプロンプトで方向修正。参照画像・動画・音声を 1 つの指示にまとめられます。
製品広告・Reels・MV・シネマティック短編の組み込みテンプレで初心者の敷居を下げ、カメラ言語の一貫性を保ちます。
以下の数値は Reddit/X のリークと TestingCatalog、Programming Insider、OfficeChai 等の報道をまとめたものです。
| 項目 | 判明している情報 |
|---|---|
| モデルファミリー | Google Gemini — Veo 系列の後継ブランド |
| モデル ID | bard_eac_video_generation_omni / v3smm-lora-prod |
| クリップ長 | 1 回の生成で 5 / 8 / 10 秒、アプリ内で連結可能 |
| 解像度 | 480p / 720p / 1080p |
| アスペクト比 | 16:9、9:16、1:1 |
| 音声 | ネイティブ合成、ワンパスで同期 |
| 入力 | テキスト / 画像 / 動画 / 音声リファレンス |
| アクセス | Gemini アプリ内ステージング、API は I/O 後を予定 |
| クォータ目安 | 報告によれば AI Pro の 2 回の Omni 生成で 1 日の約 86% を消費 |
Google の生成系スタックはこれまで Veo(動画)、Nano Banana / Imagen(画像)、Gemini(テキスト)に分かれていました。Omni はこれらを 1 つのアーキテクチャにまとめます。
以前
Veo 3.1
動画 + ネイティブ音声
Nano Banana / Imagen
画像生成と編集
Gemini 2.5 / 3.x
推論 · 長コンテキスト
現在 · Omni
Gemini Omni
テキスト · 画像 · 動画 · 音声、1 モデル 1 プロンプト
統合モデル + 長コンテキスト + 同期音声により、1 つの一貫したブリーフで完成した編集物まで一気通貫で制作できます。
ヒーローショット、パッケージ公開、ライフスタイルカットを環境音とともに納品。
マイクオン対話とビート同期モーションを備えた 9:16 縦型クリップ。SNS 滞在向け。
トラックを参照すれば Omni がビートに合わせて編集、複数ショットで人物の一貫性を維持。
10 秒の omni-clip を複数つなぎ、連続したライティング・人物・音床を保ちます。
SaaS / ファッション / DTC 向けのループ可能な 16:9 雰囲気素材、ブランド色と無音耐性込み。
台本をリップシンク付きナレーション映像に変換し、環境音設計も一致。
Artificial Analysis、Looksy AI、Oimi AI、公式発表からの集約。ベンチマークではなく方向性の把握用。
| モデル | 提供元 | アーキテクチャ | ネイティブ音声 | クリップ長 |
|---|---|---|---|---|
| Gemini Omni
Omni
| 統合 Omni(動画 + 画像 + 音声) | ワンパス同期 | 5 / 8 / 10s | |
| Veo 3.1 | 専用動画モデル | 対応 | 約 8s | |
| Seedance 2.0 | ByteDance | 専用マルチモーダル動画 | 対応 | 最大 15s / ショット |
| Sora 2 | OpenAI | 専用動画モデル | 対応 | 約 20s |
| Kling V3.0 | Kuaishou | 専用動画モデル | 限定的 | 約 10s |
公開報道日順、随時更新中。
X ユーザー @Thomas16937378 が Gemini 動画タブ内で "Start with an idea or try a template. Powered by Omni." を発見。
TestingCatalog と Chetaslua が "Meet our new video model" カード、完全モデル ID、10 秒上限を確認。
"黒板で三角関数を解く教授" のクリップがテキスト一貫性と物理的忠実度を示し、Veo 3.1 との比較が活発化。
メインステージでの Omni 発表が広く予想され、Flash / Pro ティア、API、サブスクリプション再編が伴う可能性。
Google が間もなく発表する統合マルチモーダルモデルで、1 つのアーキテクチャ内でテキスト・画像・動画・同期音声を生成します。Veo・Imagen・Gemini の統合形と言えます。
2026 年 5 月中旬時点ではまだリーク段階。Google I/O 2026(5 月 19–20 日)のメインステージでの発表が広く期待されています。
メタデータからは Omni が Veo スタックを技術的に継承していますが、Veo ブランドは廃止され、動画機能が Gemini のテキスト・画像層に統合されます。
はい。環境音・スコア・対話が動画と同じパスで生成されます。それが "omni" という名称の理由でもあります。
リークされたモデル ID では 1 回の生成あたり 5、8、10 秒。クライアント層で複数連結可能です。
未確定。Reddit のスクショでは 2 回の Omni 生成で AI Pro の 1 日クォータの約 86% を消費しており、"Ultra / Pro Plus" 級の上位ティアが想定されます。
このページの内容は以下の公開ソースを集約したものです。複数ソースの確認を推奨します。
リーク詳細、UI 文字列、初期デモ分析。
アーキテクチャ推測と Seedance / Veo との比較。
完全モデル ID、アプリ内プロンプト、コミュニティ反応。
仕様、ユースケース、比較のまとめ。
Gemini ファミリーのマルチモーダル能力、長コンテキスト、エージェント方向性。