Gemini Omni
正式发布 · 接替 Veo 进入 Gemini App

Gemini Omni
说出来、看见它、分享它——多模态视频,一句话搞定

2026 年 5 月 19 日,Google 在 I/O 2026 主舞台正式发布 Gemini Omni。它统一了 Gemini 的世界理解与原生多模态生成能力,把文本、图像、视频与同步音频收进同一架构,并在 Gemini App 中取代 Veo 3.1,支持图像生成视频、视频再编辑与个人专属 AI 形象。

统一模型 同步音频 对话内编辑
Omni
Text
Image
Video
Audio

关键参数一览

5–10s 单段时长
1080p 最高分辨率
16:9 · 9:16 · 1:1 宽高比
I/O 2026 预期发布
官方 demo

看一眼 Gemini Omni 的真实输出

以下视频全部直接嵌入自 Google 官方 Gemini Omni 产品页:文生视频、图生视频、风格迁移、对话式编辑、视频再编辑与 Avatar,覆盖主要能力。

所有 demo 视频版权归 Google 所有,仅作信息汇总目的,由 storage.googleapis.com/gweb-gemini-cdn 直接拉取。

Speak it. See it. Share it.

Gemini Omni 官方主视觉视频:用对话生成、混剪与编辑视频。

查看 Google 官方页面
文生视频

走进画面里

一段文字提示生成具备完整环境与镜头语言的多镜头短片。

图生视频

让照片动起来

上传图像作为参考,Omni 自动驱动画面并补足时间轴。

风格 / 模板

保留拍摄的灵魂

改背景、换服装、迁移风格,主体的细节与表演被保留。

视频再编辑

视频再创作

把现有片段重新调度成新的风格,灯光、镜头甚至材质都能用提示词改写。

对话编辑

聊天式编辑

用一句话替换角色、调整光线、稳定镜头,无需重新出片。

AI Avatar

当你自己的主角

配置一次 AI Avatar,之后无需再上传照片即可让你出镜。

核心能力

把整个创作链路收进同一个模型

相比 Veo / Sora 2 / Seedance 2.0 / Kling 等专用视频模型,Gemini Omni 把语言理解、图像生成、视频生成与音频合成放进同一架构。

原生多模态生成

同一段提示词同时生成文字描述、关键帧图像与视频,角色、风格与光线在不同模态间保持一致。

统一 Gemini 架构

不再依赖把多个专用模型拼接的方案,文本、图像、视频与音频共享同一组权重与上下文窗口。

同步原生音频

环境声、配乐与对白在生成视频的同一遍前向计算里完成对齐,脚步落点、唇形和节拍开箱即合。

对话内直接编辑

无需重新生成整段视频,可以用自然语言替换物体、修改光线、调整镜头,沿用 Nano Banana 的编辑思路。

视频混剪与遥控

上传现有片段后用提示词重新调度,参考图、参考视频、参考音频可在一条指令里组合驱动。

模板与流派库

内建产品广告、Reels、音乐 MV、电影感短片等模板,降低首次使用门槛并保证镜头语言。

规格参数

官方未公布前可以追踪到的细节

以下数据综合自 Reddit、X 上的泄露截图与 TestingCatalog、Programming Insider、OfficeChai 等媒体报道。

维度 已知信息
所属家族 Google Gemini(被视为 Veo 系列的继任品牌)
模型 ID bard_eac_video_generation_omni / v3smm-lora-prod
单段时长 5 / 8 / 10 秒,可在客户端中拼接
分辨率 480p / 720p / 1080p
宽高比 16:9、9:16、1:1
音频 原生合成,与画面单遍同步
输入模态 文本 / 图像 / 视频 / 音频参考
访问方式 已在 Gemini App 上线,面向 18+ 的 Google AI Plus / Pro / Ultra 订阅用户
配额示例 据泄露报告,AI Pro 两次生成约消耗 86% 当日配额
架构演进

从三条产品线到一个 Omni

过去谷歌的生成式栈由专门的 Veo(视频)、Nano Banana / Imagen(图像)和 Gemini(文本)组合而成。Omni 把这些能力合并到同一架构。

此前

Veo 3.1

视频生成 + 同步音频

Nano Banana / Imagen

图像生成与编辑

Gemini 2.5 / 3.x

文本推理 · 长上下文

现在 · Omni

Gemini Omni

文本 · 图像 · 视频 · 音频,单模型单提示

Text Image Video Audio
应用场景

从一句 Brief 到可发布的内容

统一模型 + 长上下文 + 同步音频,意味着团队可以用一段连贯的描述完成从故事板到成片的全部步骤。

01

产品广告

英雄镜头、包装揭示与生活方式画面,带节奏对齐的环境音直接交付。

02

Reels & Shorts

9:16 竖屏剪辑,配合 on-mic 对白与卡点音乐,适合滚动停留型社交内容。

03

音乐 MV

上传参考音轨,Omni 自动让画面卡在节拍上,并在多个镜头里保持角色一致。

04

电影感短片

把多段 10 秒 omni-clip 拼成多镜头序列,灯光、人物与音床保持连续。

05

落地页 Hero 视频

SaaS / 时尚 / DTC 网站的可循环 16:9 氛围素材,自带品牌色与静音可读性。

06

教学与解释

把脚本转成带唇形对齐的解说视频,配合同步的环境音设计。

竞品对比

与 2026 年视频生成赛道的关键玩家

数据综合自 Artificial Analysis 榜单、Looksy AI、Oimi AI 与官方发布会信息,仅作横向参考。

模型 厂商 架构形态 原生音频 单段时长
Gemini Omni Omni
Google 统一 Omni(视频 + 图像 + 音频) 同遍合成同步 5 / 8 / 10s
Veo 3.1
Google 专用视频模型 原生支持 约 8s
Seedance 2.0
ByteDance 专用多模态视频 原生支持 可达 15s / 镜头
Sora 2
OpenAI 专用视频模型 原生支持 约 20s
Kling V3.0
Kuaishou 专用视频模型 有限 约 10s
免费 vs 付费

Gemini Omni 免费吗?2026 年的免费使用方式

Gemini Omni Flash 在 Google Flow 免费层、YouTube Shorts 与 YouTube Create 应用里完全免费;独立的 Gemini App 则需要 Google AI Plus / Pro / Ultra 订阅。下方是可直接打开的官方入口。

如何免费生成 Gemini Omni 视频

最快的免费方式:登录 YouTube Shorts 或 YouTube Create App,选模板后用与 Gemini App 同样的镜头化提示词进行生成。

  • 先在免费的 YouTube Shorts 里锁定镜头语言与节奏。
  • 只有需要品牌级输出时再切到 Google AI Plus / Pro 订阅。
  • 用对话式编辑代替重新生成,把每一份付费配额尽量延展。

各地区与账户的免费配额与价格会变化,请以上方官方入口的实时信息为准。

时间线

从泄露、上线到接下来要发布的能力

按公开报道时间排序,已根据 2026 · 05 · 19 正式发布同步更新——已上线与待上线的能力分别标注。

  1. 2026 · 05 · 02

    首次发现 "Powered by Omni"

    X 用户 @Thomas16937378 在 Gemini 视频生成面板内发现 UI 字符串 "Start with an idea or try a template. Powered by Omni."

  2. 2026 · 05 · 11

    Gemini App 内出现完整介绍卡

    TestingCatalog 与 Chetaslua 等账号曝出移动端介绍卡 "Meet our new video model",以及完整模型 ID 与 10 秒时长限制。

  3. 2026 · 05 · 12 – 18

    泄露 demo 持续扩散

    "教授黑板推导三角函数"等示例验证文字一致性与物理动作的高保真度,社区开始密集对比 Veo 3.1。

  4. 2026 · 05 · 19

    Google I/O 2026 主舞台正式发布

    Gemini Omni Flash 全球上线 Gemini App、Google Flow、YouTube Shorts Remix 与 YouTube Create —— 单段 10 秒,付费侧 AI Plus 起 $7.99/月,YouTube 端免费。

  5. 2026 · 05 · 19 起

    新能力陆续放量:Avatar、角色一致性与对话式编辑

    正式版同步上线 AI Avatar 数字分身、跨镜头角色身份一致性、物理感知渲染与多轮对话式编辑,每段生成视频均带不可见的 SynthID 数字水印。

  6. 2026 年中 · API 仍未开放

    开发者与企业 API:Gemini API + Vertex AI

    截至 2026 年 6 月中旬,开发者 API 仍未上线。Google 维持"未来几周内"通过 Gemini API 与 Vertex AI 开放的说法,暂无官方定价 —— 关注 Gemini API changelog 获取开放时间。

  7. 路线图

    Gemini Omni Pro + 图像 / 音频输出

    Google 已宣布将推出能力更强的 Gemini Omni Pro,但无发布日期("当它相较 Flash 出现质变时");并将在当前视频优先的基础上补齐图像与音频输出,真正兑现"任意输入 → 任意输出"的承诺。

常见问题

关于 Gemini Omni 你最常被问到的问题

Gemini Omni 到底是什么?

它是谷歌即将发布的统一多模态模型,原生在同一架构内生成文本、图像、视频和同步音频,是 Veo / Imagen / Gemini 三条产品线的合并者。

Gemini Omni 免费吗?

部分免费。Gemini Omni Flash 在 Google Flow 免费层、YouTube Shorts 与 YouTube Create App 中完全免费。要在独立的 Gemini App 中使用 Omni,则需要 Google AI Plus、Pro 或 Ultra 付费订阅。

Gemini Omni 的价格是多少?

Google AI Plus 起价约 7.99 美元/月,AI Pro 是创作者最常用的档位,AI Ultra 约 100 美元/月。AI Pro 上两次 Omni Flash 生成会消耗约 86% 的当日配额,重试需要做预算管理;开发者 API 将公布单独定价。

什么时候正式发布?

2026 年 5 月 19 日,Google 在 I/O 2026 主舞台正式发布 Gemini Omni,官方产品页与 demo 视频同步上线,并开始在 Gemini App 中接替 Veo 3.1。

它和 Veo 3.1 是什么关系?

Gemini Omni 是 Veo 在 Gemini App 中的继任者。Google 官方明确表示 Omni 将在 Gemini App 中取代 Veo,同时把视频能力与 Gemini 的文本、图像合并到同一架构里。

它能直接生成声音吗?

可以。环境声、配乐与对白在视频生成同一遍里被合成出来,不需要额外混音,这也是 "omni" 命名的关键依据。

当前的视频时长限制是多少?

官方产品页明确单段最长 10 秒,并支持原生音频、最多 5 张照片参考与多轮对话式编辑。

价格和配额会怎么定?

官方说明需要 Google AI Plus / Pro / Ultra 订阅、年满 18 岁,按地区与套餐档位提供不同功能(Avatar 与 video-to-video 编辑在部分地区可能受限)。

什么是 Gemini Omni 的 AI Avatar?

AI Avatar 是一个可选的"数字版你":录入后即可生成看起来与听起来都像你的视频,无需每次重新上传照片,且只有你本人可以使用自己的 avatar。