原生多模态生成
同一段提示词同时生成文字描述、关键帧图像与视频,角色、风格与光线在不同模态间保持一致。
以下视频全部直接嵌入自 Google 官方 Gemini Omni 产品页:文生视频、图生视频、风格迁移、对话式编辑、视频再编辑与 Avatar,覆盖主要能力。
所有 demo 视频版权归 Google 所有,仅作信息汇总目的,由 storage.googleapis.com/gweb-gemini-cdn 直接拉取。
Gemini Omni 官方主视觉视频:用对话生成、混剪与编辑视频。
一段文字提示生成具备完整环境与镜头语言的多镜头短片。
上传图像作为参考,Omni 自动驱动画面并补足时间轴。
改背景、换服装、迁移风格,主体的细节与表演被保留。
把现有片段重新调度成新的风格,灯光、镜头甚至材质都能用提示词改写。
用一句话替换角色、调整光线、稳定镜头,无需重新出片。
配置一次 AI Avatar,之后无需再上传照片即可让你出镜。
相比 Veo / Sora 2 / Seedance 2.0 / Kling 等专用视频模型,Gemini Omni 把语言理解、图像生成、视频生成与音频合成放进同一架构。
同一段提示词同时生成文字描述、关键帧图像与视频,角色、风格与光线在不同模态间保持一致。
不再依赖把多个专用模型拼接的方案,文本、图像、视频与音频共享同一组权重与上下文窗口。
环境声、配乐与对白在生成视频的同一遍前向计算里完成对齐,脚步落点、唇形和节拍开箱即合。
无需重新生成整段视频,可以用自然语言替换物体、修改光线、调整镜头,沿用 Nano Banana 的编辑思路。
上传现有片段后用提示词重新调度,参考图、参考视频、参考音频可在一条指令里组合驱动。
内建产品广告、Reels、音乐 MV、电影感短片等模板,降低首次使用门槛并保证镜头语言。
以下数据综合自 Reddit、X 上的泄露截图与 TestingCatalog、Programming Insider、OfficeChai 等媒体报道。
| 维度 | 已知信息 |
|---|---|
| 所属家族 | Google Gemini(被视为 Veo 系列的继任品牌) |
| 模型 ID | bard_eac_video_generation_omni / v3smm-lora-prod |
| 单段时长 | 5 / 8 / 10 秒,可在客户端中拼接 |
| 分辨率 | 480p / 720p / 1080p |
| 宽高比 | 16:9、9:16、1:1 |
| 音频 | 原生合成,与画面单遍同步 |
| 输入模态 | 文本 / 图像 / 视频 / 音频参考 |
| 访问方式 | 已在 Gemini App 上线,面向 18+ 的 Google AI Plus / Pro / Ultra 订阅用户 |
| 配额示例 | 据泄露报告,AI Pro 两次生成约消耗 86% 当日配额 |
过去谷歌的生成式栈由专门的 Veo(视频)、Nano Banana / Imagen(图像)和 Gemini(文本)组合而成。Omni 把这些能力合并到同一架构。
此前
Veo 3.1
视频生成 + 同步音频
Nano Banana / Imagen
图像生成与编辑
Gemini 2.5 / 3.x
文本推理 · 长上下文
现在 · Omni
Gemini Omni
文本 · 图像 · 视频 · 音频,单模型单提示
统一模型 + 长上下文 + 同步音频,意味着团队可以用一段连贯的描述完成从故事板到成片的全部步骤。
英雄镜头、包装揭示与生活方式画面,带节奏对齐的环境音直接交付。
9:16 竖屏剪辑,配合 on-mic 对白与卡点音乐,适合滚动停留型社交内容。
上传参考音轨,Omni 自动让画面卡在节拍上,并在多个镜头里保持角色一致。
把多段 10 秒 omni-clip 拼成多镜头序列,灯光、人物与音床保持连续。
SaaS / 时尚 / DTC 网站的可循环 16:9 氛围素材,自带品牌色与静音可读性。
把脚本转成带唇形对齐的解说视频,配合同步的环境音设计。
数据综合自 Artificial Analysis 榜单、Looksy AI、Oimi AI 与官方发布会信息,仅作横向参考。
| 模型 | 厂商 | 架构形态 | 原生音频 | 单段时长 |
|---|---|---|---|---|
| Gemini Omni
Omni
| 统一 Omni(视频 + 图像 + 音频) | 同遍合成同步 | 5 / 8 / 10s | |
| Veo 3.1 | 专用视频模型 | 原生支持 | 约 8s | |
| Seedance 2.0 | ByteDance | 专用多模态视频 | 原生支持 | 可达 15s / 镜头 |
| Sora 2 | OpenAI | 专用视频模型 | 原生支持 | 约 20s |
| Kling V3.0 | Kuaishou | 专用视频模型 | 有限 | 约 10s |
Gemini Omni Flash 在 Google Flow 免费层、YouTube Shorts 与 YouTube Create 应用里完全免费;独立的 Gemini App 则需要 Google AI Plus / Pro / Ultra 订阅。下方是可直接打开的官方入口。
Google 的 AI 影像创作工作室。免费层已包含 Gemini Omni Flash(有用量上限);升级 Plus / Pro / Ultra 可获得更高额度与专业工具。
前往在 Shorts 中直接生成 Gemini Omni Flash 短视频,零成本,最便宜的官方免费体验路径。
前往面向移动端的视频创作 App,内置 Gemini Omni Flash,无需 AI 订阅。
前往在官方 Gemini App 中使用 Omni,需要 Google AI Plus、Pro 或 Ultra 订阅。
前往最快的免费方式:登录 YouTube Shorts 或 YouTube Create App,选模板后用与 Gemini App 同样的镜头化提示词进行生成。
各地区与账户的免费配额与价格会变化,请以上方官方入口的实时信息为准。
按公开报道时间排序,已根据 2026 · 05 · 19 正式发布同步更新——已上线与待上线的能力分别标注。
X 用户 @Thomas16937378 在 Gemini 视频生成面板内发现 UI 字符串 "Start with an idea or try a template. Powered by Omni."
TestingCatalog 与 Chetaslua 等账号曝出移动端介绍卡 "Meet our new video model",以及完整模型 ID 与 10 秒时长限制。
"教授黑板推导三角函数"等示例验证文字一致性与物理动作的高保真度,社区开始密集对比 Veo 3.1。
Gemini Omni Flash 全球上线 Gemini App、Google Flow、YouTube Shorts Remix 与 YouTube Create —— 单段 10 秒,付费侧 AI Plus 起 $7.99/月,YouTube 端免费。
正式版同步上线 AI Avatar 数字分身、跨镜头角色身份一致性、物理感知渲染与多轮对话式编辑,每段生成视频均带不可见的 SynthID 数字水印。
截至 2026 年 6 月中旬,开发者 API 仍未上线。Google 维持"未来几周内"通过 Gemini API 与 Vertex AI 开放的说法,暂无官方定价 —— 关注 Gemini API changelog 获取开放时间。
Google 已宣布将推出能力更强的 Gemini Omni Pro,但无发布日期("当它相较 Flash 出现质变时");并将在当前视频优先的基础上补齐图像与音频输出,真正兑现"任意输入 → 任意输出"的承诺。
它是谷歌即将发布的统一多模态模型,原生在同一架构内生成文本、图像、视频和同步音频,是 Veo / Imagen / Gemini 三条产品线的合并者。
部分免费。Gemini Omni Flash 在 Google Flow 免费层、YouTube Shorts 与 YouTube Create App 中完全免费。要在独立的 Gemini App 中使用 Omni,则需要 Google AI Plus、Pro 或 Ultra 付费订阅。
Google AI Plus 起价约 7.99 美元/月,AI Pro 是创作者最常用的档位,AI Ultra 约 100 美元/月。AI Pro 上两次 Omni Flash 生成会消耗约 86% 的当日配额,重试需要做预算管理;开发者 API 将公布单独定价。
2026 年 5 月 19 日,Google 在 I/O 2026 主舞台正式发布 Gemini Omni,官方产品页与 demo 视频同步上线,并开始在 Gemini App 中接替 Veo 3.1。
Gemini Omni 是 Veo 在 Gemini App 中的继任者。Google 官方明确表示 Omni 将在 Gemini App 中取代 Veo,同时把视频能力与 Gemini 的文本、图像合并到同一架构里。
可以。环境声、配乐与对白在视频生成同一遍里被合成出来,不需要额外混音,这也是 "omni" 命名的关键依据。
官方产品页明确单段最长 10 秒,并支持原生音频、最多 5 张照片参考与多轮对话式编辑。
官方说明需要 Google AI Plus / Pro / Ultra 订阅、年满 18 岁,按地区与套餐档位提供不同功能(Avatar 与 video-to-video 编辑在部分地区可能受限)。
AI Avatar 是一个可选的"数字版你":录入后即可生成看起来与听起来都像你的视频,无需每次重新上传照片,且只有你本人可以使用自己的 avatar。
本页内容综合自以下公开来源,建议交叉阅读以获得完整背景。
官方发布博文:Omni Flash 上线细节、能力清单、可用入口与放量节奏。
I/O 2026 全量回顾,覆盖 Gemini Omni、全新 $100 AI Ultra 档位以及周边发布。
官方发布页,包含 demo 视频、能力说明、可用地区与订阅档位等一手信息。
独立分析视角:Omni 如何把 Veo + Imagen 整合进同一个模型,现在已发布与即将发布的边界。
泄露细节、UI 字符串与早期 demo 解读。
完整模型 ID、应用内提示与社区反应汇总。
规格、应用场景与竞品对比的整理版。
Gemini 家族的多模态能力、长上下文与代理化方向。