Gemini Omni
泄露中 · Google I/O 2026

Gemini Omni
一个模型,统揽文本、图像、视频与音频

据 2026 年 5 月初的多家泄露报道,Gemini Omni 是谷歌即将在 I/O 2026 揭幕的统一多模态模型:原生生成文本、图像、视频,并在同一架构内合成同步音频。

统一模型 同步音频 对话内编辑
Omni
Text
Image
Video
Audio

关键参数一览

5–10s 单段时长
1080p 最高分辨率
16:9 · 9:16 · 1:1 宽高比
I/O 2026 预期发布
核心能力

把整个创作链路收进同一个模型

相比 Veo / Sora 2 / Seedance 2.0 / Kling 等专用视频模型,Gemini Omni 把语言理解、图像生成、视频生成与音频合成放进同一架构。

原生多模态生成

同一段提示词同时生成文字描述、关键帧图像与视频,角色、风格与光线在不同模态间保持一致。

统一 Gemini 架构

不再依赖把多个专用模型拼接的方案,文本、图像、视频与音频共享同一组权重与上下文窗口。

同步原生音频

环境声、配乐与对白在生成视频的同一遍前向计算里完成对齐,脚步落点、唇形和节拍开箱即合。

对话内直接编辑

无需重新生成整段视频,可以用自然语言替换物体、修改光线、调整镜头,沿用 Nano Banana 的编辑思路。

视频混剪与遥控

上传现有片段后用提示词重新调度,参考图、参考视频、参考音频可在一条指令里组合驱动。

模板与流派库

内建产品广告、Reels、音乐 MV、电影感短片等模板,降低首次使用门槛并保证镜头语言。

规格参数

官方未公布前可以追踪到的细节

以下数据综合自 Reddit、X 上的泄露截图与 TestingCatalog、Programming Insider、OfficeChai 等媒体报道。

维度 已知信息
所属家族 Google Gemini(被视为 Veo 系列的继任品牌)
模型 ID bard_eac_video_generation_omni / v3smm-lora-prod
单段时长 5 / 8 / 10 秒,可在客户端中拼接
分辨率 480p / 720p / 1080p
宽高比 16:9、9:16、1:1
音频 原生合成,与画面单遍同步
输入模态 文本 / 图像 / 视频 / 音频参考
访问方式 Gemini App 灰度,预计 I/O 后开放 API
配额示例 据泄露报告,AI Pro 两次生成约消耗 86% 当日配额
架构演进

从三条产品线到一个 Omni

过去谷歌的生成式栈由专门的 Veo(视频)、Nano Banana / Imagen(图像)和 Gemini(文本)组合而成。Omni 把这些能力合并到同一架构。

此前

Veo 3.1

视频生成 + 同步音频

Nano Banana / Imagen

图像生成与编辑

Gemini 2.5 / 3.x

文本推理 · 长上下文

现在 · Omni

Gemini Omni

文本 · 图像 · 视频 · 音频,单模型单提示

Text Image Video Audio
应用场景

从一句 Brief 到可发布的内容

统一模型 + 长上下文 + 同步音频,意味着团队可以用一段连贯的描述完成从故事板到成片的全部步骤。

01

产品广告

英雄镜头、包装揭示与生活方式画面,带节奏对齐的环境音直接交付。

02

Reels & Shorts

9:16 竖屏剪辑,配合 on-mic 对白与卡点音乐,适合滚动停留型社交内容。

03

音乐 MV

上传参考音轨,Omni 自动让画面卡在节拍上,并在多个镜头里保持角色一致。

04

电影感短片

把多段 10 秒 omni-clip 拼成多镜头序列,灯光、人物与音床保持连续。

05

落地页 Hero 视频

SaaS / 时尚 / DTC 网站的可循环 16:9 氛围素材,自带品牌色与静音可读性。

06

教学与解释

把脚本转成带唇形对齐的解说视频,配合同步的环境音设计。

竞品对比

与 2026 年视频生成赛道的关键玩家

数据综合自 Artificial Analysis 榜单、Looksy AI、Oimi AI 与官方发布会信息,仅作横向参考。

模型 厂商 架构形态 原生音频 单段时长
Gemini Omni Omni
Google 统一 Omni(视频 + 图像 + 音频) 同遍合成同步 5 / 8 / 10s
Veo 3.1
Google 专用视频模型 原生支持 约 8s
Seedance 2.0
ByteDance 专用多模态视频 原生支持 可达 15s / 镜头
Sora 2
OpenAI 专用视频模型 原生支持 约 20s
Kling V3.0
Kuaishou 专用视频模型 有限 约 10s
时间线

从泄露到 I/O 2026 主舞台

关键节点按公开报道时间排序,仍在动态更新。

  1. 2026 · 05 · 02

    首次发现 "Powered by Omni"

    X 用户 @Thomas16937378 在 Gemini 视频生成面板内发现 UI 字符串 "Start with an idea or try a template. Powered by Omni."

  2. 2026 · 05 · 11

    Gemini App 内出现完整介绍卡

    TestingCatalog 与 Chetaslua 等账号曝出移动端介绍卡 "Meet our new video model",以及完整模型 ID 与 10 秒时长限制。

  3. 2026 · 05 · 12 – 18

    泄露 demo 持续扩散

    "教授黑板推导三角函数"等示例验证文字一致性与物理动作的高保真度,社区开始密集对比 Veo 3.1。

  4. 2026 · 05 · 19 – 20

    Google I/O 2026 预期官宣

    主舞台时段被普遍预期会正式公布 Gemini Omni,可能伴随 Flash / Pro 分级、新的 API 与订阅档位调整。

常见问题

关于 Gemini Omni 你最常被问到的问题

Gemini Omni 到底是什么?

它是谷歌即将发布的统一多模态模型,原生在同一架构内生成文本、图像、视频和同步音频,是 Veo / Imagen / Gemini 三条产品线的合并者。

什么时候正式发布?

截至 2026 年 5 月中旬,Omni 仍是泄露阶段,官方预期在 Google I/O 2026(5 月 19–20 日)主舞台揭幕。

它和 Veo 3.1 是什么关系?

元数据显示 Omni 在工程上继承自 Veo 体系,但产品上不再使用 Veo 品牌,而是把视频能力与 Gemini 的文本、图像合并。

它能直接生成声音吗?

可以。环境声、配乐与对白在视频生成同一遍里被合成出来,不需要额外混音。这也是"omni"命名的关键依据。

当前的视频时长限制是多少?

泄露的模型 ID 显示单段限制为 5、8 或 10 秒,客户端层面会支持多段拼接。

价格和配额会怎么定?

尚未公布。Reddit 用户截图显示两次 Omni 生成会消耗约 86% 的 AI Pro 每日配额,推测高画质档可能进入 Ultra / Pro Plus 这类更高订阅。