Gemini Omni
返回文章列表
8 分钟阅读

如何写好 Gemini Omni 提示词:多模态视频 AI 的实战指南

为谷歌泄露的 Gemini Omni 模型量身定制的提示词框架。Persona / Task / Format / Context + 镜头、音频、参考素材,全部写在一份 brief 里。

Gemini Omni提示词工程AI 视频最佳实践

为什么 Omni 的提示词写法不一样

2024–2025 年间写的大多数 AI 视频提示词,是为 专用、短上下文的视频模型 设计的。一句话、选个风格预设、点生成。到了 Gemini Omni —— 谷歌泄露中的统一多模态模型 —— 这条提示词要做的事情多得多。同一句 prompt 同时在长上下文里调度文本、图像、视频 同步音频。

这把提示词从 “描述场景” 升级到 “描述整份交付”。本文是一个面向落地的框架,等 Omni 真正可用后能直接上手,吸取了谷歌官方提示词指引与泄露的 Omni 介绍卡。

四段框架:Persona · Task · Format · Context

谷歌对 Gemini 家族的通用提示词建议有四个积木:

  1. Persona —— 你希望模型调用的专业身份(“作为一位摄影指导”、“作为品牌设计师”、“作为纪录片剪辑师”)。
  2. Task —— 你想产出的东西(“10 秒的新耳机 hero shot”、“9:16 产品揭示”)。
  3. Format —— 结构约束(“16:9, 1080p, 慢速跟镜头, 黄金时刻打光”)。
  4. Context —— 模型应当依据的品牌、受众与参考素材。

对应到 Omni,可以直接套这个 brief 结构:

你是 [PERSONA]。
生成 [TASK]。
Format:[宽高比、时长、分辨率、镜头语言、灯光]。
Context:[品牌调性、受众、参考素材、音频提示]。

一个真实例子:

你是一位风格接近王家卫的高端商业摄影指导。 生成一段 10 秒 hero shot:一副哑光黑无线耳机静置在带纹理的混凝土基座上。 Format:16:9, 1080p, 35mm 慢速跟镜头由左至右, 柔和的黄金时刻背光, 浅景深。 Context:品牌是北欧极简高端音响。音频:低频氛围底噪,0:07 镜头扫过 logo 时叠一声轻柔铃响。参考图:见附件产品照,请保持颜色与缝线一致。

三个 C:Concise / Clear / Consistent

谷歌的提示词参考指南强调三条原则,对 Omni 同样适用:

  • 简洁(Concise)。 长不等于好。删除冗余词。每条提示一个主体、一个主要动作。
  • 清晰(Clear)。 避免”让它更好”、“更电影感”这种含糊词。换成具体指令:“加大景深”、“色温调暖”、“运镜放慢到 0.5x 速度”。
  • 一致(Consistent)。 同一个概念在不同迭代里用同一组词。如果你叫它 “跟镜头”,就别后面又改叫 “推轨” —— 模型会把它们当作不同信号。

充分利用长上下文,写分层提示词

不像短上下文视频模型,Omni 继承了 Gemini 的长上下文窗口。这意味着你可以 —— 也应当 —— 写 分层、有结构的描述。一份高产 brief 通常包含:

  • 主体:画面里是谁/什么,包括锁定身份的参考素材。
  • 情绪:情感基调与节奏。
  • 镜头:镜头焦距、运动、画面内的取景变化。
  • 灯光:光源、方向、色温、对比。
  • 对白:如有,标注台词与唇形时间。
  • 声音设计:氛围底噪、音乐风格、关键音效点位(时间码)。
  • 品牌或风格上下文:现有作品或视觉语言的引用。

你其实是在写一份单页的拍摄方案,不是一句话。Omni 的长上下文就是为这件事准备的。

大胆使用参考素材

Omni 泄露的功能清单里明确写了参考输入:图像、视频片段、音轨 都可以在同一条指令里组合。具体用法:

  • 角色锁:附上主角的参考图,让多个 omni-clip 之间人物保持一致。
  • 风格锁:附上已有作品的某一帧,锁定色调与构图。
  • 运动锁:附上一段参考视频模拟运镜或动作。
  • 节拍锁:附上音乐请 Omni 把画面卡在节拍上(特别适合 Reels 与 MV)。

每字节的参考素材携带的信号远多于纯文本。30 个词 + 3 张参考图,几乎总会跑赢 300 个词的纯文本。

用对话内编辑代替重新生成

Omni 传闻引入的最大工作流变化是 对话内直接编辑。某个细节不对时,不必整段重生,而是直接问:

“把模特手腕上的表换成拉丝银计时码表。其他构图、灯光与音频保持不变。”

“运镜慢 30%,色温调暖 200K。”

“去掉 0:07 的铃声,在 0:08–0:10 之间加一段柔和的氛围渐起。”

这正是 2025 年 Nano Banana 重塑图像编辑体验的路径。对提示词写作的影响很关键:第一条提示不必完美。 先产出一个有力的基底,再用对话不断推进。从算力角度也比反复重生便宜。

五个面向 Omni 的提示词模板

可以直接拷贝使用的入门模板:

1. 产品 hero

生成 [时长] [宽高比] hero shot,[产品], [灯光], [运镜]。Audio:[氛围底噪] 在 [时间码] 处叠一声 [标志性音]。参考:[附产品图]。

2. 含 on-mic 对白的 Reels / Shorts

9:16, [时长]。主体在 [场景] 里直视镜头讲出 “[简短文案]“,唇形精确同步。背景环境声:[环境音]。节奏匹配 [参考音轨]。

3. 音乐 MV 卡点

根据附件音轨生成 [时长] 的 [主体] 表演 [动作]。画面卡在节拍上。多镜头中保持角色一致。灯光跟随音乐能量曲线。

4. 电影感短片基础块

10 秒 omni-clip:[主体] 在 [环境] 中 [动作]。连续 [灯光设置]。保留音床跨越剪辑点,以便与上一段(附件)拼接。

5. 对话式修改

基于上一次生成,[具体修改]。保留 [需要保留的元素] 不变。在 [指定帧或时间码] 上确认改动生效。

第一天该测哪四件事

真正上手 Omni 后,四个测试能告诉你大部分需要知道的:

  1. 画面内文字渲染 —— 黑板或招牌上的字在整段片段里能否保持清晰可读?
  2. 对白唇形同步 —— 一次生成内嘴型能不能落到对的位置?
  3. 多段连续性 —— 拼接两段 10 秒 omni-clip,检查人物、灯光、音床是否真的延续。
  4. 参考保真度 —— 参考图是锁角色身份,还是只给个暗示?

如果 Omni 在这四件事里命中三件,你的提示词库就会比你的工具栈更值钱。请按此规划。