如何写好 Gemini Omni 提示词:多模态视频 AI 的实战指南
为谷歌泄露的 Gemini Omni 模型量身定制的提示词框架。Persona / Task / Format / Context + 镜头、音频、参考素材,全部写在一份 brief 里。
为什么 Omni 的提示词写法不一样
2024–2025 年间写的大多数 AI 视频提示词,是为 专用、短上下文的视频模型 设计的。一句话、选个风格预设、点生成。到了 Gemini Omni —— 谷歌泄露中的统一多模态模型 —— 这条提示词要做的事情多得多。同一句 prompt 同时在长上下文里调度文本、图像、视频 和 同步音频。
这把提示词从 “描述场景” 升级到 “描述整份交付”。本文是一个面向落地的框架,等 Omni 真正可用后能直接上手,吸取了谷歌官方提示词指引与泄露的 Omni 介绍卡。
四段框架:Persona · Task · Format · Context
谷歌对 Gemini 家族的通用提示词建议有四个积木:
- Persona —— 你希望模型调用的专业身份(“作为一位摄影指导”、“作为品牌设计师”、“作为纪录片剪辑师”)。
- Task —— 你想产出的东西(“10 秒的新耳机 hero shot”、“9:16 产品揭示”)。
- Format —— 结构约束(“16:9, 1080p, 慢速跟镜头, 黄金时刻打光”)。
- Context —— 模型应当依据的品牌、受众与参考素材。
对应到 Omni,可以直接套这个 brief 结构:
你是 [PERSONA]。
生成 [TASK]。
Format:[宽高比、时长、分辨率、镜头语言、灯光]。
Context:[品牌调性、受众、参考素材、音频提示]。
一个真实例子:
你是一位风格接近王家卫的高端商业摄影指导。 生成一段 10 秒 hero shot:一副哑光黑无线耳机静置在带纹理的混凝土基座上。 Format:16:9, 1080p, 35mm 慢速跟镜头由左至右, 柔和的黄金时刻背光, 浅景深。 Context:品牌是北欧极简高端音响。音频:低频氛围底噪,0:07 镜头扫过 logo 时叠一声轻柔铃响。参考图:见附件产品照,请保持颜色与缝线一致。
三个 C:Concise / Clear / Consistent
谷歌的提示词参考指南强调三条原则,对 Omni 同样适用:
- 简洁(Concise)。 长不等于好。删除冗余词。每条提示一个主体、一个主要动作。
- 清晰(Clear)。 避免”让它更好”、“更电影感”这种含糊词。换成具体指令:“加大景深”、“色温调暖”、“运镜放慢到 0.5x 速度”。
- 一致(Consistent)。 同一个概念在不同迭代里用同一组词。如果你叫它 “跟镜头”,就别后面又改叫 “推轨” —— 模型会把它们当作不同信号。
充分利用长上下文,写分层提示词
不像短上下文视频模型,Omni 继承了 Gemini 的长上下文窗口。这意味着你可以 —— 也应当 —— 写 分层、有结构的描述。一份高产 brief 通常包含:
- 主体:画面里是谁/什么,包括锁定身份的参考素材。
- 情绪:情感基调与节奏。
- 镜头:镜头焦距、运动、画面内的取景变化。
- 灯光:光源、方向、色温、对比。
- 对白:如有,标注台词与唇形时间。
- 声音设计:氛围底噪、音乐风格、关键音效点位(时间码)。
- 品牌或风格上下文:现有作品或视觉语言的引用。
你其实是在写一份单页的拍摄方案,不是一句话。Omni 的长上下文就是为这件事准备的。
大胆使用参考素材
Omni 泄露的功能清单里明确写了参考输入:图像、视频片段、音轨 都可以在同一条指令里组合。具体用法:
- 角色锁:附上主角的参考图,让多个 omni-clip 之间人物保持一致。
- 风格锁:附上已有作品的某一帧,锁定色调与构图。
- 运动锁:附上一段参考视频模拟运镜或动作。
- 节拍锁:附上音乐请 Omni 把画面卡在节拍上(特别适合 Reels 与 MV)。
每字节的参考素材携带的信号远多于纯文本。30 个词 + 3 张参考图,几乎总会跑赢 300 个词的纯文本。
用对话内编辑代替重新生成
Omni 传闻引入的最大工作流变化是 对话内直接编辑。某个细节不对时,不必整段重生,而是直接问:
“把模特手腕上的表换成拉丝银计时码表。其他构图、灯光与音频保持不变。”
“运镜慢 30%,色温调暖 200K。”
“去掉 0:07 的铃声,在 0:08–0:10 之间加一段柔和的氛围渐起。”
这正是 2025 年 Nano Banana 重塑图像编辑体验的路径。对提示词写作的影响很关键:第一条提示不必完美。 先产出一个有力的基底,再用对话不断推进。从算力角度也比反复重生便宜。
五个面向 Omni 的提示词模板
可以直接拷贝使用的入门模板:
1. 产品 hero
生成 [时长] [宽高比] hero shot,[产品], [灯光], [运镜]。Audio:[氛围底噪] 在 [时间码] 处叠一声 [标志性音]。参考:[附产品图]。
2. 含 on-mic 对白的 Reels / Shorts
9:16, [时长]。主体在 [场景] 里直视镜头讲出 “[简短文案]“,唇形精确同步。背景环境声:[环境音]。节奏匹配 [参考音轨]。
3. 音乐 MV 卡点
根据附件音轨生成 [时长] 的 [主体] 表演 [动作]。画面卡在节拍上。多镜头中保持角色一致。灯光跟随音乐能量曲线。
4. 电影感短片基础块
10 秒 omni-clip:[主体] 在 [环境] 中 [动作]。连续 [灯光设置]。保留音床跨越剪辑点,以便与上一段(附件)拼接。
5. 对话式修改
基于上一次生成,[具体修改]。保留 [需要保留的元素] 不变。在 [指定帧或时间码] 上确认改动生效。
第一天该测哪四件事
真正上手 Omni 后,四个测试能告诉你大部分需要知道的:
- 画面内文字渲染 —— 黑板或招牌上的字在整段片段里能否保持清晰可读?
- 对白唇形同步 —— 一次生成内嘴型能不能落到对的位置?
- 多段连续性 —— 拼接两段 10 秒 omni-clip,检查人物、灯光、音床是否真的延续。
- 参考保真度 —— 参考图是锁角色身份,还是只给个暗示?
如果 Omni 在这四件事里命中三件,你的提示词库就会比你的工具栈更值钱。请按此规划。