เผยแพร่เมื่อ 16 พฤษภาคม 2569 8 นาทีอ่าน

วิธีเขียนพรอมต์ให้ Gemini Omni ในปี 2026: คู่มือเชิงปฏิบัติของพรอมต์ AI วิดีโอมัลติโมดอล

กรอบพรอมต์ปี 2026 สำหรับโมเดล Gemini Omni ที่หลุดของ Google Persona, task, format, context — บวกกล้อง เสียง และทรัพยากรอ้างอิง — ทั้งหมดในบรีฟเดียว

Gemini Omniวิศวกรรมพรอมต์AI วิดีโอแนวทางปฏิบัติที่ดีที่สุด2026

ทำไมการพรอมต์ Omni ถึงต่าง

พรอมต์ AI วิดีโอส่วนใหญ่ที่เขียนในปี 2024–2025 ถูกออกแบบสำหรับ โมเดลวิดีโอเฉพาะทาง คอนเทกซ์สั้น คุณเขียนประโยคเดียว เลือกพรีเซ็ตสไตล์ กดสร้าง สำหรับ Gemini Omni — โมเดลมัลติโมดอลรวมที่หลุดของ Google — พรอมต์ทำงานเยอะกว่ามาก พรอมต์เดียวกันกำลังนำทางข้อความ ภาพ วิดีโอ และ เสียงซิงค์ในหน้าต่างคอนเทกซ์ยาว

นั่นเลื่อนพรอมต์จาก “อธิบายฉาก” สู่ “อธิบาย deliverable ทั้งหมด” คู่มือนี้เป็นกรอบการทำงานเพื่อใช้ Omni ให้คุ้มที่สุดเมื่อมันมาถึง พร้อมเทคนิคที่ยืมจากแนวทางพรอมต์ทางการของ Google และการ์ดพรีวิว Omni ที่หลุด

กรอบสี่ส่วน: Persona · Task · Format · Context

playbook พรอมต์ที่กว้างกว่าของ Google สำหรับตระกูล Gemini แนะนำสี่บล็อก:

Persona — ความเชี่ยวชาญที่คุณอยากให้โมเดลดึงออกมา (“ทำตัวเป็นนักถ่ายภาพยนตร์”, “ในฐานะนักออกแบบแบรนด์”, “ในฐานะบรรณาธิการสารคดี”)
Task — สิ่งที่คุณอยากผลิต (“ฮีโร่ช็อต 10 วินาทีของหูฟังใหม่”, “product reveal 9:16”)
Format — ข้อจำกัดเชิงโครงสร้าง (“16:9, 1080p, tracking shot ช้า, แสง golden-hour”)
Context — แบรนด์ ผู้ชม และเอกสารอ้างอิงที่โมเดลควรดึง

สำหรับ Omni สิ่งนี้แม็ปตรงสู่โครงสร้างบรีฟที่สะอาด:

คุณคือ [PERSONA].
สร้าง [TASK].
Format: [อัตราส่วนภาพ ระยะเวลา ความละเอียด ภาษากล้อง แสง].
Context: [น้ำเสียงแบรนด์ ผู้ชม การอ้างอิง สัญญาณเสียง].

ตัวอย่างจริง:

คุณคือนักถ่ายภาพยนตร์หรูในแบบ Wong Kar-wai. สร้างฮีโร่ช็อต 10 วินาทีของหูฟังไร้สายสีดำด้านที่วางบนแท่นคอนกรีตมีพื้นผิว. Format: 16:9, 1080p, tracking shot 35mm ช้าจากซ้ายกล้องไปขวากล้อง, back-light golden-hour อ่อน, depth of field ตื้น. Context: แบรนด์คือออดิโอพรีเมียมสแกนดิเนเวียมินิมัล. Audio: drone บรรยากาศต่ำพร้อมระฆังเบา ๆ ครั้งเดียวที่ 0:07 เมื่อกล้องผ่านเครื่องหมายแบรนด์. ภาพอ้างอิง: ดูภาพผลิตภัณฑ์ที่แนบเพื่อสีและลายเย็บที่แน่นอน.

สาม C: Concise, Clear, Consistent

คู่มืออ้างอิงพรอมต์ของ Google เน้นสามหลักการที่แปลสะอาดเป็น Omni:

Concise. ยาวไม่เท่ากับดี ตัดคำเติม คงเรื่องหลักเรื่องเดียวและการกระทำหลักหนึ่งต่อพรอมต์
Clear. หลีกเลี่ยงคำอธิบายคลุมเครือเช่น “ทำให้ดีขึ้น” หรือ “สินิแม็ตติกขึ้น” แทนด้วยคำสั่งเป็นรูปธรรม: “เพิ่ม depth of field”, “อุณหภูมิสีอุ่นขึ้น”, “การเคลื่อนกล้องช้าลงที่ 0.5x”
Consistent. ใช้คำศัพท์เดียวกันสำหรับคอนเซ็ปต์เดียวกันข้ามการทำซ้ำ หากคุณเรียกว่า “tracking shot” หนึ่งครั้ง อย่าเปลี่ยนเป็น “dolly move” ภายหลัง — โมเดลปฏิบัติต่อพวกนี้เป็นสัญญาณต่างกัน

พึ่งพาพรอมต์เป็นเลเยอร์ คอนเทกซ์ยาว

ต่างจากโมเดลวิดีโอคอนเทกซ์สั้น Omni สืบทอดหน้าต่างคอนเทกซ์ยาวของ Gemini หมายความว่าคุณสามารถ — และควร — เขียน พรอมต์เป็นเลเยอร์ บรรยายเชิงพรรณนา บรีฟผลิตภาพครอบคลุม:

Subject: ใครหรืออะไรในเฟรม รวมถึงการอ้างอิงล็อกอัตลักษณ์
Mood: ทะเบียนอารมณ์และจังหวะ
Camera: เลนส์ การเคลื่อนไหว การเปลี่ยน framing ในคลิป
Lighting: แหล่ง ทิศทาง อุณหภูมิสี ความตัดต่าง
Dialogue: ทุกบทพูด พร้อมเวลา lip-sync ถ้าเกี่ยวข้อง
Sound design: bed บรรยากาศ ประเภทเพลง สัญญาณเสียงสำคัญพร้อม timecode
Brand หรือ stylistic context: การอ้างอิงงานเดิมหรือภาษาภาพ

โดยพื้นฐานคุณกำลังเขียน treatment หนึ่งหน้า ไม่ใช่ประโยค คอนเทกซ์ยาวของ Omni ถูกสร้างเพื่อสิ่งนี้

ใช้ทรัพยากรอ้างอิงอย่างก้าวร้าว

รายการฟีเจอร์ Omni ที่หลุดเน้นอินพุตอ้างอิงอย่างชัดเจน: ภาพ คลิปวิดีโอ และเสียง สามารถรวมในคำสั่งเดียว การใช้ที่เป็นรูปธรรม:

Character lock: แนบภาพอ้างอิงตัวเอกเพื่อรักษาความสอดคล้องข้าม omni-clip หลายตัว
Style lock: แนบเฟรมจากงานที่มีเพื่อล็อก color grade และคอมโพสิชัน
Motion lock: แนบวิดีโออ้างอิงสั้นเพื่อเลียนแบบการเคลื่อนกล้องหรือการกระทำของตัวละคร
Beat lock: แนบแทร็กดนตรีและขอให้ Omni ตัดภาพให้ตรงบีต (มีประโยชน์มากสำหรับ Reels และมิวสิกวิดีโอ)

ทรัพยากรอ้างอิงพาสัญญาณต่อไบต์มากกว่าข้อความเพียงอย่างเดียว พรอมต์ 30 คำที่มีภาพอ้างอิงสามภาพมักจะดีกว่าพรอมต์ 300 คำที่ไม่มีอ้างอิง

แก้ไขในแชตแทนการสร้างใหม่

การเลื่อนเวิร์กโฟลว์เดี่ยวที่ใหญ่ที่สุดที่ Omni ลือว่าจะนำมาคือ การแก้ไขโดยตรงในแชต แทนที่จะสร้างคลิปทั้งหมดใหม่เมื่อมีหนึ่งองค์ประกอบผิด คุณสามารถขอ:

“สลับนาฬิกาที่ข้อมือของแบบเป็น chronograph เงินแปรง รักษา framing แสง และเสียงอื่น ๆ ทั้งหมดให้เหมือนเดิมทุกประการ.”

“ช้าการเคลื่อนกล้องลง 30% และทำให้อุณหภูมิสีอุ่นขึ้น 200 K.”

“ลบเสียงระฆังที่ 0:07 และเพิ่ม swell บรรยากาศนุ่ม ๆ ตั้งแต่ 0:08 ถึง 0:10 แทน.”

สิ่งนี้สะท้อนวิธีที่ Nano Banana นิยามใหม่ของประสบการณ์แก้ไขภาพในปี 2025 นัยสำคัญต่อศิลปะพรอมต์: พรอมต์แรกของคุณไม่ต้องสมบูรณ์อีกแล้ว สร้างฐานที่แข็งแล้วนำทาง รูปแบบนั้นก็ถูกกว่าในแง่การคำนวณกว่าการสร้างใหม่ตลอดเวลา

ห้ารูปแบบพรอมต์เฉพาะ Omni ที่ควรคัดลอก

ชุดเริ่มต้นของรูปแบบที่แม็ปดีกับจุดแข็งของโมเดล:

1. ฮีโร่สินค้า

สร้างฮีโร่ช็อต [ระยะเวลา] [อัตราส่วน] ของ [สินค้า], [แสง], [การเคลื่อนกล้อง]. Audio: [bed บรรยากาศ] กับ [เสียงประจำตัว] ที่ [timecode]. อ้างอิง: [แนบรูปสินค้า].

2. Reel / Short ที่มีบทพูด on-mic

9:16, [ระยะเวลา]. ตัวแบบกล่าวบรรทัด “[copy สั้น]” ตรงหน้ากล้องใน [ฉาก]. lip-sync แม่นยำ. ambient พื้นหลัง: [เสียงสภาพแวดล้อม]. จับคู่จังหวะกับ [ออดิโออ้างอิง].

3. คัตมิวสิกวิดีโอ

สร้าง [ระยะเวลา] ของ [ตัวแบบ] ที่ทำ [การกระทำ] ตามแทร็กดนตรีที่แนบ ตัดภาพตามบีต. รักษาความสอดคล้องของตัวละครข้ามคลิป. แสงตามเส้นโค้งพลังงานของแทร็ก.

4. บล็อกสร้างหนังสั้นเชิงภาพยนตร์

omni-clip 10 วินาที: [ตัวแบบ] [การกระทำ] ใน [สภาพแวดล้อม]. [setup แสง] ต่อเนื่อง. คง bed เสียงข้ามคัตเพื่อให้คลิปนี้ถูกต่อกับคลิปก่อน (แนบ).

5. การแก้ไขเชิงสนทนา

นำการสร้างก่อนหน้าและ [การเปลี่ยนแปลงเฉพาะ]. รักษา [รายการองค์ประกอบที่คงเดิม] ไม่เปลี่ยน. ยืนยันว่าการเปลี่ยนแปลงมีผลบน [เฟรมหรือ timecode เฉพาะ].

ที่ต้องทดสอบในวันแรก

เมื่อคุณได้สัมผัส Omni ในที่สุด สี่การทดสอบจะบอกคุณส่วนใหญ่ที่ต้องรู้:

การเรนเดอร์ข้อความบนหน้าจอ — งานเขียนบนกระดานดำหรือป้ายยังคงอ่านออกในคลิปทั้งหมดหรือไม่?
lip sync ในบทพูดที่กล่าว — โมเดลลงรูปร่างปากในการสร้างเดียวหรือไม่?
ความต่อเนื่องหลายคลิป — ต่อ omni-clip 10 วินาทีสองตัวและตรวจสอบว่าตัวละคร แสง และ bed เสียงคงอยู่จริง
ความซื่อสัตย์ของอ้างอิง — ภาพอ้างอิงล็อกอัตลักษณ์ตัวละคร หรือเพียงแนะนำ?

หาก Omni ทำสามในสี่ได้ ไลบรารีพรอมต์ของคุณก็มีค่ามากกว่าสแต็กเครื่องมือทันที วางแผนตามนั้น