วิธีเขียนพรอมต์ให้ Gemini Omni ในปี 2026: คู่มือเชิงปฏิบัติของพรอมต์ AI วิดีโอมัลติโมดอล
กรอบพรอมต์ปี 2026 สำหรับโมเดล Gemini Omni ที่หลุดของ Google Persona, task, format, context — บวกกล้อง เสียง และทรัพยากรอ้างอิง — ทั้งหมดในบรีฟเดียว
ทำไมการพรอมต์ Omni ถึงต่าง
พรอมต์ AI วิดีโอส่วนใหญ่ที่เขียนในปี 2024–2025 ถูกออกแบบสำหรับ โมเดลวิดีโอเฉพาะทาง คอนเทกซ์สั้น คุณเขียนประโยคเดียว เลือกพรีเซ็ตสไตล์ กดสร้าง สำหรับ Gemini Omni — โมเดลมัลติโมดอลรวมที่หลุดของ Google — พรอมต์ทำงานเยอะกว่ามาก พรอมต์เดียวกันกำลังนำทางข้อความ ภาพ วิดีโอ และ เสียงซิงค์ในหน้าต่างคอนเทกซ์ยาว
นั่นเลื่อนพรอมต์จาก “อธิบายฉาก” สู่ “อธิบาย deliverable ทั้งหมด” คู่มือนี้เป็นกรอบการทำงานเพื่อใช้ Omni ให้คุ้มที่สุดเมื่อมันมาถึง พร้อมเทคนิคที่ยืมจากแนวทางพรอมต์ทางการของ Google และการ์ดพรีวิว Omni ที่หลุด
กรอบสี่ส่วน: Persona · Task · Format · Context
playbook พรอมต์ที่กว้างกว่าของ Google สำหรับตระกูล Gemini แนะนำสี่บล็อก:
- Persona — ความเชี่ยวชาญที่คุณอยากให้โมเดลดึงออกมา (“ทำตัวเป็นนักถ่ายภาพยนตร์”, “ในฐานะนักออกแบบแบรนด์”, “ในฐานะบรรณาธิการสารคดี”)
- Task — สิ่งที่คุณอยากผลิต (“ฮีโร่ช็อต 10 วินาทีของหูฟังใหม่”, “product reveal 9:16”)
- Format — ข้อจำกัดเชิงโครงสร้าง (“16:9, 1080p, tracking shot ช้า, แสง golden-hour”)
- Context — แบรนด์ ผู้ชม และเอกสารอ้างอิงที่โมเดลควรดึง
สำหรับ Omni สิ่งนี้แม็ปตรงสู่โครงสร้างบรีฟที่สะอาด:
คุณคือ [PERSONA].
สร้าง [TASK].
Format: [อัตราส่วนภาพ ระยะเวลา ความละเอียด ภาษากล้อง แสง].
Context: [น้ำเสียงแบรนด์ ผู้ชม การอ้างอิง สัญญาณเสียง].
ตัวอย่างจริง:
คุณคือนักถ่ายภาพยนตร์หรูในแบบ Wong Kar-wai. สร้างฮีโร่ช็อต 10 วินาทีของหูฟังไร้สายสีดำด้านที่วางบนแท่นคอนกรีตมีพื้นผิว. Format: 16:9, 1080p, tracking shot 35mm ช้าจากซ้ายกล้องไปขวากล้อง, back-light golden-hour อ่อน, depth of field ตื้น. Context: แบรนด์คือออดิโอพรีเมียมสแกนดิเนเวียมินิมัล. Audio: drone บรรยากาศต่ำพร้อมระฆังเบา ๆ ครั้งเดียวที่ 0:07 เมื่อกล้องผ่านเครื่องหมายแบรนด์. ภาพอ้างอิง: ดูภาพผลิตภัณฑ์ที่แนบเพื่อสีและลายเย็บที่แน่นอน.
สาม C: Concise, Clear, Consistent
คู่มืออ้างอิงพรอมต์ของ Google เน้นสามหลักการที่แปลสะอาดเป็น Omni:
- Concise. ยาวไม่เท่ากับดี ตัดคำเติม คงเรื่องหลักเรื่องเดียวและการกระทำหลักหนึ่งต่อพรอมต์
- Clear. หลีกเลี่ยงคำอธิบายคลุมเครือเช่น “ทำให้ดีขึ้น” หรือ “สินิแม็ตติกขึ้น” แทนด้วยคำสั่งเป็นรูปธรรม: “เพิ่ม depth of field”, “อุณหภูมิสีอุ่นขึ้น”, “การเคลื่อนกล้องช้าลงที่ 0.5x”
- Consistent. ใช้คำศัพท์เดียวกันสำหรับคอนเซ็ปต์เดียวกันข้ามการทำซ้ำ หากคุณเรียกว่า “tracking shot” หนึ่งครั้ง อย่าเปลี่ยนเป็น “dolly move” ภายหลัง — โมเดลปฏิบัติต่อพวกนี้เป็นสัญญาณต่างกัน
พึ่งพาพรอมต์เป็นเลเยอร์ คอนเทกซ์ยาว
ต่างจากโมเดลวิดีโอคอนเทกซ์สั้น Omni สืบทอดหน้าต่างคอนเทกซ์ยาวของ Gemini หมายความว่าคุณสามารถ — และควร — เขียน พรอมต์เป็นเลเยอร์ บรรยายเชิงพรรณนา บรีฟผลิตภาพครอบคลุม:
- Subject: ใครหรืออะไรในเฟรม รวมถึงการอ้างอิงล็อกอัตลักษณ์
- Mood: ทะเบียนอารมณ์และจังหวะ
- Camera: เลนส์ การเคลื่อนไหว การเปลี่ยน framing ในคลิป
- Lighting: แหล่ง ทิศทาง อุณหภูมิสี ความตัดต่าง
- Dialogue: ทุกบทพูด พร้อมเวลา lip-sync ถ้าเกี่ยวข้อง
- Sound design: bed บรรยากาศ ประเภทเพลง สัญญาณเสียงสำคัญพร้อม timecode
- Brand หรือ stylistic context: การอ้างอิงงานเดิมหรือภาษาภาพ
โดยพื้นฐานคุณกำลังเขียน treatment หนึ่งหน้า ไม่ใช่ประโยค คอนเทกซ์ยาวของ Omni ถูกสร้างเพื่อสิ่งนี้
ใช้ทรัพยากรอ้างอิงอย่างก้าวร้าว
รายการฟีเจอร์ Omni ที่หลุดเน้นอินพุตอ้างอิงอย่างชัดเจน: ภาพ คลิปวิดีโอ และเสียง สามารถรวมในคำสั่งเดียว การใช้ที่เป็นรูปธรรม:
- Character lock: แนบภาพอ้างอิงตัวเอกเพื่อรักษาความสอดคล้องข้าม omni-clip หลายตัว
- Style lock: แนบเฟรมจากงานที่มีเพื่อล็อก color grade และคอมโพสิชัน
- Motion lock: แนบวิดีโออ้างอิงสั้นเพื่อเลียนแบบการเคลื่อนกล้องหรือการกระทำของตัวละคร
- Beat lock: แนบแทร็กดนตรีและขอให้ Omni ตัดภาพให้ตรงบีต (มีประโยชน์มากสำหรับ Reels และมิวสิกวิดีโอ)
ทรัพยากรอ้างอิงพาสัญญาณต่อไบต์มากกว่าข้อความเพียงอย่างเดียว พรอมต์ 30 คำที่มีภาพอ้างอิงสามภาพมักจะดีกว่าพรอมต์ 300 คำที่ไม่มีอ้างอิง
แก้ไขในแชตแทนการสร้างใหม่
การเลื่อนเวิร์กโฟลว์เดี่ยวที่ใหญ่ที่สุดที่ Omni ลือว่าจะนำมาคือ การแก้ไขโดยตรงในแชต แทนที่จะสร้างคลิปทั้งหมดใหม่เมื่อมีหนึ่งองค์ประกอบผิด คุณสามารถขอ:
“สลับนาฬิกาที่ข้อมือของแบบเป็น chronograph เงินแปรง รักษา framing แสง และเสียงอื่น ๆ ทั้งหมดให้เหมือนเดิมทุกประการ.”
“ช้าการเคลื่อนกล้องลง 30% และทำให้อุณหภูมิสีอุ่นขึ้น 200 K.”
“ลบเสียงระฆังที่ 0:07 และเพิ่ม swell บรรยากาศนุ่ม ๆ ตั้งแต่ 0:08 ถึง 0:10 แทน.”
สิ่งนี้สะท้อนวิธีที่ Nano Banana นิยามใหม่ของประสบการณ์แก้ไขภาพในปี 2025 นัยสำคัญต่อศิลปะพรอมต์: พรอมต์แรกของคุณไม่ต้องสมบูรณ์อีกแล้ว สร้างฐานที่แข็งแล้วนำทาง รูปแบบนั้นก็ถูกกว่าในแง่การคำนวณกว่าการสร้างใหม่ตลอดเวลา
ห้ารูปแบบพรอมต์เฉพาะ Omni ที่ควรคัดลอก
ชุดเริ่มต้นของรูปแบบที่แม็ปดีกับจุดแข็งของโมเดล:
1. ฮีโร่สินค้า
สร้างฮีโร่ช็อต [ระยะเวลา] [อัตราส่วน] ของ [สินค้า], [แสง], [การเคลื่อนกล้อง]. Audio: [bed บรรยากาศ] กับ [เสียงประจำตัว] ที่ [timecode]. อ้างอิง: [แนบรูปสินค้า].
2. Reel / Short ที่มีบทพูด on-mic
9:16, [ระยะเวลา]. ตัวแบบกล่าวบรรทัด “[copy สั้น]” ตรงหน้ากล้องใน [ฉาก]. lip-sync แม่นยำ. ambient พื้นหลัง: [เสียงสภาพแวดล้อม]. จับคู่จังหวะกับ [ออดิโออ้างอิง].
3. คัตมิวสิกวิดีโอ
สร้าง [ระยะเวลา] ของ [ตัวแบบ] ที่ทำ [การกระทำ] ตามแทร็กดนตรีที่แนบ ตัดภาพตามบีต. รักษาความสอดคล้องของตัวละครข้ามคลิป. แสงตามเส้นโค้งพลังงานของแทร็ก.
4. บล็อกสร้างหนังสั้นเชิงภาพยนตร์
omni-clip 10 วินาที: [ตัวแบบ] [การกระทำ] ใน [สภาพแวดล้อม]. [setup แสง] ต่อเนื่อง. คง bed เสียงข้ามคัตเพื่อให้คลิปนี้ถูกต่อกับคลิปก่อน (แนบ).
5. การแก้ไขเชิงสนทนา
นำการสร้างก่อนหน้าและ [การเปลี่ยนแปลงเฉพาะ]. รักษา [รายการองค์ประกอบที่คงเดิม] ไม่เปลี่ยน. ยืนยันว่าการเปลี่ยนแปลงมีผลบน [เฟรมหรือ timecode เฉพาะ].
ที่ต้องทดสอบในวันแรก
เมื่อคุณได้สัมผัส Omni ในที่สุด สี่การทดสอบจะบอกคุณส่วนใหญ่ที่ต้องรู้:
- การเรนเดอร์ข้อความบนหน้าจอ — งานเขียนบนกระดานดำหรือป้ายยังคงอ่านออกในคลิปทั้งหมดหรือไม่?
- lip sync ในบทพูดที่กล่าว — โมเดลลงรูปร่างปากในการสร้างเดียวหรือไม่?
- ความต่อเนื่องหลายคลิป — ต่อ omni-clip 10 วินาทีสองตัวและตรวจสอบว่าตัวละคร แสง และ bed เสียงคงอยู่จริง
- ความซื่อสัตย์ของอ้างอิง — ภาพอ้างอิงล็อกอัตลักษณ์ตัวละคร หรือเพียงแนะนำ?
หาก Omni ทำสามในสี่ได้ ไลบรารีพรอมต์ของคุณก็มีค่ามากกว่าสแต็กเครื่องมือทันที วางแผนตามนั้น