เอาต์พุตมัลติโมดอลในตัว
พรอมต์เดียวสร้างข้อความ คีย์เฟรม และวิดีโอที่กลมกลืน โดยตัวละคร สไตล์ และแสงคงเส้นคงวาข้ามฟอร์แมต
เปิดตัวบนเวทีหลัก Google I/O 2026 โดย Gemini Omni หลอมรวมความเข้าใจโลกของ Gemini เข้ากับการสร้างเนื้อหาแบบมัลติโมดอลในตัว — ข้อความ ภาพ วิดีโอ และเสียงที่ซิงค์กันในสถาปัตยกรรมเดียว ปัจจุบันแทนที่ Veo 3.1 ภายในแอป Gemini พร้อม image-to-video การแก้ไขแบบ video-to-video และอวาตาร์ AI ส่วนตัว
ทุกคลิปด้านล่างฝังตรงจากหน้าผลิตภัณฑ์ Gemini Omni อย่างเป็นทางการของ Google: text-to-video, image-to-video, การถ่ายทอดสไตล์, การแก้ไขผ่านแชต, video-to-video และ AI avatar — พื้นผิวความสามารถทั้งหมด
วิดีโอเดโมทั้งหมด © Google นำมาใช้ที่นี่เพื่อการรวบรวมข้อมูล สตรีมตรงจาก storage.googleapis.com/gweb-gemini-cdn
รีลฮีโร่หลักของ Gemini Omni: สร้าง รีมิกซ์ และแก้ไขวิดีโอผ่านการสนทนา
พรอมต์ข้อความเดียวสร้างคลิปหลายช็อตด้วยสภาพแวดล้อมและภาษากล้องที่สอดคล้อง
อัปโหลดภาพอ้างอิงแล้ว Omni ขับเคลื่อนการเคลื่อนไหวและเติมไทม์ไลน์อัตโนมัติ
สลับฉาก เปลี่ยนชุด หรือถ่ายทอดสไตล์ — ตัวแบบยังรักษารายละเอียดเอาไว้
หล่อหลอมฟุตเทจเดิมในสไตล์ใหม่ — แสง เลนส์ หรือแม้แต่วัสดุเขียนใหม่ด้วยพรอมต์
หล่อใหม่ตัวละคร ปรับแสง รักษาช็อตให้นิ่ง — ทำได้หมดด้วยการแชต ไม่ต้องสร้างใหม่
ตั้งค่า AI avatar ครั้งเดียว แล้วร่วมแสดงในวิดีโออนาคตทุกครั้งโดยไม่ต้องอัปโหลดรูปใหม่
ไม่เหมือนกับโมเดลวิดีโอเฉพาะทางอย่าง Veo, Sora 2, Seedance 2.0 หรือ Kling, Gemini Omni เก็บการให้เหตุผลทางภาษา การสร้างภาพ การสร้างวิดีโอ และการสังเคราะห์เสียงไว้ในสถาปัตยกรรมเดียว
พรอมต์เดียวสร้างข้อความ คีย์เฟรม และวิดีโอที่กลมกลืน โดยตัวละคร สไตล์ และแสงคงเส้นคงวาข้ามฟอร์แมต
ไม่ต้องต่อโมเดลเฉพาะทางหลายตัวอีกต่อไป ข้อความ ภาพ วิดีโอ และเสียงใช้น้ำหนักเดียวและบริบทยาวเดียวกัน
เสียงบรรยากาศ ดนตรี และบทพูดถูกจัดให้ตรงกับภาพในฟอร์เวิร์ดพาสเดียวกัน — เสียงฝีเท้าลงจังหวะ ริมฝีปากตรงคำพูดตั้งแต่เอ็กซ์พอร์ตครั้งแรก
สลับวัตถุ เปลี่ยนแสง หรือปรับการเคลื่อนกล้องด้วยภาษาธรรมชาติ — ไม่ต้องสร้างใหม่ทั้งหมด เดินตามรอย Nano Banana
อัปโหลดคลิปที่มีอยู่และเปลี่ยนทิศทางด้วยพรอมต์ ภาพ วิดีโอ และเสียงอ้างอิงผสานได้ในคำสั่งเดียว
เทมเพลตในตัวสำหรับโฆษณาสินค้า Reels มิวสิกวิดีโอ และหนังสั้นเชิงภาพยนตร์ ลดเพดานสำหรับผู้ใช้ใหม่ขณะรักษาภาษาภาพให้สอดคล้อง
ตัวเลขด้านล่างรวบรวมจากการรั่วของ Reddit/X และรายงานจาก TestingCatalog, Programming Insider และ OfficeChai
| หัวข้อ | สัญญาณที่ทราบ |
|---|---|
| ตระกูลโมเดล | Google Gemini — การสืบทอดแบรนด์สาย Veo |
| Model ID | bard_eac_video_generation_omni / v3smm-lora-prod |
| ความยาวคลิป | 5 / 8 / 10 วินาทีต่อการสร้าง ต่อรวมได้ในแอป |
| ความละเอียด | 480p / 720p / 1080p |
| อัตราส่วน | 16:9, 9:16, 1:1 |
| เสียง | สังเคราะห์ในตัว ซิงค์ในพาสเดียว |
| อินพุต | อ้างอิงข้อความ / ภาพ / วิดีโอ / เสียง |
| การเข้าถึง | ใช้งานในแอป Gemini สำหรับสมาชิก Google AI Plus / Pro / Ultra อายุ 18 ปีขึ้นไป |
| สัญญาณโควต้า | รายงานระบุว่าการสร้าง Omni สองครั้งกินโควต้ารายวันของ AI Pro ราว 86% |
สแต็กเชิงสร้างของ Google เคยแยกเป็น Veo สำหรับวิดีโอ, Nano Banana / Imagen สำหรับภาพ และ Gemini สำหรับข้อความ Omni ม้วนทั้งหมดเข้าสู่สถาปัตยกรรมเดียว
ก่อน
Veo 3.1
วิดีโอ + เสียงในตัว
Nano Banana / Imagen
สร้างและแก้ไขภาพ
Gemini 2.5 / 3.x
การให้เหตุผล · บริบทยาว
ตอนนี้ · Omni
Gemini Omni
ข้อความ · ภาพ · วิดีโอ · เสียง โมเดลเดียว พรอมต์เดียว
โมเดลรวมที่มีบริบทยาวและเสียงซิงค์หมายถึงทีมเขียนบรีฟเดียวอย่างกลมกลืนและกลับบ้านพร้อมคัตที่เสร็จสมบูรณ์
ฮีโร่ช็อต โชว์แพ็กเกจ และคัตไลฟ์สไตล์ส่งออกพร้อมเสียงบรรยากาศที่ล็อกแล้ว
คลิปแนวตั้ง 9:16 พร้อมบทพูดตรงไมค์และมูฟเมนต์ที่ซิงค์จังหวะ เพื่อหยุดนิ้วผู้ชมบนโซเชียล
อ้างอิงแทร็กแล้วให้ Omni ตัดภาพตามจังหวะ พร้อมรักษาตัวละครให้สอดคล้องตลอด
ต่อ omni-clip 10 วินาทีหลายตัวเป็นซีเควนซ์หลายช็อตด้วยแสงและชั้นเสียงต่อเนื่อง
คลิปบรรยากาศ 16:9 ลูปได้สำหรับเว็บ SaaS, แฟชั่น และ DTC — มีแบรนด์และเป็นมิตรเมื่อปิดเสียง
แปลงสคริปต์เป็นซีเควนซ์มีเสียงบรรยาย ลิปซิงค์และเสียงบรรยากาศที่เข้ากัน
รวบรวมจาก Artificial Analysis, Looksy AI, Oimi AI และคีย์โน้ตอย่างเป็นทางการ — เพื่อจัดบริบท ไม่ใช่คะแนนเบนช์มาร์ก
| โมเดล | ผู้สร้าง | สถาปัตยกรรม | เสียงในตัว | ความยาวคลิป |
|---|---|---|---|---|
| Gemini Omni
Omni
| Omni รวม (วิดีโอ + ภาพ + เสียง) | ซิงค์ในพาสเดียว | 5 / 8 / 10 วินาที | |
| Veo 3.1 | โมเดลวิดีโอเฉพาะทาง | ใช่ | ~8 วินาที | |
| Seedance 2.0 | ByteDance | โมเดลวิดีโอมัลติโมดอลเฉพาะทาง | ใช่ | สูงสุด 15 วินาที / ช็อต |
| Sora 2 | OpenAI | โมเดลวิดีโอเฉพาะทาง | ใช่ | ~20 วินาที |
| Kling V3.0 | Kuaishou | โมเดลวิดีโอเฉพาะทาง | จำกัด | ~10 วินาที |
เรียงตามวันที่รายงานสาธารณะ ยังคงเดินหน้าต่อ
ผู้ใช้ X @Thomas16937378 พบ "Start with an idea or try a template. Powered by Omni." ในแท็บวิดีโอของ Gemini
TestingCatalog และ Chetaslua เปิดเผยการ์ด "Meet our new video model" พร้อม Model ID เต็มและขีดจำกัดคลิป 10 วินาที
คลิป "อาจารย์แก้ตรีโกณบนกระดานดำ" โชว์ความเชื่อมโยงของข้อความและความสมจริงเชิงฟิสิกส์ จุดกระแสเทียบกับ Veo 3.1
Google เปิดตัว Gemini Omni บนเวทีหลัก I/O 2026 ส่งหน้าผลิตภัณฑ์อย่างเป็นทางการพร้อมวิดีโอเดโม และเริ่มแทนที่ Veo 3.1 ภายในแอป Gemini
เวอร์ชันเปิดตัวมาพร้อมอวาตาร์ AI ส่วนตัว การแก้ไข video-to-video และการแก้ไขแบบแชตหลายรอบ — ถูกจำกัดตามภูมิภาคและระดับสมัครสมาชิก
Google ยืนยันว่า API สำหรับนักพัฒนาและลูกค้าองค์กรจะ "มาในอีกไม่กี่สัปดาห์" โดยยังไม่กำหนดวันแน่นอน นักวิเคราะห์ประเมินราคาราว 0.10–0.30 ดอลลาร์ต่อวินาทีของวิดีโอที่สร้าง
ลำดับถัดไปคาดว่า Omni Pro ที่ทรงพลังกว่าจะเปิดตัว พร้อมอินพุตเสียงที่หลากหลายเกินจาก voice reference และช่องทางเอาต์พุตทั้งภาพและเสียง ทำให้คำสัญญา "อินพุตอะไรก็ได้ → เอาต์พุตอะไรก็ได้" สมบูรณ์
เป็นโมเดลมัลติโมดอลรวมของ Google ที่กำลังจะมา สร้างข้อความ ภาพ วิดีโอ และเสียงซิงค์ในตัวภายในสถาปัตยกรรมเดียว — แทบจะรวม Veo, Imagen และ Gemini เข้าด้วยกัน
ออกแล้ว Google ประกาศ Gemini Omni บนเวทีหลัก Google I/O 2026 วันที่ 19 พฤษภาคม 2026 พร้อมเผยแพร่หน้าผลิตภัณฑ์อย่างเป็นทางการและวิดีโอเดโม
Gemini Omni คือผู้สืบทอด Veo ในแอป Gemini — Google ระบุชัดว่า Omni "จะแทนที่ Veo ในแอป Gemini" สแต็กวิดีโอตอนนี้ถูกพับเข้ามาในสถาปัตยกรรมเดียวกับข้อความและภาพของ Gemini
ใช่ เสียงบรรยากาศ ดนตรี และบทพูดถูกผลิตในพาสเดียวกับวิดีโอ — เหตุผลทั้งหมดของชื่อ "omni"
หน้าผลิตภัณฑ์อย่างเป็นทางการระบุคลิปสูงสุด 10 วินาที พร้อมเสียงในตัว ภาพอ้างอิงสูงสุด 5 รูป และการแก้ไขหลายรอบ
Gemini Omni ต้องใช้แผน Google AI Plus, Pro หรือ Ultra และต้องอายุ 18 ปีขึ้นไป ฟีเจอร์บางอย่าง (อวาตาร์, video-to-video) อาจถูกจำกัดในบางประเทศ
เวอร์ชันดิจิทัลของคุณแบบเลือกใช้ ที่ให้ Gemini สร้างวิดีโอที่หน้าตาและเสียงเหมือนคุณ โดยไม่ต้องอัปโหลดรูปใหม่ทุกครั้ง — และมีเพียงคุณเท่านั้นที่ใช้อวาตาร์ของตัวเองได้
ทุกอย่างในหน้านี้รวบรวมจากแหล่งสาธารณะด้านล่าง แนะนำให้อ่านข้ามแหล่ง
ประกาศทางการที่อธิบายการเปิดตัว Omni Flash ความสามารถ ช่องทาง และแผนการ rollout
สรุปฉบับเต็มของ I/O 2026 ครอบคลุม Gemini Omni, แพ็กเกจ AI Ultra ราคา 100 ดอลลาร์ใหม่ และการเปิดตัวที่เกี่ยวข้อง
หน้าเปิดตัวอย่างเป็นทางการพร้อมวิดีโอเดโม ทัวร์ความสามารถ แผนที่รองรับ และรายละเอียดการทยอยปล่อย
สรุปจากนักวิเคราะห์อิสระว่า Omni หลอมสแตก Veo + Imagen เข้าเป็นโมเดลเดียวอย่างไร และอะไรพร้อมใช้ตอนนี้กับอะไรจะมาภายหลัง
รายละเอียดการรั่ว สตริง UI และการวิเคราะห์เดโมยุคแรก
Model ID เต็ม พรอมต์ในแอป และปฏิกิริยาของคอมมูนิตี้
สรุปสเปก กรณีใช้งาน และการเปรียบเทียบอย่างกระชับ
มัลติโมดอลระดับตระกูล บริบทยาว และทิศทางเชิงเอเจนต์