เผยแพร่เมื่อ 13 พฤษภาคม 2569 9 นาทีอ่าน

Gemini Omni คืออะไร? คู่มือฉบับสมบูรณ์ปี 2026 ของโมเดล AI รวมที่กำลังจะมาของ Google

Gemini Omni คือโมเดลมัลติโมดอลรวมของ Google ที่ลือกันว่าสร้างข้อความ ภาพ วิดีโอ และเสียงซิงค์โดยตรง นี่คือทุกอย่างที่เรารู้ก่อนงาน Google I/O 2026

Gemini OmniGoogle AIมัลติโมดอลการสร้างวิดีโอGoogle I/O 20262026

หมวดผลิตภัณฑ์ใหม่ รั่วก่อนเปิดตัว

ตลอดปี 2024 และ 2025 สแต็กเชิงสร้างของ Google โดยพื้นฐานคือผลิตภัณฑ์สามตัวที่ติดกาวไว้ด้วยกัน: Veo สำหรับวิดีโอ, Imagen (ภายหลังเป็น Nano Banana) สำหรับภาพ และ Gemini สำหรับข้อความและการให้เหตุผล การแบ่งนั้นเป็นจุดแข็งเมื่อแต่ละโมเดลต้องการรอบฝึกอบรมเฉพาะ แต่ก็บังคับให้ครีเอเตอร์ต้องต่อเครื่องมือเข้าด้วยกันเองและทำให้เรื่องราวของ Google แตกกระจายเมื่อแข่งกับ Sora ของ OpenAI และ Seedance ของ ByteDance

ในต้นเดือนพฤษภาคม 2026 สตริง UI เพียงสตริงเดียวเปลี่ยนบทสนทนา ผู้ใช้ X รายหนึ่งพบบรรทัด “Start with an idea or try a template. Powered by Omni.” ในแท็บวิดีโอของ Gemini ภายในไม่กี่วัน TestingCatalog, Programming Insider และ OfficeChai ยืนยันการ์ดพรีวิวต่อเนื่องบน Gemini มือถือซึ่งมีข้อความว่า “Meet our new video model. Remix your videos, edit directly in chat, try a template, and more.” โมเดลนั้นถูกเรียกว่า Gemini Omni และตัวชื่อเองก็คือพิตช์ทั้งหมด

Gemini Omni คืออะไรกันแน่

Gemini Omni คือโมเดลมัลติโมดอลรวมของ Google ที่หลุดออกมา: สถาปัตยกรรมเดียวที่สร้าง ข้อความ ภาพ วิดีโอ และเสียงซิงค์ จากพรอมต์เดียว สามทฤษฎีเกี่ยวกับธรรมชาติแท้จริงของมันโผล่ในการรายงานข่าวเรื่องการรั่ว:

การรีแบรนด์ Veo Google อาจเพียงปลดเกษียณแบรนด์ Veo สำหรับผู้บริโภคแล้วใช้ “Omni” คล้ายกับที่การสร้างภาพถูกรวมไว้ใต้ Nano Banana
โมเดลวิดีโอใหม่แบบ Gemini-native เวอร์ชัน Gemini ที่ปรับจูนเฉพาะสำหรับวิดีโอ แทนที่ตระกูลโมเดล Veo ในขณะที่ยังอยู่ข้างเคียงตัวแปรข้อความและภาพ
โอมนิโมเดลตัวจริง ระบบที่ฝึกโดย Gemini ตัวเดียวที่ผลิตข้อความ ภาพ วิดีโอ และ เสียงโดยตรงในชุดน้ำหนักเดียวและหน้าต่างคอนเทกซ์ยาวเดียว

Model ID ที่รั่ว — bard_eac_video_generation_omni / v3smm-lora-prod — และการวางกรอบที่สอดคล้องในทุกการรั่วชี้ไปที่ประตู #3 นั่นจะทำให้ Gemini Omni เป็น โอมนิโมเดลระดับท็อปทีตัวแรกที่มีเอาต์พุตวิดีโอแบบเนทีฟ จากผู้ให้บริการ AI รายใหญ่ใด ๆ และเป็นก้าวที่มีความหมายเกินกว่าที่ Sora 2, Seedance 2.0 หรือ Kling V3.0 สามารถทำได้ในวันนี้

สัญญาณที่ดูจริง

จากรายงานในสามสัปดาห์ที่ผ่านมา ภาพรวมที่สอดคล้องโผล่ขึ้นมา:

ความยาวคลิป: 5 / 8 / 10 วินาทีต่อการสร้าง การเชื่อมต่อหลายคลิปจัดการที่ชั้นไคลเอนต์ภายในแอป Gemini
ความละเอียด: สูงสุด 1080p ในอัตรา 16:9, 9:16 และ 1:1
เสียงเนทีฟซิงค์ เสียงบรรยากาศ ดนตรี และบทพูดถูกจัดตรงกับภาพในฟอร์เวิร์ดพาสเดียวกัน
การแก้ไขในแชต สลับวัตถุ เปลี่ยนแสง หรือปรับการเคลื่อนกล้องด้วยภาษาธรรมชาติ — โดยไม่ต้องสร้างใหม่ทั้งหมด
รีมิกซ์และเทมเพลต อัปโหลดคลิปที่มีอยู่และเปลี่ยนทิศทางด้วยพรอมต์ พึ่งเทมเพลตที่สร้างไว้ล่วงหน้าสำหรับโฆษณา Reels มิวสิกวิดีโอ และหนังสั้นเชิงภาพยนตร์
สัญญาณราคา ภาพหน้าจอ Reddit แสดงให้เห็นว่าการสร้าง Omni สองครั้งกิน ~86% ของโควต้ารายวันของ AI Pro ซึ่งบ่งบอกว่าอาจมีระดับสูงกว่า (Ultra / Pro Plus) หรือคิดเงิน API ต่อการสร้าง

ดีโมที่หลุดและกระตุ้นความฮือฮาส่วนใหญ่ — รวมถึงคลิป “อาจารย์แก้ตรีโกณบนกระดานดำ” ที่อ่านลายมือออก — ชี้ไปที่ การยึดตามพรอมต์และความซื่อสัตย์ทางฟิสิกส์ที่แน่นกว่ามาก เมื่อเทียบกับที่ Veo 3.1 ส่งให้ในปัจจุบัน

Omni เข้ามาในสแต็กของ Google อย่างไร

โมเดลความคิดที่ตรงกับการรั่วที่สุดคือ:

ก่อน:    Gemini (ข้อความ)  +  Nano Banana / Imagen (ภาพ)  +  Veo 3.1 (วิดีโอ)
                ↓                       ↓                            ↓
                └────────────  ต่อด้วยมือ  ──────────────────────────┘

ตอนนี้: Gemini Omni
          ├── ข้อความ
          ├── ภาพ
          ├── วิดีโอ
          └── เสียง          (โมเดลเดียว · พรอมต์เดียว · หน้าต่างคอนเทกซ์เดียว)

สำหรับนักพัฒนา ผลกระทบสำคัญที่สุดคือ Veo 3.1 จะไม่หายไปในวันพรุ่งนี้ Veo 3.1 มีการเข้าถึง API ที่เป็นเอกสารใน Gemini API และ Vertex AI พร้อมฟีเจอร์เช่นการนำทางภาพอ้างอิง (สูงสุดสามอ้างอิง) การขยายฉากถึงหนึ่งนาที การเปลี่ยนเฟรมแรก-สุดท้าย และเสียงสนทนาเนทีฟ Omni สืบทอดวิศวกรรมนั้นและเพิ่มสถาปัตยกรรมรวมไว้ด้านบน จนกว่า Google จะเผยแพร่เอกสาร Omni อย่างเป็นทางการ Veo 3.1 ยังคงเป็นเส้นฐานที่มั่นคง สำหรับงานผลิต

ทำไมเรื่องนี้สำคัญต่อครีเอเตอร์

โอมนิโมเดลรวมยุบสิ่งที่เคยเป็นไปป์ไลน์หลายแอปเหลือบรีฟเดียว เป็นรูปธรรม:

ทีมผลิตภัณฑ์เขียนได้ คำบรรยายเดียว — หัวข้อ มู้ด การเคลื่อนกล้อง แสง บทพูด เสียงบรรยากาศ — และกลับไปพร้อมคัตที่เสร็จแล้ว แทนที่จะต้องเย็บผ่าน Midjourney, Veo และเครื่องมือเสียงแยก
ความสอดคล้องของตัวละครและสไตล์ดีขึ้นอย่างมาก เพราะโมเดลเดียวกันผลิตทุกโมดาลิตี
โครงสร้างต้นทุนอาจคาดเดาได้มากขึ้น: หนึ่งโมเดลเรียกเก็บเงิน หนึ่งชุดนโยบายความปลอดภัย หนึ่งอินเตอร์เฟซแก้ไข

สำหรับเอเจนซีและสตูดิโอเล็ก คำถามเชิงปฏิบัติไม่ใช่ “เครื่องมือไหนดีที่สุดสำหรับแต่ละโมดาลิตี” อีกต่อไป แต่เป็น “เราจะปรับโครงสร้างไปป์ไลน์รอบโมเดลมัลติโมดอลเดียวได้เร็วแค่ไหน?”

สิ่งที่ต้องจับตาในงาน Google I/O 2026

Google I/O 2026 จัดขึ้น 19–20 พฤษภาคม จากการรั่วก่อนคีย์โน้ต รายการช็อปปิ้งที่สมจริงสำหรับคีย์โน้ตประกอบด้วย:

การเปิดตัว Gemini Omni อย่างเป็นทางการ น่าจะมีดีโมสดและประกาศการแบ่งระดับ (Flash vs Pro)
การเปิด API ผ่าน Gemini API และ AI Studio อาจมีอินเตอร์เฟซแบบเอเจนต์คล้าย Deep Research
การเปิดตัว Gemini 3.5 หรือ 4.0 มุ่งเน้นที่ความเร็วและฟีเจอร์ความจำระยะยาวใหม่รหัส “Teamfood”
โมเดลเสียง Gemini Live ใหม่ (รหัสที่ลือ “Capybara” และ “Nitrogen”)
อัปเดต Veo 4 ที่อาจมา พร้อมการรวม YouTube ใช้เป็นเรื่องราววิดีโอด้านนักพัฒนาควบคู่กับ Omni ที่หันสู่ผู้บริโภค
การจัดโครงสร้างการสมัครสมาชิกใหม่ — ระดับ Advance / Pro / Ultra ที่ชัดเจนขึ้นเพื่อรองรับร่องรอยการคำนวณที่หนักกว่าของ Omni

หากแม้แค่ครึ่งหนึ่งเกิดขึ้น Gemini Omni จะเป็นการเปิดตัวโมเดล AI ที่มีผลกระทบที่สุดในกลางปี 2026 — และเป็นช่วงเวลาที่ Google ย้ายจากการรวมตัวของโมเดลเฉพาะทางสู่สแต็กมัลติโมดอลรวมเดียว

สรุป

Gemini Omni ยังไม่ประกาศอย่างเป็นทางการ แต่ร่องรอยของสตริง UI, model ID และการ์ดพรีวิวที่ใช้งานได้ชี้ไปที่การเปิดตัวภายในไม่กี่วัน หากเป็นโอมนิโมเดลตัวจริง หมวด AI วิดีโอจะเข้าสู่เฟสใหม่: การผลิตข้อความ ภาพ วิดีโอ และเสียงด้วยพรอมต์เดียว โมเดลเดียว หน้าต่างคอนเทกซ์เดียว สำหรับใครก็ตามที่ติดตาม Generative AI ในปี 2026 นี่คือการเปิดตัวที่ต้องจับตา