Gemini Omni
กลับไปดูทุกบทความ
9 นาทีอ่าน

Gemini Omni คืออะไร? คู่มือฉบับสมบูรณ์ปี 2026 ของโมเดล AI รวมที่กำลังจะมาของ Google

Gemini Omni คือโมเดลมัลติโมดอลรวมของ Google ที่ลือกันว่าสร้างข้อความ ภาพ วิดีโอ และเสียงซิงค์โดยตรง นี่คือทุกอย่างที่เรารู้ก่อนงาน Google I/O 2026

Gemini OmniGoogle AIมัลติโมดอลการสร้างวิดีโอGoogle I/O 20262026

หมวดผลิตภัณฑ์ใหม่ รั่วก่อนเปิดตัว

ตลอดปี 2024 และ 2025 สแต็กเชิงสร้างของ Google โดยพื้นฐานคือผลิตภัณฑ์สามตัวที่ติดกาวไว้ด้วยกัน: Veo สำหรับวิดีโอ, Imagen (ภายหลังเป็น Nano Banana) สำหรับภาพ และ Gemini สำหรับข้อความและการให้เหตุผล การแบ่งนั้นเป็นจุดแข็งเมื่อแต่ละโมเดลต้องการรอบฝึกอบรมเฉพาะ แต่ก็บังคับให้ครีเอเตอร์ต้องต่อเครื่องมือเข้าด้วยกันเองและทำให้เรื่องราวของ Google แตกกระจายเมื่อแข่งกับ Sora ของ OpenAI และ Seedance ของ ByteDance

ในต้นเดือนพฤษภาคม 2026 สตริง UI เพียงสตริงเดียวเปลี่ยนบทสนทนา ผู้ใช้ X รายหนึ่งพบบรรทัด “Start with an idea or try a template. Powered by Omni.” ในแท็บวิดีโอของ Gemini ภายในไม่กี่วัน TestingCatalog, Programming Insider และ OfficeChai ยืนยันการ์ดพรีวิวต่อเนื่องบน Gemini มือถือซึ่งมีข้อความว่า “Meet our new video model. Remix your videos, edit directly in chat, try a template, and more.” โมเดลนั้นถูกเรียกว่า Gemini Omni และตัวชื่อเองก็คือพิตช์ทั้งหมด

Gemini Omni คืออะไรกันแน่

Gemini Omni คือโมเดลมัลติโมดอลรวมของ Google ที่หลุดออกมา: สถาปัตยกรรมเดียวที่สร้าง ข้อความ ภาพ วิดีโอ และเสียงซิงค์ จากพรอมต์เดียว สามทฤษฎีเกี่ยวกับธรรมชาติแท้จริงของมันโผล่ในการรายงานข่าวเรื่องการรั่ว:

  1. การรีแบรนด์ Veo Google อาจเพียงปลดเกษียณแบรนด์ Veo สำหรับผู้บริโภคแล้วใช้ “Omni” คล้ายกับที่การสร้างภาพถูกรวมไว้ใต้ Nano Banana
  2. โมเดลวิดีโอใหม่แบบ Gemini-native เวอร์ชัน Gemini ที่ปรับจูนเฉพาะสำหรับวิดีโอ แทนที่ตระกูลโมเดล Veo ในขณะที่ยังอยู่ข้างเคียงตัวแปรข้อความและภาพ
  3. โอมนิโมเดลตัวจริง ระบบที่ฝึกโดย Gemini ตัวเดียวที่ผลิตข้อความ ภาพ วิดีโอ และ เสียงโดยตรงในชุดน้ำหนักเดียวและหน้าต่างคอนเทกซ์ยาวเดียว

Model ID ที่รั่ว — bard_eac_video_generation_omni / v3smm-lora-prod — และการวางกรอบที่สอดคล้องในทุกการรั่วชี้ไปที่ประตู #3 นั่นจะทำให้ Gemini Omni เป็น โอมนิโมเดลระดับท็อปทีตัวแรกที่มีเอาต์พุตวิดีโอแบบเนทีฟ จากผู้ให้บริการ AI รายใหญ่ใด ๆ และเป็นก้าวที่มีความหมายเกินกว่าที่ Sora 2, Seedance 2.0 หรือ Kling V3.0 สามารถทำได้ในวันนี้

สัญญาณที่ดูจริง

จากรายงานในสามสัปดาห์ที่ผ่านมา ภาพรวมที่สอดคล้องโผล่ขึ้นมา:

  • ความยาวคลิป: 5 / 8 / 10 วินาทีต่อการสร้าง การเชื่อมต่อหลายคลิปจัดการที่ชั้นไคลเอนต์ภายในแอป Gemini
  • ความละเอียด: สูงสุด 1080p ในอัตรา 16:9, 9:16 และ 1:1
  • เสียงเนทีฟซิงค์ เสียงบรรยากาศ ดนตรี และบทพูดถูกจัดตรงกับภาพในฟอร์เวิร์ดพาสเดียวกัน
  • การแก้ไขในแชต สลับวัตถุ เปลี่ยนแสง หรือปรับการเคลื่อนกล้องด้วยภาษาธรรมชาติ — โดยไม่ต้องสร้างใหม่ทั้งหมด
  • รีมิกซ์และเทมเพลต อัปโหลดคลิปที่มีอยู่และเปลี่ยนทิศทางด้วยพรอมต์ พึ่งเทมเพลตที่สร้างไว้ล่วงหน้าสำหรับโฆษณา Reels มิวสิกวิดีโอ และหนังสั้นเชิงภาพยนตร์
  • สัญญาณราคา ภาพหน้าจอ Reddit แสดงให้เห็นว่าการสร้าง Omni สองครั้งกิน ~86% ของโควต้ารายวันของ AI Pro ซึ่งบ่งบอกว่าอาจมีระดับสูงกว่า (Ultra / Pro Plus) หรือคิดเงิน API ต่อการสร้าง

ดีโมที่หลุดและกระตุ้นความฮือฮาส่วนใหญ่ — รวมถึงคลิป “อาจารย์แก้ตรีโกณบนกระดานดำ” ที่อ่านลายมือออก — ชี้ไปที่ การยึดตามพรอมต์และความซื่อสัตย์ทางฟิสิกส์ที่แน่นกว่ามาก เมื่อเทียบกับที่ Veo 3.1 ส่งให้ในปัจจุบัน

Omni เข้ามาในสแต็กของ Google อย่างไร

โมเดลความคิดที่ตรงกับการรั่วที่สุดคือ:

ก่อน:    Gemini (ข้อความ)  +  Nano Banana / Imagen (ภาพ)  +  Veo 3.1 (วิดีโอ)
                ↓                       ↓                            ↓
                └────────────  ต่อด้วยมือ  ──────────────────────────┘

ตอนนี้: Gemini Omni
          ├── ข้อความ
          ├── ภาพ
          ├── วิดีโอ
          └── เสียง          (โมเดลเดียว · พรอมต์เดียว · หน้าต่างคอนเทกซ์เดียว)

สำหรับนักพัฒนา ผลกระทบสำคัญที่สุดคือ Veo 3.1 จะไม่หายไปในวันพรุ่งนี้ Veo 3.1 มีการเข้าถึง API ที่เป็นเอกสารใน Gemini API และ Vertex AI พร้อมฟีเจอร์เช่นการนำทางภาพอ้างอิง (สูงสุดสามอ้างอิง) การขยายฉากถึงหนึ่งนาที การเปลี่ยนเฟรมแรก-สุดท้าย และเสียงสนทนาเนทีฟ Omni สืบทอดวิศวกรรมนั้นและเพิ่มสถาปัตยกรรมรวมไว้ด้านบน จนกว่า Google จะเผยแพร่เอกสาร Omni อย่างเป็นทางการ Veo 3.1 ยังคงเป็นเส้นฐานที่มั่นคง สำหรับงานผลิต

ทำไมเรื่องนี้สำคัญต่อครีเอเตอร์

โอมนิโมเดลรวมยุบสิ่งที่เคยเป็นไปป์ไลน์หลายแอปเหลือบรีฟเดียว เป็นรูปธรรม:

  • ทีมผลิตภัณฑ์เขียนได้ คำบรรยายเดียว — หัวข้อ มู้ด การเคลื่อนกล้อง แสง บทพูด เสียงบรรยากาศ — และกลับไปพร้อมคัตที่เสร็จแล้ว แทนที่จะต้องเย็บผ่าน Midjourney, Veo และเครื่องมือเสียงแยก
  • ความสอดคล้องของตัวละครและสไตล์ดีขึ้นอย่างมาก เพราะโมเดลเดียวกันผลิตทุกโมดาลิตี
  • โครงสร้างต้นทุนอาจคาดเดาได้มากขึ้น: หนึ่งโมเดลเรียกเก็บเงิน หนึ่งชุดนโยบายความปลอดภัย หนึ่งอินเตอร์เฟซแก้ไข

สำหรับเอเจนซีและสตูดิโอเล็ก คำถามเชิงปฏิบัติไม่ใช่ “เครื่องมือไหนดีที่สุดสำหรับแต่ละโมดาลิตี” อีกต่อไป แต่เป็น “เราจะปรับโครงสร้างไปป์ไลน์รอบโมเดลมัลติโมดอลเดียวได้เร็วแค่ไหน?”

สิ่งที่ต้องจับตาในงาน Google I/O 2026

Google I/O 2026 จัดขึ้น 19–20 พฤษภาคม จากการรั่วก่อนคีย์โน้ต รายการช็อปปิ้งที่สมจริงสำหรับคีย์โน้ตประกอบด้วย:

  • การเปิดตัว Gemini Omni อย่างเป็นทางการ น่าจะมีดีโมสดและประกาศการแบ่งระดับ (Flash vs Pro)
  • การเปิด API ผ่าน Gemini API และ AI Studio อาจมีอินเตอร์เฟซแบบเอเจนต์คล้าย Deep Research
  • การเปิดตัว Gemini 3.5 หรือ 4.0 มุ่งเน้นที่ความเร็วและฟีเจอร์ความจำระยะยาวใหม่รหัส “Teamfood”
  • โมเดลเสียง Gemini Live ใหม่ (รหัสที่ลือ “Capybara” และ “Nitrogen”)
  • อัปเดต Veo 4 ที่อาจมา พร้อมการรวม YouTube ใช้เป็นเรื่องราววิดีโอด้านนักพัฒนาควบคู่กับ Omni ที่หันสู่ผู้บริโภค
  • การจัดโครงสร้างการสมัครสมาชิกใหม่ — ระดับ Advance / Pro / Ultra ที่ชัดเจนขึ้นเพื่อรองรับร่องรอยการคำนวณที่หนักกว่าของ Omni

หากแม้แค่ครึ่งหนึ่งเกิดขึ้น Gemini Omni จะเป็นการเปิดตัวโมเดล AI ที่มีผลกระทบที่สุดในกลางปี 2026 — และเป็นช่วงเวลาที่ Google ย้ายจากการรวมตัวของโมเดลเฉพาะทางสู่สแต็กมัลติโมดอลรวมเดียว

สรุป

Gemini Omni ยังไม่ประกาศอย่างเป็นทางการ แต่ร่องรอยของสตริง UI, model ID และการ์ดพรีวิวที่ใช้งานได้ชี้ไปที่การเปิดตัวภายในไม่กี่วัน หากเป็นโอมนิโมเดลตัวจริง หมวด AI วิดีโอจะเข้าสู่เฟสใหม่: การผลิตข้อความ ภาพ วิดีโอ และเสียงด้วยพรอมต์เดียว โมเดลเดียว หน้าต่างคอนเทกซ์เดียว สำหรับใครก็ตามที่ติดตาม Generative AI ในปี 2026 นี่คือการเปิดตัวที่ต้องจับตา