Gemini Omni
Đang phát hành · Thay thế Veo trong ứng dụng Gemini

Gemini Omni
Nói. Nhìn. Chia sẻ.

Được công bố trên sân khấu chính Google I/O 2026, Gemini Omni hợp nhất khả năng hiểu thế giới của Gemini với sinh đa phương thức bản địa — văn bản, ảnh, video và âm thanh đồng bộ trong một kiến trúc. Hiện đã thay thế Veo 3.1 trong ứng dụng Gemini và đi kèm image-to-video, chỉnh sửa video-to-video và một avatar AI cá nhân.

Mô hình hợp nhất Âm thanh đồng bộ Chỉnh sửa trong chat
Omni
Text
Image
Video
Audio

Thống kê nhanh

5–10 giây Độ dài clip
1080p Đầu ra tối đa
16:9 · 9:16 · 1:1 Tỉ lệ khung hình
I/O 2026 Dự kiến công bố
Demo chính thức

Xem Gemini Omni thực sự xuất ra cái gì

Mỗi clip bên dưới được nhúng thẳng từ trang sản phẩm Gemini Omni chính thức của Google: text-to-video, image-to-video, chuyển phong cách, chỉnh sửa qua chat, video-to-video và AI avatar — toàn bộ bề mặt năng lực.

Mọi video demo © Google, được dùng ở đây để tổng hợp thông tin; phát trực tiếp từ storage.googleapis.com/gweb-gemini-cdn.

Nói. Nhìn. Chia sẻ.

Reel hero chính của Gemini Omni: tạo, remix và chỉnh sửa video qua hội thoại.

Xem trang chính thức
Văn bản → video

Bước vào câu chuyện

Một prompt văn bản tạo ra clip nhiều shot với không gian và ngôn ngữ máy quay thống nhất.

Ảnh → video

Thổi hồn cho ảnh

Tải ảnh tham chiếu lên và Omni dẫn dắt chuyển động, tự động lấp đầy dòng thời gian.

Phong cách · mẫu

Giữ linh hồn của shot

Đổi nền, đổi trang phục hoặc chuyển phong cách — chủ thể vẫn giữ nguyên chi tiết.

Video → video

Remix một clip có sẵn

Khoác cho footage có sẵn một phong cách mới — ánh sáng, ống kính hoặc cả chất liệu viết lại bằng prompt.

Chỉnh sửa qua chat

Chỉnh sửa dễ

Đổi vai, chỉnh ánh sáng, ổn định shot — tất cả bằng chat, không cần sinh lại.

AI avatar

Là ngôi sao của show riêng bạn

Cài đặt AI avatar một lần, rồi xuất hiện trong mọi video sau này mà không cần tải ảnh lại.

Năng lực

Toàn bộ pipeline gói gọn trong một mô hình

Không giống các mô hình video chuyên dụng như Veo, Sora 2, Seedance 2.0 hay Kling, Gemini Omni giữ suy luận ngôn ngữ, sinh ảnh, sinh video và tổng hợp âm thanh trong cùng một kiến trúc.

Đầu ra đa phương thức bản địa

Một prompt duy nhất sinh ra văn bản, keyframe và video khớp nhau, với nhân vật, phong cách và ánh sáng nhất quán giữa các định dạng.

Một stack Gemini hợp nhất

Không còn phải nối chuỗi nhiều mô hình chuyên dụng. Văn bản, ảnh, video và âm thanh dùng chung trọng số và cùng một ngữ cảnh dài.

Âm thanh bản địa đồng bộ

Tiếng nền, nhạc và lời thoại được căn theo hình ảnh trong cùng một forward pass — bước chân khớp nhịp, khẩu hình khớp lời ngay lần xuất đầu tiên.

Chỉnh sửa trực tiếp trong chat

Thay đối tượng, đổi ánh sáng hoặc chỉnh chuyển động máy quay bằng ngôn ngữ tự nhiên — không cần tạo lại toàn bộ, lặp lại playbook chỉnh sửa của Nano Banana.

Remix và điều hướng

Tải lên một clip có sẵn và định hướng lại bằng prompt. Ảnh, video và âm thanh tham chiếu có thể kết hợp trong cùng một chỉ dẫn.

Mẫu & phong cách

Mẫu sẵn có cho quảng cáo sản phẩm, Reels, video ca nhạc và phim ngắn điện ảnh hạ thấp ngưỡng cho người mới mà vẫn giữ ngôn ngữ máy quay nhất quán.

Thông số

Những gì có thể ghép lại trước keynote

Các con số bên dưới được tổng hợp từ rò rỉ trên Reddit/X và bài viết của TestingCatalog, Programming Insider và OfficeChai.

Hạng mục Tín hiệu đã biết
Họ mô hình Google Gemini — kế thừa thương hiệu dòng Veo
Model ID bard_eac_video_generation_omni / v3smm-lora-prod
Độ dài clip 5 / 8 / 10 giây mỗi lần sinh, có thể nối trong ứng dụng
Độ phân giải 480p / 720p / 1080p
Tỉ lệ khung hình 16:9, 9:16, 1:1
Âm thanh Tổng hợp bản địa, đồng bộ trong một pass
Đầu vào Tham chiếu văn bản / ảnh / video / âm thanh
Truy cập Hoạt động trong ứng dụng Gemini cho thuê bao Google AI Plus / Pro / Ultra trên 18 tuổi
Tín hiệu hạn mức Báo cáo nói hai lần sinh Omni tiêu khoảng 86% hạn mức ngày của AI Pro
Kiến trúc

Ba dòng sản phẩm gộp thành một Omni

Stack sinh của Google từng chia nhánh: Veo cho video, Nano Banana / Imagen cho ảnh và Gemini cho văn bản. Omni gói tất cả vào một kiến trúc.

Trước

Veo 3.1

Video + âm thanh bản địa

Nano Banana / Imagen

Sinh & chỉnh sửa ảnh

Gemini 2.5 / 3.x

Suy luận · ngữ cảnh dài

Bây giờ · Omni

Gemini Omni

Văn bản · ảnh · video · âm thanh, một mô hình, một prompt

Text Image Video Audio
Ca sử dụng

Từ một brief duy nhất đến nội dung có thể đăng

Mô hình hợp nhất với ngữ cảnh dài và âm thanh đồng bộ nghĩa là đội ngũ có thể viết một brief mạch lạc và mang về một bản cut hoàn chỉnh.

01

Quảng cáo sản phẩm

Hero shot, cảnh khoe bao bì và cut phong cách sống xuất xưởng cùng âm thanh nền đã chốt.

02

Reels & Shorts

Clip dọc 9:16 với thoại on-mic và chuyển động đồng bộ nhịp, dựng để chặn ngón tay người xem.

03

Music video

Tham chiếu một bản nhạc và Omni cắt hình theo nhịp, giữ nhân vật nhất quán xuyên suốt.

04

Phim ngắn điện ảnh

Ghép nhiều omni-clip 10 giây thành chuỗi nhiều shot với ánh sáng và lớp âm liên tục.

05

Hero loop landing page

Clip không khí 16:9 có thể loop cho site SaaS, fashion và DTC — có thương hiệu, thân thiện khi tắt tiếng.

06

Giải thích & hướng dẫn

Biến kịch bản thành chuỗi có dẫn truyện, lời thoại khớp khẩu hình và âm thanh nền tương ứng.

So sánh

Vị trí của Omni trong stack video 2026

Tổng hợp từ Artificial Analysis, Looksy AI, Oimi AI và các keynote chính thức — để định hướng, không phải điểm benchmark.

Mô hình Nhà phát triển Kiến trúc Âm thanh bản địa Độ dài clip
Gemini Omni Omni
Google Omni hợp nhất (video + ảnh + âm thanh) Đồng bộ trong một pass 5 / 8 / 10 giây
Veo 3.1
Google Mô hình video chuyên dụng ~8 giây
Seedance 2.0
ByteDance Mô hình video đa phương thức chuyên dụng tối đa 15 giây / shot
Sora 2
OpenAI Mô hình video chuyên dụng ~20 giây
Kling V3.0
Kuaishou Mô hình video chuyên dụng Hạn chế ~10 giây
Dòng thời gian

Từ rò rỉ đầu tiên đến sân khấu I/O 2026

Sắp xếp theo ngày được báo cáo công khai, vẫn đang tiếp diễn.

  1. 2026 · 05 · 02

    Chuỗi "Powered by Omni" đầu tiên

    Người dùng X @Thomas16937378 phát hiện "Start with an idea or try a template. Powered by Omni." trong tab video của Gemini.

  2. 2026 · 05 · 11

    Thẻ preview đầy đủ trong Gemini mobile

    TestingCatalog và Chetaslua đưa ra ánh sáng thẻ "Meet our new video model", model ID đầy đủ và giới hạn clip 10 giây.

  3. 2026 · 05 · 12 – 18

    Demo lưu truyền trong cộng đồng

    Clip "giáo sư giải lượng giác trên bảng đen" phô diễn độ mạch lạc văn bản và độ trung thực vật lý, kích nổ làn so sánh với Veo 3.1.

  4. 2026 · 05 · 19

    Ra mắt chính thức tại Google I/O 2026

    Google công bố Gemini Omni trên sân khấu chính I/O 2026, ra trang sản phẩm chính thức với video demo, và bắt đầu thay thế Veo 3.1 trong ứng dụng Gemini.

  5. 2026 · 05 · 19 trở đi

    Triển khai AI Avatar, video-to-video và chỉnh sửa nhiều lượt

    Bản phát hành đi kèm avatar AI cá nhân, chỉnh sửa video-to-video và chỉnh sửa kiểu chat nhiều lượt — bị giới hạn theo địa lý và gói thuê bao.

  6. Vài tuần tới · 2026 · 06+

    API cho developer & doanh nghiệp qua Gemini API và Vertex AI

    Google xác nhận quyền truy cập API cho developer và khách hàng doanh nghiệp sẽ đến "trong vài tuần tới" mà chưa có ngày cụ thể. Các nhà phân tích ước tính giá khoảng 0,10–0,30 USD mỗi giây video.

  7. Trên roadmap

    Gemini Omni Pro + đầu ra hình ảnh và âm thanh

    Tiếp theo dự kiến sẽ là Omni Pro mạnh hơn, cùng các đầu vào âm thanh phong phú hơn (ngoài voice reference) và các định dạng đầu ra hình ảnh, âm thanh — hoàn thiện lời hứa "bất kỳ đầu vào → bất kỳ đầu ra".

FAQ

Câu hỏi phổ biến nhất về Gemini Omni

Gemini Omni thực ra là gì?

Đó là mô hình đa phương thức hợp nhất sắp ra mắt của Google, sinh văn bản, ảnh, video và âm thanh đồng bộ bản địa trong một kiến trúc — về cơ bản là hợp nhất Veo, Imagen và Gemini.

Khi nào ra mắt?

Đã ra mắt rồi. Google công bố Gemini Omni trên sân khấu chính Google I/O 2026 ngày 19/5/2026, đồng thời xuất bản trang sản phẩm chính thức và video demo.

Quan hệ với Veo 3.1 thế nào?

Gemini Omni là người kế nhiệm của Veo trong ứng dụng Gemini — Google nói thẳng Omni "sẽ thay thế Veo trong ứng dụng Gemini". Stack video giờ gập vào cùng kiến trúc với văn bản và ảnh của Gemini.

Nó có thực sự sinh âm thanh không?

Có. Tiếng nền, nhạc và thoại được sản xuất trong cùng pass với video — đó là lý do cốt lõi cho cái tên "omni".

Giới hạn độ dài clip hiện tại là gì?

Trang sản phẩm chính thức ghi clip tối đa 10 giây, có âm thanh bản địa, tối đa 5 ảnh tham chiếu và chỉnh sửa nhiều lượt.

Giá tính thế nào?

Gemini Omni cần gói Google AI Plus, Pro hoặc Ultra và bạn phải từ 18+. Một số tính năng (avatar, video-to-video) có thể bị giới hạn ở một số quốc gia.

AI avatar của Gemini Omni là gì?

Một phiên bản số tùy chọn của chính bạn cho phép Gemini sinh video trông và nghe giống bạn, không cần tải ảnh lại mỗi lần — và chỉ bạn mới dùng được avatar của mình.

Nguồn

Báo cáo chính và liên kết công khai

Mọi thứ trên trang này tổng hợp từ các nguồn công khai bên dưới. Khuyến nghị đọc chéo.