Đầu ra đa phương thức bản địa
Một prompt duy nhất sinh ra văn bản, keyframe và video khớp nhau, với nhân vật, phong cách và ánh sáng nhất quán giữa các định dạng.
Được công bố trên sân khấu chính Google I/O 2026, Gemini Omni hợp nhất khả năng hiểu thế giới của Gemini với sinh đa phương thức bản địa — văn bản, ảnh, video và âm thanh đồng bộ trong một kiến trúc. Hiện đã thay thế Veo 3.1 trong ứng dụng Gemini và đi kèm image-to-video, chỉnh sửa video-to-video và một avatar AI cá nhân.
Mỗi clip bên dưới được nhúng thẳng từ trang sản phẩm Gemini Omni chính thức của Google: text-to-video, image-to-video, chuyển phong cách, chỉnh sửa qua chat, video-to-video và AI avatar — toàn bộ bề mặt năng lực.
Mọi video demo © Google, được dùng ở đây để tổng hợp thông tin; phát trực tiếp từ storage.googleapis.com/gweb-gemini-cdn.
Reel hero chính của Gemini Omni: tạo, remix và chỉnh sửa video qua hội thoại.
Một prompt văn bản tạo ra clip nhiều shot với không gian và ngôn ngữ máy quay thống nhất.
Tải ảnh tham chiếu lên và Omni dẫn dắt chuyển động, tự động lấp đầy dòng thời gian.
Đổi nền, đổi trang phục hoặc chuyển phong cách — chủ thể vẫn giữ nguyên chi tiết.
Khoác cho footage có sẵn một phong cách mới — ánh sáng, ống kính hoặc cả chất liệu viết lại bằng prompt.
Đổi vai, chỉnh ánh sáng, ổn định shot — tất cả bằng chat, không cần sinh lại.
Cài đặt AI avatar một lần, rồi xuất hiện trong mọi video sau này mà không cần tải ảnh lại.
Không giống các mô hình video chuyên dụng như Veo, Sora 2, Seedance 2.0 hay Kling, Gemini Omni giữ suy luận ngôn ngữ, sinh ảnh, sinh video và tổng hợp âm thanh trong cùng một kiến trúc.
Một prompt duy nhất sinh ra văn bản, keyframe và video khớp nhau, với nhân vật, phong cách và ánh sáng nhất quán giữa các định dạng.
Không còn phải nối chuỗi nhiều mô hình chuyên dụng. Văn bản, ảnh, video và âm thanh dùng chung trọng số và cùng một ngữ cảnh dài.
Tiếng nền, nhạc và lời thoại được căn theo hình ảnh trong cùng một forward pass — bước chân khớp nhịp, khẩu hình khớp lời ngay lần xuất đầu tiên.
Thay đối tượng, đổi ánh sáng hoặc chỉnh chuyển động máy quay bằng ngôn ngữ tự nhiên — không cần tạo lại toàn bộ, lặp lại playbook chỉnh sửa của Nano Banana.
Tải lên một clip có sẵn và định hướng lại bằng prompt. Ảnh, video và âm thanh tham chiếu có thể kết hợp trong cùng một chỉ dẫn.
Mẫu sẵn có cho quảng cáo sản phẩm, Reels, video ca nhạc và phim ngắn điện ảnh hạ thấp ngưỡng cho người mới mà vẫn giữ ngôn ngữ máy quay nhất quán.
Các con số bên dưới được tổng hợp từ rò rỉ trên Reddit/X và bài viết của TestingCatalog, Programming Insider và OfficeChai.
| Hạng mục | Tín hiệu đã biết |
|---|---|
| Họ mô hình | Google Gemini — kế thừa thương hiệu dòng Veo |
| Model ID | bard_eac_video_generation_omni / v3smm-lora-prod |
| Độ dài clip | 5 / 8 / 10 giây mỗi lần sinh, có thể nối trong ứng dụng |
| Độ phân giải | 480p / 720p / 1080p |
| Tỉ lệ khung hình | 16:9, 9:16, 1:1 |
| Âm thanh | Tổng hợp bản địa, đồng bộ trong một pass |
| Đầu vào | Tham chiếu văn bản / ảnh / video / âm thanh |
| Truy cập | Hoạt động trong ứng dụng Gemini cho thuê bao Google AI Plus / Pro / Ultra trên 18 tuổi |
| Tín hiệu hạn mức | Báo cáo nói hai lần sinh Omni tiêu khoảng 86% hạn mức ngày của AI Pro |
Stack sinh của Google từng chia nhánh: Veo cho video, Nano Banana / Imagen cho ảnh và Gemini cho văn bản. Omni gói tất cả vào một kiến trúc.
Trước
Veo 3.1
Video + âm thanh bản địa
Nano Banana / Imagen
Sinh & chỉnh sửa ảnh
Gemini 2.5 / 3.x
Suy luận · ngữ cảnh dài
Bây giờ · Omni
Gemini Omni
Văn bản · ảnh · video · âm thanh, một mô hình, một prompt
Mô hình hợp nhất với ngữ cảnh dài và âm thanh đồng bộ nghĩa là đội ngũ có thể viết một brief mạch lạc và mang về một bản cut hoàn chỉnh.
Hero shot, cảnh khoe bao bì và cut phong cách sống xuất xưởng cùng âm thanh nền đã chốt.
Clip dọc 9:16 với thoại on-mic và chuyển động đồng bộ nhịp, dựng để chặn ngón tay người xem.
Tham chiếu một bản nhạc và Omni cắt hình theo nhịp, giữ nhân vật nhất quán xuyên suốt.
Ghép nhiều omni-clip 10 giây thành chuỗi nhiều shot với ánh sáng và lớp âm liên tục.
Clip không khí 16:9 có thể loop cho site SaaS, fashion và DTC — có thương hiệu, thân thiện khi tắt tiếng.
Biến kịch bản thành chuỗi có dẫn truyện, lời thoại khớp khẩu hình và âm thanh nền tương ứng.
Tổng hợp từ Artificial Analysis, Looksy AI, Oimi AI và các keynote chính thức — để định hướng, không phải điểm benchmark.
| Mô hình | Nhà phát triển | Kiến trúc | Âm thanh bản địa | Độ dài clip |
|---|---|---|---|---|
| Gemini Omni
Omni
| Omni hợp nhất (video + ảnh + âm thanh) | Đồng bộ trong một pass | 5 / 8 / 10 giây | |
| Veo 3.1 | Mô hình video chuyên dụng | Có | ~8 giây | |
| Seedance 2.0 | ByteDance | Mô hình video đa phương thức chuyên dụng | Có | tối đa 15 giây / shot |
| Sora 2 | OpenAI | Mô hình video chuyên dụng | Có | ~20 giây |
| Kling V3.0 | Kuaishou | Mô hình video chuyên dụng | Hạn chế | ~10 giây |
Sắp xếp theo ngày được báo cáo công khai, vẫn đang tiếp diễn.
Người dùng X @Thomas16937378 phát hiện "Start with an idea or try a template. Powered by Omni." trong tab video của Gemini.
TestingCatalog và Chetaslua đưa ra ánh sáng thẻ "Meet our new video model", model ID đầy đủ và giới hạn clip 10 giây.
Clip "giáo sư giải lượng giác trên bảng đen" phô diễn độ mạch lạc văn bản và độ trung thực vật lý, kích nổ làn so sánh với Veo 3.1.
Google công bố Gemini Omni trên sân khấu chính I/O 2026, ra trang sản phẩm chính thức với video demo, và bắt đầu thay thế Veo 3.1 trong ứng dụng Gemini.
Bản phát hành đi kèm avatar AI cá nhân, chỉnh sửa video-to-video và chỉnh sửa kiểu chat nhiều lượt — bị giới hạn theo địa lý và gói thuê bao.
Google xác nhận quyền truy cập API cho developer và khách hàng doanh nghiệp sẽ đến "trong vài tuần tới" mà chưa có ngày cụ thể. Các nhà phân tích ước tính giá khoảng 0,10–0,30 USD mỗi giây video.
Tiếp theo dự kiến sẽ là Omni Pro mạnh hơn, cùng các đầu vào âm thanh phong phú hơn (ngoài voice reference) và các định dạng đầu ra hình ảnh, âm thanh — hoàn thiện lời hứa "bất kỳ đầu vào → bất kỳ đầu ra".
Đó là mô hình đa phương thức hợp nhất sắp ra mắt của Google, sinh văn bản, ảnh, video và âm thanh đồng bộ bản địa trong một kiến trúc — về cơ bản là hợp nhất Veo, Imagen và Gemini.
Đã ra mắt rồi. Google công bố Gemini Omni trên sân khấu chính Google I/O 2026 ngày 19/5/2026, đồng thời xuất bản trang sản phẩm chính thức và video demo.
Gemini Omni là người kế nhiệm của Veo trong ứng dụng Gemini — Google nói thẳng Omni "sẽ thay thế Veo trong ứng dụng Gemini". Stack video giờ gập vào cùng kiến trúc với văn bản và ảnh của Gemini.
Có. Tiếng nền, nhạc và thoại được sản xuất trong cùng pass với video — đó là lý do cốt lõi cho cái tên "omni".
Trang sản phẩm chính thức ghi clip tối đa 10 giây, có âm thanh bản địa, tối đa 5 ảnh tham chiếu và chỉnh sửa nhiều lượt.
Gemini Omni cần gói Google AI Plus, Pro hoặc Ultra và bạn phải từ 18+. Một số tính năng (avatar, video-to-video) có thể bị giới hạn ở một số quốc gia.
Một phiên bản số tùy chọn của chính bạn cho phép Gemini sinh video trông và nghe giống bạn, không cần tải ảnh lại mỗi lần — và chỉ bạn mới dùng được avatar của mình.
Mọi thứ trên trang này tổng hợp từ các nguồn công khai bên dưới. Khuyến nghị đọc chéo.
Bài thông báo chính thức nêu chi tiết việc ra mắt Omni Flash, năng lực, các bề mặt và kế hoạch rollout.
Tổng kết đầy đủ I/O 2026 về Gemini Omni, gói AI Ultra mới giá 100$ và các bản phát hành liên quan.
Trang ra mắt chính thức với video demo, lượt tour năng lực, các gói được hỗ trợ và chi tiết rollout.
Tóm tắt từ nhà phân tích độc lập về cách Omni hợp nhất stack Veo + Imagen vào một mô hình và những gì đang ra mắt vs. sắp tới.
Chi tiết rò rỉ, chuỗi UI và phân tích demo sớm.
Model ID đầy đủ, prompt trong ứng dụng và phản ứng cộng đồng.
Bản tóm tắt gọn về thông số, ca sử dụng và so sánh.
Đa phương thức cấp họ, ngữ cảnh dài và hướng đi agentic.