Output multimodal asli
Satu prompt menghasilkan teks, keyframe dan video yang sepadan, dengan watak, gaya dan pencahayaan yang konsisten merentas format.
Diumumkan di pentas utama Google I/O 2026, Gemini Omni menyatukan pemahaman dunia Gemini dengan penjanaan multimodal asli — teks, imej, video dan audio tersegerak dalam satu seni bina. Kini menggantikan Veo 3.1 dalam aplikasi Gemini dan hadir dengan image-to-video, penyuntingan video-to-video serta avatar AI peribadi.
Setiap klip di bawah dibenamkan terus dari halaman produk Gemini Omni rasmi Google: text-to-video, image-to-video, pemindahan gaya, penyuntingan dalam chat, video-to-video dan avatar AI — seluruh permukaan keupayaan.
Semua video demo © Google, digunakan di sini untuk pengumpulan maklumat; distrim terus dari storage.googleapis.com/gweb-gemini-cdn.
Reel hero utama Gemini Omni: cipta, remix dan sunting video melalui perbualan.
Satu prompt teks menghasilkan klip berbilang shot dengan persekitaran dan bahasa kamera yang kohesif.
Muat naik imej rujukan dan Omni memandu pergerakan, mengisi garis masa secara automatik.
Tukar latar, ubah pakaian, atau pindahkan gaya — subjek kekal mengekalkan butirannya.
Tuangkan semula footage dalam gaya baharu — pencahayaan, lensa atau bahan ditulis semula melalui prompt.
Tuangkan semula watak, laraskan pencahayaan, stabilkan shot — semua melalui chat, tanpa penjanaan semula.
Tetapkan avatar AI sekali, kemudian bintangi setiap video akan datang tanpa muat naik foto semula.
Tidak seperti model video khusus seperti Veo, Sora 2, Seedance 2.0 atau Kling, Gemini Omni menyimpan penaakulan bahasa, penjanaan imej, penjanaan video dan sintesis audio dalam satu seni bina.
Satu prompt menghasilkan teks, keyframe dan video yang sepadan, dengan watak, gaya dan pencahayaan yang konsisten merentas format.
Tidak perlu lagi merantai banyak model khusus. Teks, imej, video dan audio berkongsi pemberat dan konteks panjang yang sama.
Bunyi ambien, skor dan dialog diselaraskan dengan gambar dalam pas hadapan yang sama — bunyi tapak kaki tepat pada rentak, bibir sepadan dengan ucapan sejak eksport pertama.
Tukar objek, ubah pencahayaan, atau laraskan pergerakan kamera dengan bahasa semula jadi — tanpa penjanaan semula penuh, mengulang playbook Nano Banana.
Muat naik klip sedia ada dan ubah halanya dengan prompt. Imej, video dan audio rujukan boleh digabungkan dalam satu arahan.
Templat terbina untuk iklan produk, Reels, video muzik dan filem pendek sinematik merendahkan ambang untuk pengguna baru sambil mengekalkan bahasa kamera yang konsisten.
Nombor di bawah dikumpul dari kebocoran Reddit/X serta laporan TestingCatalog, Programming Insider dan OfficeChai.
| Dimensi | Isyarat diketahui |
|---|---|
| Keluarga model | Google Gemini — penerus jenama barisan Veo |
| Model ID | bard_eac_video_generation_omni / v3smm-lora-prod |
| Panjang klip | 5 / 8 / 10 saat setiap penjanaan, boleh dirantai dalam aplikasi |
| Resolusi | 480p / 720p / 1080p |
| Nisbah aspek | 16:9, 9:16, 1:1 |
| Audio | Disintesis secara asli, tersegerak dalam satu pas |
| Input | Rujukan teks / imej / video / audio |
| Capaian | Tayang dalam aplikasi Gemini untuk pelanggan Google AI Plus / Pro / Ultra berusia 18+ |
| Isyarat kuota | Laporan menyebut dua penjanaan Omni menghabiskan ~86% kuota harian AI Pro |
Stack generatif Google dahulunya terbahagi: Veo untuk video, Nano Banana / Imagen untuk imej dan Gemini untuk teks. Omni menggulungnya jadi satu seni bina.
Sebelum
Veo 3.1
Video + audio asli
Nano Banana / Imagen
Penjanaan & penyuntingan imej
Gemini 2.5 / 3.x
Penaakulan · konteks panjang
Kini · Omni
Gemini Omni
Teks · imej · video · audio, satu model, satu prompt
Model bersatu dengan konteks panjang dan audio tersegerak bermakna pasukan boleh menulis satu brief yang koheren dan pulang dengan cut siap.
Hero shot, dedahan pembungkusan dan cut gaya hidup keluar dengan audio ambien sudah terkunci.
Klip menegak 9:16 dengan dialog on-mic dan gerakan sehentak rentak, dibina untuk menghentikan tatal sosial.
Rujuk satu trek dan Omni memotong visual ikut rentak, mengekalkan watak konsisten merentas shot.
Rantai beberapa omni-clip 10 saat menjadi urutan berbilang shot dengan pencahayaan dan bed audio berterusan.
Klip atmosfera 16:9 boleh diulang untuk laman SaaS, fesyen dan DTC — berjenama dan mesra senyap.
Tukar skrip menjadi urutan bersuara dengan dialog lip-sync dan bunyi ambien sepadan.
Dikumpul dari Artificial Analysis, Looksy AI, Oimi AI dan keynote rasmi — untuk orientasi, bukan skor benchmark.
| Model | Pembuat | Seni bina | Audio asli | Panjang klip |
|---|---|---|---|---|
| Gemini Omni
Omni
| Omni bersatu (video + imej + audio) | Tersegerak dalam satu pas | 5 / 8 / 10 saat | |
| Veo 3.1 | Model video khusus | Ya | ~8 saat | |
| Seedance 2.0 | ByteDance | Video multimodal khusus | Ya | sehingga 15 saat / shot |
| Sora 2 | OpenAI | Model video khusus | Ya | ~20 saat |
| Kling V3.0 | Kuaishou | Model video khusus | Terhad | ~10 saat |
Disusun mengikut tarikh laporan awam, masih berkembang.
Pengguna X @Thomas16937378 mengesan "Start with an idea or try a template. Powered by Omni." dalam tab video Gemini.
TestingCatalog dan Chetaslua mendedahkan kad "Meet our new video model", ID model penuh dan had klip 10 saat.
Klip "profesor menyelesaikan trigonometri pada papan hitam" menonjolkan koherens teks dan kesetiaan fizikal, mencetuskan banyak perbandingan dengan Veo 3.1.
Google memperkenalkan Gemini Omni di pentas utama I/O 2026, melancarkan halaman produk rasmi dengan video demo, dan mula menggantikan Veo 3.1 dalam aplikasi Gemini.
Pelancaran datang dengan avatar AI peribadi, penyuntingan video-to-video dan penyuntingan gaya chat berbilang giliran — terhad mengikut geografi dan tahap langganan.
Google mengesahkan akses API untuk pembangun dan pelanggan korporat akan tiba "dalam beberapa minggu akan datang" tanpa tarikh tetap. Penganalisis menganggar harga sekitar $0.10–$0.30 sesaat video.
Selepas ini Omni Pro yang lebih berkemampuan dijangka tiba, ditambah input audio lebih kaya melebihi rujukan suara serta modaliti output untuk imej dan audio — melengkapkan janji "sebarang input → sebarang output".
Ia adalah model multimodal bersatu Google yang akan datang yang menjana teks, imej, video dan audio tersegerak secara asli dalam satu seni bina — pada dasarnya menggabungkan Veo, Imagen dan Gemini.
Sudah keluar. Google mengumumkan Gemini Omni di pentas utama Google I/O 2026 pada 19 Mei 2026, sekali gus menerbitkan halaman produk rasmi dan video demo.
Gemini Omni adalah pengganti Veo dalam aplikasi Gemini — Google secara jelas menyatakan Omni "akan menggantikan Veo dalam aplikasi Gemini". Stack video kini dilipat ke dalam seni bina yang sama dengan teks dan imej Gemini.
Ya. Bunyi ambien, skor dan dialog dihasilkan dalam pas yang sama dengan video — itulah sebab nama "omni".
Halaman produk rasmi menyatakan klip sehingga 10 saat, dengan audio asli, sehingga 5 rujukan foto dan penyuntingan berbilang giliran.
Gemini Omni memerlukan pelan Google AI Plus, Pro atau Ultra dan anda mesti berumur 18+. Sesetengah ciri (avatar, video-to-video) mungkin dihadkan di negara tertentu.
Versi digital pilihan diri anda yang membolehkan Gemini menjana video yang kelihatan dan kedengaran seperti anda, tanpa perlu memuat naik foto setiap kali — dan hanya anda yang boleh menggunakan avatar anda sendiri.
Segala-galanya pada halaman ini dikumpul daripada sumber awam di bawah. Bacaan silang amat disarankan.
Pos pengumuman rasmi yang memperincikan pelancaran Omni Flash, keupayaan, permukaan dan pelan rollout.
Ringkasan penuh I/O 2026 meliputi Gemini Omni, tier AI Ultra baharu $100 dan pelancaran sekeliling.
Halaman pelancaran rasmi dengan video demo, lawatan keupayaan, pelan yang disokong dan butiran pelancaran berperingkat.
Tinjauan penganalisis bebas tentang bagaimana Omni menggabungkan stack Veo + Imagen menjadi satu model dan apa yang dihantar sekarang berbanding selepas ini.
Butiran kebocoran, string UI dan analisis demo awal.
ID model penuh, prompt dalam aplikasi dan reaksi komuniti.
Ringkasan kemas spesifikasi, kes guna dan perbandingan.
Multimodaliti peringkat keluarga, konteks panjang dan hala tuju agentik.