Output multimodal native
Satu prompt menghasilkan teks, keyframe, dan video yang serasi, dengan karakter, gaya, dan pencahayaan konsisten lintas format.
Diperkenalkan di panggung utama Google I/O 2026, Gemini Omni menyatukan pemahaman dunia Gemini dengan pembangkitan multimodal native — teks, gambar, video, dan audio tersinkron dalam satu arsitektur. Kini menggantikan Veo 3.1 di dalam aplikasi Gemini dan hadir dengan image-to-video, editing video-to-video, dan avatar AI personal.
Setiap klip di bawah disematkan langsung dari halaman produk resmi Gemini Omni milik Google: text-to-video, image-to-video, transfer gaya, editing chat, video-to-video, dan avatar AI — seluruh permukaan kemampuan.
Semua video demo © Google, digunakan di sini untuk agregasi informasi; dialirkan langsung dari storage.googleapis.com/gweb-gemini-cdn.
Reel hero utama Gemini Omni: buat, remix, dan edit video melalui percakapan.
Satu prompt teks menghasilkan klip multi-shot dengan lingkungan dan bahasa kamera yang kohesif.
Unggah gambar referensi dan Omni mengarahkan gerakannya, mengisi timeline secara otomatis.
Ganti latar, ubah pakaian, atau transfer gaya — subjek Anda tetap menjaga detailnya.
Susun ulang footage dengan gaya baru — pencahayaan, lensa, bahkan material ditulis ulang lewat prompt.
Ganti karakter, sesuaikan pencahayaan, stabilkan shot — semua dengan chatting, tanpa regenerasi.
Atur avatar AI sekali, lalu bintangi setiap video di masa depan tanpa unggah ulang foto.
Tidak seperti model video spesialis seperti Veo, Sora 2, Seedance 2.0, atau Kling, Gemini Omni menjaga penalaran bahasa, pembangkitan gambar, pembangkitan video, dan sintesis audio dalam satu arsitektur.
Satu prompt menghasilkan teks, keyframe, dan video yang serasi, dengan karakter, gaya, dan pencahayaan konsisten lintas format.
Tidak perlu lagi merangkai banyak model spesialis. Teks, gambar, video, dan audio berbagi bobot dan konteks panjang yang sama.
Suara ambient, skor, dan dialog selaras dengan gambar dalam satu forward pass — langkah kaki sesuai irama, gerak bibir cocok dengan ucapan sejak ekspor pertama.
Tukar objek, ubah pencahayaan, atau sesuaikan gerakan kamera dengan bahasa alami — tanpa regenerasi penuh, menggemakan playbook editing Nano Banana.
Unggah klip yang sudah ada dan arahkan ulang dengan prompt. Gambar, video, dan audio referensi dapat digabungkan dalam satu instruksi.
Template bawaan untuk iklan produk, Reels, klip musik, dan film pendek sinematik menurunkan ambang bagi pengguna pertama sekaligus menjaga bahasa kamera tetap konsisten.
Angka di bawah dirangkum dari kebocoran Reddit/X serta laporan TestingCatalog, Programming Insider, dan OfficeChai.
| Dimensi | Sinyal yang diketahui |
|---|---|
| Famili model | Google Gemini — penerus branding lini Veo |
| Model ID | bard_eac_video_generation_omni / v3smm-lora-prod |
| Durasi klip | 5 / 8 / 10 detik per generasi, dapat dirangkai di aplikasi |
| Resolusi | 480p / 720p / 1080p |
| Rasio aspek | 16:9, 9:16, 1:1 |
| Audio | Disintesis secara native, tersinkron dalam satu pass |
| Input | Referensi teks / gambar / video / audio |
| Akses | Tayang di dalam aplikasi Gemini untuk pelanggan Google AI Plus / Pro / Ultra usia 18+ |
| Sinyal kuota | Laporan menyebut dua generasi Omni menghabiskan ~86% kuota harian AI Pro |
Stack generatif Google dulunya terbagi: Veo untuk video, Nano Banana / Imagen untuk gambar, dan Gemini untuk teks. Omni menggulungnya menjadi satu arsitektur.
Sebelum
Veo 3.1
Video + audio native
Nano Banana / Imagen
Pembangkitan & editing gambar
Gemini 2.5 / 3.x
Penalaran · konteks panjang
Sekarang · Omni
Gemini Omni
Teks · gambar · video · audio, satu model, satu prompt
Model terpadu dengan konteks panjang dan audio tersinkron berarti tim dapat menulis satu brief yang koheren dan pulang dengan hasil cut yang sudah jadi.
Hero shot, reveal kemasan, dan cut gaya hidup tayang dengan audio ambient sudah terkunci.
Klip vertikal 9:16 dengan dialog on-mic dan gerak sinkron beat, dibangun untuk menghentikan scroll.
Referensikan satu track dan Omni memotong visual sesuai irama, menjaga karakter konsisten antarshot.
Rangkai beberapa omni-clip 10 detik menjadi sekuens multi-shot dengan pencahayaan dan bed audio kontinu.
Klip atmosferik 16:9 looping untuk situs SaaS, fashion, dan DTC — berbranding dan ramah-bisu.
Ubah naskah menjadi sekuens narasi dengan dialog lip-sync dan suara ambient yang serasi.
Dirangkum dari Artificial Analysis, Looksy AI, Oimi AI, dan keynote resmi — untuk orientasi, bukan skor benchmark.
| Model | Pembuat | Arsitektur | Audio native | Durasi klip |
|---|---|---|---|---|
| Gemini Omni
Omni
| Omni terpadu (video + gambar + audio) | Tersinkron dalam satu pass | 5 / 8 / 10 dtk | |
| Veo 3.1 | Model video spesialis | Ya | ~8 dtk | |
| Seedance 2.0 | ByteDance | Video multimodal spesialis | Ya | hingga 15 dtk / shot |
| Sora 2 | OpenAI | Model video spesialis | Ya | ~20 dtk |
| Kling V3.0 | Kuaishou | Model video spesialis | Terbatas | ~10 dtk |
Diurutkan berdasarkan tanggal laporan publik, masih berkembang.
Pengguna X @Thomas16937378 menemukan "Start with an idea or try a template. Powered by Omni." di tab video Gemini.
TestingCatalog dan Chetaslua mengungkap kartu "Meet our new video model", ID model lengkap, dan batas klip 10 detik.
Klip "profesor menyelesaikan trigonometri di papan tulis" memamerkan koherensi teks dan kesetiaan fisik, memicu banyak perbandingan dengan Veo 3.1.
Google memperkenalkan Gemini Omni di panggung utama I/O 2026, merilis halaman produk resmi dengan video demo, dan mulai menggantikan Veo 3.1 di dalam aplikasi Gemini.
Peluncuran membawa avatar AI personal, editing video-to-video, dan editing multi-giliran ala chat — dibatasi oleh geografi dan tingkat langganan.
Google memastikan akses API untuk developer dan pelanggan enterprise akan hadir "dalam beberapa minggu ke depan" tanpa tanggal pasti. Analis memperkirakan harga sekitar $0,10–$0,30 per detik video.
Berikutnya, diharapkan hadir Omni Pro yang lebih kuat, ditambah input audio yang lebih kaya di luar referensi suara dan modalitas output untuk gambar dan audio — menggenapi janji "input apa pun → output apa pun".
Model multimodal terpadu Google yang akan datang yang menghasilkan teks, gambar, video, dan audio tersinkron secara native dalam satu arsitektur — secara efektif menggabungkan Veo, Imagen, dan Gemini.
Sudah tayang. Google mengumumkan Gemini Omni di panggung utama Google I/O 2026 pada 19 Mei 2026, bersamaan dengan publikasi halaman produk resmi dan video demo.
Gemini Omni adalah penerus Veo di dalam aplikasi Gemini — Google secara eksplisit menyatakan Omni "akan menggantikan Veo di aplikasi Gemini". Stack video kini menyatu dengan arsitektur yang sama dengan teks dan gambar Gemini.
Ya. Suara ambient, skor, dan dialog diproduksi dalam pass yang sama dengan video — itulah alasan utama nama "omni".
Halaman produk resmi menyebut klip hingga 10 detik, dengan audio native, hingga 5 referensi foto, dan editing multi-giliran.
Gemini Omni memerlukan paket Google AI Plus, Pro, atau Ultra dan Anda harus berusia 18+. Beberapa fitur (avatar, editing video-to-video) mungkin dibatasi di negara tertentu.
Versi digital opsional dari diri Anda yang memungkinkan Gemini menghasilkan video yang terlihat dan terdengar seperti Anda, tanpa perlu mengunggah ulang foto setiap kali — dan hanya Anda yang dapat menggunakan avatar Anda sendiri.
Semua di halaman ini dirangkum dari sumber publik di bawah. Pembacaan silang sangat disarankan.
Pengumuman resmi yang merinci peluncuran Omni Flash, kemampuan, surface, dan rencana rollout.
Rangkuman lengkap I/O 2026 yang mencakup Gemini Omni, tier AI Ultra $100 yang baru, dan rilis sekitarnya.
Halaman peluncuran resmi dengan video demo, tur kemampuan, paket yang didukung, dan detail rollout.
Ringkasan analis independen tentang bagaimana Omni menyatukan stack Veo + Imagen menjadi satu model dan apa yang dirilis sekarang vs. nanti.
Detail kebocoran, string UI, dan analisis demo awal.
ID model lengkap, prompt dalam aplikasi, dan reaksi komunitas.
Rangkuman rapi spesifikasi, kasus penggunaan, dan perbandingan.
Multimodalitas tingkat famili, konteks panjang, dan arah agentik.