Native multimodale output
Eén prompt levert bijpassende tekst, keyframes en video met consistente personages, stijl en belichting in alle formaten.
Aangekondigd op het hoofdpodium van Google I/O 2026: Gemini Omni verenigt Gemini’s wereldbegrip met native multimodale generatie — tekst, beeld, video en gesynchroniseerde audio in één architectuur. Het vervangt Veo 3.1 in de Gemini-app en wordt geleverd met image-to-video, video-to-video bewerking en een persoonlijke AI-avatar.
Elke clip hieronder is rechtstreeks ingebed vanaf Google’s officiële Gemini Omni-productpagina: text-to-video, image-to-video, style transfer, chat editing, video-to-video en AI-avatar — het volledige capability-oppervlak.
Alle demo-video’s zijn © Google, hier gebruikt voor informatieve aggregatie; rechtstreeks gestreamd vanaf storage.googleapis.com/gweb-gemini-cdn.
De main hero reel van Gemini Omni: maak, remix en bewerk video’s via gesprek.
Eén tekstprompt levert een multi-shot clip op met consistente omgeving en cameratoonsoort.
Upload referentiebeelden en Omni stuurt de beweging, vult de tijdlijn automatisch op.
Wissel achtergrond, kleding of stijl — je onderwerp behoudt zijn details.
Herschrijf bestaand materiaal in een nieuwe stijl — licht, lens of zelfs materiaal door de prompt aangepast.
Verwissel personages, stuur belichting bij, stabiliseer shots — alleen via chat, zonder regeneratie.
Eén keer een AI-avatar instellen en in elke volgende video meedoen zonder foto’s opnieuw te uploaden.
Anders dan gespecialiseerde videomodellen als Veo, Sora 2, Seedance 2.0 of Kling houdt Gemini Omni taalredenering, beeldgeneratie, videogeneratie en audiosynthese onder één architectuur.
Eén prompt levert bijpassende tekst, keyframes en video met consistente personages, stijl en belichting in alle formaten.
Geen gespecialiseerde modellen meer aaneenrijgen. Tekst, beeld, video en audio delen dezelfde gewichten en lange context.
Omgevingsgeluid, score en dialoog worden in dezelfde forward pass uitgelijnd met het beeld — voetstappen liggen meteen in de maat en lippen kloppen bij de eerste export.
Vervang een object, verander de belichting, pas een camerabeweging aan met natuurlijke taal — zonder volledig opnieuw te genereren, in de stijl van Nano Banana.
Upload een bestaande clip en stuur die met prompts bij. Referentiebeelden, video en audio kunnen in één instructie worden gecombineerd.
Ingebouwde templates voor productadvertenties, Reels, muziekvideo’s en cinematische shorts verlagen de drempel en houden de cameratoonsoort consistent.
De cijfers hieronder zijn samengevoegd uit Reddit/X-leaks en berichten van TestingCatalog, Programming Insider en OfficeChai.
| Aspect | Bekend signaal |
|---|---|
| Modelfamilie | Google Gemini — opvolgermerk van de Veo-lijn |
| Model-ID | bard_eac_video_generation_omni / v3smm-lora-prod |
| Cliplengte | 5 / 8 / 10 seconden per generatie, in-app aaneenschakelbaar |
| Resolutie | 480p / 720p / 1080p |
| Beeldverhoudingen | 16:9, 9:16, 1:1 |
| Audio | Native gesynthetiseerd, in één pass gesynchroniseerd |
| Input | Tekst / beeld / video / audio-referenties |
| Toegang | Live in de Gemini-app voor 18+ Google AI Plus / Pro / Ultra abonnees |
| Quotumsignaal | Volgens berichten verbruiken twee Omni-generaties ~86% van het dagelijkse AI Pro-quotum |
Google’s generatieve stack was eerst gesplitst over Veo (video), Nano Banana / Imagen (beeld) en Gemini (tekst). Omni rolt deze samen in één architectuur.
Vroeger
Veo 3.1
Video + native audio
Nano Banana / Imagen
Beeldgeneratie en bewerking
Gemini 2.5 / 3.x
Redenering · lange context
Nu · Omni
Gemini Omni
Tekst · beeld · video · audio, één model, één prompt
Een verenigd model met lange context en gesynchroniseerd geluid laat teams één samenhangend brief schrijven en weglopen met een afgemonteerde clip.
Hero shots, packaging reveals en lifestyle cuts met ambient audio al gemixt.
Verticale 9:16 clips met on-mic dialoog en beat-gesynchroniseerde beweging, op maat voor social scrolling.
Verwijs naar een track en Omni snijdt visuals op de beat met consistente personages tussen shots.
Rijg meerdere 10-seconden omni-clips aaneen tot multi-shot reeksen met doorlopende belichting en audio bed.
Loopbare 16:9 sfeerclips voor SaaS-, fashion- en DTC-sites — branded en geschikt zonder geluid.
Zet een script om naar een lip-sync narratieve sequentie met passend omgevingsgeluid.
Samengevoegd uit Artificial Analysis, Looksy AI, Oimi AI en de officiële keynotes — ter oriëntatie, geen benchmark-scores.
| Model | Maker | Architectuur | Native audio | Cliplengte |
|---|---|---|---|---|
| Gemini Omni
Omni
| Verenigd omni (video + beeld + audio) | In één pass gesynchroniseerd | 5 / 8 / 10s | |
| Veo 3.1 | Gespecialiseerd videomodel | Ja | ~8s | |
| Seedance 2.0 | ByteDance | Gespecialiseerde multimodale video | Ja | tot 15s / shot |
| Sora 2 | OpenAI | Gespecialiseerd videomodel | Ja | ~20s |
| Kling V3.0 | Kuaishou | Gespecialiseerd videomodel | Beperkt | ~10s |
Geordend op publieke meldingsdatum, nog volop in beweging.
X-gebruiker @Thomas16937378 spotte "Start with an idea or try a template. Powered by Omni." in het video-tabblad van Gemini.
TestingCatalog en Chetaslua brachten de "Meet our new video model"-card, de volledige model-ID en de 10-seconden cliplimiet naar buiten.
Een clip met een "professor die trigonometrie op het bord oplost" liet tekstconsistentie en fysieke geloofwaardigheid zien en zette de vergelijking met Veo 3.1 op scherp.
Google onthult Gemini Omni op het hoofdpodium van I/O 2026, publiceert de officiële productpagina met demo-video’s en begint Veo 3.1 in de Gemini-app te vervangen.
De launch bevat een persoonlijke AI-avatar, video-to-video bewerking en chat-achtige multi-turn bewerking — beperkt per regio en abonnement.
Google bevestigde dat API-toegang voor developers en enterprise klanten "in de komende weken" beschikbaar komt, zonder vaste datum. Analisten schatten $0,10–$0,30 per seconde video.
Daarna wordt een krachtigere Omni Pro verwacht, samen met rijkere audio-inputs (verder dan stem-referenties) en output-modaliteiten voor beeld en audio – zodat de belofte "elke input → elke output" volledig wordt waargemaakt.
Het is het komende verenigde multimodale model van Google dat tekst, beeld, video en gesynchroniseerd geluid native genereert binnen één architectuur — feitelijk een samensmelting van Veo, Imagen en Gemini.
Het is al uit. Google kondigde Gemini Omni aan op het hoofdpodium van Google I/O 2026 op 19 mei 2026 en publiceerde tegelijk de officiële productpagina en demo-video’s.
Gemini Omni is de opvolger van Veo in de Gemini-app — Google zegt expliciet dat "Omni Veo zal vervangen in de Gemini-app". De videostack zit nu in dezelfde architectuur als Gemini tekst en beeld.
Ja. Omgevingsgeluid, score en dialoog ontstaan in dezelfde pass als de video — vandaar de naam "omni".
De officiële productpagina noemt clips tot 10 seconden, met native audio, tot 5 foto-referenties en multi-turn bewerking.
Voor Gemini Omni heb je een Google AI Plus, Pro of Ultra-abonnement nodig en moet je 18+ zijn. Sommige functies (avatars, video-to-video) kunnen per land beperkt zijn.
Een optionele digitale versie van jezelf waarmee Gemini video’s kan maken die op jou lijken en klinken, zonder elke keer foto’s opnieuw te uploaden — en alleen jij kunt je eigen avatar gebruiken.
Alles op deze pagina is samengevoegd uit onderstaande publieke bronnen. Kruislings lezen wordt aangeraden.
Officiële aankondiging met de launch van Omni Flash, capaciteiten, oppervlakken en rollout-plan.
Volledige I/O 2026 recap met Gemini Omni, de nieuwe AI Ultra-tier van $100 en bijhorende launches.
Officiële lanceringspagina met demo-video’s, capability-tour, ondersteunde abonnementen en uitrol-details.
Onafhankelijke analyse hoe Omni de Veo- en Imagen-stacks samenvoegt tot één model en wat nu vs. later beschikbaar komt.
Leak-details, UI-strings en vroege demo-analyses.
Volledige model-ID, in-app prompts en community-reacties.
Overzichtelijke samenvatting van specs, use cases en vergelijkingen.
Multimodaliteit op familieniveau, lange context en agent-richting.