Gemini Omni
Leak-Phase · Google I/O 2026

Gemini Omni
Ein Modell für Text, Bild, Video und Audio

Anfang Mai 2026 in mehreren Leaks aufgetaucht, ist Gemini Omni Googles kommendes vereintes Multimodal-Modell: native Generierung von Text, Bild, Video und synchronem Audio in einem einzigen Gemini-System.

Vereintes Modell Synchroner Audio Bearbeitung im Chat
Omni
Text
Image
Video
Audio

Eckdaten

5–10s Cliplänge
1080p Max. Auflösung
16:9 · 9:16 · 1:1 Formate
I/O 2026 Erwartete Vorstellung
Funktionen

Die gesamte Pipeline in einem Modell

Anders als spezialisierte Video-Modelle wie Veo, Sora 2, Seedance 2.0 oder Kling vereint Gemini Omni Sprachverständnis, Bildgenerierung, Videogenerierung und Audio-Synthese in einer Architektur.

Native Multimodal-Ausgabe

Ein Prompt liefert passenden Text, Keyframes und Video — Charaktere, Stil und Licht bleiben über alle Formate konsistent.

Ein Gemini-Stack

Schluss mit dem Verketten spezialisierter Modelle. Text, Bild, Video und Audio teilen sich dieselben Gewichte und denselben langen Kontext.

Synchroner Native-Audio

Ambiente, Score und Dialog richten sich im selben Forward-Pass am Bild aus — Schritte auf dem Beat, Lippen passen ab dem ersten Export.

Direkte Bearbeitung im Chat

Objekte tauschen, Licht ändern, Kamerafahrt anpassen — alles in natürlicher Sprache, ohne Neugenerierung, im Stil von Nano Banana.

Remix und Steuerung

Bestehenden Clip hochladen und per Prompt umsteuern. Referenzbilder, -videos und -audios lassen sich in einem einzigen Befehl kombinieren.

Templates & Stile

Integrierte Templates für Produktwerbung, Reels, Musikvideos und Kurzfilme senken die Einstiegshürde und sichern konsistente Bildsprache.

Specs

Was sich vor der Keynote rekonstruieren lässt

Die Zahlen stammen aus Reddit/X-Leaks und Berichten von TestingCatalog, Programming Insider und OfficeChai.

Dimension Bekannte Information
Modellfamilie Google Gemini — Nachfolger-Branding der Veo-Linie
Modell-ID bard_eac_video_generation_omni / v3smm-lora-prod
Cliplänge 5 / 8 / 10 Sekunden pro Generierung, in der App verkettbar
Auflösung 480p / 720p / 1080p
Seitenverhältnisse 16:9, 9:16, 1:1
Audio Nativ synthetisiert, in einem Pass synchronisiert
Eingaben Text / Bild / Video / Audio-Referenzen
Zugriff Staging in der Gemini-App, API nach dem I/O erwartet
Kontingent Berichten zufolge verbrauchen zwei Omni-Generierungen ~86 % des AI-Pro-Tageskontingents
Architektur

Drei Produktlinien werden zu einem Omni

Googles generativer Stack war bislang in Veo (Video), Nano Banana / Imagen (Bild) und Gemini (Text) aufgeteilt. Omni führt sie in einer Architektur zusammen.

Vorher

Veo 3.1

Video + nativer Audio

Nano Banana / Imagen

Bildgenerierung und -bearbeitung

Gemini 2.5 / 3.x

Reasoning · langer Kontext

Jetzt · Omni

Gemini Omni

Text · Bild · Video · Audio, ein Modell, ein Prompt

Text Image Video Audio
Use-Cases

Vom Brief zum veröffentlichbaren Content

Ein vereintes Modell mit langem Kontext und synchronem Audio heißt: Ein kohärenter Brief, ein fertiger Schnitt — ohne Tool-Wechsel.

01

Produktwerbung

Hero-Shots, Packaging-Reveals und Lifestyle-Schnitte mit bereits eingebettetem Ambient-Sound.

02

Reels & Shorts

Vertikale 9:16-Clips mit On-Mic-Dialog und beat-synchroner Bewegung — perfekt für Social.

03

Musikvideos

Track referenzieren, Omni schneidet auf den Beat und hält Charaktere über Shots konsistent.

04

Cinematic Shorts

Mehrere 10-Sekunden-Omni-Clips zu Multi-Shot-Sequenzen verketten — Licht und Audio-Bett bleiben durchgängig.

05

Landingpage-Hero-Loops

Loopbare 16:9-Atmosphäre für SaaS, Fashion und DTC — gebrandet und stumm lesbar.

06

Erklärvideos & Tutorials

Skript in narrierte Sequenz mit lippensynchronem Dialog und passendem Ambient-Sound umwandeln.

Vergleich

Wo Omni im Video-Stack 2026 steht

Aggregiert aus Artificial Analysis, Looksy AI, Oimi AI und offiziellen Keynotes — als Orientierung, nicht als Benchmark.

Modell Anbieter Architektur Nativer Audio Cliplänge
Gemini Omni Omni
Google Vereinter Omni (Video + Bild + Audio) In einem Pass synchron 5 / 8 / 10s
Veo 3.1
Google Spezialisiertes Video-Modell Ja ~8s
Seedance 2.0
ByteDance Spezialisiertes multimodales Video Ja bis 15s / Shot
Sora 2
OpenAI Spezialisiertes Video-Modell Ja ~20s
Kling V3.0
Kuaishou Spezialisiertes Video-Modell Eingeschränkt ~10s
Timeline

Vom ersten Leak bis zur I/O-2026-Bühne

Nach öffentlichem Berichtsdatum sortiert, weiterhin in Bewegung.

  1. 2026 · 05 · 02

    Erstes "Powered by Omni"-String

    X-User @Thomas16937378 entdeckt "Start with an idea or try a template. Powered by Omni." im Gemini-Video-Tab.

  2. 2026 · 05 · 11

    Komplette Preview-Karte in Gemini Mobile

    TestingCatalog und Chetaslua zeigen die "Meet our new video model"-Karte, die volle Modell-ID und die 10-Sekunden-Grenze.

  3. 2026 · 05 · 12 – 18

    Demos verbreiten sich

    Ein Clip mit "Professor löst Trigonometrie an der Tafel" zeigt Textkohärenz und physikalische Treue und löst breite Vergleiche mit Veo 3.1 aus.

  4. 2026 · 05 · 19 – 20

    Erwartete Vorstellung auf Google I/O 2026

    Mainstage-Zeit für Omni wird breit erwartet, möglicherweise mit Flash/Pro-Staffelung, API und neuer Abostruktur.

FAQ

Die häufigsten Fragen zu Gemini Omni

Was genau ist Gemini Omni?

Es ist Googles kommendes vereintes Multimodal-Modell, das in einer Architektur nativ Text, Bild, Video und synchronen Audio erzeugt — quasi die Verschmelzung von Veo, Imagen und Gemini.

Wann erscheint es?

Mitte Mai 2026 ist Omni weiterhin in der Leak-Phase. Erwartete Vorstellung: Google-I/O-2026-Mainstage (19.–20. Mai).

In welchem Verhältnis steht es zu Veo 3.1?

Metadaten deuten an, dass Omni technisch vom Veo-Stack erbt, die Veo-Marke aber fallen lässt und Video in Geminis Text- und Bild-Schichten faltet.

Erzeugt es wirklich Sound?

Ja. Ambiente, Score und Dialog werden im selben Pass wie das Video erzeugt — genau dafür steht das "omni" im Namen.

Wie lang dürfen Clips aktuell sein?

Die geleakte Modell-ID weist auf 5, 8 oder 10 Sekunden pro Generierung hin, Mehrfach-Clip-Verkettung clientseitig.

Wie wird die Preisstruktur aussehen?

Unbestätigt. Ein Reddit-Screenshot zeigt, dass zwei Omni-Generierungen ~86 % des AI-Pro-Tageskontingents fressen — ein "Ultra/Pro Plus"-Tier ist plausibel.