Native Multimodal-Ausgabe
Ein Prompt liefert passenden Text, Keyframes und Video — Charaktere, Stil und Licht bleiben über alle Formate konsistent.
Anfang Mai 2026 in mehreren Leaks aufgetaucht, ist Gemini Omni Googles kommendes vereintes Multimodal-Modell: native Generierung von Text, Bild, Video und synchronem Audio in einem einzigen Gemini-System.
Anders als spezialisierte Video-Modelle wie Veo, Sora 2, Seedance 2.0 oder Kling vereint Gemini Omni Sprachverständnis, Bildgenerierung, Videogenerierung und Audio-Synthese in einer Architektur.
Ein Prompt liefert passenden Text, Keyframes und Video — Charaktere, Stil und Licht bleiben über alle Formate konsistent.
Schluss mit dem Verketten spezialisierter Modelle. Text, Bild, Video und Audio teilen sich dieselben Gewichte und denselben langen Kontext.
Ambiente, Score und Dialog richten sich im selben Forward-Pass am Bild aus — Schritte auf dem Beat, Lippen passen ab dem ersten Export.
Objekte tauschen, Licht ändern, Kamerafahrt anpassen — alles in natürlicher Sprache, ohne Neugenerierung, im Stil von Nano Banana.
Bestehenden Clip hochladen und per Prompt umsteuern. Referenzbilder, -videos und -audios lassen sich in einem einzigen Befehl kombinieren.
Integrierte Templates für Produktwerbung, Reels, Musikvideos und Kurzfilme senken die Einstiegshürde und sichern konsistente Bildsprache.
Die Zahlen stammen aus Reddit/X-Leaks und Berichten von TestingCatalog, Programming Insider und OfficeChai.
| Dimension | Bekannte Information |
|---|---|
| Modellfamilie | Google Gemini — Nachfolger-Branding der Veo-Linie |
| Modell-ID | bard_eac_video_generation_omni / v3smm-lora-prod |
| Cliplänge | 5 / 8 / 10 Sekunden pro Generierung, in der App verkettbar |
| Auflösung | 480p / 720p / 1080p |
| Seitenverhältnisse | 16:9, 9:16, 1:1 |
| Audio | Nativ synthetisiert, in einem Pass synchronisiert |
| Eingaben | Text / Bild / Video / Audio-Referenzen |
| Zugriff | Staging in der Gemini-App, API nach dem I/O erwartet |
| Kontingent | Berichten zufolge verbrauchen zwei Omni-Generierungen ~86 % des AI-Pro-Tageskontingents |
Googles generativer Stack war bislang in Veo (Video), Nano Banana / Imagen (Bild) und Gemini (Text) aufgeteilt. Omni führt sie in einer Architektur zusammen.
Vorher
Veo 3.1
Video + nativer Audio
Nano Banana / Imagen
Bildgenerierung und -bearbeitung
Gemini 2.5 / 3.x
Reasoning · langer Kontext
Jetzt · Omni
Gemini Omni
Text · Bild · Video · Audio, ein Modell, ein Prompt
Ein vereintes Modell mit langem Kontext und synchronem Audio heißt: Ein kohärenter Brief, ein fertiger Schnitt — ohne Tool-Wechsel.
Hero-Shots, Packaging-Reveals und Lifestyle-Schnitte mit bereits eingebettetem Ambient-Sound.
Vertikale 9:16-Clips mit On-Mic-Dialog und beat-synchroner Bewegung — perfekt für Social.
Track referenzieren, Omni schneidet auf den Beat und hält Charaktere über Shots konsistent.
Mehrere 10-Sekunden-Omni-Clips zu Multi-Shot-Sequenzen verketten — Licht und Audio-Bett bleiben durchgängig.
Loopbare 16:9-Atmosphäre für SaaS, Fashion und DTC — gebrandet und stumm lesbar.
Skript in narrierte Sequenz mit lippensynchronem Dialog und passendem Ambient-Sound umwandeln.
Aggregiert aus Artificial Analysis, Looksy AI, Oimi AI und offiziellen Keynotes — als Orientierung, nicht als Benchmark.
| Modell | Anbieter | Architektur | Nativer Audio | Cliplänge |
|---|---|---|---|---|
| Gemini Omni
Omni
| Vereinter Omni (Video + Bild + Audio) | In einem Pass synchron | 5 / 8 / 10s | |
| Veo 3.1 | Spezialisiertes Video-Modell | Ja | ~8s | |
| Seedance 2.0 | ByteDance | Spezialisiertes multimodales Video | Ja | bis 15s / Shot |
| Sora 2 | OpenAI | Spezialisiertes Video-Modell | Ja | ~20s |
| Kling V3.0 | Kuaishou | Spezialisiertes Video-Modell | Eingeschränkt | ~10s |
Nach öffentlichem Berichtsdatum sortiert, weiterhin in Bewegung.
X-User @Thomas16937378 entdeckt "Start with an idea or try a template. Powered by Omni." im Gemini-Video-Tab.
TestingCatalog und Chetaslua zeigen die "Meet our new video model"-Karte, die volle Modell-ID und die 10-Sekunden-Grenze.
Ein Clip mit "Professor löst Trigonometrie an der Tafel" zeigt Textkohärenz und physikalische Treue und löst breite Vergleiche mit Veo 3.1 aus.
Mainstage-Zeit für Omni wird breit erwartet, möglicherweise mit Flash/Pro-Staffelung, API und neuer Abostruktur.
Es ist Googles kommendes vereintes Multimodal-Modell, das in einer Architektur nativ Text, Bild, Video und synchronen Audio erzeugt — quasi die Verschmelzung von Veo, Imagen und Gemini.
Mitte Mai 2026 ist Omni weiterhin in der Leak-Phase. Erwartete Vorstellung: Google-I/O-2026-Mainstage (19.–20. Mai).
Metadaten deuten an, dass Omni technisch vom Veo-Stack erbt, die Veo-Marke aber fallen lässt und Video in Geminis Text- und Bild-Schichten faltet.
Ja. Ambiente, Score und Dialog werden im selben Pass wie das Video erzeugt — genau dafür steht das "omni" im Namen.
Die geleakte Modell-ID weist auf 5, 8 oder 10 Sekunden pro Generierung hin, Mehrfach-Clip-Verkettung clientseitig.
Unbestätigt. Ein Reddit-Screenshot zeigt, dass zwei Omni-Generierungen ~86 % des AI-Pro-Tageskontingents fressen — ein "Ultra/Pro Plus"-Tier ist plausibel.
Alle Inhalte hier sind aus den unten genannten öffentlichen Quellen aggregiert. Querlesen empfohlen.
Leak-Details, UI-Strings und frühe Demo-Analysen.
Spekulationen zur Architektur und Vergleich mit Seedance / Veo.
Volle Modell-ID, In-App-Prompts und Community-Reaktionen.
Zusammenfassung von Specs, Use-Cases und Vergleichen.
Multimodale Fähigkeiten der Familie, langer Kontext und agentische Richtung.