Natywne wyjście multimodalne
Jeden prompt tworzy spójne tekst, klatki kluczowe i wideo, a postacie, styl i oświetlenie zachowują się spójnie we wszystkich formatach.
Ogłoszone na głównej scenie Google I/O 2026, Gemini Omni łączy wiedzę Gemini o świecie z natywną generacją multimodalną — tekstem, obrazem, wideo i zsynchronizowanym dźwiękiem w jednej architekturze. Zastępuje Veo 3.1 w aplikacji Gemini i wprowadza image-to-video, edycję video-to-video oraz osobistego awatara AI.
Każdy klip poniżej jest osadzony bezpośrednio z oficjalnej strony produktu Gemini Omni: text-to-video, image-to-video, transfer stylu, edycja w czacie, video-to-video i AI avatar.
Wszystkie wideo demo © Google, używane tu w celach informacyjnych; strumieniowane bezpośrednio ze storage.googleapis.com/gweb-gemini-cdn.
Główny hero reel Gemini Omni: twórz, remiksuj i edytuj wideo rozmową.
Jeden prompt tekstowy generuje klip multi-shot ze spójnym otoczeniem i językiem kamery.
Prześlij obrazy referencyjne, a Omni poprowadzi ruch, samodzielnie wypełniając oś czasu.
Zmień tło, garderobę lub przenieś styl — temat zachowuje swoje detale.
Przepisz istniejące nagranie w nowym stylu — światło, obiektyw, a nawet materiał zmieniane promptem.
Zmień obsadę, dostosuj światło, ustabilizuj ujęcia — wszystko czatem, bez regeneracji.
Skonfiguruj raz AI avatar i pojawiaj się w każdym kolejnym wideo bez ponownego wgrywania zdjęć.
W przeciwieństwie do wyspecjalizowanych modeli wideo jak Veo, Sora 2, Seedance 2.0 czy Kling, Gemini Omni utrzymuje rozumowanie językowe, generowanie obrazu, generowanie wideo i syntezę audio w tej samej architekturze.
Jeden prompt tworzy spójne tekst, klatki kluczowe i wideo, a postacie, styl i oświetlenie zachowują się spójnie we wszystkich formatach.
Koniec z łączeniem wyspecjalizowanych modeli. Tekst, obraz, wideo i audio dzielą te same wagi i ten sam długi kontekst.
Dźwięk otoczenia, muzyka i dialog są dopasowane do obrazu w tym samym forward pass — przy pierwszym eksporcie kroki padają na beat, a usta zgadzają się z mową.
Zamień obiekt, zmień oświetlenie, dostosuj ruch kamery w języku naturalnym — bez pełnej regeneracji, w duchu Nano Banana.
Prześlij istniejący klip i ukierunkuj go promptem. Obrazy, wideo i ścieżki audio referencyjne można łączyć w jednej instrukcji.
Wbudowane szablony reklam produktowych, Reels, teledysków i krótkich form filmowych obniżają próg wejścia, zachowując spójny język kamery.
Poniższe dane to agregat przecieków z Reddita/X oraz raportów TestingCatalog, Programming Insider i OfficeChai.
| Parametr | Znany sygnał |
|---|---|
| Rodzina modeli | Google Gemini — następca marki Veo |
| ID modelu | bard_eac_video_generation_omni / v3smm-lora-prod |
| Długość klipu | 5 / 8 / 10 sekund na generację, łączone w aplikacji |
| Rozdzielczość | 480p / 720p / 1080p |
| Proporcje | 16:9, 9:16, 1:1 |
| Audio | Syntetyzowane natywnie, synchronizowane w jednym przebiegu |
| Wejścia | Referencje tekstowe / obrazowe / wideo / audio |
| Dostęp | Dostępne w aplikacji Gemini dla abonentów 18+ Google AI Plus / Pro / Ultra |
| Sygnał kwoty | Raporty mówią, że dwie generacje Omni zużywają ~86% dziennego limitu AI Pro |
Stos generatywny Google był dotąd podzielony na Veo (wideo), Nano Banana / Imagen (obraz) i Gemini (tekst). Omni łączy je w jednej architekturze.
Wcześniej
Veo 3.1
Wideo + natywne audio
Nano Banana / Imagen
Generowanie i edycja obrazu
Gemini 2.5 / 3.x
Rozumowanie · długi kontekst
Teraz · Omni
Gemini Omni
Tekst · obraz · wideo · audio, jeden model, jeden prompt
Zunifikowany model z długim kontekstem i zsynchronizowanym audio pozwala zespołom napisać jeden spójny brief i wyjść z gotowym montażem.
Hero shoty, prezentacje opakowań i ujęcia lifestyle z gotowym dźwiękiem otoczenia.
Pionowe klipy 9:16 z dialogiem na mikrofonie i ruchem zsynchronizowanym z beatem — pod scroll.
Wskaż utwór, a Omni tnie obraz na beat, utrzymując spójność postaci między ujęciami.
Łącz wiele 10-sekundowych omni-clipów w sekwencje multi-shot z ciągłym oświetleniem i tłem audio.
Pętlowalne klipy 16:9 dla SaaS, mody i DTC — brandowane i przyjazne ciszy.
Zamień skrypt w sekwencję z lip-syncem i dopasowanym dźwiękiem otoczenia.
Agregat na podstawie Artificial Analysis, Looksy AI, Oimi AI i oficjalnych keynote — do orientacji, nie wyniki benchmarków.
| Model | Producent | Architektura | Natywne audio | Długość klipu |
|---|---|---|---|---|
| Gemini Omni
Omni
| Zunifikowane omni (wideo + obraz + audio) | Synchronizacja w jednym przebiegu | 5 / 8 / 10s | |
| Veo 3.1 | Wyspecjalizowany model wideo | Tak | ~8s | |
| Seedance 2.0 | ByteDance | Wyspecjalizowane wideo multimodalne | Tak | do 15s / ujęcie |
| Sora 2 | OpenAI | Wyspecjalizowany model wideo | Tak | ~20s |
| Kling V3.0 | Kuaishou | Wyspecjalizowany model wideo | Ograniczone | ~10s |
W kolejności daty publikacji, ciągle aktualizowane.
Użytkownik X @Thomas16937378 zauważył "Start with an idea or try a template. Powered by Omni." w zakładce wideo Gemini.
TestingCatalog i Chetaslua pokazali kartę "Meet our new video model", pełne ID modelu i limit 10 sekund.
Klip z "profesorem rozwiązującym trygonometrię na tablicy" pokazał spójność tekstu i fizyczną wiarygodność, podsycając porównanie z Veo 3.1.
Google odsłania Gemini Omni na głównej scenie I/O 2026, publikuje oficjalną stronę produktu z wideo demo i rozpoczyna zastępowanie Veo 3.1 w aplikacji Gemini.
Premiera obejmuje osobistego awatara AI, edycję video-to-video i konwersacyjną edycję wielokrokową — z ograniczeniami geograficznymi i wg planu.
Google potwierdził, że dostęp do API dla developerów i klientów biznesowych nadejdzie "w najbliższych tygodniach" bez sztywnej daty. Analitycy szacują cenę około 0,10–0,30 USD za sekundę generowanego wideo.
Następnie spodziewany jest mocniejszy Omni Pro wraz z bogatszymi wejściami audio (poza referencjami głosowymi) i modalnościami wyjścia w obrazie i audio – co spełni obietnicę "dowolne wejście → dowolne wyjście".
To zbliżający się zunifikowany model multimodalny Google, który natywnie generuje tekst, obraz, wideo i zsynchronizowane audio w jednej architekturze — w praktyce łączy Veo, Imagen i Gemini.
Już się ukazał. Google ogłosił Gemini Omni 19 maja 2026 roku na głównej scenie Google I/O 2026, jednocześnie publikując oficjalną stronę produktu i wideo demo.
Gemini Omni jest następcą Veo w aplikacji Gemini — Google wprost stwierdził, że "Omni zastąpi Veo w aplikacji Gemini". Stos wideo jest teraz w tej samej architekturze co tekst i obraz Gemini.
Tak. Dźwięk otoczenia, muzyka i dialogi powstają w tym samym przebiegu co wideo — stąd nazwa "omni".
Oficjalna strona produktu mówi o klipach do 10 sekund, natywnym audio, do 5 obrazach referencyjnych i edycji wielokrokowej.
Gemini Omni wymaga planu Google AI Plus, Pro lub Ultra i ukończonych 18 lat. Niektóre funkcje (avatary, edycja video-to-video) mogą być ograniczone w niektórych krajach.
Opcjonalna cyfrowa wersja Ciebie samego, dzięki której Gemini generuje wideo wyglądające i brzmiące jak Ty bez konieczności ponownego wgrywania zdjęć — Twojego avatara możesz używać tylko Ty.
Wszystko na tej stronie pochodzi z poniższych źródeł publicznych. Zalecane porównywanie wielu raportów.
Oficjalny wpis z premierą Omni Flash, funkcjami, powierzchniami i planem wdrożenia.
Pełne podsumowanie I/O 2026 obejmujące Gemini Omni, nowy plan AI Ultra za 100 USD i powiązane premiery.
Oficjalna strona premiery z wideo demo, przeglądem funkcji, wspieranymi planami i szczegółami wdrożenia.
Niezależna analiza tego, jak Omni łączy stos Veo + Imagen w jeden model, oraz co jest dostępne teraz vs. w przyszłości.
Szczegóły przecieków, ciągi UI i pierwsze analizy demo.
Pełne ID modelu, prompty w aplikacji i reakcje społeczności.
Schludne podsumowanie specyfikacji, zastosowań i porównań.
Multimodalność na poziomie rodziny, długi kontekst i kierunek agentowy.