Gemini Omni
Dostępne · Zastępuje Veo w aplikacji Gemini

Gemini Omni
Powiedz. Zobacz. Udostępnij.

Ogłoszone na głównej scenie Google I/O 2026, Gemini Omni łączy wiedzę Gemini o świecie z natywną generacją multimodalną — tekstem, obrazem, wideo i zsynchronizowanym dźwiękiem w jednej architekturze. Zastępuje Veo 3.1 w aplikacji Gemini i wprowadza image-to-video, edycję video-to-video oraz osobistego awatara AI.

Zunifikowany model Zsynchronizowany dźwięk Edycja w czacie
Omni
Text
Image
Video
Audio

Szybkie statystyki

5–10 s Długość klipu
1080p Maks. wyjście
16:9 · 9:16 · 1:1 Proporcje
I/O 2026 Premiera
Oficjalne demo

Zobacz, co naprawdę produkuje Gemini Omni

Każdy klip poniżej jest osadzony bezpośrednio z oficjalnej strony produktu Gemini Omni: text-to-video, image-to-video, transfer stylu, edycja w czacie, video-to-video i AI avatar.

Wszystkie wideo demo © Google, używane tu w celach informacyjnych; strumieniowane bezpośrednio ze storage.googleapis.com/gweb-gemini-cdn.

Speak it. See it. Share it.

Główny hero reel Gemini Omni: twórz, remiksuj i edytuj wideo rozmową.

Zobacz oficjalną stronę
Tekst → wideo

Wejdź w historię

Jeden prompt tekstowy generuje klip multi-shot ze spójnym otoczeniem i językiem kamery.

Obraz → wideo

Ożyw zdjęcia

Prześlij obrazy referencyjne, a Omni poprowadzi ruch, samodzielnie wypełniając oś czasu.

Styl · szablon

Zachowaj duszę ujęcia

Zmień tło, garderobę lub przenieś styl — temat zachowuje swoje detale.

Wideo → wideo

Zremiksuj istniejący klip

Przepisz istniejące nagranie w nowym stylu — światło, obiektyw, a nawet materiał zmieniane promptem.

Edycja w czacie

Łatwa edycja

Zmień obsadę, dostosuj światło, ustabilizuj ujęcia — wszystko czatem, bez regeneracji.

AI avatar

Bądź gwiazdą własnego show

Skonfiguruj raz AI avatar i pojawiaj się w każdym kolejnym wideo bez ponownego wgrywania zdjęć.

Możliwości

Cały pipeline kondensuje się w jednym modelu

W przeciwieństwie do wyspecjalizowanych modeli wideo jak Veo, Sora 2, Seedance 2.0 czy Kling, Gemini Omni utrzymuje rozumowanie językowe, generowanie obrazu, generowanie wideo i syntezę audio w tej samej architekturze.

Natywne wyjście multimodalne

Jeden prompt tworzy spójne tekst, klatki kluczowe i wideo, a postacie, styl i oświetlenie zachowują się spójnie we wszystkich formatach.

Zunifikowany stos Gemini

Koniec z łączeniem wyspecjalizowanych modeli. Tekst, obraz, wideo i audio dzielą te same wagi i ten sam długi kontekst.

Zsynchronizowane natywne audio

Dźwięk otoczenia, muzyka i dialog są dopasowane do obrazu w tym samym forward pass — przy pierwszym eksporcie kroki padają na beat, a usta zgadzają się z mową.

Edycja bezpośrednio w czacie

Zamień obiekt, zmień oświetlenie, dostosuj ruch kamery w języku naturalnym — bez pełnej regeneracji, w duchu Nano Banana.

Remiks i sterowanie

Prześlij istniejący klip i ukierunkuj go promptem. Obrazy, wideo i ścieżki audio referencyjne można łączyć w jednej instrukcji.

Szablony i style

Wbudowane szablony reklam produktowych, Reels, teledysków i krótkich form filmowych obniżają próg wejścia, zachowując spójny język kamery.

Specyfikacja

Co da się zestawić przed keynote

Poniższe dane to agregat przecieków z Reddita/X oraz raportów TestingCatalog, Programming Insider i OfficeChai.

Parametr Znany sygnał
Rodzina modeli Google Gemini — następca marki Veo
ID modelu bard_eac_video_generation_omni / v3smm-lora-prod
Długość klipu 5 / 8 / 10 sekund na generację, łączone w aplikacji
Rozdzielczość 480p / 720p / 1080p
Proporcje 16:9, 9:16, 1:1
Audio Syntetyzowane natywnie, synchronizowane w jednym przebiegu
Wejścia Referencje tekstowe / obrazowe / wideo / audio
Dostęp Dostępne w aplikacji Gemini dla abonentów 18+ Google AI Plus / Pro / Ultra
Sygnał kwoty Raporty mówią, że dwie generacje Omni zużywają ~86% dziennego limitu AI Pro
Architektura

Trzy linie produktowe łączą się w jedno Omni

Stos generatywny Google był dotąd podzielony na Veo (wideo), Nano Banana / Imagen (obraz) i Gemini (tekst). Omni łączy je w jednej architekturze.

Wcześniej

Veo 3.1

Wideo + natywne audio

Nano Banana / Imagen

Generowanie i edycja obrazu

Gemini 2.5 / 3.x

Rozumowanie · długi kontekst

Teraz · Omni

Gemini Omni

Tekst · obraz · wideo · audio, jeden model, jeden prompt

Text Image Video Audio
Zastosowania

Od jednego briefu do gotowej publikacji

Zunifikowany model z długim kontekstem i zsynchronizowanym audio pozwala zespołom napisać jeden spójny brief i wyjść z gotowym montażem.

01

Reklamy produktowe

Hero shoty, prezentacje opakowań i ujęcia lifestyle z gotowym dźwiękiem otoczenia.

02

Reels & Shorts

Pionowe klipy 9:16 z dialogiem na mikrofonie i ruchem zsynchronizowanym z beatem — pod scroll.

03

Teledyski

Wskaż utwór, a Omni tnie obraz na beat, utrzymując spójność postaci między ujęciami.

04

Krótkie formy filmowe

Łącz wiele 10-sekundowych omni-clipów w sekwencje multi-shot z ciągłym oświetleniem i tłem audio.

05

Hero loop na landing page

Pętlowalne klipy 16:9 dla SaaS, mody i DTC — brandowane i przyjazne ciszy.

06

Explainery i tutoriale

Zamień skrypt w sekwencję z lip-syncem i dopasowanym dźwiękiem otoczenia.

Porównanie

Gdzie plasuje się Omni w stosie wideo 2026

Agregat na podstawie Artificial Analysis, Looksy AI, Oimi AI i oficjalnych keynote — do orientacji, nie wyniki benchmarków.

Model Producent Architektura Natywne audio Długość klipu
Gemini Omni Omni
Google Zunifikowane omni (wideo + obraz + audio) Synchronizacja w jednym przebiegu 5 / 8 / 10s
Veo 3.1
Google Wyspecjalizowany model wideo Tak ~8s
Seedance 2.0
ByteDance Wyspecjalizowane wideo multimodalne Tak do 15s / ujęcie
Sora 2
OpenAI Wyspecjalizowany model wideo Tak ~20s
Kling V3.0
Kuaishou Wyspecjalizowany model wideo Ograniczone ~10s
Oś czasu

Od pierwszego przecieku do sceny I/O 2026

W kolejności daty publikacji, ciągle aktualizowane.

  1. 2026 · 05 · 02

    Pierwszy ciąg "Powered by Omni"

    Użytkownik X @Thomas16937378 zauważył "Start with an idea or try a template. Powered by Omni." w zakładce wideo Gemini.

  2. 2026 · 05 · 11

    Pełna karta podglądu w aplikacji Gemini mobile

    TestingCatalog i Chetaslua pokazali kartę "Meet our new video model", pełne ID modelu i limit 10 sekund.

  3. 2026 · 05 · 12 – 18

    Demo krążą po sieci

    Klip z "profesorem rozwiązującym trygonometrię na tablicy" pokazał spójność tekstu i fizyczną wiarygodność, podsycając porównanie z Veo 3.1.

  4. 2026 · 05 · 19

    Oficjalna premiera na Google I/O 2026

    Google odsłania Gemini Omni na głównej scenie I/O 2026, publikuje oficjalną stronę produktu z wideo demo i rozpoczyna zastępowanie Veo 3.1 w aplikacji Gemini.

  5. od 2026 · 05 · 19

    Wdrażanie AI Avatara, video-to-video i edycji multi-turn

    Premiera obejmuje osobistego awatara AI, edycję video-to-video i konwersacyjną edycję wielokrokową — z ograniczeniami geograficznymi i wg planu.

  6. Najbliższe tygodnie · 2026 · 06+

    API dla developerów i firm przez Gemini API oraz Vertex AI

    Google potwierdził, że dostęp do API dla developerów i klientów biznesowych nadejdzie "w najbliższych tygodniach" bez sztywnej daty. Analitycy szacują cenę około 0,10–0,30 USD za sekundę generowanego wideo.

  7. W planach

    Gemini Omni Pro oraz wyjścia obrazu i audio

    Następnie spodziewany jest mocniejszy Omni Pro wraz z bogatszymi wejściami audio (poza referencjami głosowymi) i modalnościami wyjścia w obrazie i audio – co spełni obietnicę "dowolne wejście → dowolne wyjście".

FAQ

Najczęstsze pytania o Gemini Omni

Czym dokładnie jest Gemini Omni?

To zbliżający się zunifikowany model multimodalny Google, który natywnie generuje tekst, obraz, wideo i zsynchronizowane audio w jednej architekturze — w praktyce łączy Veo, Imagen i Gemini.

Kiedy się ukaże?

Już się ukazał. Google ogłosił Gemini Omni 19 maja 2026 roku na głównej scenie Google I/O 2026, jednocześnie publikując oficjalną stronę produktu i wideo demo.

Jak ma się do Veo 3.1?

Gemini Omni jest następcą Veo w aplikacji Gemini — Google wprost stwierdził, że "Omni zastąpi Veo w aplikacji Gemini". Stos wideo jest teraz w tej samej architekturze co tekst i obraz Gemini.

Czy naprawdę generuje też dźwięk?

Tak. Dźwięk otoczenia, muzyka i dialogi powstają w tym samym przebiegu co wideo — stąd nazwa "omni".

Jaki jest obecny limit długości klipu?

Oficjalna strona produktu mówi o klipach do 10 sekund, natywnym audio, do 5 obrazach referencyjnych i edycji wielokrokowej.

Jak będzie wyglądać cennik?

Gemini Omni wymaga planu Google AI Plus, Pro lub Ultra i ukończonych 18 lat. Niektóre funkcje (avatary, edycja video-to-video) mogą być ograniczone w niektórych krajach.

Czym jest AI avatar Gemini Omni?

Opcjonalna cyfrowa wersja Ciebie samego, dzięki której Gemini generuje wideo wyglądające i brzmiące jak Ty bez konieczności ponownego wgrywania zdjęć — Twojego avatara możesz używać tylko Ty.