Gemini Omni
Live na · Pinapalitan ang Veo sa Gemini app

Gemini Omni
Sabihin. Tingnan. Ibahagi.

Inanunsyo sa main stage ng Google I/O 2026, pinag-iisa ng Gemini Omni ang pag-unawa sa mundo ng Gemini sa native multimodal generation — teksto, larawan, video at synced na audio sa iisang arkitektura. Pinapalitan na nito ang Veo 3.1 sa loob ng Gemini app at may kasamang image-to-video, video-to-video editing at personal AI avatar.

Pinagsamang modelo Synced na audio In-chat editing
Omni
Text
Image
Video
Audio

Mabilisang stats

5–10s Haba ng clip
1080p Pinakamataas na output
16:9 · 9:16 · 1:1 Mga aspect ratio
I/O 2026 Inaasahang pagsisiwalat
Mga opisyal na demo

Tingnan ang totoong output ng Gemini Omni

Bawat clip sa ibaba ay embed mismo galing sa opisyal na Gemini Omni product page ng Google: text-to-video, image-to-video, style transfer, chat editing, video-to-video at ang AI avatar — buong saklaw ng kakayahan.

Lahat ng demo videos ay © Google, ginagamit dito para sa informational aggregation; nakas-stream direkta mula sa storage.googleapis.com/gweb-gemini-cdn.

Sabihin. Tingnan. Ibahagi.

Ang main hero reel ng Gemini Omni: lumikha, mag-remix at mag-edit ng video sa pamamagitan ng usapan.

Tingnan ang opisyal na page
Teksto → video

Pumasok sa kuwento

Isang text prompt lang ay gumagawa ng multi-shot clip na may magkakaugnay na kapaligiran at camera language.

Larawan → video

Buhayin ang mga larawan

Mag-upload ng reference images at gagabayan ng Omni ang galaw, awtomatikong pinupunan ang timeline.

Style · template

Panatilihin ang diwa ng shot

Palitan ang background, baguhin ang kasuotan o magbahagi ng style — pananatilihin ng subject ang mga detalye nito.

Video → video

Mag-remix ng existing na clip

Pag-asahan muli ang footage sa bagong style — lighting, lens o kahit material na isinulat muli sa pamamagitan ng prompt.

Chat editing

Madaling pag-edit

Palitan ang mga characters, ayusin ang lighting, i-stabilize ang shots — lahat sa pamamagitan ng chat, walang muling pag-generate.

AI avatar

Maging bida sa sarili mong show

Mag-set up ng AI avatar nang isang beses, pagkatapos ay bida ka sa bawat susunod na video nang walang muling pag-upload ng photos.

Mga kakayahan

Tinipon sa isang modelo ang buong pipeline

Hindi tulad ng espesyalisadong video models gaya ng Veo, Sora 2, Seedance 2.0 o Kling, pinapanatili ng Gemini Omni ang language reasoning, image generation, video generation at audio synthesis sa loob ng iisang arkitektura.

Native multimodal output

Isang prompt lang ay gumagawa ng tugmang teksto, keyframes at video, na may pare-parehong characters, style at lighting sa kabila ng mga format.

Isang pinagsamang Gemini stack

Hindi na kailangang i-chain ang mga espesyalisadong modelo. Teksto, larawan, video at audio ay parehong weights at parehong mahabang context.

Synced na native audio

Ang ambient sound, score at dialogue ay aligned sa eksena sa loob ng iisang forward pass — tumama ang yapak sa beat, magkasync ang labi sa pananalita sa unang export pa lang.

Direktang pag-edit sa chat

Palitan ang isang object, baguhin ang lighting, ayusin ang galaw ng kamera sa natural na wika — walang full regeneration, gaya ng playbook ng Nano Banana.

Remix at gabayan

Mag-upload ng existing clip at gabayan ito gamit ang mga prompt. Pwedeng pagsamahin ang reference images, videos at audio sa iisang instruction.

Mga template at istilo

Built-in na mga template para sa product ads, Reels, music videos at cinematic shorts ang nagpapababa ng entry barrier para sa baguhan habang pinapanatili ang konsistensi ng camera language.

Specs

Anong matitipon bago mag-keynote

Ang mga numero sa ibaba ay galing sa Reddit/X leaks at sa reportage ng TestingCatalog, Programming Insider at OfficeChai.

Dimensyon Kilalang signal
Pamilya ng modelo Google Gemini — kahalili ng Veo brand
Model ID bard_eac_video_generation_omni / v3smm-lora-prod
Haba ng clip 5 / 8 / 10 segundo bawat generation, chainable sa app
Resolution 480p / 720p / 1080p
Aspect ratio 16:9, 9:16, 1:1
Audio Native na sintesa, synced sa iisang pass
Mga input Teksto / larawan / video / audio na references
Pag-access Live sa Gemini app para sa Google AI Plus / Pro / Ultra subscribers na 18+
Signal ng quota Ayon sa report, dalawang Omni generation ay umuubos ng ~86% ng pang-araw-araw na quota ng AI Pro
Arkitektura

Tatlong product line, nagsanib sa isang Omni

Dati, hati ang generative stack ng Google: Veo para sa video, Nano Banana / Imagen para sa larawan at Gemini para sa teksto. Iniipon ng Omni ang mga ito sa iisang arkitektura.

Dati

Veo 3.1

Video + native audio

Nano Banana / Imagen

Image generation at editing

Gemini 2.5 / 3.x

Reasoning · mahabang context

Ngayon · Omni

Gemini Omni

Teksto · larawan · video · audio, isang modelo, isang prompt

Text Image Video Audio
Mga use case

Mula sa isang brief hanggang publishable na content

Ang pinagsamang modelo na may mahabang context at synced audio ay nangangahulugang puwedeng magsulat ang team ng isang coherent na brief at umuwi na may natapos na cut.

01

Product ads

Hero shots, packaging reveals at lifestyle cuts na may locked nang ambient audio.

02

Reels & Shorts

Vertical 9:16 clips na may on-mic dialogue at beat-synced motion, ginawa para pigilin ang scroll.

03

Music videos

I-reference ang isang track at pinuputol ng Omni ang visuals sa beat, pinapanatili ang character sa buong shots.

04

Cinematic shorts

I-chain ang ilang 10-segundong omni-clips para sa multi-shot sequence na may patuloy na lighting at audio bed.

05

Hero loops sa landing page

Loopable 16:9 atmospheric clips para sa SaaS, fashion at DTC sites — branded at mute-friendly.

06

Mga explainer at tutorial

Gawing narrated sequence ang script na may lip-synced dialogue at tugmang ambient sound.

Ihambing

Saan tumatayo ang Omni sa 2026 video stack

Tinipon mula sa Artificial Analysis, Looksy AI, Oimi AI at sa mga opisyal na keynote — pang-oryentasyon, hindi benchmark score.

Modelo Gumawa Arkitektura Native audio Haba ng clip
Gemini Omni Omni
Google Unified omni (video + larawan + audio) Synced sa iisang pass 5 / 8 / 10s
Veo 3.1
Google Espesyalisadong video model Oo ~8s
Seedance 2.0
ByteDance Espesyalisadong multimodal video Oo hanggang 15s / shot
Sora 2
OpenAI Espesyalisadong video model Oo ~20s
Kling V3.0
Kuaishou Espesyalisadong video model Limitado ~10s
Timeline

Mula sa unang leak hanggang sa stage ng I/O 2026

Inayos ayon sa public report date, patuloy na umuunlad.

  1. 2026 · 05 · 02

    Unang "Powered by Omni" na string

    Natuklasan ng X user na @Thomas16937378 ang "Start with an idea or try a template. Powered by Omni." sa video tab ng Gemini.

  2. 2026 · 05 · 11

    Buong preview card sa Gemini mobile

    Inilabas ng TestingCatalog at Chetaslua ang "Meet our new video model" card, buong model ID at ang 10-segundong clip cap.

  3. 2026 · 05 · 12 – 18

    Kumalat ang demos sa publiko

    Ipinakita ng clip na "propesor na nilulutas ang trigonometriya sa pisara" ang text coherence at physical fidelity, na nagdulot ng matinding paghahambing sa Veo 3.1.

  4. 2026 · 05 · 19

    Opisyal na launch sa Google I/O 2026

    Pinakilala ng Google ang Gemini Omni sa main stage ng I/O 2026, naglabas ng opisyal na product page na may demo videos, at sinimulang palitan ang Veo 3.1 sa loob ng Gemini app.

  5. 2026 · 05 · 19 pataas

    Pag-rollout ng AI Avatar, video-to-video at multi-turn editing

    May kasamang personal AI avatar, video-to-video editing at chat-style multi-turn editing ang launch — limitado batay sa lokasyon at subscription tier.

  6. Mga susunod na linggo · 2026 · 06+

    Developer at enterprise API gamit ang Gemini API at Vertex AI

    Kinumpirma ng Google na ang API access para sa developers at enterprise customers ay "darating sa mga susunod na linggo" nang walang tiyak na petsa. Tantiya ng analyst na nasa $0.10–$0.30 bawat segundo ng video output ang presyo.

  7. Nasa roadmap

    Gemini Omni Pro + image & audio outputs

    Susunod ang inaasahang mas mahusay na Omni Pro, kasama ang mas mayamang audio inputs lampas sa voice references at output modalities para sa image at audio — para makompleto ang pangako na "anumang input → anumang output".

FAQ

Mga tanong na madalas itanong tungkol sa Gemini Omni

Ano nga ba ang Gemini Omni?

Ito ang paparating na pinagsamang multimodal model ng Google na native na gumagawa ng teksto, larawan, video at synced audio sa iisang arkitektura — ginagawang isa ang Veo, Imagen at Gemini.

Kailan ito magla-launch?

Lumabas na. Inanunsyo ng Google ang Gemini Omni sa main stage ng Google I/O 2026 noong Mayo 19, 2026, kasabay ng paglalathala ng opisyal na product page at demo videos.

Paano ito konektado sa Veo 3.1?

Ang Gemini Omni ang kahalili ng Veo sa loob ng Gemini app — sinabi mismo ng Google na "papalitan ng Omni ang Veo sa Gemini app". Ang video stack ay nakatupi na ngayon sa parehong arkitektura ng text at image ng Gemini.

Talaga bang gumagawa ito ng tunog?

Oo. Ang ambient sound, score at dialogue ay ginawa sa parehong pass ng video — iyon ang dahilan kung bakit "omni" ang pangalan.

Ano ang kasalukuyang limitasyon ng haba ng clip?

Sinasabi ng opisyal na product page na hanggang 10-segundong clips, na may native audio, hanggang 5 photo reference at multi-turn editing.

Paano ang presyo?

Kailangan ng Gemini Omni ng Google AI Plus, Pro o Ultra plan at dapat 18+ ka. Maaaring limitado ang ilang features (avatars, video-to-video editing) sa ilang bansa.

Ano ang AI avatar ng Gemini Omni?

Isang opsyonal na digital na bersyon mo na nagbibigay-daan sa Gemini na gumawa ng mga video na mukhang ikaw at parang boses mo, walang muling pag-upload ng photos sa bawat session — at ikaw lang ang makakagamit ng sarili mong avatar.