Native multimodal output
Isang prompt lang ay gumagawa ng tugmang teksto, keyframes at video, na may pare-parehong characters, style at lighting sa kabila ng mga format.
Inanunsyo sa main stage ng Google I/O 2026, pinag-iisa ng Gemini Omni ang pag-unawa sa mundo ng Gemini sa native multimodal generation — teksto, larawan, video at synced na audio sa iisang arkitektura. Pinapalitan na nito ang Veo 3.1 sa loob ng Gemini app at may kasamang image-to-video, video-to-video editing at personal AI avatar.
Bawat clip sa ibaba ay embed mismo galing sa opisyal na Gemini Omni product page ng Google: text-to-video, image-to-video, style transfer, chat editing, video-to-video at ang AI avatar — buong saklaw ng kakayahan.
Lahat ng demo videos ay © Google, ginagamit dito para sa informational aggregation; nakas-stream direkta mula sa storage.googleapis.com/gweb-gemini-cdn.
Ang main hero reel ng Gemini Omni: lumikha, mag-remix at mag-edit ng video sa pamamagitan ng usapan.
Isang text prompt lang ay gumagawa ng multi-shot clip na may magkakaugnay na kapaligiran at camera language.
Mag-upload ng reference images at gagabayan ng Omni ang galaw, awtomatikong pinupunan ang timeline.
Palitan ang background, baguhin ang kasuotan o magbahagi ng style — pananatilihin ng subject ang mga detalye nito.
Pag-asahan muli ang footage sa bagong style — lighting, lens o kahit material na isinulat muli sa pamamagitan ng prompt.
Palitan ang mga characters, ayusin ang lighting, i-stabilize ang shots — lahat sa pamamagitan ng chat, walang muling pag-generate.
Mag-set up ng AI avatar nang isang beses, pagkatapos ay bida ka sa bawat susunod na video nang walang muling pag-upload ng photos.
Hindi tulad ng espesyalisadong video models gaya ng Veo, Sora 2, Seedance 2.0 o Kling, pinapanatili ng Gemini Omni ang language reasoning, image generation, video generation at audio synthesis sa loob ng iisang arkitektura.
Isang prompt lang ay gumagawa ng tugmang teksto, keyframes at video, na may pare-parehong characters, style at lighting sa kabila ng mga format.
Hindi na kailangang i-chain ang mga espesyalisadong modelo. Teksto, larawan, video at audio ay parehong weights at parehong mahabang context.
Ang ambient sound, score at dialogue ay aligned sa eksena sa loob ng iisang forward pass — tumama ang yapak sa beat, magkasync ang labi sa pananalita sa unang export pa lang.
Palitan ang isang object, baguhin ang lighting, ayusin ang galaw ng kamera sa natural na wika — walang full regeneration, gaya ng playbook ng Nano Banana.
Mag-upload ng existing clip at gabayan ito gamit ang mga prompt. Pwedeng pagsamahin ang reference images, videos at audio sa iisang instruction.
Built-in na mga template para sa product ads, Reels, music videos at cinematic shorts ang nagpapababa ng entry barrier para sa baguhan habang pinapanatili ang konsistensi ng camera language.
Ang mga numero sa ibaba ay galing sa Reddit/X leaks at sa reportage ng TestingCatalog, Programming Insider at OfficeChai.
| Dimensyon | Kilalang signal |
|---|---|
| Pamilya ng modelo | Google Gemini — kahalili ng Veo brand |
| Model ID | bard_eac_video_generation_omni / v3smm-lora-prod |
| Haba ng clip | 5 / 8 / 10 segundo bawat generation, chainable sa app |
| Resolution | 480p / 720p / 1080p |
| Aspect ratio | 16:9, 9:16, 1:1 |
| Audio | Native na sintesa, synced sa iisang pass |
| Mga input | Teksto / larawan / video / audio na references |
| Pag-access | Live sa Gemini app para sa Google AI Plus / Pro / Ultra subscribers na 18+ |
| Signal ng quota | Ayon sa report, dalawang Omni generation ay umuubos ng ~86% ng pang-araw-araw na quota ng AI Pro |
Dati, hati ang generative stack ng Google: Veo para sa video, Nano Banana / Imagen para sa larawan at Gemini para sa teksto. Iniipon ng Omni ang mga ito sa iisang arkitektura.
Dati
Veo 3.1
Video + native audio
Nano Banana / Imagen
Image generation at editing
Gemini 2.5 / 3.x
Reasoning · mahabang context
Ngayon · Omni
Gemini Omni
Teksto · larawan · video · audio, isang modelo, isang prompt
Ang pinagsamang modelo na may mahabang context at synced audio ay nangangahulugang puwedeng magsulat ang team ng isang coherent na brief at umuwi na may natapos na cut.
Hero shots, packaging reveals at lifestyle cuts na may locked nang ambient audio.
Vertical 9:16 clips na may on-mic dialogue at beat-synced motion, ginawa para pigilin ang scroll.
I-reference ang isang track at pinuputol ng Omni ang visuals sa beat, pinapanatili ang character sa buong shots.
I-chain ang ilang 10-segundong omni-clips para sa multi-shot sequence na may patuloy na lighting at audio bed.
Loopable 16:9 atmospheric clips para sa SaaS, fashion at DTC sites — branded at mute-friendly.
Gawing narrated sequence ang script na may lip-synced dialogue at tugmang ambient sound.
Tinipon mula sa Artificial Analysis, Looksy AI, Oimi AI at sa mga opisyal na keynote — pang-oryentasyon, hindi benchmark score.
| Modelo | Gumawa | Arkitektura | Native audio | Haba ng clip |
|---|---|---|---|---|
| Gemini Omni
Omni
| Unified omni (video + larawan + audio) | Synced sa iisang pass | 5 / 8 / 10s | |
| Veo 3.1 | Espesyalisadong video model | Oo | ~8s | |
| Seedance 2.0 | ByteDance | Espesyalisadong multimodal video | Oo | hanggang 15s / shot |
| Sora 2 | OpenAI | Espesyalisadong video model | Oo | ~20s |
| Kling V3.0 | Kuaishou | Espesyalisadong video model | Limitado | ~10s |
Inayos ayon sa public report date, patuloy na umuunlad.
Natuklasan ng X user na @Thomas16937378 ang "Start with an idea or try a template. Powered by Omni." sa video tab ng Gemini.
Inilabas ng TestingCatalog at Chetaslua ang "Meet our new video model" card, buong model ID at ang 10-segundong clip cap.
Ipinakita ng clip na "propesor na nilulutas ang trigonometriya sa pisara" ang text coherence at physical fidelity, na nagdulot ng matinding paghahambing sa Veo 3.1.
Pinakilala ng Google ang Gemini Omni sa main stage ng I/O 2026, naglabas ng opisyal na product page na may demo videos, at sinimulang palitan ang Veo 3.1 sa loob ng Gemini app.
May kasamang personal AI avatar, video-to-video editing at chat-style multi-turn editing ang launch — limitado batay sa lokasyon at subscription tier.
Kinumpirma ng Google na ang API access para sa developers at enterprise customers ay "darating sa mga susunod na linggo" nang walang tiyak na petsa. Tantiya ng analyst na nasa $0.10–$0.30 bawat segundo ng video output ang presyo.
Susunod ang inaasahang mas mahusay na Omni Pro, kasama ang mas mayamang audio inputs lampas sa voice references at output modalities para sa image at audio — para makompleto ang pangako na "anumang input → anumang output".
Ito ang paparating na pinagsamang multimodal model ng Google na native na gumagawa ng teksto, larawan, video at synced audio sa iisang arkitektura — ginagawang isa ang Veo, Imagen at Gemini.
Lumabas na. Inanunsyo ng Google ang Gemini Omni sa main stage ng Google I/O 2026 noong Mayo 19, 2026, kasabay ng paglalathala ng opisyal na product page at demo videos.
Ang Gemini Omni ang kahalili ng Veo sa loob ng Gemini app — sinabi mismo ng Google na "papalitan ng Omni ang Veo sa Gemini app". Ang video stack ay nakatupi na ngayon sa parehong arkitektura ng text at image ng Gemini.
Oo. Ang ambient sound, score at dialogue ay ginawa sa parehong pass ng video — iyon ang dahilan kung bakit "omni" ang pangalan.
Sinasabi ng opisyal na product page na hanggang 10-segundong clips, na may native audio, hanggang 5 photo reference at multi-turn editing.
Kailangan ng Gemini Omni ng Google AI Plus, Pro o Ultra plan at dapat 18+ ka. Maaaring limitado ang ilang features (avatars, video-to-video editing) sa ilang bansa.
Isang opsyonal na digital na bersyon mo na nagbibigay-daan sa Gemini na gumawa ng mga video na mukhang ikaw at parang boses mo, walang muling pag-upload ng photos sa bawat session — at ikaw lang ang makakagamit ng sarili mong avatar.
Lahat ng nasa pahinang ito ay tinipon mula sa public sources sa ibaba. Inirerekomenda ang cross-reading.
Opisyal na announcement post na nagdedetalye ng Omni Flash launch, kakayahan, surfaces at rollout plan.
Buong recap ng I/O 2026 na sumasaklaw sa Gemini Omni, bagong $100 AI Ultra tier at iba pang launches.
Ang opisyal na launch page na may demo videos, capability tour, supported plans at rollout details.
Independent analyst overview kung paano pinapagsama ng Omni ang Veo + Imagen stack sa isang modelo at kung ano ang ipinapadala ngayon vs. susunod.
Mga detalye ng leak, UI strings at maagang demo analysis.
Buong model ID, mga in-app prompt at reaksyon ng komunidad.
Maayos na summary ng specs, use cases at paghahambing.
Family-level multimodality, mahabang context at agentic direction.