नेटिव मल्टीमॉडल आउटपुट
एक ही प्रॉम्प्ट से मेल खाते टेक्स्ट, कीफ्रेम और वीडियो तैयार होते हैं, और किरदार, स्टाइल व लाइटिंग सभी फॉर्मेट में लगातार बनी रहती है।
Google I/O 2026 के मुख्य मंच पर घोषित, Gemini Omni Gemini की वास्तविक दुनिया की समझ को मूल मल्टीमॉडल जनरेशन के साथ एक ही आर्किटेक्चर में एकीकृत करता है — टेक्स्ट, इमेज, वीडियो और सिंक्रोनाइज़्ड ऑडियो सब एक साथ। यह Gemini ऐप में Veo 3.1 की जगह ले रहा है और इसमें image-to-video, video-to-video एडिटिंग और निजी AI अवतार आते हैं।
नीचे दी हर क्लिप Google के आधिकारिक Gemini Omni प्रोडक्ट पेज से सीधे एम्बेड है: text-to-video, image-to-video, स्टाइल ट्रांसफर, चैट एडिटिंग, video-to-video और AI अवतार — पूरी क्षमता-सतह।
सभी डेमो वीडियो © Google हैं, यहाँ सूचना संकलन के लिए उपयोग किए गए हैं; storage.googleapis.com/gweb-gemini-cdn से सीधे स्ट्रीम।
Gemini Omni की मुख्य हीरो रील: बातचीत से वीडियो बनाएँ, रीमिक्स करें और एडिट करें।
एक टेक्स्ट प्रॉम्प्ट से सुसंगत वातावरण और कैमरा भाषा वाला मल्टी-शॉट क्लिप।
रेफरेंस इमेज अपलोड करें — Omni गति देता है और टाइमलाइन अपने आप भरता है।
पृष्ठभूमि, पोशाक या स्टाइल बदलें — आपका विषय अपनी डिटेल रखता है।
किसी मौजूदा फुटेज को नई स्टाइल में ढालें — लाइटिंग, लेंस यहाँ तक कि मटीरियल भी प्रॉम्प्ट से बदलें।
किरदार बदलें, लाइटिंग ठीक करें, शॉट स्थिर करें — सिर्फ़ चैट से, फिर से जनरेट किए बिना।
एक बार AI अवतार सेट करें, फिर हर वीडियो में बिना फिर से फोटो अपलोड किए नज़र आएँ।
Veo, Sora 2, Seedance 2.0 या Kling जैसे विशेष वीडियो मॉडलों के विपरीत, Gemini Omni भाषा तर्क, इमेज जनरेशन, वीडियो जनरेशन और ऑडियो सिंथेसिस को एक ही आर्किटेक्चर में रखता है।
एक ही प्रॉम्प्ट से मेल खाते टेक्स्ट, कीफ्रेम और वीडियो तैयार होते हैं, और किरदार, स्टाइल व लाइटिंग सभी फॉर्मेट में लगातार बनी रहती है।
अब विशेष मॉडलों की चेन की जरूरत नहीं। टेक्स्ट, इमेज, वीडियो और ऑडियो समान वज़न और लंबे कॉन्टेक्स्ट को साझा करते हैं।
एम्बिएंट साउंड, स्कोर और संवाद उसी फॉरवर्ड पास में चित्र के साथ संरेखित होते हैं — पहली बार में ही फुटस्टेप ताल पर पड़ते हैं और होंठ बोलने से मिलते हैं।
किसी वस्तु को बदलें, लाइटिंग बदलें, कैमरा मूव को प्राकृतिक भाषा में सुधारें — बिना पूरी फिर से जनरेट किए, Nano Banana की एडिटिंग शैली में।
मौजूदा क्लिप अपलोड करें और प्रॉम्प्ट से उसे नई दिशा दें। संदर्भ छवियाँ, वीडियो और ऑडियो एक ही निर्देश में जोड़े जा सकते हैं।
प्रोडक्ट विज्ञापन, Reels, म्यूज़िक वीडियो और सिनेमैटिक शॉर्ट्स के लिए इन-बिल्ट टेम्पलेट शुरुआती लोगों की राह आसान बनाते हुए कैमरा भाषा में निरंतरता रखते हैं।
नीचे दिए आँकड़े Reddit/X लीक्स और TestingCatalog, Programming Insider व OfficeChai की रिपोर्टों से संकलित हैं।
| पैरामीटर | ज्ञात सिग्नल |
|---|---|
| मॉडल फ़ैमिली | Google Gemini — Veo लाइन का उत्तराधिकारी ब्रांड |
| मॉडल ID | bard_eac_video_generation_omni / v3smm-lora-prod |
| क्लिप लंबाई | प्रति जनरेशन 5 / 8 / 10 सेकंड, ऐप में चेन की जा सकती है |
| रिज़ोल्यूशन | 480p / 720p / 1080p |
| आस्पेक्ट रेशियो | 16:9, 9:16, 1:1 |
| ऑडियो | नेटिव रूप से सिंथेसाइज़्ड, एक ही पास में सिंक |
| इनपुट | टेक्स्ट / इमेज / वीडियो / ऑडियो संदर्भ |
| एक्सेस | 18+ Google AI Plus / Pro / Ultra सब्सक्राइबर के लिए Gemini ऐप में लाइव |
| कोटा संकेत | रिपोर्ट के अनुसार दो Omni जनरेशन से AI Pro के दैनिक कोटे का ~86% खर्च हो जाता है |
Google का जनरेटिव स्टैक पहले Veo (वीडियो), Nano Banana / Imagen (इमेज) और Gemini (टेक्स्ट) में बँटा था। Omni इन्हें एक ही आर्किटेक्चर में जोड़ देता है।
पहले
Veo 3.1
वीडियो + नेटिव ऑडियो
Nano Banana / Imagen
इमेज जनरेशन और एडिटिंग
Gemini 2.5 / 3.x
तर्क · लंबा कॉन्टेक्स्ट
अब · Omni
Gemini Omni
टेक्स्ट · इमेज · वीडियो · ऑडियो, एक मॉडल, एक प्रॉम्प्ट
लंबे कॉन्टेक्स्ट और सिंक्ड ऑडियो वाला एकीकृत मॉडल मतलब टीमें एक सुसंगत ब्रीफ लिखें और तैयार कट लेकर निकलें।
हीरो शॉट, पैकेजिंग रिवील और लाइफस्टाइल कट एम्बिएंट ऑडियो के साथ तैयार।
वर्टिकल 9:16 क्लिप, माइक्रोफोन डायलॉग और बीट-सिंक मोशन के साथ, स्क्रॉल रोकने वाला सोशल कंटेंट।
एक ट्रैक रेफरेंस दें और Omni बीट पर विज़ुअल काटता है, शॉट्स में किरदार स्थिर रखता है।
कई 10-सेकंड omni-clips को मल्टी-शॉट सीक्वेंस में जोड़ें, लाइटिंग और ऑडियो बेड लगातार।
SaaS, फ़ैशन और DTC साइटों के लिए लूपेबल 16:9 अम्बिएंट क्लिप — ब्रांडेड और साइलेंट-फ्रेंडली।
स्क्रिप्ट को लिप-सिंक नैरेशन और मेल खाते ऑडियो वाले सीक्वेंस में बदलें।
Artificial Analysis, Looksy AI, Oimi AI और आधिकारिक कीनोट से संकलित — अंकगणितीय बेंचमार्क नहीं, दिशा-दर्शक।
| मॉडल | निर्माता | आर्किटेक्चर | नेटिव ऑडियो | क्लिप लंबाई |
|---|---|---|---|---|
| Gemini Omni
Omni
| एकीकृत omni (वीडियो + इमेज + ऑडियो) | एक पास में सिंक | 5 / 8 / 10s | |
| Veo 3.1 | विशेष वीडियो मॉडल | हाँ | ~8s | |
| Seedance 2.0 | ByteDance | विशेष मल्टीमॉडल वीडियो | हाँ | 15s तक / शॉट |
| Sora 2 | OpenAI | विशेष वीडियो मॉडल | हाँ | ~20s |
| Kling V3.0 | Kuaishou | विशेष वीडियो मॉडल | सीमित | ~10s |
सार्वजनिक रिपोर्ट तिथि के अनुसार, अभी भी जारी।
X यूज़र @Thomas16937378 ने Gemini वीडियो टैब में "Start with an idea or try a template. Powered by Omni." देखा।
TestingCatalog और Chetaslua ने "Meet our new video model" कार्ड, पूरा मॉडल ID और 10-सेकंड क्लिप सीमा सामने रखी।
"ब्लैकबोर्ड पर त्रिकोणमिति हल करते प्रोफ़ेसर" क्लिप ने टेक्स्ट कोहेरेंस और भौतिक यथार्थ दिखाया, Veo 3.1 से तुलना तेज़ हुई।
Google ने I/O 2026 के मुख्य मंच पर Gemini Omni से पर्दा हटाया, आधिकारिक प्रोडक्ट पेज और डेमो वीडियो जारी किए, और Gemini ऐप में Veo 3.1 को बदलना शुरू किया।
लॉन्च में निजी AI अवतार, video-to-video एडिटिंग और चैट-स्टाइल मल्टी-टर्न एडिटिंग शामिल हैं — भौगोलिक और सब्सक्रिप्शन टियर पर निर्भर।
Google ने पुष्टि की है कि डेवलपर और एंटरप्राइज ग्राहकों के लिए API ऐक्सेस "अगले कुछ हफ़्तों में" आएगा, ठीक तिथि घोषित नहीं है। विश्लेषक प्रति सेकंड वीडियो आउटपुट लगभग $0.10–$0.30 के आसपास आँक रहे हैं।
अगले चरण में अधिक सक्षम Omni Pro की उम्मीद है, साथ ही वॉइस रेफरेंस से परे समृद्ध ऑडियो इनपुट और इमेज व ऑडियो आउटपुट मॉडैलिटीज़, जिससे "कोई भी इनपुट → कोई भी आउटपुट" का वादा पूरा होगा।
यह Google का आगामी एकीकृत मल्टीमॉडल मॉडल है जो एक ही आर्किटेक्चर में टेक्स्ट, इमेज, वीडियो और सिंक्ड ऑडियो को नेटिव रूप से जनरेट करता है — असल में यह Veo, Imagen और Gemini का मिलाजुला रूप है।
यह पहले ही लॉन्च हो चुका है। Google ने 19 मई 2026 को Google I/O 2026 के मुख्य मंच पर Gemini Omni की घोषणा की और साथ ही आधिकारिक प्रोडक्ट पेज तथा डेमो वीडियो प्रकाशित किए।
Gemini ऐप में Gemini Omni, Veo का उत्तराधिकारी है — Google ने स्पष्ट कहा है कि "Omni Gemini ऐप में Veo की जगह लेगा"। वीडियो स्टैक अब Gemini के टेक्स्ट और इमेज वाले स्टैक से एक ही आर्किटेक्चर में आ गया है।
हाँ। एम्बिएंट साउंड, स्कोर और संवाद वीडियो के साथ उसी पास में बनते हैं — यही नाम "omni" रखने की पूरी वजह है।
आधिकारिक प्रोडक्ट पेज पर 10 सेकंड तक की क्लिप, नेटिव ऑडियो, 5 फोटो रेफरेंस और मल्टी-टर्न एडिटिंग का उल्लेख है।
Gemini Omni के लिए Google AI Plus, Pro या Ultra प्लान और 18+ आयु अनिवार्य है। कुछ फीचर (अवतार, video-to-video एडिटिंग) चुनिंदा देशों में सीमित हो सकते हैं।
यह आपका वैकल्पिक डिजिटल संस्करण है, जिससे Gemini ऐसे वीडियो बना सकता है जो आप जैसे दिखें और सुनाई दें — हर बार फोटो अपलोड किए बिना, और सिर्फ़ आप ही अपने अवतार का उपयोग कर सकते हैं।
इस पेज की सारी जानकारी नीचे दिए सार्वजनिक स्रोतों से ली गई है। क्रॉस-रीडिंग की सलाह दी जाती है।
आधिकारिक घोषणा पोस्ट जिसमें Omni Flash का लॉन्च, क्षमताएँ, सतहें और रोलआउट प्लान विस्तार से है।
Gemini Omni, नए $100 AI Ultra टियर और संबंधित घोषणाओं समेत I/O 2026 का पूरा सार।
डेमो वीडियो, क्षमता-दौरा, समर्थित प्लान और रोलआउट विवरण के साथ आधिकारिक लॉन्च पेज।
स्वतंत्र विश्लेषकों का विवरण कि Omni कैसे Veo + Imagen स्टैक को एक मॉडल में मिलाता है और अभी बनाम आगे क्या रिलीज़ हो रहा है।
लीक विवरण, UI स्ट्रिंग्स और शुरुआती डेमो विश्लेषण।
पूरा मॉडल ID, इन-ऐप प्रॉम्प्ट्स और सामुदायिक प्रतिक्रियाएँ।
स्पेसिफिकेशन, उपयोग और तुलना का साफ़-सुथरा सारांश।
फ़ैमिली स्तर पर मल्टीमॉडैलिटी, लंबा कॉन्टेक्स्ट और एजेंटिक दिशा।