मूळ मल्टीमॉडल आउटपुट
एकच प्रॉम्प्ट जुळणारा मजकूर, कीफ्रेम आणि व्हिडिओ तयार करतो; पात्र, शैली आणि प्रकाश सर्व स्वरूपांमध्ये सलग राहतात.
Google I/O 2026 च्या मुख्य व्यासपीठावर जाहीर — Gemini Omni, Gemini ची जगाची समज मूळ मल्टीमॉडल जनरेशनसह एकाच आर्किटेक्चरमध्ये एकत्र करते — मजकूर, प्रतिमा, व्हिडिओ आणि सिंक्रोनाइझ केलेला ऑडिओ. हे Gemini ॲपमध्ये Veo 3.1 च्या जागी आहे आणि त्यात image-to-video, video-to-video संपादन व वैयक्तिक AI अवतार आहे.
खालील प्रत्येक क्लिप Google च्या अधिकृत Gemini Omni उत्पादन पृष्ठावरून थेट एम्बेड केले आहे: text-to-video, image-to-video, शैली हस्तांतरण, चॅट संपादन, video-to-video व AI अवतार.
सर्व डेमो व्हिडिओ © Google, येथे माहिती संकलनासाठी वापरले; storage.googleapis.com/gweb-gemini-cdn वरून थेट स्ट्रीम.
Gemini Omni चा मुख्य हीरो रील: संभाषणाद्वारे व्हिडिओ तयार करा, रीमिक्स करा व संपादित करा.
एका मजकूर प्रॉम्प्टमधून सुसंगत वातावरण व कॅमेरा भाषेसह मल्टी-शॉट क्लिप.
संदर्भ प्रतिमा अपलोड करा, Omni हालचाल चालवते, टाइमलाइन आपोआप भरते.
पार्श्वभूमी, पोशाख बदला किंवा शैली हस्तांतरित करा — तुमचा विषय त्याचे तपशील ठेवतो.
अस्तित्वातील फुटेज नवीन शैलीत — प्रकाश, लेन्स अगदी पदार्थही प्रॉम्प्टने पुनर्लेखित.
पात्रे बदला, प्रकाश समायोजित करा, शॉट्स स्थिर करा — फक्त चॅटद्वारे, पुनर्निर्मिती न करता.
एकदा AI अवतार सेट करा, मग प्रत्येक भविष्यातील व्हिडिओमध्ये फोटो अपलोड न करता दिसा.
Veo, Sora 2, Seedance 2.0 किंवा Kling सारख्या विशेष व्हिडिओ मॉडेल्सच्या उलट, Gemini Omni भाषा तर्क, प्रतिमा निर्मिती, व्हिडिओ निर्मिती व ऑडिओ संश्लेषण एकाच आर्किटेक्चरमध्ये ठेवते.
एकच प्रॉम्प्ट जुळणारा मजकूर, कीफ्रेम आणि व्हिडिओ तयार करतो; पात्र, शैली आणि प्रकाश सर्व स्वरूपांमध्ये सलग राहतात.
आता विशेष मॉडेल्सच्या साखळीची गरज नाही. मजकूर, प्रतिमा, व्हिडिओ व ऑडिओ समान वजने आणि लांब संदर्भ सामायिक करतात.
वातावरणीय आवाज, स्कोअर आणि संवाद एकाच फॉरवर्ड पासमध्ये चित्रासोबत संरेखित होतात — पहिल्या निर्यातीतच पावलांचे आवाज ठेक्यावर पडतात आणि ओठ बोलण्याशी जुळतात.
वस्तू बदला, प्रकाश बदला, कॅमेरा हालचाल नैसर्गिक भाषेत समायोजित करा — संपूर्ण पुन्हा-निर्मिती न करता, Nano Banana संपादन शैलीत.
विद्यमान क्लिप अपलोड करा आणि प्रॉम्प्टने तिची दिशा बदला. संदर्भ प्रतिमा, व्हिडिओ आणि ऑडिओ एका सूचनेत एकत्र केले जाऊ शकतात.
उत्पादन जाहिराती, Reels, संगीत व्हिडिओ आणि सिनेमॅटिक शॉर्ट्ससाठी अंगभूत टेम्पलेट प्रवेशाची अडचण कमी करतात, कॅमेरा भाषा सुसंगत ठेवतात.
खालील आकडे Reddit/X लीक आणि TestingCatalog, Programming Insider, OfficeChai अहवालांवरून संकलित आहेत.
| घटक | ज्ञात संकेत |
|---|---|
| मॉडेल कुटुंब | Google Gemini — Veo मालिकेचा उत्तराधिकारी ब्रँड |
| मॉडेल ID | bard_eac_video_generation_omni / v3smm-lora-prod |
| क्लिप लांबी | प्रति निर्मिती ५ / ८ / १० सेकंद, ॲपमध्ये साखळी करता येते |
| रिझोल्यूशन | ४८०p / ७२०p / १०८०p |
| आस्पेक्ट गुणोत्तर | 16:9, 9:16, 1:1 |
| ऑडिओ | मूळतः संश्लेषित, एकाच पासमध्ये सिंक |
| इनपुट | मजकूर / प्रतिमा / व्हिडिओ / ऑडिओ संदर्भ |
| प्रवेश | १८+ Google AI Plus / Pro / Ultra सदस्यांसाठी Gemini ॲपमध्ये थेट |
| कोटा संकेत | अहवालांनुसार दोन Omni निर्मित्या AI Pro च्या दैनिक कोट्याच्या ~८६% वापरतात |
Google चा जनरेटिव्ह स्टॅक पूर्वी Veo (व्हिडिओ), Nano Banana / Imagen (प्रतिमा) आणि Gemini (मजकूर) मध्ये विभागलेला होता. Omni या सर्वांना एका आर्किटेक्चरमध्ये एकत्र करते.
पूर्वी
Veo 3.1
व्हिडिओ + मूळ ऑडिओ
Nano Banana / Imagen
प्रतिमा निर्मिती आणि संपादन
Gemini 2.5 / 3.x
तर्क · दीर्घ संदर्भ
आता · Omni
Gemini Omni
मजकूर · प्रतिमा · व्हिडिओ · ऑडिओ, एक मॉडेल, एक प्रॉम्प्ट
दीर्घ संदर्भ आणि सिंक ऑडिओसह एकत्रित मॉडेल म्हणजे टीम एक सुसंगत ब्रीफ लिहून पूर्ण कट घेऊन जाऊ शकते.
हीरो शॉट्स, पॅकेजिंग रिवील आणि लाइफस्टाइल कट, वातावरणीय ऑडिओसह तयार.
9:16 उभ्या क्लिप्स, माइक्रोफोन संवाद आणि बीट-सिंक हालचालींसह, स्क्रोल-थांबवणारे सोशल.
एक ट्रॅक संदर्भ द्या आणि Omni बीटवर दृश्ये कापते, शॉट्समध्ये पात्र सलग ठेवते.
अनेक १०-सेकंदाच्या omni-clips मल्टी-शॉट सिक्वेन्समध्ये जोडा, सतत प्रकाश व ऑडिओ बेडसह.
SaaS, फॅशन व DTC साइट्ससाठी लूप-योग्य 16:9 वातावरणीय क्लिप्स — ब्रँडेड व मूक-मित्रत्वाचे.
स्क्रिप्टचे लिप-सिंक संवाद आणि जुळणाऱ्या वातावरणीय आवाजासह सिक्वेन्समध्ये रूपांतर करा.
Artificial Analysis, Looksy AI, Oimi AI आणि अधिकृत कीनोटवरून संकलित — बेंचमार्क नाहीत, दिशा.
| मॉडेल | निर्माता | आर्किटेक्चर | मूळ ऑडिओ | क्लिप लांबी |
|---|---|---|---|---|
| Gemini Omni
Omni
| एकत्रित omni (व्हिडिओ + प्रतिमा + ऑडिओ) | एकाच पासमध्ये सिंक | ५ / ८ / १०s | |
| Veo 3.1 | विशेष व्हिडिओ मॉडेल | होय | ~८s | |
| Seedance 2.0 | ByteDance | विशेष मल्टीमॉडल व्हिडिओ | होय | १५s पर्यंत / शॉट |
| Sora 2 | OpenAI | विशेष व्हिडिओ मॉडेल | होय | ~२०s |
| Kling V3.0 | Kuaishou | विशेष व्हिडिओ मॉडेल | मर्यादित | ~१०s |
सार्वजनिक अहवालाच्या तारखेनुसार, अजूनही विकसित होत आहे.
X वापरकर्ता @Thomas16937378 यांना Gemini व्हिडिओ टॅबमध्ये "Start with an idea or try a template. Powered by Omni." दिसले.
TestingCatalog व Chetaslua यांनी "Meet our new video model" कार्ड, पूर्ण मॉडेल ID आणि १०-सेकंद क्लिप मर्यादा उघड केली.
"फळ्यावर त्रिकोणमिती सोडवणारे प्राध्यापक" क्लिपने मजकूर सुसंगती व भौतिक विश्वसनीयता दाखवली, Veo 3.1 शी तीव्र तुलना सुरू झाली.
Google ने I/O 2026 च्या मुख्य व्यासपीठावर Gemini Omni चे अनावरण केले, अधिकृत उत्पादन पृष्ठ व डेमो व्हिडिओ प्रकाशित केले, Gemini ॲपमध्ये Veo 3.1 बदलण्यास सुरुवात केली.
प्रक्षेपणात वैयक्तिक AI अवतार, video-to-video संपादन व चॅट-शैली मल्टी-टर्न संपादन समाविष्ट आहेत — भौगोलिक स्थिती व सदस्यता पातळीनुसार.
डेव्हलपर आणि एंटरप्राइज ग्राहकांसाठी API ऍक्सेस "येत्या काही आठवड्यांत" येईल, ठरीव तारीख नाही, असे Google ने पुष्टी केली. विश्लेषक प्रति सेकंद व्हिडिओ आउटपुटसाठी $0.10–$0.30 ची किंमत अंदाजतात.
त्यानंतर अधिक सक्षम Omni Pro अपेक्षित आहे, व्हॉइस रेफरन्सच्या पुढे जाऊन समृद्ध ऑडिओ इनपुट आणि इमेज व ऑडिओ आउटपुट मोडॅलिटीजसह "कोणताही इनपुट → कोणताही आउटपुट" हे आश्वासन पूर्ण होईल.
हे Google चे आगामी एकत्रित मल्टीमॉडल मॉडेल आहे, जे एकाच आर्किटेक्चरमध्ये मजकूर, प्रतिमा, व्हिडिओ व सिंक ऑडिओ मूळतः तयार करते — मूळतः Veo, Imagen व Gemini यांचे एकत्रित स्वरूप.
आधीच उपलब्ध आहे. Google ने १९ मे २०२६ रोजी Google I/O 2026 च्या मुख्य व्यासपीठावर Gemini Omni जाहीर केले आणि अधिकृत उत्पादन पृष्ठ व डेमो व्हिडिओ प्रकाशित केले.
Gemini ॲपमध्ये Gemini Omni हा Veo चा उत्तराधिकारी आहे — Google ने स्पष्टपणे म्हटले आहे "Omni Gemini ॲपमध्ये Veo च्या जागी असेल". व्हिडिओ स्टॅक आता Gemini च्या मजकूर व प्रतिमा सोबत एकाच आर्किटेक्चरमध्ये आहे.
होय. वातावरणीय आवाज, स्कोअर व संवाद व्हिडिओसोबत त्याच पासमध्ये तयार होतात — म्हणूनच नाव "omni".
अधिकृत उत्पादन पृष्ठ १० सेकंदांपर्यंत क्लिप, मूळ ऑडिओ, ५ फोटो संदर्भ आणि मल्टी-टर्न संपादन समर्थनाचा उल्लेख करते.
Gemini Omni वापरण्यासाठी Google AI Plus, Pro किंवा Ultra योजना व १८+ वय आवश्यक. काही वैशिष्ट्ये (अवतार, video-to-video संपादन) काही देशांमध्ये मर्यादित असू शकतात.
हा तुमचा वैकल्पिक डिजिटल आवृत्ती आहे, एकदा सेट केल्यावर Gemini प्रत्येक वेळी फोटो अपलोड न करता तुमच्यासारखेच दिसणारे व ऐकू येणारे व्हिडिओ तयार करू शकतो — आणि तुमचा अवतार फक्त तुम्हीच वापरू शकता.
या पृष्ठावरील सर्व माहिती खालील सार्वजनिक स्रोतांवरून संकलित आहे. क्रॉस-रीडिंग शिफारस केली जाते.
Omni Flash लाँच, क्षमता, सरफेसेस आणि रोलआउट योजना तपशीलवार सांगणारी अधिकृत घोषणा पोस्ट.
Gemini Omni, नवीन $100 AI Ultra टियर आणि संलग्न लाँचेस यांचा समावेश असलेला पूर्ण I/O 2026 आढावा.
डेमो व्हिडिओ, क्षमता दौरा, समर्थित योजना व रोलआउट तपशीलांसह अधिकृत प्रक्षेपण पृष्ठ.
Omni Veo + Imagen स्टॅक एकत्र करून एका मॉडेलमध्ये कसा रूपांतरित करतो आणि आता vs. नंतर काय येते याबाबत स्वतंत्र विश्लेषकाचा आढावा.
लीक तपशील, UI स्ट्रिंग्स आणि प्रारंभिक डेमो विश्लेषण.
पूर्ण मॉडेल ID, ॲपमधील प्रॉम्प्ट्स व सामुदायिक प्रतिक्रिया.
स्पेसिफिकेशन, वापर आणि तुलनेचा नीटसा सारांश.
कुटुंब स्तरावरील मल्टीमॉडॅलिटी, दीर्घ संदर्भ व एजेंटिक दिशा.