নেটিভ মাল্টিমোডাল আউটপুট
একটি প্রম্পট থেকে মিল রাখা টেক্সট, কীফ্রেম ও ভিডিও তৈরি হয়; চরিত্র, স্টাইল ও আলোকসজ্জা সকল ফরম্যাটে অবিচ্ছিন্ন থাকে।
Google I/O 2026-এর প্রধান মঞ্চে ঘোষিত, Gemini Omni Gemini-র জগৎ-জ্ঞানকে নেটিভ মাল্টিমোডাল জেনারেশন-এর সঙ্গে এক আর্কিটেকচারে যুক্ত করেছে — টেক্সট, ইমেজ, ভিডিও ও সিঙ্ক্রোনাইজড অডিও সবই এক জায়গায়। এটি Gemini অ্যাপে Veo 3.1-এর পরিবর্তে কাজ করছে এবং image-to-video, video-to-video এডিটিং ও ব্যক্তিগত AI অবতার নিয়ে এসেছে।
নিচের প্রতিটি ক্লিপ Google-এর অফিসিয়াল Gemini Omni প্রোডাক্ট পেজ থেকে সরাসরি এমবেড করা: text-to-video, image-to-video, স্টাইল ট্রান্সফার, চ্যাট এডিটিং, video-to-video ও AI অবতার — সম্পূর্ণ ক্ষমতা।
সমস্ত ডেমো ভিডিও © Google, এখানে শুধু তথ্য সংকলনের জন্য ব্যবহৃত; storage.googleapis.com/gweb-gemini-cdn থেকে সরাসরি স্ট্রিম।
Gemini Omni-র মূল হিরো রিল: কথোপকথন দিয়ে ভিডিও তৈরি, রিমিক্স ও এডিট।
একটি টেক্সট প্রম্পট থেকে সঙ্গতিপূর্ণ পরিবেশ ও ক্যামেরা ভাষায় মাল্টি-শট ক্লিপ।
রেফারেন্স ইমেজ আপলোড করুন, Omni গতি দেয় ও টাইমলাইন আপনাআপনি পূরণ করে।
পটভূমি, পোশাক বা স্টাইল বদলান — আপনার বিষয় তার ডিটেল ধরে রাখে।
একটি ফুটেজকে নতুন স্টাইলে — আলো, লেন্স এমনকি উপাদানও প্রম্পট থেকে পুনর্লিখন।
চরিত্র বদলান, আলো ঠিক করুন, শট স্থিতিশীল — শুধু চ্যাট দিয়ে, রিজেনারেশন ছাড়াই।
একবার AI অবতার সেট করুন, প্রতিটি ভবিষ্যৎ ভিডিওতে ফটো আপলোড ছাড়াই অভিনয় করুন।
Veo, Sora 2, Seedance 2.0 বা Kling-এর মতো বিশেষায়িত ভিডিও মডেলের বিপরীতে, Gemini Omni ভাষা যুক্তি, ইমেজ জেনারেশন, ভিডিও জেনারেশন ও অডিও সিন্থেসিস এক আর্কিটেকচারে রাখে।
একটি প্রম্পট থেকে মিল রাখা টেক্সট, কীফ্রেম ও ভিডিও তৈরি হয়; চরিত্র, স্টাইল ও আলোকসজ্জা সকল ফরম্যাটে অবিচ্ছিন্ন থাকে।
বিশেষায়িত মডেলের চেইনিং আর দরকার নেই। টেক্সট, ইমেজ, ভিডিও ও অডিও একই ওয়েট ও দীর্ঘ কনটেক্সট ভাগ করে।
এমবিয়েন্ট সাউন্ড, স্কোর ও সংলাপ একই ফরোয়ার্ড পাসে ছবির সঙ্গে মিলিয়ে দেওয়া হয় — প্রথমবারেই পায়ের শব্দ তালে পড়ে, ঠোঁট সংলাপের সঙ্গে মেলে।
একটি বস্তু বদলান, আলো বদলান, ক্যামেরা চলাফেরা ঠিক করুন — প্রাকৃতিক ভাষায়, সম্পূর্ণ রিজেনারেট ছাড়া।
বর্তমান ক্লিপ আপলোড করে প্রম্পট দিয়ে নতুন দিশায় নিন। রেফারেন্স ইমেজ, ভিডিও ও অডিও এক নির্দেশনায় মেলানো যায়।
প্রোডাক্ট বিজ্ঞাপন, Reels, মিউজিক ভিডিও ও সিনেম্যাটিক শর্টসের জন্য বিল্ট-ইন টেমপ্লেট প্রবেশের বাধা কমায়, ক্যামেরা ভাষা সঙ্গত রাখে।
নিম্নলিখিত সংখ্যাগুলি Reddit/X-এর ফাঁস ও TestingCatalog, Programming Insider, OfficeChai-র প্রতিবেদন থেকে সংকলিত।
| বিষয় | জানা তথ্য |
|---|---|
| মডেল ফ্যামিলি | Google Gemini — Veo-র উত্তরসূরি ব্র্যান্ড |
| মডেল ID | bard_eac_video_generation_omni / v3smm-lora-prod |
| ক্লিপ দৈর্ঘ্য | প্রতি জেনারেশন ৫ / ৮ / ১০ সেকেন্ড, অ্যাপে চেইন করা যায় |
| রেজোলিউশন | ৪৮০p / ৭২০p / ১০৮০p |
| অ্যাসপেক্ট | 16:9, 9:16, 1:1 |
| অডিও | নেটিভভাবে সিন্থেসাইজড, একই পাসে সিঙ্ক |
| ইনপুট | টেক্সট / ইমেজ / ভিডিও / অডিও রেফারেন্স |
| এক্সেস | ১৮+ Google AI Plus / Pro / Ultra সাবস্ক্রাইবারদের জন্য Gemini অ্যাপে লাইভ |
| কোটা সংকেত | রিপোর্ট অনুযায়ী দুটি Omni জেনারেশনে AI Pro-র দৈনিক কোটার প্রায় ৮৬% ব্যবহৃত হয় |
Google-এর জেনারেটিভ স্ট্যাক আগে Veo (ভিডিও), Nano Banana / Imagen (ইমেজ) ও Gemini (টেক্সট) — তিন ভাগে বিভক্ত ছিল। Omni এগুলিকে এক আর্কিটেকচারে যুক্ত করেছে।
আগে
Veo 3.1
ভিডিও + নেটিভ অডিও
Nano Banana / Imagen
ইমেজ জেনারেশন ও এডিটিং
Gemini 2.5 / 3.x
যুক্তি · দীর্ঘ কনটেক্সট
এখন · Omni
Gemini Omni
টেক্সট · ইমেজ · ভিডিও · অডিও, এক মডেল, এক প্রম্পট
দীর্ঘ কনটেক্সট ও সিঙ্ক অডিও-সহ একটি একীভূত মডেল মানে দল একটি সঙ্গত ব্রিফ লিখে সম্পূর্ণ কাট নিয়ে চলে যেতে পারে।
হিরো শট, প্যাকেজিং রিভিল ও লাইফস্টাইল কাট এমবিয়েন্ট অডিও-সহ রেডি।
৯:১৬ ভার্টিকাল ক্লিপ, মাইক্রোফোন সংলাপ ও বিট-সিঙ্ক মোশন সহ স্ক্রল-স্টপিং সোশ্যাল কনটেন্ট।
একটি ট্র্যাক রেফারেন্স দিন, Omni বিটের সঙ্গে ভিজ্যুয়াল কাটে, চরিত্রের ধারাবাহিকতা রাখে।
একাধিক ১০-সেকেন্ড omni-clip চেইন করে মাল্টি-শট সিকোয়েন্স, ধারাবাহিক আলো ও অডিও বেড।
SaaS, ফ্যাশন ও DTC সাইটের জন্য লুপেবল ১৬:৯ অ্যাটমোস্ফেরিক ক্লিপ — ব্র্যান্ডেড ও সাইলেন্ট-ফ্রেন্ডলি।
স্ক্রিপ্টকে লিপ-সিঙ্ক ন্যারেশন ও মিল রাখা পরিবেশ-শব্দ সহ সিকোয়েন্সে রূপান্তর করুন।
Artificial Analysis, Looksy AI, Oimi AI ও অফিসিয়াল কীনোট থেকে সংগৃহীত — বেঞ্চমার্ক স্কোর নয়, দিশানির্দেশের জন্য।
| মডেল | নির্মাতা | আর্কিটেকচার | নেটিভ অডিও | ক্লিপ দৈর্ঘ্য |
|---|---|---|---|---|
| Gemini Omni
Omni
| একীভূত omni (ভিডিও + ইমেজ + অডিও) | এক পাসে সিঙ্ক | ৫ / ৮ / ১০s | |
| Veo 3.1 | বিশেষায়িত ভিডিও মডেল | হ্যাঁ | ~৮s | |
| Seedance 2.0 | ByteDance | বিশেষায়িত মাল্টিমোডাল ভিডিও | হ্যাঁ | ১৫s / শট পর্যন্ত |
| Sora 2 | OpenAI | বিশেষায়িত ভিডিও মডেল | হ্যাঁ | ~২০s |
| Kling V3.0 | Kuaishou | বিশেষায়িত ভিডিও মডেল | সীমিত | ~১০s |
প্রকাশের তারিখ অনুসারে, এখনো বিকশিত হচ্ছে।
X ব্যবহারকারী @Thomas16937378 Gemini ভিডিও ট্যাবে "Start with an idea or try a template. Powered by Omni." লক্ষ্য করেন।
TestingCatalog ও Chetaslua "Meet our new video model" কার্ড, পূর্ণ মডেল ID ও ১০-সেকেন্ড ক্যাপ প্রকাশ করেন।
"ব্ল্যাকবোর্ডে ত্রিকোণমিতি সমাধানরত অধ্যাপক" ক্লিপ টেক্সট ধারাবাহিকতা ও ভৌত বিশ্বস্ততা দেখায়, Veo 3.1-এর সঙ্গে তীব্র তুলনা শুরু হয়।
Google I/O 2026-এর প্রধান মঞ্চে Gemini Omni উন্মোচন করে অফিসিয়াল প্রোডাক্ট পেজ ও ডেমো ভিডিও প্রকাশ করে, এবং Gemini অ্যাপে Veo 3.1 প্রতিস্থাপন শুরু হয়।
লঞ্চে ব্যক্তিগত AI অবতার, video-to-video এডিটিং ও চ্যাট-শৈলী মাল্টি-টার্ন এডিটিং রয়েছে — ভৌগোলিক অবস্থান ও সাবস্ক্রিপশন স্তর অনুযায়ী।
Google নিশ্চিত করেছে যে ডেভেলপার ও এন্টারপ্রাইজ গ্রাহকদের জন্য API অ্যাক্সেস "আগামী সপ্তাহগুলোতে" আসবে, নির্দিষ্ট তারিখ নেই। বিশ্লেষকরা ভিডিও আউটপুটের প্রতি সেকেন্ডের দাম $0.10–$0.30 ধরছেন।
এর পরে আরও সক্ষম Omni Pro আসার আশা করা হচ্ছে, যার সঙ্গে ভয়েস রেফারেন্সের বাইরে আরও সমৃদ্ধ অডিও ইনপুট ও ছবি ও অডিও আউটপুট মোডালিটি যুক্ত হবে — যা "যেকোনো ইনপুট → যেকোনো আউটপুট"-এর প্রতিশ্রুতি পূরণ করবে।
এটি Google-এর আগামী একীভূত মাল্টিমোডাল মডেল, যা এক আর্কিটেকচারে টেক্সট, ইমেজ, ভিডিও ও সিঙ্ক অডিও নেটিভভাবে তৈরি করে — কার্যত Veo, Imagen ও Gemini-র মিলন।
ইতিমধ্যেই এসেছে। Google ১৯ মে ২০২৬-এ Google I/O 2026-এর প্রধান মঞ্চে Gemini Omni ঘোষণা করেছে এবং অফিসিয়াল প্রোডাক্ট পেজ ও ডেমো ভিডিও প্রকাশ করেছে।
Gemini অ্যাপে Gemini Omni হল Veo-র উত্তরসূরি — Google স্পষ্ট জানিয়েছে "Omni Gemini অ্যাপে Veo-র পরিবর্তে কাজ করবে"। ভিডিও স্ট্যাক এখন Gemini-র টেক্সট ও ইমেজের সঙ্গে এক আর্কিটেকচারে।
হ্যাঁ। এমবিয়েন্ট সাউন্ড, স্কোর ও সংলাপ ভিডিওর সঙ্গেই একই পাসে তৈরি হয় — এজন্যই নাম "omni"।
অফিসিয়াল প্রোডাক্ট পেজে ১০ সেকেন্ড পর্যন্ত ক্লিপ, নেটিভ অডিও, ৫টি ফটো রেফারেন্স ও মাল্টি-টার্ন এডিটিং উল্লেখ রয়েছে।
Gemini Omni-র জন্য Google AI Plus / Pro / Ultra প্ল্যান ও ১৮+ বয়স প্রয়োজন। অবতার ও video-to-video-র মতো কিছু ফিচার কিছু দেশে সীমিত হতে পারে।
এটি আপনার ঐচ্ছিক ডিজিটাল রূপ — একবার সেট করলে Gemini প্রতিবার ফটো আপলোড ছাড়াই আপনার মতো ভিডিও তৈরি করতে পারে, এবং আপনার অবতার শুধুমাত্র আপনি ব্যবহার করতে পারেন।
এই পেজের সমস্ত বিষয়বস্তু নিচের সর্বজনীন সূত্র থেকে সংগৃহীত। ক্রস-রিডিং সুপারিশ করা হয়।
Omni Flash-এর লঞ্চ, সক্ষমতা, সারফেস ও রোলআউট পরিকল্পনার আনুষ্ঠানিক ঘোষণা পোস্ট।
Gemini Omni, নতুন $100 AI Ultra টিয়ার এবং সংশ্লিষ্ট লঞ্চসহ I/O 2026-এর সম্পূর্ণ পর্যালোচনা।
ডেমো ভিডিও, ক্ষমতা ট্যুর, সমর্থিত প্ল্যান ও রোলআউট বিবরণ-সহ অফিসিয়াল লঞ্চ পেজ।
Omni কীভাবে Veo + Imagen স্ট্যাককে একক মডেলে একীভূত করেছে এবং এখন বনাম পরে কী আসছে—তার স্বাধীন বিশ্লেষকের সারসংক্ষেপ।
ফাঁসের বিবরণ, UI স্ট্রিং ও প্রাথমিক ডেমো বিশ্লেষণ।
পূর্ণ মডেল ID, ইন-অ্যাপ প্রম্পট ও কমিউনিটি প্রতিক্রিয়া।
স্পেসিফিকেশন, ব্যবহারের ক্ষেত্র ও তুলনার পরিচ্ছন্ন সারসংক্ষেপ।
পরিবার-স্তরে মাল্টিমোডালিটি, দীর্ঘ কনটেক্সট ও এজেন্টিক দিশা।