منتشر شده در ۲۳ اردیبهشت ۱۴۰۵ 9 دقیقه مطالعه

Gemini Omni چیست؟ راهنمای کامل ۲۰۲۶ مدل هوش مصنوعی یکپارچه آتی Google

Gemini Omni مدل چندوجهی یکپارچه شایعه‌شده Google است که به‌صورت بومی متن، تصویر، ویدیو و صدای همگام تولید می‌کند. این هر آنچه قبل از Google I/O 2026 می‌دانیم.

Gemini OmniGoogle AIچندوجهیتولید ویدیوGoogle I/O 20262026

دسته محصول جدید، نشت‌شده پیش از عرضه

در بیشتر ۲۰۲۴ و ۲۰۲۵، استک تولیدی Google عملاً سه محصول مجزا بود که با چسب کنار هم نگه داشته شده بودند: Veo برای ویدیو، Imagen (و سپس Nano Banana) برای تصویر و Gemini برای متن و استدلال. این تقسیم نقطه قوت بود وقتی هر مدل به چرخه‌های آموزشی اختصاصی نیاز داشت، اما خالقان را وادار می‌کرد ابزارها را دستی به هم زنجیر کنند و به Google در رقابت با Sora از OpenAI و Seedance از ByteDance روایتی پراکنده می‌داد.

در اوایل مه ۲۰۲۶، یک رشته UI تنها مسیر گفت‌وگو را عوض کرد. کاربری در X خط “Start with an idea or try a template. Powered by Omni.” را در داخل تب ویدیوی Gemini دید. در عرض چند روز، TestingCatalog، Programming Insider و OfficeChai کارت پیش‌نمایش بعدی روی Gemini Mobile را تأیید کردند که می‌گفت “Meet our new video model. Remix your videos, edit directly in chat, try a template, and more.” نام آن مدل Gemini Omni است و خود نام تمام پیچ است.

Gemini Omni واقعاً چیست

Gemini Omni مدل چندوجهی یکپارچه شایعه‌شده Google است: یک معماری که از یک پرامپت متن، تصویر، ویدیو و صدای همگام تولید می‌کند. سه نظریه درباره ماهیت واقعی آن در پوشش نشت ظاهر شده است:

بازنام‌گذاری Veo. Google ممکن است صرفاً برند مصرف‌کننده Veo را به نفع “Omni” بازنشسته کند، شبیه آنچه تولید تصویر زیر Nano Banana یکپارچه شد.
یک مدل ویدیویی جدید بومی Gemini. نسخه‌ای از Gemini که مخصوصاً برای ویدیو ریزتنظیم شده و خانواده Veo را کنار می‌زند درحالی‌که در کنار گونه‌های متن و تصویر می‌نشیند.
یک omni-model واقعی. یک سیستم تک‌گانه آموزش‌داده‌شده توسط Gemini که به‌صورت بومی متن، تصاویر، ویدیو و صدا را در یک مجموعه وزن و یک پنجره کانتکست بلند تولید می‌کند.

Model ID نشت‌شده — bard_eac_video_generation_omni / v3smm-lora-prod — و قاب‌بندی سازگار میان نشت‌ها به سمت در شماره ۳ اشاره می‌کند. این Gemini Omni را اولین omni-model رده بالا با خروجی ویدیویی بومی از هر ارائه‌دهنده AI بزرگ خواهد ساخت و گامی معنادار فراتر از آنچه Sora 2، Seedance 2.0 یا Kling V3.0 امروز می‌توانند انجام دهند.

سیگنال‌هایی که واقعی به‌نظر می‌رسند

در گزارش‌های سه هفته گذشته، تصویری منسجم ظاهر شد:

طول کلیپ: ۵ / ۸ / ۱۰ ثانیه برای هر تولید. زنجیره‌کردن چندکلیپ در لایه کلاینت داخل اپ Gemini مدیریت می‌شود.
رزولوشن: تا 1080p، در نسبت‌های 16:9، 9:16 و 1:1.
صدای بومی همگام. صدای محیطی، موسیقی و دیالوگ با تصویر در همان forward pass همراستا می‌شوند.
ویرایش در چت. یک شیء را عوض کنید، نورپردازی را تغییر دهید یا حرکت دوربین را با زبان طبیعی تنظیم کنید — بدون تولید مجدد کامل.
ریمیکس و الگوها. یک کلیپ موجود را آپلود کنید و آن را با پرامپت‌ها هدایت کنید؛ به الگوهای از پیش‌ساخته برای تبلیغات، Reels، موزیک‌ویدیوها و فیلم‌های کوتاه سینمایی تکیه کنید.
سیگنال قیمت. اسکرین‌شات Reddit نشان داد دو تولید Omni حدود ~۸۶٪ از سهمیه روزانه AI Pro را می‌سوزاند، که یا به سطح بالاتر (Ultra / Pro Plus) یا صورتحساب API برای هر تولید اشاره می‌کند.

دموهای نشت‌شده‌ای که بیشتر هیجان را برانگیختند — از جمله کلیپ “استاد در حال حل مثلثات روی تخته‌سیاه” با دست‌خط خوانا — به تبعیت بسیار سفت‌تر از پرامپت و وفاداری فیزیکی بالاتر از آنچه Veo 3.1 امروز عرضه می‌کند اشاره دارند.

Omni چگونه در استک Google جا می‌گیرد

مدل ذهنی که بیشترین تطابق را با نشت‌ها دارد این است:

قبل:    Gemini (متن)  +  Nano Banana / Imagen (تصویر)  +  Veo 3.1 (ویدیو)
                ↓                       ↓                            ↓
                └────────────  زنجیره‌کردن دستی  ──────────────────────┘

اکنون:   Gemini Omni
          ├── متن
          ├── تصویر
          ├── ویدیو
          └── صدا          (یک مدل · یک پرامپت · یک پنجره کانتکست)

برای توسعه‌دهندگان، مهم‌ترین پیامد این است که Veo 3.1 فردا ناپدید نخواهد شد. Veo 3.1 از قبل دسترسی API مستندشده در Gemini API و Vertex AI دارد، با ویژگی‌هایی مانند هدایت تصاویر مرجع (تا سه مرجع)، توسعه صحنه تا یک دقیقه، انتقال فریم‌های اول-و-آخر و صدای محاوره بومی. Omni آن مهندسی را به ارث می‌برد و معماری یکپارچه را بالاترش اضافه می‌کند. تا زمانی که Google مستندات رسمی Omni را منتشر کند، Veo 3.1 خط پایه پایدار برای کار تولیدی باقی می‌ماند.

چرا این برای خلق‌کنندگان مهم است

یک omni-model یکپارچه آنچه را که قبلاً خط لوله چندبرنامه‌ای بود به یک بریف منفرد فرومی‌ریزد. به‌طور مشخص:

یک تیم محصول می‌تواند یک توصیف بنویسد — موضوع، حال‌وهوا، حرکت دوربین، نور، دیالوگ، صدای محیطی — و با یک کات نهایی برود به‌جای دوختن میان Midjourney، Veo و ابزار صدای جداگانه.
ثبات شخصیت و سبک به‌طور چشمگیری بهبود می‌یابد چون همان مدل هر وجهی را تولید می‌کند.
ساختار هزینه می‌تواند قابل‌پیش‌بینی‌تر شود: یک مدل برای صورتحساب، یک مجموعه سیاست ایمنی، یک رابط ویرایش.

برای آژانس‌ها و استودیوهای کوچک، پرسش عملی دیگر “کدام ابزار برای هر وجه بهترین است” نیست، بلکه “چقدر سریع می‌توانیم خط لوله خود را حول یک مدل چندوجهی بازسازی کنیم؟“

چه چیزی را در Google I/O 2026 تماشا کنیم

Google I/O 2026 در ۱۹–۲۰ مه برگزار می‌شود. بر اساس نشت‌های پیش از کی‌نوت، فهرست خرید واقع‌گرایانه برای کی‌نوت شامل:

رونمایی رسمی Gemini Omni، احتمالاً با دموی زنده و اعلام طبقه‌بندی (Flash در برابر Pro).
دسترسی API از طریق Gemini API و AI Studio، احتمالاً با رابط سبک agent مشابه Deep Research.
رونمایی Gemini 3.5 یا 4.0، با تمرکز بر سرعت و ویژگی حافظه بلندمدت جدید با اسم رمز “Teamfood”.
مدل‌های صوتی جدید Gemini Live (اسم‌های رمز شایعه‌شده “Capybara” و “Nitrogen”).
به‌روزرسانی بالقوه Veo 4 با ادغام YouTube، که به‌عنوان روایت ویدیویی توسعه‌دهنده‌محور در کنار Omni مصرف‌کننده‌محور استفاده می‌شود.
بازسازی اشتراک — سطوح Advance / Pro / Ultra واضح‌تر برای تطبیق با ردپای محاسباتی سنگین‌تر Omni.

اگر حتی نیمی از این‌ها رخ دهد، Gemini Omni پیامددارترین عرضه مدل AI میانه ۲۰۲۶ خواهد بود — و لحظه‌ای که Google از یک فدراسیون مدل‌های تخصصی به یک استک چندوجهی یکپارچه واحد جابه‌جا می‌شود.

نتیجه

Gemini Omni رسماً اعلام نشده است، اما رد رشته‌های UI، model IDها و کارت‌های پیش‌نمایش فعال به سمت عرضه در عرض چند روز اشاره می‌کند. اگر این واقعاً یک omni-model واقعی باشد، دسته AI ویدیو وارد فاز جدیدی می‌شود: تولید با تک پرامپت، تک مدل، تک پنجره کانتکست از متن، تصویر، ویدیو و صدا. برای هر کسی که هوش مصنوعی مولد را در ۲۰۲۶ دنبال می‌کند، این عرضه‌ای است که باید تماشا کرد.