خروجی چندوجهی بومی
یک پرامپت واحد متن، keyframes و ویدیوی هماهنگ تولید میکند، با شخصیتها، سبک و نورپردازی پیوسته در سراسر فرمتها.
در صحنه اصلی Google I/O 2026 معرفی شد و Gemini Omni درک Gemini از جهان را با تولید چندوجهی بومی یکپارچه میکند — متن، تصویر، ویدیو و صدای همگام در یک معماری. اکنون درون اپ Gemini جایگزین Veo 3.1 شده و با image-to-video، ویرایش video-to-video و آواتار AI شخصی ارائه میشود.
هر کلیپ زیر مستقیماً از صفحه محصول رسمی Gemini Omni در Google جاسازی شده است: text-to-video، image-to-video، انتقال سبک، ویرایش چت، video-to-video و آواتار AI — تمام سطح قابلیتها.
تمام ویدیوهای دمو © Google هستند و در اینجا برای گردآوری اطلاعات استفاده میشوند؛ مستقیماً از storage.googleapis.com/gweb-gemini-cdn پخش میشوند.
ریل هیرو اصلی Gemini Omni: ساخت، ریمیکس و ویرایش ویدیو از طریق گفتوگو.
یک پرامپت متنی، یک کلیپ چندشاتی با محیط و زبان دوربین منسجم تولید میکند.
تصاویر مرجع را آپلود کنید و Omni حرکت را هدایت میکند و خط زمان را خودکار پر میکند.
پسزمینهها را عوض کنید، لباس را تغییر دهید یا سبک را منتقل کنید — سوژه شما جزئیات خود را حفظ میکند.
فوتیج موجود را در سبک تازهای بازقالب کنید — نور، لنز یا حتی متریال با پرامپت بازنویسی میشود.
شخصیتها را بازیابی کنید، نور را تنظیم کنید، شاتها را پایدار کنید — همه از طریق چت، بدون تولید مجدد.
یک بار AI avatar را تنظیم کنید، سپس در هر ویدیوی آینده بدون آپلود مجدد عکسها ظاهر شوید.
برخلاف مدلهای ویدیویی تخصصی مانند Veo، Sora 2، Seedance 2.0 یا Kling، Gemini Omni استدلال زبانی، تولید تصویر، تولید ویدیو و سنتز صدا را زیر یک معماری حفظ میکند.
یک پرامپت واحد متن، keyframes و ویدیوی هماهنگ تولید میکند، با شخصیتها، سبک و نورپردازی پیوسته در سراسر فرمتها.
دیگر زنجیر کردن مدلهای تخصصی لازم نیست. متن، تصویر، ویدیو و صدا وزنها و کانتکست بلند یکسانی را به اشتراک میگذارند.
صداهای محیطی، موسیقی و دیالوگ در همان forward pass با تصویر همراستا میشوند — قدمها روی ضرب مینشینند و لبها از همان اولین خروجی با گفتار همخواناند.
یک شیء را عوض کنید، نورپردازی را تغییر دهید یا حرکت دوربین را با زبان طبیعی تنظیم کنید — بدون تولید مجدد کامل، در ادامهی روش Nano Banana.
یک کلیپ موجود را آپلود کنید و آن را با پرامپتها هدایت کنید. تصاویر، ویدیوها و صداهای مرجع را میتوانید در یک دستور ادغام کنید.
الگوهای داخلی برای تبلیغات محصول، Reels، موزیک ویدیو و فیلمهای کوتاه سینمایی، سد ورود را برای مبتدیان پایین میآورد و زبان دوربین را پیوسته نگه میدارد.
اعداد زیر از نشتهای Reddit/X و گزارشهای TestingCatalog، Programming Insider و OfficeChai گردآوری شدهاند.
| بعد | سیگنال شناختهشده |
|---|---|
| خانواده مدل | Google Gemini — جانشین برند خط Veo |
| Model ID | bard_eac_video_generation_omni / v3smm-lora-prod |
| طول کلیپ | ۵ / ۸ / ۱۰ ثانیه برای هر تولید، قابل زنجیره در اپ |
| رزولوشن | 480p / 720p / 1080p |
| نسبتهای تصویر | 16:9, 9:16, 1:1 |
| صدا | سنتزشده بومی، همگام در یک pass |
| ورودیها | مراجع متن / تصویر / ویدیو / صدا |
| دسترسی | فعال درون اپ Gemini برای مشترکین Google AI Plus / Pro / Ultra با سن ۱۸+ |
| سیگنال سهمیه | گزارشها میگویند دو تولید Omni حدود ۸۶٪ سهمیه روزانه AI Pro را میسوزاند |
استک تولیدی Google پیش از این تقسیم بود: Veo برای ویدیو، Nano Banana / Imagen برای تصویر و Gemini برای متن. Omni همه را در یک معماری میپیچد.
پیش از این
Veo 3.1
ویدیو + صدای بومی
Nano Banana / Imagen
تولید و ویرایش تصویر
Gemini 2.5 / 3.x
استدلال · کانتکست بلند
اکنون · Omni
Gemini Omni
متن · تصویر · ویدیو · صدا، یک مدل، یک پرامپت
یک مدل یکپارچه با کانتکست بلند و صدای همگام یعنی تیم میتواند یک بریف منسجم بنویسد و با یک کات نهایی بیرون بیاید.
هیروشاتها، رونمایی بستهبندی و کاتهای سبک زندگی با صدای محیطی قفلشده آماده عرضهاند.
کلیپهای عمودی 9:16 با دیالوگ روی میکروفون و حرکت همگام با ضرب، طراحیشده برای متوقفکردن اسکرول.
یک ترک را بهعنوان مرجع بدهید تا Omni تصاویر را روی ضرب ببُرد و شخصیت ثابتی در طول شاتها حفظ کند.
چند omni-clip ۱۰ ثانیهای را به یک توالی چندشاتی با نورپردازی و بستر صوتی پیوسته زنجیر کنید.
کلیپهای اتمسفریک 16:9 لوپشدنی برای سایتهای SaaS، مد و DTC — برندبندیشده و سازگار با حالت بیصدا.
یک اسکریپت را به توالی روایتشده با دیالوگ همگام لب و صدای محیطی متناسب تبدیل کنید.
گردآوریشده از Artificial Analysis، Looksy AI، Oimi AI و کینوتهای رسمی — برای جهتگیری، نه نمرات benchmark.
| مدل | سازنده | معماری | صدای بومی | طول کلیپ |
|---|---|---|---|---|
| Gemini Omni
Omni
| Omni یکپارچه (ویدیو + تصویر + صدا) | همگام در یک pass | ۵ / ۸ / ۱۰ ثانیه | |
| Veo 3.1 | مدل ویدیویی تخصصی | بله | ~۸ ثانیه | |
| Seedance 2.0 | ByteDance | ویدیوی چندوجهی تخصصی | بله | تا ۱۵ ثانیه / شات |
| Sora 2 | OpenAI | مدل ویدیویی تخصصی | بله | ~۲۰ ثانیه |
| Kling V3.0 | Kuaishou | مدل ویدیویی تخصصی | محدود | ~۱۰ ثانیه |
بر اساس تاریخ گزارش عمومی مرتب شده، همچنان در حال تکامل.
کاربر X با شناسهٔ @Thomas16937378 عبارت "Start with an idea or try a template. Powered by Omni." را در تب ویدیوی Gemini یافت.
TestingCatalog و Chetaslua کارت "Meet our new video model"، Model ID کامل و سقف کلیپ ۱۰ ثانیهای را آشکار کردند.
کلیپ «استاد در حال حل مثلثات روی تختهسیاه» انسجام متن و وفاداری فیزیکی را به نمایش گذاشت و موجی از مقایسه با Veo 3.1 برانگیخت.
Google در صحنه اصلی I/O 2026 از Gemini Omni رونمایی کرد، صفحه محصول رسمی همراه با ویدیوهای دمو منتشر کرد و جایگزینی Veo 3.1 در اپ Gemini را آغاز نمود.
نسخه راهاندازی با آواتار AI شخصی، ویرایش video-to-video و ویرایش چتمحور چندنوبتی همراه است — محدودشده بر اساس جغرافیا و سطح اشتراک.
Google تأیید کرد که دسترسی API برای توسعهدهندگان و مشتریان سازمانی «طی هفتههای آینده» در دسترس قرار میگیرد، بدون تاریخ قطعی. تحلیلگران قیمت را حدود ۰٫۱۰ تا ۰٫۳۰ دلار به ازای هر ثانیه ویدئو برآورد میکنند.
در ادامه انتظار میرود Omni Pro قدرتمندتری معرفی شود، همراه با ورودیهای صوتی غنیتر فراتر از مراجع صوتی و حالتهای خروجی برای تصویر و صدا — تا وعدهٔ «هر ورودی → هر خروجی» کامل شود.
مدل چندوجهی یکپارچه آینده Google که بهصورت بومی متن، تصویر، ویدیو و صدای همگام را در یک معماری تولید میکند — عملاً Veo، Imagen و Gemini را با هم ادغام میکند.
عرضه شده است. Google در ۱۹ مه ۲۰۲۶ روی صحنه اصلی Google I/O 2026 از Gemini Omni رونمایی کرد و همزمان صفحه محصول رسمی و ویدیوهای دمو را منتشر نمود.
Gemini Omni جانشین Veo درون اپ Gemini است — Google صراحتاً میگوید Omni «جایگزین Veo در اپ Gemini خواهد شد». استک ویدیو اکنون در همان معماری متن و تصویر Gemini تا میخورد.
بله. صداهای محیطی، موسیقی و دیالوگ در همان pass با ویدیو تولید میشوند — همین کل دلیل نام "omni" است.
صفحه محصول رسمی کلیپ تا ۱۰ ثانیه، با صدای بومی، تا ۵ تصویر مرجع و ویرایش چندنوبتی را اعلام میکند.
Gemini Omni نیازمند پلن Google AI Plus، Pro یا Ultra است و باید ۱۸+ باشید. برخی ویژگیها (آواتارها، ویرایش video-to-video) ممکن است در کشورهای خاصی محدود شوند.
نسخه دیجیتالی اختیاری از شما که به Gemini اجازه میدهد ویدیوهایی بسازد که شبیه شما به نظر میرسند و صدای شما را دارند، بدون نیاز به آپلود تصاویر در هر نوبت — و فقط شما میتوانید از آواتار خود استفاده کنید.
همه چیز در این صفحه از منابع عمومی زیر گردآوری شده است. مطالعه متقاطع توصیه میشود.
پست رسمی اعلان با جزئیات راهاندازی Omni Flash، قابلیتها، سطوح و برنامهٔ عرضه.
جمعبندی کامل I/O 2026 شامل Gemini Omni، پلن جدید AI Ultra ۱۰۰ دلاری و سایر معرفیهای پیرامون.
صفحه راهاندازی رسمی با ویدیوهای دمو، تور قابلیتها، پلنهای پشتیبانیشده و جزئیات استقرار.
خلاصه تحلیلگر مستقل دربارهٔ اینکه Omni چگونه استک Veo + Imagen را در یک مدل ادغام میکند و چه چیزی اکنون در دسترس است نسبت به آینده.
جزئیات نشت، رشتههای UI و تحلیل دموهای اولیه.
Model ID کامل، پرامپتهای دروناپ و واکنشهای جامعه.
خلاصهای تمیز از مشخصات، موارد کاربرد و مقایسهها.
چندوجهی در سطح خانواده، کانتکست بلند و مسیر agentic.