Gemini Omni
유출 중 · Google I/O 2026

Gemini Omni
텍스트·이미지·영상·오디오를 하나의 모델로

2026 년 5 월 초의 여러 유출 보도에 따르면 Gemini Omni 는 Google 이 I/O 2026 에서 공개할 통합 멀티모달 모델이며, 단일 Gemini 학습 시스템 안에서 텍스트·이미지·영상과 동기화된 오디오를 네이티브로 생성합니다.

통합 모델 동기 오디오 채팅 내 편집
Omni
Text
Image
Video
Audio

주요 스펙

5–10s 클립 길이
1080p 최대 해상도
16:9 · 9:16 · 1:1 화면비
I/O 2026 공개 예정
핵심 기능

전체 제작 파이프라인을 하나의 모델로

Veo / Sora 2 / Seedance 2.0 / Kling 같은 전용 영상 모델과 달리 Gemini Omni 는 언어 추론·이미지 생성·영상 생성·오디오 합성을 동일 아키텍처에 통합합니다.

네이티브 멀티모달 출력

하나의 프롬프트로 텍스트·키프레임·영상이 동시에 생성되며 캐릭터, 스타일, 조명이 모든 포맷에서 일관되게 유지됩니다.

하나의 Gemini 스택

여러 전용 모델을 체인으로 묶을 필요가 없습니다. 텍스트·이미지·영상·오디오가 같은 가중치와 긴 컨텍스트를 공유합니다.

동기화된 네이티브 오디오

환경음, 스코어, 대사가 영상과 같은 전진 패스에서 정렬됩니다. 발걸음은 박자에 맞고, 입 모양은 첫 출력부터 음성과 동기화됩니다.

채팅 내 직접 편집

자연어로 객체 교체, 조명 변경, 카메라 무빙 조정이 가능합니다. Nano Banana 의 편집 방식을 영상으로 확장한 형태입니다.

리믹스와 조정

기존 클립을 업로드해 프롬프트로 재조정합니다. 참조 이미지·영상·오디오를 하나의 명령에 결합할 수 있습니다.

템플릿과 스타일

제품 광고, Reels, 뮤직비디오, 시네마틱 단편 등 내장 템플릿으로 진입 장벽을 낮추고 카메라 언어 일관성을 보장합니다.

사양

기조연설 전 알려진 정보

아래 수치는 Reddit/X 유출과 TestingCatalog, Programming Insider, OfficeChai 등의 보도를 종합한 것입니다.

항목 알려진 정보
모델 패밀리 Google Gemini — Veo 시리즈의 후속 브랜드
모델 ID bard_eac_video_generation_omni / v3smm-lora-prod
클립 길이 생성당 5 / 8 / 10 초, 앱에서 체이닝 가능
해상도 480p / 720p / 1080p
화면비 16:9, 9:16, 1:1
오디오 네이티브 합성, 단일 패스에서 동기화
입력 텍스트 / 이미지 / 영상 / 오디오 참조
접근 Gemini 앱 내 스테이징, API 는 I/O 이후 예정
쿼터 신호 보고에 따르면 Omni 2 회 생성 시 AI Pro 일일 쿼터의 약 86% 소모
아키텍처

세 개의 제품 라인이 하나의 Omni 로

과거 Google 의 생성 스택은 Veo(영상), Nano Banana / Imagen(이미지), Gemini(텍스트) 로 분리되어 있었습니다. Omni 는 이를 하나의 아키텍처로 통합합니다.

이전

Veo 3.1

영상 + 네이티브 오디오

Nano Banana / Imagen

이미지 생성과 편집

Gemini 2.5 / 3.x

추론 · 긴 컨텍스트

현재 · Omni

Gemini Omni

텍스트 · 이미지 · 영상 · 오디오, 하나의 모델 하나의 프롬프트

Text Image Video Audio
활용 사례

하나의 브리프에서 게시 가능한 콘텐츠까지

통합 모델 + 긴 컨텍스트 + 동기 오디오 덕분에 한 줄 브리프로 스토리보드부터 완성본까지 전 과정을 수행할 수 있습니다.

01

제품 광고

히어로 샷, 패키지 공개, 라이프스타일 컷을 환경음과 함께 즉시 납품.

02

Reels & Shorts

9:16 세로 클립에 마이크온 대사와 비트 동기 모션, 스크롤을 멈추는 소셜 콘텐츠.

03

뮤직비디오

참조 트랙을 주면 Omni 가 비트에 맞춰 컷을 잘라주며 여러 샷에서 캐릭터 일관성을 유지.

04

시네마틱 단편

10 초짜리 omni-clip 여러 개를 멀티숏 시퀀스로 연결, 조명·인물·음향 베드를 연속 유지.

05

랜딩 페이지 히어로 루프

SaaS / 패션 / DTC 사이트용 반복 가능한 16:9 분위기 클립, 브랜드 색과 무음 가독성 포함.

06

설명 영상과 튜토리얼

스크립트를 립싱크 내레이션 시퀀스로 변환하고 환경 사운드 디자인도 함께 맞춤.

비교

2026 영상 생성 시장에서 Omni 의 위치

Artificial Analysis, Looksy AI, Oimi AI, 공식 키노트 정보를 종합 — 벤치마크가 아닌 방향성 파악용.

모델 제공사 아키텍처 네이티브 오디오 클립 길이
Gemini Omni Omni
Google 통합 Omni (영상 + 이미지 + 오디오) 단일 패스 동기 5 / 8 / 10s
Veo 3.1
Google 전용 영상 모델 지원 약 8s
Seedance 2.0
ByteDance 전용 멀티모달 영상 지원 최대 15s / 샷
Sora 2
OpenAI 전용 영상 모델 지원 약 20s
Kling V3.0
Kuaishou 전용 영상 모델 제한적 약 10s
타임라인

첫 유출부터 I/O 2026 무대까지

공개 보도일 순, 계속 업데이트 중.

  1. 2026 · 05 · 02

    최초 "Powered by Omni" 문자열

    X 사용자 @Thomas16937378 가 Gemini 영상 탭에서 "Start with an idea or try a template. Powered by Omni." 문자열을 발견.

  2. 2026 · 05 · 11

    Gemini 모바일 앱 내 프리뷰 카드

    TestingCatalog 와 Chetaslua 가 "Meet our new video model" 카드, 전체 모델 ID, 10 초 클립 상한을 확인.

  3. 2026 · 05 · 12 – 18

    데모 확산

    "칠판에서 삼각함수를 푸는 교수" 클립이 텍스트 일관성과 물리적 정확도를 보여주며 Veo 3.1 과의 비교가 활발해짐.

  4. 2026 · 05 · 19 – 20

    Google I/O 2026 공식 발표 예정

    메인 스테이지에서 Omni 발표가 널리 예상되며 Flash / Pro 티어, API, 구독제 재편이 동반될 수 있음.

FAQ

Gemini Omni 에 대해 가장 자주 묻는 질문

Gemini Omni 는 정확히 무엇인가요?

Google 이 곧 발표할 통합 멀티모달 모델로, 하나의 아키텍처 안에서 텍스트·이미지·영상·동기 오디오를 네이티브로 생성합니다. 사실상 Veo, Imagen, Gemini 의 통합입니다.

언제 출시되나요?

2026 년 5 월 중순 현재 여전히 유출 단계입니다. Google I/O 2026 (5 월 19–20 일) 메인 스테이지 공개가 널리 예상됩니다.

Veo 3.1 과 어떤 관계인가요?

메타데이터상 Omni 는 엔지니어링 측면에서 Veo 스택을 계승하지만 Veo 브랜드를 버리고 영상 기능을 Gemini 의 텍스트 및 이미지 계층과 통합합니다.

정말로 소리를 직접 생성하나요?

네. 환경음, 스코어, 대사가 영상과 같은 패스에서 생성됩니다. 이것이 "omni" 라는 이름의 핵심 이유입니다.

현재 클립 길이 제한은?

유출된 모델 ID 는 1 회 생성당 5, 8, 10 초이며, 클라이언트 계층에서 다중 클립 체이닝이 가능합니다.

가격은 어떻게 책정될까요?

미확정. Reddit 스크린샷에 따르면 Omni 2 회 생성으로 AI Pro 일일 쿼터의 약 86% 가 소진되므로 더 높은 "Ultra / Pro Plus" 티어가 유력합니다.