Как использовать Gemini Omni Flash: руководство по промптам, примеры и ограничения

Gemini Omni Flash — это быстрая и высококачественная модель для создания и редактирования видео от Google. В отличие от традиционных инструментов для работы с видео, где приходится переключаться между отдельными программами для текста, изображений и звука, эта модель Omni Flash создана для одновременной обработки всех этих типов входных данных. Это позволяет комбинировать слова, изображения и звук для создания реалистичных видео, в которых персонажи, объекты и освещение естественно движутся вместе.

1. Как получить доступ и использовать Gemini Omni Flash

Чтобы начать создавать и редактировать видео, вы можете воспользоваться ИИ-видеогенератором на Gemini Omni Flash. Следуйте этому простому пошаговому процессу:

  1. Откройте рабочее пространство: Получите доступ к панели генерации напрямую на Omni Flash.
  2. Выберите метод создания: Определите, как вы хотите построить свою сцену. Вы можете создавать видео, используя в качестве исходных данных файлы «Изображение», «Текст» или «Видео».
  3. Выберите режим генерации видео: Система по умолчанию использует режим «Изображение». Здесь вы можете выбрать один из двух вариантов поведения генерации:
    • Многоизображенческое фьюжн-видео (по умолчанию): Объедините одно или несколько референсных изображений для создания собственных стилей, текстур и художественных визуальных эффектов.
    • Установить первый кадр видео: Зафиксируйте визуальную структуру клипа, указав, что ваше загруженное первое изображение будет точным начальным кадром.
  4. Загрузите визуальный референс: В зависимости от выбранного режима загрузите одно начальное изображение или добавьте несколько референсных изображений, чтобы задать стиль.
  5. Опишите сцену: Введите текстовый промпт в поле описания, чтобы указать целевое движение, действия и детали финального результата.
  6. Установите параметры вывода: Выберите нужную длительность видео от 3 до 10 секунд и предпочитаемое соотношение сторон (16:9 широкоформатный или 9:16 вертикальный).

Интерфейс рабочей области генератора видео Gemini Omni Flash, отображающий возможности загрузки референсных изображений, настройки вертикального или широкоформатного соотношения сторон и ввода текстовых промптов

✨ Попробуйте Omni Flash бесплатно прямо сейчас!

Без кредитной карты · Мгновенный предпросмотр

2. Руководство по написанию промптов для Gemini Omni Flash

Чтобы получать стабильные результаты от Gemini Omni Flash, ваши текстовые инструкции должны соответствовать тому, как модель обрабатывает пространство, движение и время. Основываясь на нашем опыте изучения того, как модель читает описания, мы собрали несколько простых формул для написания эффективных промптов.

Сохранение сцены как одного кадра

По умолчанию Gemini Omni Flash склонна вводить многокадровые кинематографические склейки для построения повествовательной последовательности. Если вы хотите получить плавное видео, которое остается на одном объекте без каких-либо разрезаний, вы должны четко указать это в начале описания.

  • Как структурировать: [стиль движения камеры] + [ваш объект] + [детали фона] + [термины исключения]
  • Пример промпта:

    «Непрерывный, без склеек кадр от руки (handheld shot): старинный медный чайник кипит на деревенской плите, пар медленно поднимается в залитой солнцем кухне. Рядом на стойке лежит деревянная ложка. Звуковое оформление: мягкое бульканье, тихий свист пара. Без диалогов».

Написание негативных инструкций

Поскольку эта видеомодель не поддерживает специальный параметр негативного промпта, любые исключения должны быть включены непосредственно в основное описание. В наших тестах лучше всего работало добавление прямых инструкций, чтобы нежелательные детали не попадали в кадр.

  • Как структурировать: [описание вашей сцены] + [фразы вроде «Без [элемент]» или «Не включайте [элемент]»]
  • Пример промпта:

    «Мирный костер, мягко светящийся в туманном лесу в сумерках. Не включайте закадровый голос. Без текстовых наложений на экране».

Выполнение точных правок

Для последовательных правок лучше всего работают краткие, точечные инструкции. Поскольку длинные описания могут запутать модель, самый надежный подход — точно указать, что нужно изменить, и сохранить остальные элементы.

  • Как структурировать: [что вы хотите изменить или добавить] + «Всё остальное оставьте без изменений».
  • Пример промпта (добавить элемент):

    «Добавьте светящиеся фиолетовые неоновые лампы под автомобилем. Всё остальное оставьте без изменений».

  • Пример промпта (удалить элемент):

    «Сделайте красную кофейную кружку невидимой. Всё остальное оставьте без изменений».

Контроль времени событий

Эта видеомодель предоставляет гибкий контроль над тем, когда происходят определенные действия. Поскольку не требуется строгого синтаксиса, временем можно управлять как с помощью повседневных разговорных фраз, так и с помощью структурированного формата таймкода. Такая гибкость особенно полезна для установления переходов между сценами, контроля темпа или создания динамичных последовательностей.

Вариант A: Фразы на естественном языке

Модель легко интерпретирует хронологические описания. Просто укажите, когда и что должно произойти, используя интуитивно понятные фразы, такие как «через 3 секунды» или «каждые 2с».

  • Пример промпта:

    Непрерывный кадр акустической гитары, прислоненной к темной кирпичной стене. Через 3 секунды теплый прожектор медленно освещает инструмент. На 6-й секунде крошечные пылинки начинают танцевать в луче света.

Вариант B: Синтаксис таймкода в скобках

Для сцен, требующих точного разделения, можно использовать интервалы в квадратных скобках для хронологического разбиения видео.

  • Как структурировать: [Начальная секунда - Конечная секунда] [Действие для этого сегмента]
  • Пример промпта:

    [0-4с] Крупный план синей восковой свечи, которую зажигают спичкой. [4-7с] Пламя свечи мягко мерцает в тихой комнате. [7-10с] Свечу задувают, оставляя тонкую струйку белого дыма, поднимающуюся в темноте.

Маркировка загруженных изображений

При использовании нескольких фотографий вы можете указать модели, как именно обрабатывать каждую из них, добавив к промпту простые теги в скобках. Это предотвращает смешивание различных визуальных стилей.

  • <FIRST_FRAME>: Используйте это изображение как точную начальную сцену.
    • Пример: <FIRST_FRAME> старинный пароход борется с бурными океанскими волнами.
  • <IMAGE_REF_N>: Используйте это изображение (начиная с индекса 0) как референс стиля или объекта.
    • Пример: футуристический спортивный автомобиль <IMAGE_REF_1> выполненный в ретро-стиле <IMAGE_REF_0>.

Для сложных проектов вы можете сопоставить несколько изображений с разными временными сегментами:

[0-3с] Исследование древней пещеры, начинающееся с исследователя <IMAGE_REF_0>, держащего <IMAGE_REF_1>. [3-6с] Переход к роботизированному компаньону <IMAGE_REF_2>, сканирующему стену с <IMAGE_REF_3>.

Явные объявления

Для максимального контроля над несколькими файлами объявите свои источники и референсы в начале промпта и добавьте краткую инструкцию в конце:

[# Источники <FIRST_FRAME>@Изображение1] [# Референсы <IMAGE_REF_0>@Изображение2] эльфийский воин <IMAGE_REF_0> стоит на страже. Используйте Изображение1 как начальный кадр. Используйте Изображение2 как референс дизайна брони.

  • Пример промпта:

    «В одной непрерывной сцене у вечернего костра в лесу: <IMAGE_REF_0> одет в <IMAGE_REF_5>, <IMAGE_REF_2> одет в <IMAGE_REF_3>, а <IMAGE_REF_4> одет в <IMAGE_REF_1>. Они счастливо улыбаются вместе, пока искры улетают в вечернее небо».

3. Практические примеры

Вот два реалистичных способа объединить эти формулы для разных проектов.

Пример 1: Обучающее объяснительное видео

Этот промпт использует встроенные знания Gemini Omni Flash о науке для точного отображения физического процесса, сохраняя при этом высокодетализированный анимационный стиль.

  • Загруженное изображение: Простой, нарисованный от руки эскиз биологической клетки (обозначенный как ваше первое изображение).
  • Ваш промпт:

    «[# Источники <FIRST_FRAME>@Изображение1] 3D-покадровое (claymation) объяснение, показывающее внутреннюю работу митохондрий. Камера медленно движется вдоль внешней мембраны, пока рядом парят молекулы энергии. Учитывайте микродетали, научную точность и время, чтобы создать реалистичную академическую сцену. Используйте Изображение1 как руководство по начальной компоновке».

Пример 2: Кинематографическое время и последовательности действий

Этот промпт использует точные таймкоды в скобках для хронологической координации событий в рамках одной непрерывной сцены, создавая сильную кинематографическую атмосферу за счет цветового контраста и времени.

  • Ваш промпт:

    «[0-3с] Непрерывный кадр от руки: женщина в красном пальто неподвижно стоит на заснеженном городском тротуаре, глядя вперед. [3-6с] Она медленно открывает яркий желтый зонт, а вокруг падают мягкие снежинки».

✨ Создайте свою кинематографическую сцену прямо сейчас!

Начните создавать с вашими собственными временными шкалами

Наши наблюдения по тестированию: В ходе практических тестов с более чем 100 рендерами видео мы обнаружили, что согласованность черт лица персонажа остается стабильной в течение 3 последовательных правок. На 4-й правке может возникнуть небольшой визуальный дрейф фоновых элементов. Кроме того, простой текст на экране длиной менее 8 символов имеет ~90% вероятность четкого отображения на плоских поверхностях.

4. Текущие ограничения и защитные меры

Хотя Gemini Omni Flash является очень способной видеомоделью, следует учитывать некоторые физические и региональные ограничения, чтобы эффективно планировать свои проекты.

Региональные различия

  • Европа, Великобритания и Швейцария: Из-за местных правил конфиденциальности пользователи в этих регионах не могут загружать или редактировать фотографии, на которых изображены несовершеннолетние или узнаваемые люди. Кроме того, загрузка собственных реальных видео для редактирования в этих странах не поддерживается, хотя вы по-прежнему можете редактировать любое сгенерированное ИИ-видео по всему миру.

Ограничения референсных файлов

  • Аудио-референсы: Вы пока не можете загружать свои собственные музыкальные или голосовые файлы для использования в качестве шаблонов. Вы должны описывать желаемые звуки с помощью текста.
  • Видео-референсы: Если вы загружаете видеоклип для использования в качестве референса, он должен быть короче 3 секунд. Более длинные клипы не будут обработаны моделью корректно.
  • Одно видео за раз: Модель не может одновременно читать или сравнивать несколько входных видео. Попытка использовать более одного референсного видео приведет к ошибкам генерации.

Неподдерживаемые задачи

  • Увеличение длины видео: Модель не может растянуть готовое видео, чтобы сделать его длиннее, и не может автоматически сгенерировать видео, объединяющее отдельные начальное и конечное фото.
  • Редактирование голосов: Вы не можете редактировать или изменять произнесенные диалоги внутри ваших видео.
  • Отсутствие ссылок YouTube: Вы должны загружать референсные файлы напрямую. Модель не может загружать видео по ссылкам YouTube.

Детали вывода

  • Длительность видео: Для поддержания высокой детализации и правдоподобной физики модель оптимизирована для генерации клипов длительностью до 10 секунд.
  • Водяной знак: Для цифровой аутентификации и проверки все сгенерированные видео содержат невидимый цифровой водяной знак под названием SynthID. Этот водяной знак не влияет на визуальное качество вашего видео, но позволяет программам идентифицировать клип как созданный ИИ.

✨ Начните генерировать ваше первое видео

Превратите ваши референсные изображения и текст в реальность