Jak używać Gemini Omni Flash: Przewodnik po promptach, przykłady i ograniczenia

Gemini Omni Flash to szybki, wysokiej jakości model do generowania i edycji wideo stworzony przez Google. W przeciwieństwie do tradycyjnych narzędzi wideo, które wymagają przełączania się między oddzielnymi programami do tekstu, obrazu i dźwięku, ten model wideo Omni Flash został zaprojektowany, aby rozumieć wszystkie te dane wejściowe jednocześnie. Pozwala to łączyć słowa, obrazy i dźwięk w celu tworzenia realistycznych filmów, w których postacie, obiekty i oświetlenie poruszają się naturalnie razem.

1. Jak uzyskać dostęp i używać Gemini Omni Flash

Aby rozpocząć generowanie i edycję swoich filmów, możesz użyć Generatora wideo AI na stronie Gemini Omni Flash. Postępuj zgodnie z tym prostym, krok po kroku przepływem pracy:

Otwórz obszar roboczy: Uzyskaj dostęp do panelu generowania bezpośrednio na stronie Omni Flash.
Wybierz metodę tworzenia: Wybierz, w jaki sposób chcesz zbudować swoją scenę. Możesz generować filmy przy użyciu plików „Obraz”, „Tekst” lub „Wideo” jako danych wejściowych.
Wybierz tryb generowania wideo: System domyślnie ustawiony jest na tryb „Obraz”. Stąd możesz wybrać jeden z dwóch konkretnych sposobów generowania:
- Wideo z fuzją wielu obrazów (domyślnie): Połącz jeden lub więcej obrazów referencyjnych, aby wygenerować niestandardowe style, tekstury i artystyczne efekty wizualne.
- Ustaw pierwsze ujęcie wideo: Zablokuj strukturę wizualną swojego klipu, zapewniając, że pierwszy przesłany obraz posłuży jako dokładna ramka początkowa.
Prześlij swoją wizualną referencję: W zależności od wybranego trybu, prześlij pojedynczy obraz startowy lub dodaj wiele obrazów referencyjnych, aby poprowadzić styl.
Opisz swoją scenę: Wprowadź swój tekstowy prompt w polu opisu, aby określić docelowy ruch, akcje i szczegóły końcowego wyniku.
Ustaw parametry wyjściowe: Wybierz niestandardowy czas trwania wideo od 3 do 10 sekund oraz preferowany współczynnik proporcji (16:9 panoramiczny lub 9:16 pionowy).

Interfejs obszaru roboczego generatora wideo Gemini Omni Flash z opcjami przesyłania obrazów referencyjnych, konfiguracji pionowego lub panoramicznego współczynnika proporcji oraz wprowadzania niestandardowych promptów tekstowych

✨ Wypróbuj Omni Flash za darmo już teraz!

Karta kredytowa nie jest wymagana · Błyskawiczny podgląd

2. Przewodnik po promptach w Gemini Omni Flash

Aby uzyskać spójne wyniki z Gemini Omni Flash, Twoje pisemne instrukcje powinny być zgodne z tym, jak model przetwarza przestrzeń, ruch i czas. Na podstawie naszych doświadczeń z badaniem, jak model odczytuje opisy, przygotowaliśmy kilka prostych formuł do pisania wysoce skutecznych promptów.

Utrzymanie sceny jako pojedynczego ujęcia

Domyślnie Gemini Omni Flash ma tendencję do wprowadzania wieloujęciowych cięć filmowych w celu zbudowania sekwencji narracyjnej. Jeśli chcesz uzyskać płynny film, który pozostaje na jednym temacie bez żadnych cięć, musisz wyraźnie to zaznaczyć na początku swojego opisu.

Jak to skonstruować: [Styl ruchu kamery] + [Twój temat] + [Szczegóły tła] + [Warunki wykluczenia]
Przykład prompty:

„Ciągłe, nieprzerwane ujęcie z ręki starego miedzianego czajnika gotującego się na rustykalnym piecu, para unosząca się powoli do słonecznej kuchni w domku. Drewniana łyżka spoczywa obok na blacie. Projekt dźwięku: Delikatne bulgotanie, cichy gwizd pary. Bez dialogów”.

Pisanie negatywnych instrukcji

Ponieważ ten model wideo nie obsługuje dedykowanego parametru negatywnego promptu, wszelkie wykluczenia muszą być umieszczone bezpośrednio w głównym opisie. W naszych testach najlepiej sprawdziło się dodawanie bezpośrednich instrukcji, aby utrzymać niechciane szczegóły poza kadrem.

Jak to skonstruować: [Opis Twojej sceny] + [Zwroty takie jak „Bez [element]” lub „Nie dołączaj [element]”]
Przykład prompty:

„Spokojne ognisko obozowe delikatnie świecące w mglistym lesie o zmierzchu. Bez narracji. Żadnych nakładek tekstowych na ekranie”.

Wprowadzanie precyzyjnych edycji

Krótkie, precyzyjne instrukcje najlepiej sprawdzają się w przypadku sekwencyjnych edycji. Ponieważ długie opisy mogą dezorientować model, najbardziej niezawodnym podejściem jest dokładne określenie, co zmienić, a pozostałe elementy pozostawić bez zmian.

Jak to skonstruować: [Co chcesz zmienić lub dodać] + „Zachowaj wszystko inne bez zmian”.
Przykład prompty (dodanie elementu):

„Dodaj świecące fioletowe neonowe podświetlenie pod samochodem. Zachowaj wszystko inne bez zmian”.
Przykład prompty (usunięcie elementu):

„Spraw, aby czerwony kubek do kawy stał się niewidoczny. Zachowaj wszystko inne bez zmian”.

Kontrolowanie czasu zdarzeń

Ten model wideo oferuje elastyczną kontrolę nad tym, kiedy mają miejsce konkretne akcje. Ponieważ nie ma sztywnej składni, czas można kierować za pomocą codziennych zwrotów konwersacyjnych lub ustrukturyzowanego formatu kodu czasowego. Ta elastyczność jest szczególnie przydatna do ustalania przejść scen, kontrolowania tempa lub budowania szybkich sekwencji.

Opcja A: Formułowanie w języku naturalnym

Model łatwo interpretuje opisy chronologiczne. Po prostu określ, kiedy i co ma się wydarzyć, używając intuicyjnych zwrotów, takich jak „po 3 sekundach” lub „co 2 s”.

Przykład prompty:

Ciągłe ujęcie gitary akustycznej opartej o ciemną ceglaną ścianę. Po 3 sekundach ciepły reflektor powoli oświetla instrument. W 6. sekundzie maleńkie drobinki kurzu zaczynają tańczyć w snopie światła.

Opcja B: Składnia kodu czasowego w nawiasach kwadratowych

W przypadku scen wymagających precyzyjnego segmentowania można użyć interwałów w nawiasach kwadratowych, aby podzielić film chronologicznie.

Jak to skonstruować: [Sekunda początkowa – Sekunda końcowa] [Akcja dla tego segmentu]
Przykład prompty:

[0-4s] Zbliżenie niebieskiej woskowej świecy zapalanej zapałką. [4-7s] Płomień świecy delikatnie migocze w cichym pokoju. [7-10s] Świeca jest zdmuchnięta, pozostawiając cienką smugę białego dymu unoszącą się w ciemności.

Tagowanie przesłanych obrazów

Podczas korzystania z wielu zdjęć możesz powiedzieć modelowi, jak dokładnie ma obsłużyć każde z nich, dodając proste tagi w nawiasach kwadratowych do swojego promptu. Zapobiega to mieszaniu się różnych stylów wizualnych.

<FIRST_FRAME>: Użyj tego obrazu jako dokładnej sceny otwierającej.
- Przykład: <FIRST_FRAME> zabytkowy parowiec walczący z wzburzonymi falami oceanu.
<IMAGE_REF_N>: Użyj tego obrazu (począwszy od indeksu 0) jako odniesienia do stylu lub tematu.
- Przykład: futurystyczny samochód sportowy <IMAGE_REF_1> zaprojektowany w retro stylu artystycznym <IMAGE_REF_0>.

W przypadku złożonych projektów możesz mapować wiele obrazów na różne segmenty czasowe:

[0-3s] Eksploracja starożytnej jaskini rozpoczynająca się od odkrywcy <IMAGE_REF_0> trzymającego <IMAGE_REF_1>. [3-6s] Przejście do robota towarzyszącego <IMAGE_REF_2> skanującego ścianę za pomocą <IMAGE_REF_3>.

Jawne deklaracje

Aby uzyskać maksymalną kontrolę nad wieloma plikami, zadeklaruj swoje źródła i referencje na początku promptu i dodaj krótką instrukcję na końcu:

[# Źródła <FIRST_FRAME>@Image1] [# Referencje <IMAGE_REF_0>@Image2] elficki wojownik <IMAGE_REF_0> stoi na straży. Użyj Image1 jako ramki początkowej. Użyj Image2 jako odniesienia do projektu zbroi.

Przykład prompty:

„W jednej nieprzerwanej scenie wokół wieczornego ogniska w lesie: <IMAGE_REF_0> ma na sobie <IMAGE_REF_5>, <IMAGE_REF_2> ma na sobie <IMAGE_REF_3>, a <IMAGE_REF_4> ma na sobie <IMAGE_REF_1>. Uśmiechają się szczęśliwie razem, gdy iskry unoszą się w wieczorne niebo.”

3. Praktyczne przykłady

Oto dwa realistyczne sposoby łączenia tych formuł dla różnych projektów.

Przykład 1: Edukacyjny film wyjaśniający

Ten prompt wykorzystuje wbudowaną wiedzę Gemini Omni Flash na temat nauki, aby dokładnie pokazać proces fizyczny, utrzymując jednocześnie bardzo szczegółowy styl animacji.

Przesłany obraz: Prosty, odręczny szkic komórki biologicznej (oznaczony jako pierwszy obraz).
Twój prompt:

„[# Źródła <FIRST_FRAME>@Image1] Wyjaśnienie w 3D z gliny pokazujące wewnętrzne działanie mitochondriów. Kamera porusza się powoli wzdłuż zewnętrznej błony, podczas gdy cząsteczki energii unoszą się w pobliżu. Uwzględnij mikro-szczegóły, dokładność naukową i czas, aby stworzyć realistyczną akademicką scenę. Użyj Image1 jako przewodnika po układzie początkowym”.

Przykład 2: Filmowe sekwencje czasowe i akcji

Ten prompt używa precyzyjnych kodów czasowych w nawiasach kwadratowych do chronologicznego koordynowania uderzeń akcji w ramach jednej ciągłej sceny, tworząc silną filmową atmosferę poprzez kontrast kolorów i czas.

Twój prompt:

„[0-3s] Ciągłe ujęcie z ręki kobiety w czerwonym płaszczu stojącej nieruchomo na zaśnieżonym miejskim chodniku, patrzącej przed siebie. [3-6s] Powoli otwiera jasnożółtą parasolkę, podczas gdy wokół niej padają miękkie płatki śniegu.”

✨ Stwórz swoją filmową scenę już teraz!

Zacznij tworzyć z własnymi osiami czasu

Nasze obserwacje testowe: W naszych praktycznych testach z ponad 100 renderami wideo odkryliśmy, że spójność twarzy postaci pozostaje stabilna przez maksymalnie 3 kolejne edycje. Przy 4. edycji może wystąpić niewielkie przesunięcie wizualne elementów tła. Ponadto prosty tekst na ekranie składający się z mniej niż 8 znaków ma około 90% skuteczności renderowania czytelnie na płaskich powierzchniach.

4. Obecne ograniczenia i zabezpieczenia

Chociaż Gemini Omni Flash jest bardzo wydajnym modelem wideo, należy pamiętać o kilku fizycznych i regionalnych ograniczeniach, aby skutecznie planować swoje projekty.

Różnice regionalne

Europa, Wielka Brytania i Szwajcaria: Ze względu na lokalne przepisy dotyczące prywatności, użytkownicy w tych regionach nie mogą przesyłać ani edytować zdjęć przedstawiających nieletnich lub rozpoznawalne osoby. Ponadto przesyłanie własnych, prawdziwych filmów do edycji nie jest obsługiwane w tych krajach, chociaż nadal można edytować dowolne wideo wygenerowane przez AI na całym świecie.

Ograniczenia plików referencyjnych

Referencje audio: Nie można jeszcze przesyłać własnych plików muzycznych ani głosowych jako szablonów. Musisz opisać dźwięki, które chcesz, za pomocą tekstu.
Referencje wideo: Jeśli prześlesz klip wideo do użycia jako odniesienie, upewnij się, że trwa on poniżej 3 sekund. Dłuższe klipy nie zostaną poprawnie przetworzone przez model.
Jedno wideo na raz: Model nie może jednocześnie odczytywać ani porównywać wielu wejściowych filmów. Próba użycia więcej niż jednego referencyjnego wideo spowoduje błędy generowania.

Nieobsługiwane zadania

Wydłużanie czasu wideo: Model nie może rozciągnąć gotowego filmu, aby go wydłużyć, ani automatycznie wygenerować filmu, który łączy oddzielne zdjęcie początkowe i końcowe.
Edycja głosów: Nie możesz edytować ani zmieniać mówionego dialogu w swoich filmach.
Brak linków YouTube: Musisz bezpośrednio przesłać pliki referencyjne. Model nie może ładować filmów z linków YouTube.

Szczegóły wyników

Czas trwania wideo: Aby zachować wysoki poziom szczegółowości i wiarygodną fizykę, model jest zoptymalizowany do generowania klipów o długości do 10 sekund.
Znak wodny: W celu zapewnienia cyfrowego pochodzenia i weryfikacji wszystkie wygenerowane filmy zawierają niewidoczny cyfrowy znak wodny o nazwie SynthID. Ten znak wodny nie wpływa na jakość wizualną Twojego filmu, ale pozwala programom zidentyfikować klip jako wygenerowany przez AI.

✨ Zacznij generować swój pierwszy film

Zmień swoje obrazy referencyjne i tekst w rzeczywistość