Comment utiliser Gemini Omni Flash : Guide de prompt, exemples et limites

Gemini Omni Flash est un modèle rapide et de haute qualité de génération et d'édition vidéo développé par Google. Contrairement aux outils vidéo traditionnels qui vous obligent à naviguer entre des programmes distincts de texte, d'image et d'audio, ce modèle vidéo Omni Flash est conçu pour comprendre simultanément toutes ces entrées. Cela vous permet de combiner mots, images et sons pour créer des vidéos réalistes où les personnages, les objets et l'éclairage bougent naturellement ensemble.

1. Comment accéder et utiliser Gemini Omni Flash

Pour commencer à générer et éditer vos vidéos, vous pouvez utiliser le générateur de vidéo IA sur Gemini Omni Flash. Suivez ce flux de travail simple et étape par étape :

Ouvrez l'espace de travail : Accédez au panneau de génération directement sur Omni Flash.
Sélectionnez votre méthode de création : Choisissez comment vous souhaitez construire votre scène. Vous pouvez générer des vidéos en utilisant des fichiers « Image », « Texte » ou « Vidéo » comme entrées.
Choisissez votre mode de génération vidéo : Le système utilise par défaut le mode « Image ». À partir de là, vous pouvez sélectionner l'un des deux comportements de génération spécifiques :
- Vidéo par fusion multi-images (par défaut) : Combinez une ou plusieurs images de référence pour générer des styles, textures et effets visuels artistiques personnalisés.
- Définir le premier plan de la vidéo : Verrouillez la structure visuelle de votre clip en garantissant que votre première image téléchargée sert de cadre de départ exact.
Téléchargez votre référence visuelle : Selon le mode sélectionné, téléchargez une image de départ unique ou ajoutez plusieurs images de référence pour guider le style.
Décrivez votre scène : Saisissez votre prompt textuel dans la zone de description pour spécifier le mouvement cible, les actions et les détails du résultat final.
Définissez vos paramètres de sortie : Choisissez une durée vidéo personnalisée de 3 à 10 secondes et sélectionnez votre format d'image de sortie préféré (16:9 panoramique ou 9:16 vertical).

L'interface de l'espace de travail du générateur de vidéo Gemini Omni Flash affichant les options pour télécharger des images de référence, configurer les ratios d'image verticaux ou panoramiques et saisir des prompts textuels personnalisés

✨ Essayez Omni Flash gratuitement maintenant !

Aucune carte de crédit requise · Aperçu instantané

2. Guide de prompt pour Gemini Omni Flash

Pour obtenir des résultats cohérents de Gemini Omni Flash, vos instructions écrites doivent correspondre à la façon dont le modèle traite l'espace, le mouvement et le temps. Basé sur notre expérience d'étude de la façon dont le modèle lit les descriptions, nous avons rassemblé quelques formules simples pour rédiger des prompts très efficaces.

Maintenir la scène en un seul plan

Par défaut, Gemini Omni Flash a tendance à introduire des coupes cinématographiques multi-plans pour construire une séquence narrative. Si vous souhaitez une vidéo fluide qui reste sur un seul sujet sans aucune coupe, vous devez l'indiquer clairement au début de votre description.

Comment la structurer : [Style de mouvement de caméra] + [Votre sujet] + [Détails de l'arrière-plan] + [Termes d'exclusion]
Exemple de prompt :

« Plan continu et ininterrompu à l'épaule d'une bouilloire en cuivre vintage bouillant sur une cuisinière rustique, de la vapeur s'élevant lentement dans une cuisine de chalet ensoleillée. Une cuillère en bois repose à proximité sur le comptoir. Conception sonore : Bouillonnement doux, sifflement léger de la vapeur. Pas de dialogue ».

Rédiger des instructions négatives

Comme ce modèle vidéo ne prend pas en charge un paramètre de prompt négatif dédié, toute exclusion doit être placée directement dans la description principale. Dans nos tests, ajouter simplement des instructions directes a donné les meilleurs résultats pour éviter que des détails indésirables n'apparaissent dans le cadre.

Comment la structurer : [Description de votre scène] + [Phrases comme « Pas de [élément] » ou « Ne pas inclure [élément] »]
Exemple de prompt :

« Un feu de camp paisible qui brille doucement dans une forêt brumeuse au crépuscule. Ne pas inclure de voix off. Pas de superposition de texte à l'écran ».

Effectuer des modifications précises

Des instructions courtes et chirurgicales fonctionnent le mieux pour les modifications séquentielles. Comme les longues descriptions peuvent confondre le modèle, l'approche la plus fiable est d'indiquer exactement quoi changer et de conserver les éléments restants.

Comment la structurer : [Ce que vous voulez changer ou ajouter] + « Garder tout le reste identique ».
Exemple de prompt (pour ajouter un élément) :

« Ajouter des lumières néon violettes brillantes sous la voiture. Garder tout le reste identique ».
Exemple de prompt (pour supprimer un élément) :

« Rendre la tasse de café rouge invisible. Garder tout le reste identique ».

Contrôler le timing des événements

Ce modèle vidéo offre un contrôle flexible sur le moment où des actions spécifiques se produisent. Comme aucune syntaxe rigide n'est requise, le timing peut être dirigé en utilisant soit un langage conversationnel courant, soit un format de timecode structuré. Cette flexibilité est particulièrement utile pour établir des transitions de scène, contrôler le rythme ou construire des séquences rapides.

Option A : Formulation en langage naturel

Le modèle interprète facilement les descriptions chronologiques. Indiquez simplement quand et quoi doit se produire en utilisant des phrases intuitives comme « après 3 secondes » ou « toutes les 2s ».

Exemple de prompt :

Un plan continu d'une guitare acoustique appuyée contre un mur de briques sombres. Après 3 secondes, un projecteur chaud illumine lentement l'instrument. À 6s, de minuscules particules de poussière commencent à danser dans le faisceau lumineux.

Option B : Syntaxe de timecode entre crochets

Pour les scènes nécessitant un découpage précis, des intervalles entre crochets peuvent être utilisés pour diviser la vidéo chronologiquement.

Comment la structurer : [Seconde de début - Seconde de fin] [Action pour ce segment]
Exemple de prompt :

[0-4s] Gros plan d'une bougie en cire bleue allumée par une allumette. [4-7s] La flamme de la bougie vacille doucement dans une pièce silencieuse. [7-10s] La bougie est soufflée, laissant une fine traînée de fumée blanche s'élevant dans l'obscurité.

Taguer les images téléchargées

Lorsque vous utilisez plusieurs photos, vous pouvez indiquer au modèle exactement comment traiter chacune d'elles en ajoutant des balises simples entre crochets à votre prompt. Cela empêche les différents styles visuels de se mélanger.

<FIRST_FRAME> : Utilisez cette image comme scène d'ouverture exacte.
- Exemple : <FIRST_FRAME> un bateau à vapeur vintage affronte les vagues rugueuses de l'océan.
<IMAGE_REF_N> : Utilisez cette image (à partir de l'index 0) comme référence de style ou de sujet.
- Exemple : une voiture de sport futuriste <IMAGE_REF_1> conçue dans le style rétro artistique de <IMAGE_REF_0>.

Pour les projets complexes, vous pouvez mapper plusieurs images à différents segments temporels :

[0-3s] Exploration d'une caverne ancienne commençant avec l'explorateur <IMAGE_REF_0> tenant <IMAGE_REF_1>. [3-6s] Couper vers un compagnon robotique <IMAGE_REF_2> scannant le mur avec <IMAGE_REF_3>.

Déclarations explicites

Pour un contrôle maximal sur plusieurs fichiers, déclarez vos sources et références au début du prompt et ajoutez une brève instruction à la fin :

[# Sources <FIRST_FRAME>@Image1] [# Références <IMAGE_REF_0>@Image2] un guerrier elfe <IMAGE_REF_0> monte la garde. Utiliser Image1 comme cadre de départ. Utiliser Image2 comme référence de conception d'armure.

Exemple de prompt :

« Dans une seule scène ininterrompue autour d'un feu de camp au crépuscule dans une forêt : <IMAGE_REF_0> porte <IMAGE_REF_5>, <IMAGE_REF_2> porte <IMAGE_REF_3>, et <IMAGE_REF_4> porte <IMAGE_REF_1>. Ils sourient joyeusement ensemble tandis que des braises flottent dans le ciel du soir. »

3. Exemples pratiques

Voici deux façons réalistes d'utiliser ces formules pour différents projets.

Exemple 1 : Vidéo explicative éducative

Ce prompt utilise la connaissance intégrée des sciences de Gemini Omni Flash pour montrer un processus physique avec précision, tout en gardant un style d'animation très détaillé.

Image téléchargée : Un croquis simple dessiné à la main d'une cellule biologique (étiqueté comme votre première image).
Votre prompt :

« [# Sources <FIRST_FRAME>@Image1] Une animation éducative en pâte à modeler 3D montrant le fonctionnement interne des mitochondries. La caméra se déplace lentement le long de la membrane externe tandis que des molécules d'énergie flottent à proximité. Tenir compte des micro-détails, de la précision scientifique et du timing pour créer une scène académique réaliste. Utiliser Image1 comme guide de mise en page de départ. »

Exemple 2 : Timing cinématographique et séquences d'action

Ce prompt utilise des timecodes précis entre crochets pour coordonner les temps forts de l'action chronologiquement dans une seule scène continue, établissant une forte atmosphère cinématographique grâce au contraste des couleurs et au timing.

Votre prompt :

« [0-3s] Un plan continu à l'épaule d'une femme en manteau rouge debout immobile sur un trottoir enneigé en ville, regardant devant elle. [3-6s] Elle ouvre lentement un parapluie jaune vif tandis que de légers flocons de neige tombent autour d'elle. »

✨ Créez votre scène cinématographique maintenant !

Commencez à créer avec vos chronologies personnalisées

Nos observations de test : Dans nos tests pratiques avec plus de 100 rendus vidéo, nous avons constaté que la cohérence faciale des personnages reste stable pendant jusqu'à 3 tours d'édition consécutifs. Au 4e tour, une légère dérive visuelle des éléments d'arrière-plan peut se produire. De plus, un texte simple à l'écran de moins de 8 caractères a un taux de réussite d'environ 90 % pour un rendu clair sur des surfaces planes.

4. Limites et garde-fous actuels

Bien que Gemini Omni Flash soit un modèle vidéo très performant, quelques limites physiques et régionales sont à garder à l'esprit pour planifier efficacement vos projets.

Différences régionales

Europe, Royaume-Uni et Suisse : En raison des règles locales de confidentialité, les utilisateurs de ces régions ne peuvent pas télécharger ou éditer des photos mettant en scène des mineurs ou des personnes reconnaissables. De plus, le téléchargement de vos propres vidéos du monde réel pour les éditer n'est pas pris en charge dans ces pays, bien que vous puissiez toujours éditer n'importe quelle vidéo générée par IA dans le monde entier.

Limites des fichiers de référence

Références audio : Vous ne pouvez pas encore télécharger vos propres fichiers musicaux ou vocaux pour les utiliser comme modèles. Vous devez décrire les sons souhaités à l'aide de texte.
Références vidéo : Si vous téléchargez un clip vidéo comme référence, gardez-le sous 3 secondes. Les clips plus longs ne seront pas traités correctement par le modèle.
Une vidéo à la fois : Le modèle ne peut pas lire ou comparer plusieurs vidéos d'entrée simultanément. Essayer d'utiliser plus d'une vidéo de référence provoquera des erreurs de génération.

Tâches non prises en charge

Prolonger la durée de la vidéo : Le modèle ne peut pas étirer une vidéo terminée pour la rendre plus longue, et il ne peut pas générer automatiquement une vidéo qui fusionne une photo de départ et une photo de fin séparées.
Éditer les voix : Vous ne pouvez pas éditer ou modifier le dialogue parlé à l'intérieur de vos vidéos.
Pas de liens YouTube : Vous devez télécharger directement les fichiers de référence. Le modèle ne peut pas charger des vidéos à partir de liens YouTube.

Détails de sortie

Durée de la vidéo : Pour maintenir un haut niveau de détail et une physique crédible, le modèle est optimisé pour générer des clips jusqu'à 10 secondes.
Filigrane : Pour des raisons de provenance numérique et de vérification, toutes les vidéos générées contiennent un filigrane numérique invisible appelé SynthID. Ce filigrane n'affecte pas la qualité visuelle de votre vidéo, mais il permet aux programmes d'identifier le clip comme généré par IA.

✨ Commencez à générer votre première vidéo

Transformez vos images de référence et votre texte en réalité