Cómo usar Gemini Omni Flash: Guía de prompts, ejemplos y limitaciones

Gemini Omni Flash es un modelo rápido y de alta calidad de generación y edición de video desarrollado por Google. A diferencia de las herramientas de video tradicionales que requieren saltar entre programas separados de texto, imagen y audio, este modelo de video Omni Flash está diseñado para comprender todas estas entradas al mismo tiempo. Esto te permite combinar palabras, imágenes y sonido para crear videos realistas donde los personajes, objetos e iluminación se mueven de forma natural y coordinada.

1. Cómo acceder y usar Gemini Omni Flash

Para empezar a generar y editar tus videos, puedes usar el Generador de videos IA en Gemini Omni Flash. Sigue este flujo de trabajo paso a paso:

Abre el espacio de trabajo: Accede al panel de generación directamente en Omni Flash.
Selecciona tu método de creación: Elige cómo quieres construir tu escena. Puedes generar videos usando archivos de "Imagen", "Texto" o "Video" como entrada.
Elige tu modo de generación de video: El sistema usa el modo "Imagen" por defecto. Desde aquí, puedes seleccionar entre dos comportamientos de generación específicos:
- Video de fusión de múltiples imágenes (por defecto): Combina una o más imágenes de referencia para generar estilos, texturas y efectos visuales artísticos personalizados.
- Establecer el primer plano del video: Bloquea la estructura visual de tu clip asegurando que la primera imagen que subas sirva como fotograma inicial exacto.
Sube tu referencia visual: Dependiendo del modo seleccionado, sube una imagen inicial única o agrega varias imágenes de referencia para guiar el estilo.
Describe tu escena: Introduce tu prompt de texto en el cuadro de descripción para especificar el movimiento objetivo, las acciones y los detalles del resultado final.
Configura los parámetros de salida: Elige una duración de video personalizada de 3 a 10 segundos y selecciona la relación de aspecto de salida preferida (16:9 horizontal o 9:16 vertical).

La interfaz del espacio de trabajo del generador de video Gemini Omni Flash que muestra opciones para subir imágenes de referencia, configurar relaciones de aspecto vertical u horizontal, e ingresar prompts de texto personalizados

✨ ¡Prueba Omni Flash gratis ahora!

Sin necesidad de tarjeta de crédito · Vista previa instantánea

2. Guía de prompts de Gemini Omni Flash

Para obtener resultados consistentes de Gemini Omni Flash, tus instrucciones escritas deben coincidir con la forma en que el modelo procesa el espacio, el movimiento y el tiempo. Basándonos en nuestra experiencia estudiando cómo el modelo lee las descripciones, hemos preparado algunas fórmulas simples para escribir prompts altamente efectivos.

Mantener la escena como un solo plano

Por defecto, Gemini Omni Flash tiende a introducir cortes cinematográficos de múltiples planos para construir una secuencia narrativa. Si deseas un video fluido que se mantenga en un solo sujeto sin cortes, debes indicarlo claramente al comienzo de tu descripción.

Cómo estructurarlo: [Estilo de movimiento de cámara] + [Tu sujeto] + [Detalles del fondo] + [Términos de exclusión]
Ejemplo de prompt:

"Plano continuo e ininterrumpido con cámara en mano de una tetera de cobre vintage hirviendo en una estufa rústica, vapor subiendo lentamente hacia la cocina iluminada por el sol. Una cuchara de madera descansa cerca en la encimera. Diseño de sonido: burbujeo suave, silbido tenue del vapor. Sin diálogo".

Escribir instrucciones negativas

Dado que este modelo de video no admite un parámetro de prompt negativo dedicado, cualquier exclusión debe ir directamente en la descripción principal. En nuestras pruebas, simplemente agregar instrucciones directas funcionó mejor para mantener los detalles no deseados fuera del encuadre.

Cómo estructurarlo: [Descripción de tu escena] + [Frases como "Sin [elemento]" o "No incluir [elemento]"]
Ejemplo de prompt:

"Una fogata pacífica brillando suavemente en un bosque brumoso al atardecer. Sin voz en off. Sin superposición de texto en pantalla".

Hacer ediciones precisas

Las instrucciones breves y quirúrgicas funcionan mejor para ediciones secuenciales. Debido a que las descripciones largas pueden confundir al modelo, el enfoque más fiable es indicar exactamente qué cambiar y preservar los elementos restantes.

Cómo estructurarlo: [Lo que quieres cambiar o agregar] + "Mantén todo lo demás igual".
Ejemplo de prompt (para agregar un elemento):

"Agrega luces de neón púrpura brillante debajo del coche. Mantén todo lo demás igual".
Ejemplo de prompt (para eliminar un elemento):

"Haz invisible la taza de café roja. Mantén todo lo demás igual".

Controlar el tiempo de los eventos

Este modelo de video ofrece control flexible sobre cuándo ocurren acciones específicas. Como no se requiere una sintaxis rígida, el tiempo puede dirigirse usando frases conversacionales cotidianas o un formato de código de tiempo estructurado. Esta flexibilidad es particularmente útil para establecer transiciones de escena, controlar el ritmo o construir secuencias rápidas.

Opción A: Fraseo en lenguaje natural

El modelo interpreta fácilmente las descripciones cronológicas. Simplemente indica cuándo y qué debe suceder usando frases intuitivas como "después de 3 segundos" o "cada 2s".

Ejemplo de prompt:

Un plano continuo de una guitarra acústica apoyada contra una pared de ladrillos oscura. Después de 3 segundos, un cálido foco ilumina lentamente el instrumento. A los 6s, diminutas motas de polvo comienzan a bailar a través del haz de luz.

Opción B: Sintaxis de código de tiempo entre corchetes

Para escenas que requieren una segmentación precisa, se pueden usar intervalos entre corchetes para dividir el video cronológicamente.

Cómo estructurarlo: [Segundo inicio - Segundo fin] [Acción para este segmento]
Ejemplo de prompt:

[0-4s] Un primer plano de una vela de cera azul siendo encendida con un fósforo. [4-7s] La llama de la vela parpadea suavemente en una habitación silenciosa. [7-10s] La vela se apaga, dejando un fino rastro de humo blanco elevándose en la oscuridad.

Etiquetar imágenes subidas

Cuando uses varias fotos, puedes indicarle al modelo exactamente cómo manejar cada una agregando etiquetas de corchetes simples a tu prompt. Esto evita que diferentes estilos visuales se mezclen.

<FIRST_FRAME>: Usa esta imagen como la escena de apertura exacta.
- Ejemplo: <FIRST_FRAME> un barco de vapor antiguo luchando contra olas oceánicas turbulentas.
<IMAGE_REF_N>: Usa esta imagen (comenzando desde el índice 0) como referencia de estilo o sujeto.
- Ejemplo: un coche deportivo futurista <IMAGE_REF_1> diseñado en el estilo retro de <IMAGE_REF_0>.

Para proyectos complejos, puedes mapear múltiples imágenes a diferentes segmentos de tiempo:

[0-3s] Una exploración de una caverna antigua comenzando con el explorador <IMAGE_REF_0> sosteniendo <IMAGE_REF_1>. [3-6s] Corte a un compañero robótico <IMAGE_REF_2> escaneando la pared con <IMAGE_REF_3>.

Declaraciones explícitas

Para un control máximo sobre múltiples archivos, declara tus fuentes y referencias al inicio del prompt y agrega una breve instrucción al final:

[# Sources <FIRST_FRAME>@Image1] [# References <IMAGE_REF_0>@Image2] un guerrero elfo <IMAGE_REF_0> monta guardia. Usa Image1 como fotograma inicial. Usa Image2 como referencia de diseño de armadura.

Ejemplo de prompt:

"En una sola escena ininterrumpida alrededor de una fogata al atardecer en un bosque: <IMAGE_REF_0> lleva puesto <IMAGE_REF_5>, <IMAGE_REF_2> lleva puesto <IMAGE_REF_3>, y <IMAGE_REF_4> lleva puesto <IMAGE_REF_1>. Sonríen felices juntos mientras las brasas flotan hacia el cielo vespertino."

3. Ejemplos prácticos

Aquí hay dos formas realistas de combinar estas fórmulas para diferentes proyectos.

Ejemplo 1: Video explicativo educativo

Este prompt usa el conocimiento integrado de ciencia de Gemini Omni Flash para mostrar un proceso físico con precisión, mientras mantiene el estilo de animación altamente detallado.

Imagen subida: Un boceto simple dibujado a mano de una célula biológica (etiquetada como tu primera imagen).
Tu prompt:

"[# Sources <FIRST_FRAME>@Image1] Un video explicativo en 3D estilo plastilina que muestra el funcionamiento interno de las mitocondrias. La cámara se mueve lentamente a lo largo de la membrana externa mientras moléculas de energía flotan cerca. Considera microdetalles, precisión científica y sincronización para crear una escena académica realista. Usa Image1 como guía de diseño inicial."

Ejemplo 2: Secuencias de acción y sincronización cinematográfica

Este prompt usa códigos de tiempo precisos entre corchetes para coordinar los ritmos de acción cronológicamente dentro de una sola escena continua, estableciendo una fuerte atmósfera cinematográfica a través del contraste de color y la sincronización.

Tu prompt:

"[0-3s] Un plano continuo con cámara en mano de una mujer con un abrigo rojo parada quieta en una acera nevada de la ciudad mirando al frente. [3-6s] Abre lentamente un paraguas amarillo brillante mientras copos de nieve suaves caen a su alrededor."

✨ ¡Crea tu escena cinematográfica ahora!

Empieza a crear con tus líneas de tiempo personalizadas

Nuestras observaciones de prueba: En nuestras pruebas prácticas con más de 100 renders de video, descubrimos que la consistencia facial de los personajes se mantiene estable hasta 3 turnos de edición consecutivos. En el 4º turno, puede ocurrir una ligera deriva visual en los elementos de fondo. Además, el texto simple en pantalla con menos de 8 caracteres tiene una tasa de éxito de ~90% para renderizarse claramente en superficies planas.

4. Limitaciones y salvaguardas actuales

Si bien Gemini Omni Flash es un modelo de video muy capaz, hay algunos límites físicos y regionales que debes tener en cuenta para planificar tus proyectos de manera efectiva.

Diferencias regionales

Europa, Reino Unido y Suiza: Debido a las normas de privacidad locales, los usuarios en estas regiones no pueden subir ni editar fotos que muestren a menores o personas reconocibles. Además, no se admite la subida de videos reales para editar en estos países, aunque aún puedes editar cualquier video generado por IA en todo el mundo.

Limitaciones de archivos de referencia

Referencias de audio: Aún no puedes subir tus propios archivos de música o voz para usarlos como plantilla. Debes describir los sonidos que deseas usando texto.
Referencias de video: Si subes un clip de video para usarlo como referencia, mantenlo por debajo de 3 segundos. Los clips más largos no serán procesados correctamente por el modelo.
Un video a la vez: El modelo no puede leer ni comparar múltiples videos de entrada a la vez. Intentar usar más de un video de referencia causará errores de generación.

Tareas no compatibles

Extender la duración del video: El modelo no puede alargar un video terminado para hacerlo más largo, ni puede generar automáticamente un video que combine una foto de inicio y una foto de fin separadas.
Editar voces: No puedes editar ni alterar el diálogo hablado dentro de tus videos.
Sin enlaces de YouTube: Debes subir los archivos de referencia directamente. El modelo no puede cargar videos desde enlaces de YouTube.

Detalles de salida

Duración del video: Para mantener un alto detalle y una física creíble, el modelo está optimizado para generar clips de hasta 10 segundos de duración.
Marca de agua: Para la proveniencia y verificación digital, todos los videos generados contienen una marca de agua digital invisible llamada SynthID. Esta marca de agua no afecta la calidad visual de tu video, pero permite que los programas identifiquen el clip como generado por IA.

✨ ¡Empieza a generar tu primer video!

Convierte tus imágenes de referencia y texto en realidad