Tutorial de imagen a vídeo con Seedance 2.0 (2026)

By Equipo SeedanceTips 19 min read

La capacidad de imagen a vídeo de Seedance 2.0 es una de sus funciones más potentes. En lugar de describir una escena desde cero con texto, subes una imagen fija y le dices a la IA exactamente cómo darle vida: qué se mueve, cómo se comporta la cámara y qué estilo aplicar. El resultado es un vídeo de 4 a 15 segundos con una resolución de hasta 2K que conserva la composición, los colores y los detalles de tu imagen original mientras añade un movimiento natural y cinematográfico.

Este tutorial te guía por todo el flujo de trabajo de imagen a vídeo, desde la preparación de tus imágenes de origen hasta la redacción de prompts de movimiento eficaces. Encontrarás ejemplos de prompts para copiar y pegar, técnicas avanzadas como el bloqueo del primer fotograma y la animación de personajes, y soluciones a los problemas más comunes que encuentran los creadores.


Por qué imagen a vídeo (en lugar de texto a vídeo)

El texto a vídeo es potente, pero te da menos control sobre la composición inicial. Cuando ya tienes en mente un aspecto, personaje, foto de producto o escena específicos, el flujo de imagen a vídeo es la mejor opción por tres razones:

Precisión visual. Tu imagen fija la composición, la paleta de colores, la iluminación y la apariencia del sujeto. La IA no tiene que adivinar cómo es tu personaje ni cómo está encuadrada la escena: parte de tu imagen exacta.

Coherencia del personaje. Uno de los problemas más difíciles en el vídeo con IA es mantener a los personajes con el mismo aspecto a lo largo de los fotogramas. Cuando proporcionas una imagen de referencia y usas el sistema de @menciones, Seedance 2.0 trata esa imagen como un anclaje de verdad de referencia, manteniendo los rasgos faciales, la ropa y las proporciones corporales a lo largo de todo el clip.

Iteración más rápida. En lugar de reescribir descripciones visuales complejas, cambias una imagen por otra. Tu prompt sigue centrado en el movimiento y el trabajo de cámara, que es más fácil de ajustar.

La función de imagen a vídeo es ideal para demos de producto, animación de personajes a partir de arte conceptual, contenido para redes sociales a partir de fotos existentes, conversión de storyboard a vídeo y cualquier flujo de trabajo en el que la identidad visual ya esté establecida.


Lo que necesitas antes de empezar

Antes de abrir Dreamina, prepara lo siguiente:

Una cuenta de Dreamina

Seedance 2.0 funciona en la plataforma Dreamina de ByteDance en dreamina.capcut.com. Regístrate con una cuenta de CapCut o ByteDance. Las cuentas nuevas reciben créditos de prueba gratuitos, suficientes para varias generaciones de prueba.

Imágenes de origen de alta calidad

La calidad de la imagen determina directamente la calidad del resultado. Sigue estas pautas:

  • Resolución: 2K (2048x1152) o superior. Seedance 2.0 genera hasta 2K, por lo que alimentarlo con una imagen de origen de 720p significa que la IA tiene que escalarla y adivinar los detalles.
  • Formato: JPG, PNG o WebP. PNG es preferible para imágenes con transparencia o detalles finos.
  • Nitidez del sujeto: El sujeto principal debe estar perfectamente enfocado y con buena iluminación. Evita los artefactos de compresión excesivos, el desenfoque por movimiento o las escenas de bajo contraste.
  • Espacio de composición: Deja espacio visual para el movimiento que planeas añadir. Si quieres que un personaje camine hacia adelante, no lo recortes en el borde del encuadre.

Un plan de movimiento claro

Antes de escribir tu prompt, decide tres cosas:

  1. ¿Qué se mueve? — ¿El sujeto, el fondo o ambos?
  2. ¿Cómo se mueve la cámara? — ¿Paneo, órbita, dolly, inclinación, estática o cámara en mano?
  3. ¿Cuál es el ambiente/ritmo? — ¿Lento y cinematográfico, o rápido y enérgico?

Tener estas respuestas antes de empezar evita prompts vagos y poco enfocados que producen resultados genéricos.


Paso a paso: de imagen a vídeo en Seedance 2.0

Paso 1: Abre Dreamina y selecciona el modelo

  1. Ve a dreamina.capcut.com
  2. Inicia sesión en tu cuenta
  3. Haz clic en AI Video en la navegación principal
  4. En el menú desplegable de selección de modelo, elige Seedance 2.0

Paso 2: Sube tus imágenes de referencia

Haz clic en el Panel de Referencias (la zona de carga en el lado izquierdo de la interfaz) y sube tus imágenes. Puedes arrastrar y soltar o hacer clic para explorar.

A cada archivo subido se le asigna automáticamente una @etiqueta:

  • Primera imagen: @Image1
  • Segunda imagen: @Image2
  • Y así sucesivamente, hasta @Image9

Puedes subir hasta 9 imágenes, 3 clips de vídeo (15 segundos en total) y 3 archivos de audio (15 segundos en total): un máximo de 12 archivos por generación.

Consejo: Para una conversión básica de imagen a vídeo, una sola imagen es suficiente. Usa varias imágenes cuando necesites coherencia del personaje en distintas tomas o quieras definir por separado un sujeto y una referencia de estilo.

Paso 3: Escribe tu prompt de movimiento

Aquí es donde el flujo de imagen a vídeo difiere del de texto a vídeo. Como tu imagen ya establece la escena visual, tu prompt debe centrarse en el movimiento y el trabajo de cámara, no en la descripción de la escena.

Usa tus @tags de forma explícita:

@Image1 is the first frame. The woman's hair blows gently
in the wind. She slowly turns her head to the right and
smiles. Camera holds steady in a medium close-up.
Soft natural lighting, shallow depth of field.

Cubrimos la fórmula completa de prompts y más ejemplos en la siguiente sección.

Paso 4: Configura los ajustes de salida

Establece los siguientes parámetros:

AjusteOpcionesRecomendación
Relación de aspecto16:9, 9:16, 4:3, 3:4, 1:1Coincide con la relación de tu imagen de origen
Duración4-15 segundosEmpieza con 5 s para hacer pruebas
ResoluciónHasta 2K (2048x1152)Usa 2K para el resultado final

La coincidencia de la relación de aspecto importa. Si tu imagen de origen es 16:9 y configuras la salida en 9:16, la IA recortará o reformará la composición, perdiendo a menudo detalles importantes. Haz coincidir siempre la relación de aspecto de tu imagen de origen con el ajuste de salida.

Paso 5: Genera

Haz clic en Generate y espera. Un clip de 5 segundos a resolución 2K suele tardar unos 60 segundos.

Paso 6: Revisa e itera

Observa el resultado con atención. Comprueba:

  • Calidad del movimiento: ¿Es el movimiento fluido y natural?
  • Coherencia del personaje: ¿Mantiene el sujeto su apariencia en todo momento?
  • Comportamiento de la cámara: ¿Sigue la cámara tus instrucciones?
  • Artefactos: Busca parpadeos, deformaciones o distorsiones poco naturales, especialmente alrededor de las manos y los rostros.

Si algo no está bien, ajusta un elemento a la vez en tu prompt. Cambiar varias cosas a la vez hace imposible saber qué mejoró (o empeoró) el resultado. Genera de 2 a 4 variaciones por prompt para comparar los resultados.


La fórmula de prompts de imagen a vídeo

Para imagen a vídeo, tu imagen se encarga de la composición visual mientras que tu prompt se encarga del movimiento. Usa esta fórmula:

Sujeto + Movimiento, Fondo + Movimiento, Cámara + Movimiento

Divídela en tres capas:

Capa 1: Movimiento del sujeto

Describe lo que hace el sujeto principal. Usa verbos de acción específicos:

  • “The knight raises his sword slowly above his head”
  • “The cat stretches and yawns”
  • “The woman turns to face the camera”
  • “The product rotates 180 degrees on the table”

Evita instrucciones vagas como “el sujeto se mueve”: cuanto más específico sea el verbo de acción, mejor será el resultado.

Capa 2: Movimiento del fondo/entorno

Describe lo que ocurre en la escena alrededor del sujeto:

  • “Leaves fall gently in the background”
  • “Rain streaks across the window”
  • “City lights pulse and flicker in the distance”
  • “Clouds drift slowly across the sky”

Si quieres que el fondo permanezca estático, dilo explícitamente: “The background remains still.”

Capa 3: Movimiento de cámara

Especifica exactamente un movimiento de cámara por clip. Combinar varios movimientos de cámara en un clip corto suele producir resultados inestables.

Dirección de cámaraLo que hace
Slow pan left/rightBarrido horizontal a través de la escena
Dolly in/outLa cámara se acerca o se aleja del sujeto
Orbit left/rightLa cámara rodea al sujeto
Tilt up/downRotación vertical de la cámara
Tracking shotLa cámara sigue el movimiento del sujeto
Static shotLa cámara mantiene la posición, sin movimiento
HandheldLigero temblor natural para un aire documental

Juntándolo todo

Aquí está la fórmula aplicada a una foto de retrato:

@Image1 is the first frame. The woman slowly lifts her chin
and looks directly into the camera [subject motion]. A gentle
breeze moves the curtains behind her [background motion].
Camera slowly dollies in from a medium shot to a close-up
[camera motion]. Warm golden-hour lighting, cinematic color
grading, shallow depth of field [style].

Etiquetas de estilo y restricción

Añade palabras clave de estilo al final de tu prompt para controlar el tratamiento visual:

  • Cinematográfico: “cinematic lighting, shallow depth of field, film grain, 24fps”
  • Comercial: “clean studio lighting, product photography, crisp focus”
  • Dramático: “high contrast, dramatic shadows, moody atmosphere”
  • Movimiento fluido: “smooth continuous motion, no jump cuts”
  • Cámara lenta: “slow-motion movement, 120fps look”

7 ejemplos de prompts para copiar y pegar

Estos prompts están diseñados para la generación de imagen a vídeo. Sube tu imagen, pega el prompt (sustituyendo las descripciones de @Image1 por tu sujeto real) y genera.

Ejemplo 1: Animación de retrato

@Image1 as the first frame. The person blinks naturally and
turns their head slightly to the left. A faint smile appears.
Hair moves gently as if caught by a light breeze. Camera
holds steady in a medium close-up. Soft natural lighting,
cinematic color grading, shallow depth of field.

Ideal para: Retratos de cabeza, fotos de perfil, retratos de personajes.

Ejemplo 2: Rotación para mostrar un producto

@Image1 as the first frame. The product slowly rotates 180
degrees on a reflective surface. Soft highlights glide across
the surface as it turns. Camera holds static at eye level.
Clean studio lighting, commercial product photography style,
crisp focus throughout.

Ideal para: Fotos de producto para e-commerce, materiales de marketing.

Ejemplo 3: Paisaje que cobra vida

@Image1 as the first frame. Clouds drift slowly from left to
right across the sky. Water ripples gently in the foreground.
Grass sways in a light breeze. Camera executes a slow dolly
forward into the scene. Golden-hour lighting, nature
documentary style, wide dynamic range.

Ideal para: Contenido de viajes, inmobiliario, fotografía de naturaleza.

Ejemplo 4: Escena de acción de personaje

@Image1 is a warrior in full armor. The warrior raises their
sword overhead with both hands, then brings it down in a
powerful swing. Cape billows with the motion. Camera orbits
slowly to the right during the swing. Dramatic side lighting,
cinematic atmosphere, epic fantasy style.

Ideal para: Animación de arte conceptual, marketing de videojuegos, contenido de fantasía.

Ejemplo 5: Vídeo de moda y estilo

@Image1 as the first frame. The model takes two confident
steps forward on the runway. Fabric of the outfit flows and
catches the light with each step. Camera tracks backward,
keeping the model centered. Bright fashion show lighting,
high-contrast, editorial photography style.

Ideal para: Lookbooks de moda, reels para redes sociales, contenido de marca.

Ejemplo 6: Comida y bebida

@Image1 as the first frame. Steam rises gently from the
surface of the coffee cup. A hand slowly reaches in from the
right side and lifts the cup. Liquid shifts naturally inside
the cup. Camera remains static, medium close-up. Warm
cafe lighting, cozy atmosphere, food photography style
with rich warm tones.

Ideal para: Marketing de restaurantes, contenido de blogs de comida, anuncios de bebidas.

Ejemplo 7: Visualización arquitectónica

@Image1 as the first frame. Sunlight slowly shifts across the
building facade, casting moving shadows. People walk past in
the foreground as small blurred silhouettes. Trees sway
gently. Camera slowly pans right along the building exterior.
Clean architectural photography style, natural daylight,
realistic atmosphere.

Ideal para: Inmobiliario, portafolios de arquitectura, contenido urbano.


Técnicas avanzadas

Una vez que te sientas cómodo con el flujo básico de imagen a vídeo, estas técnicas te ayudarán a producir resultados más sofisticados.

Bloqueo del primer fotograma

La forma más fiable de usar imagen a vídeo es fijar tu imagen como el primer fotograma del vídeo generado. Esto garantiza que el vídeo comience exactamente como se ve tu imagen y que la IA anime hacia adelante a partir de ese punto.

Usa esta frase en tu prompt:

@Image1 as the first frame.

Esto le indica a Seedance 2.0 que trate tu imagen como el fotograma inicial literal, no solo como una referencia de estilo o de personaje. La composición, los colores, la posición del sujeto y la disposición general de tu imagen se conservarán en el primer fotograma, y el movimiento se construirá a partir de ahí.

Definición del último fotograma

También puedes definir un punto final subiendo dos imágenes: una para el inicio y otra para el final:

@Image1 as the first frame, @Image2 as the last frame.
The character smoothly transitions from the sitting position
to standing. Camera holds steady. Continuous smooth motion.

Seedance 2.0 generará un vídeo que transiciona de forma natural desde la composición de @Image1 a la composición de @Image2. Esto es potente para:

  • Transformaciones de antes/después
  • Transiciones de pose de personaje
  • Transiciones de escena (de día a noche, de vacío a poblado)
  • Secuencias de revelación de producto

Consejo: Mantén ambas imágenes con la misma relación de aspecto y aproximadamente el mismo encuadre para lograr la transición más fluida. Los cambios drásticos de composición entre el primer y el último fotograma pueden producir resultados inestables.

Coherencia de personaje con varias imágenes

Cuando crees contenido de varias tomas (como un cortometraje o una campaña publicitaria), usa la misma imagen de referencia del personaje en todas las generaciones:

Toma 1:

@Image1 is the main character. She walks through a busy
market street. Camera tracks alongside her. Daytime,
natural lighting.

Toma 2:

@Image1 is the main character. She stops at a fruit stand and
picks up an apple. Camera holds static, medium shot.
Same daytime lighting as previous scene.

Al usar la misma referencia @Image1 en ambas tomas, el rostro, la ropa y las proporciones corporales del personaje se mantienen coherentes entre cortes.

Transferencia de estilo desde una segunda imagen

Sube una imagen como tu sujeto y una segunda imagen como tu referencia de estilo:

@Image1 is the main subject. Apply the visual style, color
palette, and lighting from @Image2. The subject walks forward
slowly. Camera dollies in. Match the mood and atmosphere
of @Image2 exactly.

Esto es útil cuando quieres que una fotografía parezca una pintura, que un boceto parezca un render 3D o cualquier transformación de un estilo a otro manteniendo el movimiento.

Combinación de referencias de imagen y vídeo

Para un control máximo, combina una referencia de imagen (para la apariencia) con una referencia de vídeo (para el movimiento):

@Image1 is the character. Replicate the exact camera movement
and action choreography from @Video1. Maintain the character's
appearance from @Image1 throughout. Cinematic lighting.

Esto separa el control de la apariencia del control del movimiento: tu imagen define cómo se ven las cosas y tu referencia de vídeo define cómo se mueven.

Bloqueo de semilla para el refinamiento iterativo

Si la interfaz de Dreamina proporciona un valor de semilla (seed), anota la semilla de una generación que te guste parcialmente. Vuelve a ejecutar con la misma semilla y un prompt ligeramente ajustado para refinar elementos específicos sin cambiar la composición general. Esto es especialmente útil cuando el movimiento es bueno pero el estilo necesita ajustes, o viceversa.


Buenas prácticas para la preparación de imágenes

La calidad de tu resultado está directamente ligada a la calidad de tu entrada. Sigue estas reglas para obtener los mejores resultados.

La resolución importa

Resolución de entradaCalidad de salida esperada
Por debajo de 720pPobre — artefactos visibles, detalles difusos
1080p (1920x1080)Buena — aceptable para redes sociales
2K (2048x1152)Excelente — coincide con la resolución de salida nativa
4K (3840x2160)Excelente — da a la IA el máximo detalle para trabajar

Apunta siempre a 2K o superior. Si tu imagen de origen está por debajo de 1080p, considera escalarla con un escalador con IA antes de usarla en Seedance 2.0.

Alineación de la relación de aspecto

Haz coincidir la relación de aspecto de tu imagen de origen con la relación de salida deseada:

PlataformaRelación recomendadaEjemplo de tamaño de imagen
YouTube / Vimeo16:92048 x 1152
TikTok / Reels / Shorts9:161152 x 2048
Feed de Instagram1:11440 x 1440
Instagram vertical4:5 o 3:41152 x 1536

Las relaciones que no coinciden obligan a la IA a recortar o rellenar tu imagen, lo que introduce cambios de encuadre no deseados.

Posicionamiento del sujeto

  • Coloca tu sujeto donde permanecerá a lo largo del clip. Si el personaje está centrado, la IA intentará mantenerlo centrado.
  • Deja espacio sobre la cabeza y espacio negativo en la dirección del movimiento previsto. Un personaje a punto de caminar hacia la derecha necesita espacio en el lado derecho del encuadre.
  • Evita los sujetos cortados en los bordes del encuadre, a menos que quieras intencionadamente un encuadre parcial.

Coherencia de la iluminación

La IA intentará mantener la iluminación de tu imagen de origen. Si tu imagen tiene una iluminación plana y uniforme, el vídeo tendrá una iluminación plana y uniforme. Para resultados más dinámicos:

  • Usa imágenes con iluminación direccional (los sujetos iluminados de lado o a contraluz crean más profundidad visual).
  • Evita las temperaturas de iluminación mixtas a menos que ese sea el efecto que buscas.
  • Especifica la iluminación en tu prompt si quieres anular o realzar lo que hay en la imagen: “warm golden-hour lighting” o “dramatic rim lighting.”

Qué evitar

  • Texto o marcas de agua prominentes: La IA intentará animarlos, creando texto distorsionado.
  • Primeros planos extremos de rostros: Pueden producir efectos de valle inquietante (uncanny valley) en el movimiento generado.
  • Collages o imágenes de varios paneles: La IA puede tener dificultades para determinar qué elemento es el sujeto.
  • Imágenes muy oscuras o muy claras: Las imágenes de bajo contraste dan a la IA menos información con la que trabajar.

Resolución de problemas comunes

Deriva del personaje (el sujeto cambia de apariencia)

Síntoma: El rostro, la ropa o la forma del cuerpo del personaje cambian notablemente durante el clip.

Solución:

  • Simplifica tu prompt a un solo sujeto con una acción principal.
  • Elimina cualquier instrucción que implique cambios de escena o la entrada de nuevos personajes.
  • Usa el bloqueo “as the first frame” para una coherencia máxima.
  • Asegúrate de que tu imagen de referencia tenga un rostro claro y bien iluminado.

Desenfoque por movimiento o movimiento entrecortado

Síntoma: El vídeo se ve tembloroso o tiene un desenfoque por movimiento poco natural.

Solución:

  • Sustituye los verbos de acción rápida por alternativas más suaves. Usa “slowly walks” en lugar de “runs.”
  • Añade restricciones de suavidad: “smooth continuous motion, no sudden movements.”
  • Reduce la duración del clip. Un clip de 5 segundos con un solo movimiento es más fluido que un clip de 15 segundos con varias acciones.
  • Evita combinar varios movimientos de cámara en un solo clip.

Encuadre incorrecto o sujeto recortado

Síntoma: El resultado recorta tu sujeto o encuadra la escena de forma diferente a tu imagen de origen.

Solución:

  • Configura la relación de aspecto de salida para que coincida exactamente con la relación de tu imagen de origen.
  • Indica explícitamente el encuadre: “medium close-up”, “wide shot” o “full body shot.”
  • Usa “as the first frame” para fijar la composición.

Resultado estático (nada se mueve)

Síntoma: El vídeo generado parece una imagen fija con poco o ningún movimiento.

Solución:

  • Sé más específico sobre lo que se mueve. En lugar de “the scene comes to life”, describe acciones exactas: “hair blows in the wind, leaves fall in the background, clouds drift across the sky.”
  • Añade un movimiento de cámara para crear al menos algo de dinamismo visual.
  • Aumenta la duración para dar a la IA más fotogramas con los que trabajar.

Cambios de iluminación a mitad del clip

Síntoma: La iluminación o la temperatura de color cambian notablemente durante el vídeo.

Solución:

  • Indica explícitamente la coherencia de la iluminación: “maintain consistent warm lighting throughout.”
  • Evita prompts que impliquen cambios en la hora del día a menos que esa sea tu intención.
  • Usa duraciones de clip más cortas: la iluminación es más estable en clips de 4-5 segundos que en clips de 15 segundos.

Movimientos poco naturales de manos o rostro

Síntoma: Las manos se deforman, aparecen dedos de más o las expresiones faciales se ven inquietantes.

Solución:

  • Evita pedir gestos de manos en primer plano o expresiones faciales extremas.
  • Mantén la cámara a una distancia de plano medio o más amplia del sujeto.
  • Usa acciones de manos más simples: “holds the cup” funciona mejor que “picks up the cup while gesturing.”
  • Si las manos no son cruciales para la escena, mantenlas fuera de foco o fuera del encuadre.

Preguntas frecuentes

¿Qué formatos de imagen acepta Seedance 2.0 para imagen a vídeo?

Seedance 2.0 acepta imágenes en JPG, PNG y WebP. Para obtener los mejores resultados, usa imágenes con resolución 2K (2048x1152) o superior, con sujetos nítidos y buena iluminación.

¿Cuántas imágenes de referencia puedo subir a la vez?

Puedes subir hasta 9 imágenes de referencia por generación, junto con hasta 3 clips de vídeo y 3 archivos de audio, para un máximo de 12 archivos en total.

¿Puedo controlar en qué fotograma aparece mi imagen?

Sí. Usa la técnica del primer fotograma escribiendo “@Image1 as the first frame” en tu prompt. Esto fija tu imagen como fotograma inicial y deja que la IA anime hacia adelante a partir de ella.

¿Por qué mi personaje se ve diferente en el vídeo generado?

La deriva del personaje suele ocurrir cuando tu prompt describe demasiadas acciones o cambios de escena. Simplifícalo a un solo sujeto y un único movimiento principal. Además, asegúrate de que tu imagen de referencia sea de alta resolución y esté bien iluminada.

¿Cuánto tarda la generación de imagen a vídeo?

Un clip típico de 5 segundos a resolución 2K tarda aproximadamente 60 segundos en generarse. Las duraciones más largas y las configuraciones de referencia más complejas pueden requerir proporcionalmente más tiempo.

¿Puedo usar la función de imagen a vídeo de Seedance 2.0 para proyectos comerciales?

Sí. El contenido generado con una suscripción de pago a Dreamina puede usarse comercialmente, sujeto a los términos de servicio de ByteDance. Consulta los términos más recientes para tu caso de uso específico.


Contenido relacionado

  • Seedance 2.0: La guía completa — Desglose completo de funciones, precios, comparativas y más de 20 ejemplos de prompts para cada capacidad de Seedance 2.0.
  • Más de 50 prompts de Seedance 2.0 — Biblioteca de prompts lista para usar y organizada por categorías, incluyendo prompts dedicados de imagen a vídeo.
  • Reseña de Seedance 2.0 — Reseña honesta e independiente que cubre fortalezas, limitaciones y cómo Seedance 2.0 se compara con Sora 2, Kling 3.0 y Veo 3.1.

SeedanceTips es un recurso independiente y no está afiliado, respaldado ni conectado oficialmente con ByteDance ni con el equipo de desarrollo de Seedance. Todos los nombres de productos, logotipos y marcas comerciales son propiedad de sus respectivos dueños. La información de este sitio se proporciona con fines educativos e informativos basados en datos disponibles públicamente.