Tutorial de imagen a vídeo con Seedance 2.0 (2026)
La capacidad de imagen a vídeo de Seedance 2.0 es una de sus funciones más potentes. En lugar de describir una escena desde cero con texto, subes una imagen fija y le dices a la IA exactamente cómo darle vida: qué se mueve, cómo se comporta la cámara y qué estilo aplicar. El resultado es un vídeo de 4 a 15 segundos con una resolución de hasta 2K que conserva la composición, los colores y los detalles de tu imagen original mientras añade un movimiento natural y cinematográfico.
Este tutorial te guía por todo el flujo de trabajo de imagen a vídeo, desde la preparación de tus imágenes de origen hasta la redacción de prompts de movimiento eficaces. Encontrarás ejemplos de prompts para copiar y pegar, técnicas avanzadas como el bloqueo del primer fotograma y la animación de personajes, y soluciones a los problemas más comunes que encuentran los creadores.
Por qué imagen a vídeo (en lugar de texto a vídeo)
El texto a vídeo es potente, pero te da menos control sobre la composición inicial. Cuando ya tienes en mente un aspecto, personaje, foto de producto o escena específicos, el flujo de imagen a vídeo es la mejor opción por tres razones:
Precisión visual. Tu imagen fija la composición, la paleta de colores, la iluminación y la apariencia del sujeto. La IA no tiene que adivinar cómo es tu personaje ni cómo está encuadrada la escena: parte de tu imagen exacta.
Coherencia del personaje. Uno de los problemas más difíciles en el vídeo con IA es mantener a los personajes con el mismo aspecto a lo largo de los fotogramas. Cuando proporcionas una imagen de referencia y usas el sistema de @menciones, Seedance 2.0 trata esa imagen como un anclaje de verdad de referencia, manteniendo los rasgos faciales, la ropa y las proporciones corporales a lo largo de todo el clip.
Iteración más rápida. En lugar de reescribir descripciones visuales complejas, cambias una imagen por otra. Tu prompt sigue centrado en el movimiento y el trabajo de cámara, que es más fácil de ajustar.
La función de imagen a vídeo es ideal para demos de producto, animación de personajes a partir de arte conceptual, contenido para redes sociales a partir de fotos existentes, conversión de storyboard a vídeo y cualquier flujo de trabajo en el que la identidad visual ya esté establecida.
Lo que necesitas antes de empezar
Antes de abrir Dreamina, prepara lo siguiente:
Una cuenta de Dreamina
Seedance 2.0 funciona en la plataforma Dreamina de ByteDance en dreamina.capcut.com. Regístrate con una cuenta de CapCut o ByteDance. Las cuentas nuevas reciben créditos de prueba gratuitos, suficientes para varias generaciones de prueba.
Imágenes de origen de alta calidad
La calidad de la imagen determina directamente la calidad del resultado. Sigue estas pautas:
- Resolución: 2K (2048x1152) o superior. Seedance 2.0 genera hasta 2K, por lo que alimentarlo con una imagen de origen de 720p significa que la IA tiene que escalarla y adivinar los detalles.
- Formato: JPG, PNG o WebP. PNG es preferible para imágenes con transparencia o detalles finos.
- Nitidez del sujeto: El sujeto principal debe estar perfectamente enfocado y con buena iluminación. Evita los artefactos de compresión excesivos, el desenfoque por movimiento o las escenas de bajo contraste.
- Espacio de composición: Deja espacio visual para el movimiento que planeas añadir. Si quieres que un personaje camine hacia adelante, no lo recortes en el borde del encuadre.
Un plan de movimiento claro
Antes de escribir tu prompt, decide tres cosas:
- ¿Qué se mueve? — ¿El sujeto, el fondo o ambos?
- ¿Cómo se mueve la cámara? — ¿Paneo, órbita, dolly, inclinación, estática o cámara en mano?
- ¿Cuál es el ambiente/ritmo? — ¿Lento y cinematográfico, o rápido y enérgico?
Tener estas respuestas antes de empezar evita prompts vagos y poco enfocados que producen resultados genéricos.
Paso a paso: de imagen a vídeo en Seedance 2.0
Paso 1: Abre Dreamina y selecciona el modelo
- Ve a dreamina.capcut.com
- Inicia sesión en tu cuenta
- Haz clic en AI Video en la navegación principal
- En el menú desplegable de selección de modelo, elige Seedance 2.0
Paso 2: Sube tus imágenes de referencia
Haz clic en el Panel de Referencias (la zona de carga en el lado izquierdo de la interfaz) y sube tus imágenes. Puedes arrastrar y soltar o hacer clic para explorar.
A cada archivo subido se le asigna automáticamente una @etiqueta:
- Primera imagen:
@Image1 - Segunda imagen:
@Image2 - Y así sucesivamente, hasta
@Image9
Puedes subir hasta 9 imágenes, 3 clips de vídeo (15 segundos en total) y 3 archivos de audio (15 segundos en total): un máximo de 12 archivos por generación.
Consejo: Para una conversión básica de imagen a vídeo, una sola imagen es suficiente. Usa varias imágenes cuando necesites coherencia del personaje en distintas tomas o quieras definir por separado un sujeto y una referencia de estilo.
Paso 3: Escribe tu prompt de movimiento
Aquí es donde el flujo de imagen a vídeo difiere del de texto a vídeo. Como tu imagen ya establece la escena visual, tu prompt debe centrarse en el movimiento y el trabajo de cámara, no en la descripción de la escena.
Usa tus @tags de forma explícita:
@Image1 is the first frame. The woman's hair blows gently
in the wind. She slowly turns her head to the right and
smiles. Camera holds steady in a medium close-up.
Soft natural lighting, shallow depth of field.
Cubrimos la fórmula completa de prompts y más ejemplos en la siguiente sección.
Paso 4: Configura los ajustes de salida
Establece los siguientes parámetros:
| Ajuste | Opciones | Recomendación |
|---|---|---|
| Relación de aspecto | 16:9, 9:16, 4:3, 3:4, 1:1 | Coincide con la relación de tu imagen de origen |
| Duración | 4-15 segundos | Empieza con 5 s para hacer pruebas |
| Resolución | Hasta 2K (2048x1152) | Usa 2K para el resultado final |
La coincidencia de la relación de aspecto importa. Si tu imagen de origen es 16:9 y configuras la salida en 9:16, la IA recortará o reformará la composición, perdiendo a menudo detalles importantes. Haz coincidir siempre la relación de aspecto de tu imagen de origen con el ajuste de salida.
Paso 5: Genera
Haz clic en Generate y espera. Un clip de 5 segundos a resolución 2K suele tardar unos 60 segundos.
Paso 6: Revisa e itera
Observa el resultado con atención. Comprueba:
- Calidad del movimiento: ¿Es el movimiento fluido y natural?
- Coherencia del personaje: ¿Mantiene el sujeto su apariencia en todo momento?
- Comportamiento de la cámara: ¿Sigue la cámara tus instrucciones?
- Artefactos: Busca parpadeos, deformaciones o distorsiones poco naturales, especialmente alrededor de las manos y los rostros.
Si algo no está bien, ajusta un elemento a la vez en tu prompt. Cambiar varias cosas a la vez hace imposible saber qué mejoró (o empeoró) el resultado. Genera de 2 a 4 variaciones por prompt para comparar los resultados.
La fórmula de prompts de imagen a vídeo
Para imagen a vídeo, tu imagen se encarga de la composición visual mientras que tu prompt se encarga del movimiento. Usa esta fórmula:
Sujeto + Movimiento, Fondo + Movimiento, Cámara + Movimiento
Divídela en tres capas:
Capa 1: Movimiento del sujeto
Describe lo que hace el sujeto principal. Usa verbos de acción específicos:
- “The knight raises his sword slowly above his head”
- “The cat stretches and yawns”
- “The woman turns to face the camera”
- “The product rotates 180 degrees on the table”
Evita instrucciones vagas como “el sujeto se mueve”: cuanto más específico sea el verbo de acción, mejor será el resultado.
Capa 2: Movimiento del fondo/entorno
Describe lo que ocurre en la escena alrededor del sujeto:
- “Leaves fall gently in the background”
- “Rain streaks across the window”
- “City lights pulse and flicker in the distance”
- “Clouds drift slowly across the sky”
Si quieres que el fondo permanezca estático, dilo explícitamente: “The background remains still.”
Capa 3: Movimiento de cámara
Especifica exactamente un movimiento de cámara por clip. Combinar varios movimientos de cámara en un clip corto suele producir resultados inestables.
| Dirección de cámara | Lo que hace |
|---|---|
Slow pan left/right | Barrido horizontal a través de la escena |
Dolly in/out | La cámara se acerca o se aleja del sujeto |
Orbit left/right | La cámara rodea al sujeto |
Tilt up/down | Rotación vertical de la cámara |
Tracking shot | La cámara sigue el movimiento del sujeto |
Static shot | La cámara mantiene la posición, sin movimiento |
Handheld | Ligero temblor natural para un aire documental |
Juntándolo todo
Aquí está la fórmula aplicada a una foto de retrato:
@Image1 is the first frame. The woman slowly lifts her chin
and looks directly into the camera [subject motion]. A gentle
breeze moves the curtains behind her [background motion].
Camera slowly dollies in from a medium shot to a close-up
[camera motion]. Warm golden-hour lighting, cinematic color
grading, shallow depth of field [style].
Etiquetas de estilo y restricción
Añade palabras clave de estilo al final de tu prompt para controlar el tratamiento visual:
- Cinematográfico: “cinematic lighting, shallow depth of field, film grain, 24fps”
- Comercial: “clean studio lighting, product photography, crisp focus”
- Dramático: “high contrast, dramatic shadows, moody atmosphere”
- Movimiento fluido: “smooth continuous motion, no jump cuts”
- Cámara lenta: “slow-motion movement, 120fps look”
7 ejemplos de prompts para copiar y pegar
Estos prompts están diseñados para la generación de imagen a vídeo. Sube tu imagen, pega el prompt (sustituyendo las descripciones de @Image1 por tu sujeto real) y genera.
Ejemplo 1: Animación de retrato
@Image1 as the first frame. The person blinks naturally and
turns their head slightly to the left. A faint smile appears.
Hair moves gently as if caught by a light breeze. Camera
holds steady in a medium close-up. Soft natural lighting,
cinematic color grading, shallow depth of field.
Ideal para: Retratos de cabeza, fotos de perfil, retratos de personajes.
Ejemplo 2: Rotación para mostrar un producto
@Image1 as the first frame. The product slowly rotates 180
degrees on a reflective surface. Soft highlights glide across
the surface as it turns. Camera holds static at eye level.
Clean studio lighting, commercial product photography style,
crisp focus throughout.
Ideal para: Fotos de producto para e-commerce, materiales de marketing.
Ejemplo 3: Paisaje que cobra vida
@Image1 as the first frame. Clouds drift slowly from left to
right across the sky. Water ripples gently in the foreground.
Grass sways in a light breeze. Camera executes a slow dolly
forward into the scene. Golden-hour lighting, nature
documentary style, wide dynamic range.
Ideal para: Contenido de viajes, inmobiliario, fotografía de naturaleza.
Ejemplo 4: Escena de acción de personaje
@Image1 is a warrior in full armor. The warrior raises their
sword overhead with both hands, then brings it down in a
powerful swing. Cape billows with the motion. Camera orbits
slowly to the right during the swing. Dramatic side lighting,
cinematic atmosphere, epic fantasy style.
Ideal para: Animación de arte conceptual, marketing de videojuegos, contenido de fantasía.
Ejemplo 5: Vídeo de moda y estilo
@Image1 as the first frame. The model takes two confident
steps forward on the runway. Fabric of the outfit flows and
catches the light with each step. Camera tracks backward,
keeping the model centered. Bright fashion show lighting,
high-contrast, editorial photography style.
Ideal para: Lookbooks de moda, reels para redes sociales, contenido de marca.
Ejemplo 6: Comida y bebida
@Image1 as the first frame. Steam rises gently from the
surface of the coffee cup. A hand slowly reaches in from the
right side and lifts the cup. Liquid shifts naturally inside
the cup. Camera remains static, medium close-up. Warm
cafe lighting, cozy atmosphere, food photography style
with rich warm tones.
Ideal para: Marketing de restaurantes, contenido de blogs de comida, anuncios de bebidas.
Ejemplo 7: Visualización arquitectónica
@Image1 as the first frame. Sunlight slowly shifts across the
building facade, casting moving shadows. People walk past in
the foreground as small blurred silhouettes. Trees sway
gently. Camera slowly pans right along the building exterior.
Clean architectural photography style, natural daylight,
realistic atmosphere.
Ideal para: Inmobiliario, portafolios de arquitectura, contenido urbano.
Técnicas avanzadas
Una vez que te sientas cómodo con el flujo básico de imagen a vídeo, estas técnicas te ayudarán a producir resultados más sofisticados.
Bloqueo del primer fotograma
La forma más fiable de usar imagen a vídeo es fijar tu imagen como el primer fotograma del vídeo generado. Esto garantiza que el vídeo comience exactamente como se ve tu imagen y que la IA anime hacia adelante a partir de ese punto.
Usa esta frase en tu prompt:
@Image1 as the first frame.
Esto le indica a Seedance 2.0 que trate tu imagen como el fotograma inicial literal, no solo como una referencia de estilo o de personaje. La composición, los colores, la posición del sujeto y la disposición general de tu imagen se conservarán en el primer fotograma, y el movimiento se construirá a partir de ahí.
Definición del último fotograma
También puedes definir un punto final subiendo dos imágenes: una para el inicio y otra para el final:
@Image1 as the first frame, @Image2 as the last frame.
The character smoothly transitions from the sitting position
to standing. Camera holds steady. Continuous smooth motion.
Seedance 2.0 generará un vídeo que transiciona de forma natural desde la composición de @Image1 a la composición de @Image2. Esto es potente para:
- Transformaciones de antes/después
- Transiciones de pose de personaje
- Transiciones de escena (de día a noche, de vacío a poblado)
- Secuencias de revelación de producto
Consejo: Mantén ambas imágenes con la misma relación de aspecto y aproximadamente el mismo encuadre para lograr la transición más fluida. Los cambios drásticos de composición entre el primer y el último fotograma pueden producir resultados inestables.
Coherencia de personaje con varias imágenes
Cuando crees contenido de varias tomas (como un cortometraje o una campaña publicitaria), usa la misma imagen de referencia del personaje en todas las generaciones:
Toma 1:
@Image1 is the main character. She walks through a busy
market street. Camera tracks alongside her. Daytime,
natural lighting.
Toma 2:
@Image1 is the main character. She stops at a fruit stand and
picks up an apple. Camera holds static, medium shot.
Same daytime lighting as previous scene.
Al usar la misma referencia @Image1 en ambas tomas, el rostro, la ropa y las proporciones corporales del personaje se mantienen coherentes entre cortes.
Transferencia de estilo desde una segunda imagen
Sube una imagen como tu sujeto y una segunda imagen como tu referencia de estilo:
@Image1 is the main subject. Apply the visual style, color
palette, and lighting from @Image2. The subject walks forward
slowly. Camera dollies in. Match the mood and atmosphere
of @Image2 exactly.
Esto es útil cuando quieres que una fotografía parezca una pintura, que un boceto parezca un render 3D o cualquier transformación de un estilo a otro manteniendo el movimiento.
Combinación de referencias de imagen y vídeo
Para un control máximo, combina una referencia de imagen (para la apariencia) con una referencia de vídeo (para el movimiento):
@Image1 is the character. Replicate the exact camera movement
and action choreography from @Video1. Maintain the character's
appearance from @Image1 throughout. Cinematic lighting.
Esto separa el control de la apariencia del control del movimiento: tu imagen define cómo se ven las cosas y tu referencia de vídeo define cómo se mueven.
Bloqueo de semilla para el refinamiento iterativo
Si la interfaz de Dreamina proporciona un valor de semilla (seed), anota la semilla de una generación que te guste parcialmente. Vuelve a ejecutar con la misma semilla y un prompt ligeramente ajustado para refinar elementos específicos sin cambiar la composición general. Esto es especialmente útil cuando el movimiento es bueno pero el estilo necesita ajustes, o viceversa.
Buenas prácticas para la preparación de imágenes
La calidad de tu resultado está directamente ligada a la calidad de tu entrada. Sigue estas reglas para obtener los mejores resultados.
La resolución importa
| Resolución de entrada | Calidad de salida esperada |
|---|---|
| Por debajo de 720p | Pobre — artefactos visibles, detalles difusos |
| 1080p (1920x1080) | Buena — aceptable para redes sociales |
| 2K (2048x1152) | Excelente — coincide con la resolución de salida nativa |
| 4K (3840x2160) | Excelente — da a la IA el máximo detalle para trabajar |
Apunta siempre a 2K o superior. Si tu imagen de origen está por debajo de 1080p, considera escalarla con un escalador con IA antes de usarla en Seedance 2.0.
Alineación de la relación de aspecto
Haz coincidir la relación de aspecto de tu imagen de origen con la relación de salida deseada:
| Plataforma | Relación recomendada | Ejemplo de tamaño de imagen |
|---|---|---|
| YouTube / Vimeo | 16:9 | 2048 x 1152 |
| TikTok / Reels / Shorts | 9:16 | 1152 x 2048 |
| Feed de Instagram | 1:1 | 1440 x 1440 |
| Instagram vertical | 4:5 o 3:4 | 1152 x 1536 |
Las relaciones que no coinciden obligan a la IA a recortar o rellenar tu imagen, lo que introduce cambios de encuadre no deseados.
Posicionamiento del sujeto
- Coloca tu sujeto donde permanecerá a lo largo del clip. Si el personaje está centrado, la IA intentará mantenerlo centrado.
- Deja espacio sobre la cabeza y espacio negativo en la dirección del movimiento previsto. Un personaje a punto de caminar hacia la derecha necesita espacio en el lado derecho del encuadre.
- Evita los sujetos cortados en los bordes del encuadre, a menos que quieras intencionadamente un encuadre parcial.
Coherencia de la iluminación
La IA intentará mantener la iluminación de tu imagen de origen. Si tu imagen tiene una iluminación plana y uniforme, el vídeo tendrá una iluminación plana y uniforme. Para resultados más dinámicos:
- Usa imágenes con iluminación direccional (los sujetos iluminados de lado o a contraluz crean más profundidad visual).
- Evita las temperaturas de iluminación mixtas a menos que ese sea el efecto que buscas.
- Especifica la iluminación en tu prompt si quieres anular o realzar lo que hay en la imagen: “warm golden-hour lighting” o “dramatic rim lighting.”
Qué evitar
- Texto o marcas de agua prominentes: La IA intentará animarlos, creando texto distorsionado.
- Primeros planos extremos de rostros: Pueden producir efectos de valle inquietante (uncanny valley) en el movimiento generado.
- Collages o imágenes de varios paneles: La IA puede tener dificultades para determinar qué elemento es el sujeto.
- Imágenes muy oscuras o muy claras: Las imágenes de bajo contraste dan a la IA menos información con la que trabajar.
Resolución de problemas comunes
Deriva del personaje (el sujeto cambia de apariencia)
Síntoma: El rostro, la ropa o la forma del cuerpo del personaje cambian notablemente durante el clip.
Solución:
- Simplifica tu prompt a un solo sujeto con una acción principal.
- Elimina cualquier instrucción que implique cambios de escena o la entrada de nuevos personajes.
- Usa el bloqueo “as the first frame” para una coherencia máxima.
- Asegúrate de que tu imagen de referencia tenga un rostro claro y bien iluminado.
Desenfoque por movimiento o movimiento entrecortado
Síntoma: El vídeo se ve tembloroso o tiene un desenfoque por movimiento poco natural.
Solución:
- Sustituye los verbos de acción rápida por alternativas más suaves. Usa “slowly walks” en lugar de “runs.”
- Añade restricciones de suavidad: “smooth continuous motion, no sudden movements.”
- Reduce la duración del clip. Un clip de 5 segundos con un solo movimiento es más fluido que un clip de 15 segundos con varias acciones.
- Evita combinar varios movimientos de cámara en un solo clip.
Encuadre incorrecto o sujeto recortado
Síntoma: El resultado recorta tu sujeto o encuadra la escena de forma diferente a tu imagen de origen.
Solución:
- Configura la relación de aspecto de salida para que coincida exactamente con la relación de tu imagen de origen.
- Indica explícitamente el encuadre: “medium close-up”, “wide shot” o “full body shot.”
- Usa “as the first frame” para fijar la composición.
Resultado estático (nada se mueve)
Síntoma: El vídeo generado parece una imagen fija con poco o ningún movimiento.
Solución:
- Sé más específico sobre lo que se mueve. En lugar de “the scene comes to life”, describe acciones exactas: “hair blows in the wind, leaves fall in the background, clouds drift across the sky.”
- Añade un movimiento de cámara para crear al menos algo de dinamismo visual.
- Aumenta la duración para dar a la IA más fotogramas con los que trabajar.
Cambios de iluminación a mitad del clip
Síntoma: La iluminación o la temperatura de color cambian notablemente durante el vídeo.
Solución:
- Indica explícitamente la coherencia de la iluminación: “maintain consistent warm lighting throughout.”
- Evita prompts que impliquen cambios en la hora del día a menos que esa sea tu intención.
- Usa duraciones de clip más cortas: la iluminación es más estable en clips de 4-5 segundos que en clips de 15 segundos.
Movimientos poco naturales de manos o rostro
Síntoma: Las manos se deforman, aparecen dedos de más o las expresiones faciales se ven inquietantes.
Solución:
- Evita pedir gestos de manos en primer plano o expresiones faciales extremas.
- Mantén la cámara a una distancia de plano medio o más amplia del sujeto.
- Usa acciones de manos más simples: “holds the cup” funciona mejor que “picks up the cup while gesturing.”
- Si las manos no son cruciales para la escena, mantenlas fuera de foco o fuera del encuadre.
Preguntas frecuentes
¿Qué formatos de imagen acepta Seedance 2.0 para imagen a vídeo?
Seedance 2.0 acepta imágenes en JPG, PNG y WebP. Para obtener los mejores resultados, usa imágenes con resolución 2K (2048x1152) o superior, con sujetos nítidos y buena iluminación.
¿Cuántas imágenes de referencia puedo subir a la vez?
Puedes subir hasta 9 imágenes de referencia por generación, junto con hasta 3 clips de vídeo y 3 archivos de audio, para un máximo de 12 archivos en total.
¿Puedo controlar en qué fotograma aparece mi imagen?
Sí. Usa la técnica del primer fotograma escribiendo “@Image1 as the first frame” en tu prompt. Esto fija tu imagen como fotograma inicial y deja que la IA anime hacia adelante a partir de ella.
¿Por qué mi personaje se ve diferente en el vídeo generado?
La deriva del personaje suele ocurrir cuando tu prompt describe demasiadas acciones o cambios de escena. Simplifícalo a un solo sujeto y un único movimiento principal. Además, asegúrate de que tu imagen de referencia sea de alta resolución y esté bien iluminada.
¿Cuánto tarda la generación de imagen a vídeo?
Un clip típico de 5 segundos a resolución 2K tarda aproximadamente 60 segundos en generarse. Las duraciones más largas y las configuraciones de referencia más complejas pueden requerir proporcionalmente más tiempo.
¿Puedo usar la función de imagen a vídeo de Seedance 2.0 para proyectos comerciales?
Sí. El contenido generado con una suscripción de pago a Dreamina puede usarse comercialmente, sujeto a los términos de servicio de ByteDance. Consulta los términos más recientes para tu caso de uso específico.
Contenido relacionado
- Seedance 2.0: La guía completa — Desglose completo de funciones, precios, comparativas y más de 20 ejemplos de prompts para cada capacidad de Seedance 2.0.
- Más de 50 prompts de Seedance 2.0 — Biblioteca de prompts lista para usar y organizada por categorías, incluyendo prompts dedicados de imagen a vídeo.
- Reseña de Seedance 2.0 — Reseña honesta e independiente que cubre fortalezas, limitaciones y cómo Seedance 2.0 se compara con Sora 2, Kling 3.0 y Veo 3.1.
SeedanceTips es un recurso independiente y no está afiliado, respaldado ni conectado oficialmente con ByteDance ni con el equipo de desarrollo de Seedance. Todos los nombres de productos, logotipos y marcas comerciales son propiedad de sus respectivos dueños. La información de este sitio se proporciona con fines educativos e informativos basados en datos disponibles públicamente.