Input

prompt *

The text prompt used for video generation

image_url *

Click to upload or drag and drop

Supported formats: JPEG, PNG, WEBP Maximum file size: 10MB

URL of the input image. If the input image does not match the chosen aspect ratio, it is resized and center cropped

audio_url *

Click to upload or drag and drop

Supported formats: MP3, WAV, OGG, M4A, FLAC, AAC, X-MS-WMA, MPEG Maximum file size: 10MB

The URL of the audio file

num_frames

Number of frames to generate. Must be between 40 to 120, (must be multiple of 4)

frames_per_second

Frames per second of the generated video. Must be between 4 to 60. When using interpolation and adjust_fps_for_interpolation is set to true (default true,) the final FPS will be multiplied by the number of interpolated frames plus one. For example, if the generated frames per second is 16 and the number of interpolated frames is 1, the final frames per second will be 32. If adjust_fps_for_interpolation is set to false, this value will be used as-is

resolution

Resolution of the generated video (480p, 580p, or 720p)

negative_prompt

Negative prompt for video generation

seed

Random seed for reproducibility. If None, a random seed is chosen

num_inference_steps

Number of inference steps for sampling. Higher values give better quality but take longer

guidance_scale

Classifier-free guidance scale. Higher values give better adherence to the prompt but may decrease quality

shift

Shift value for the video. Must be between 1.0 and 10.0

enable_safety_checker

If set to true, input data will be checked for safety before processing

nsfw_checker

A configurable parameter. Defaults to true in the Playground.

Output

output typevideo

Examples

Explore different use cases and parameter configurations

README

Wan 2.2 A14B API Speech to Video: convierte audio en videos sorprendentes

Eleva tu narración digital con Wan 2.2 A14B Turbo API Speech to Video. Este modelo de IA revolucionario convierte imágenes estáticas y clips de audio en videos dinámicos y expresivos, ideal para creadores, profesionales de marketing y educadores. Disponible ahora en Kie.ai: disfruta de una integración fluida y una calidad incomparable en la generación de video.

Obtén tu clave API de Wan 2.2

¿Qué es Wan 2.2 A14B API Speech to Video?

Wan 2.2 A14B API es un avanzado modelo de IA de código abierto diseñado para la generación de voz a video. Aquí tienes un resumen en tres puntos clave:

Animación basada en audio:

Sincroniza la entrada de audio con los elementos visuales, creando movimientos realistas a partir de una sola imagen y audio.

Salida de alta resolución:

Admite resoluciones de 480p a 720p, garantizando videos nítidos y de nivel profesional para diversas aplicaciones.

Con la potencia de la arquitectura MoE:

Construido sobre una arquitectura Mixture-of-Experts con 14 mil millones de parámetros, ofrece resultados eficientes y de alta fidelidad.

Funciones clave de Wan 2.2 A14B para generación de video con IA

Ecos de innovación:

Dominio de audio a video: Wan 2.2 A14B Speech to Video API transforma clips de audio e imágenes estáticas en animaciones realistas con gestos y expresiones precisas. Gracias a su sincronización avanzada, captura matices emocionales para una narración inmersiva, ideal para la creación de contenido cinematográfico.

Claridad en cada detalle:

Generación en alta resolución: Produce videos nítidos de 480p a 720p con Wan 2.2 API, con soporte para 24 fps que garantiza una reproducción fluida. Calidad profesional incluso en hardware estándar, ideal para aplicaciones de alta definición en marketing y educación.

Ritmo vertiginoso:

Procesamiento ultrarrápido: Wan 2.2 A14B API acelera la generación de video con inferencia optimizada, generando clips en 720p en tan solo 20–48 segundos. Su arquitectura MoE aumenta la eficiencia, permitiendo iteraciones rápidas para creadores con plazos ajustados.

Armonía en movimiento:

Tecnología avanzada de sincronización de labios: Consigue una sincronización audiovisual impecable con Wan 2.2 A14B Turbo API Speech to Video, mapeando fonemas en movimientos naturales de la boca y el rostro. Soporta distintos acentos y matices emocionales, entregando actuaciones realistas en varios idiomas.

Ritmo de personalización:

Integración con LoRA: Personaliza salidas con adaptadores LoRA en Wan 2.2 API, permitiendo ajustar estilos con bajo consumo de VRAM. Fomenta la creatividad en videos de marca o experimentales sin necesidad de reentrenar el modelo completo.

Melodía de eficiencia:

Arquitectura MoE: Wan 2.2 A14B Speech to Video API utiliza un marco MoE con 14 mil millones de parámetros para una generación eficiente. Admite modos de texto a video e imagen a video, mantiene la coherencia de los fotogramas y añade superposiciones bilingües para aplicaciones escalables y optimizadas en recursos.

Cómo usar Wan 2.2 A14B API para generación de video con IA

Empieza con nuestro producto en solo unos pasos...

Crea tu cuenta y accede a la API:

Regístrate en Kie.ai y obtén tu clave API para usar Wan 2.2 A14B Turbo API para generación de video por IA (texto a video).

Prepara tus archivos:

Sube una imagen y un archivo de audio, y asegúrate de que sean compatibles con los formatos admitidos.

Genera tu video:

Usa el punto de acceso (endpoint) de la API para enviar tu solicitud, especificando resolución y parámetros.

Descarga y ajusta:

Descarga el video generado y aplica LoRAs según necesites para personalizarlo.

Preguntas frecuentes

Encuentra respuestas a las dudas más comunes sobre nuestro servicio.

FAQ

¿Qué es Wan 2.2 A14B Turbo API?

FAQ

¿Cuáles son las variantes del modelo en Wan 2.2 A14B API?

FAQ

¿Cómo mejora el modo Turbo la generación de video?

FAQ

¿Necesito tarjetas gráficas locales para usar la API Wan 2.2 A14B?

FAQ

¿Puedo probar Wan AI API gratis?

FAQ

¿Qué resolución y velocidad de fotogramas admite Wan 2.2 A14B Turbo API?

FAQ

¿En qué se diferencia Wan 2.2 A14B de Wan 2.1?

FAQ