Animation audio :
Synchronise l’audio avec les visuels pour créer des mouvements réalistes à partir d’une seule image et d’un extrait sonore.
Wan 2.2 A14B Turbo API Speech to Video transforme des images statiques et des extraits audio en vidéos dynamiques et expressives — idéal pour les créateurs, les professionnels du marketing et les éducateurs. Disponible dès maintenant sur Kie.ai : profitez d’une intégration fluide et d’une qualité de génération vidéo inégalée.
The text prompt used for video generation
Click to upload or drag and drop
Supported formats: JPEG, PNG, WEBP Maximum file size: 10MB
URL of the input image. If the input image does not match the chosen aspect ratio, it is resized and center cropped
Click to upload or drag and drop
Supported formats: MP3, WAV, OGG, M4A, FLAC, AAC, X-MS-WMA, MPEG Maximum file size: 10MB
The URL of the audio file
Number of frames to generate. Must be between 40 to 120, (must be multiple of 4)
Frames per second of the generated video. Must be between 4 to 60. When using interpolation and adjust_fps_for_interpolation is set to true (default true,) the final FPS will be multiplied by the number of interpolated frames plus one. For example, if the generated frames per second is 16 and the number of interpolated frames is 1, the final frames per second will be 32. If adjust_fps_for_interpolation is set to false, this value will be used as-is
Resolution of the generated video (480p, 580p, or 720p)
Negative prompt for video generation
Random seed for reproducibility. If None, a random seed is chosen
Number of inference steps for sampling. Higher values give better quality but take longer
Classifier-free guidance scale. Higher values give better adherence to the prompt but may decrease quality
Shift value for the video. Must be between 1.0 and 10.0
If set to true, input data will be checked for safety before processing
Explore different use cases and parameter configurations
Complete guide to using
Donnez une nouvelle dimension à vos histoires numériques avec l’API Wan 2.2 A14B Turbo Speech to Video. Ce modèle d’IA révolutionnaire transforme des images statiques et des extraits audio en vidéos dynamiques et expressives — idéal pour les créateurs, les professionnels du marketing et les éducateurs. Disponible dès maintenant sur Kie.ai : profitez d’une intégration fluide et d’une qualité de génération vidéo inégalée.
Wan 2.2 A14B API est un modèle d'IA open source avancé, conçu pour la génération de vidéos à partir de texte et la conversion de la parole en vidéo. Voici ses trois atouts majeurs :
Synchronise l’audio avec les visuels pour créer des mouvements réalistes à partir d’une seule image et d’un extrait sonore.
Prise en charge des résolutions 480p à 720p, pour des vidéos nettes et professionnelles adaptées à de multiples usages.
Reposant sur une architecture Mixture-of-Experts de 14 milliards de paramètres, garantissant des résultats performants et fidèles.
Excellence audio-vidéo : l'API Wan 2.2 A14B Speech to Video transforme des extraits audio et des images statiques en animations réalistes, avec des gestes et des expressions précis. Grâce à une synchronisation avancée, elle capte les nuances émotionnelles pour une narration immersive — idéale pour la création de contenus cinématographiques.
Rendu haute résolution : produisez des vidéos nettes en 480p–720p avec l'API Wan 2.2, prise en charge jusqu'à 24 images par seconde pour une lecture fluide. Qualité professionnelle sur du matériel standard — idéale pour les usages HD en marketing et en éducation.
Traitement ultra-rapide : l'API Wan 2.2 A14B accélère la génération vidéo grâce à une inférence optimisée, réalisant des clips 720p en 20–48 secondes. Son architecture MoE augmente l'efficacité et permet aux créateurs d'itérer rapidement, même sous des délais serrés.
Synchronisation labiale avancée : obtenez une synchronisation audio-visuelle parfaite avec Wan 2.2 A14B Turbo API Speech to Video (conversion de la parole en vidéo). Les phonèmes sont associés à des mouvements naturels de la bouche et du visage, et le système gère différents accents et émotions pour des performances réalistes multilingues.
Intégration LoRA : personnalisez vos rendus avec des adaptateurs LoRA dans l'API Wan 2.2, pour un ajustement stylistique précis avec de faibles besoins en VRAM. Idéal pour des vidéos de marque ou expérimentales sans réentraîner le modèle complet.
Architecture MoE : Wan 2.2 A14B Speech to Video API s’appuie sur un framework MoE de 14B paramètres, garantissant une génération efficace en modes texte en vidéo et image en vidéo. Elle assure la cohérence des images et propose des incrustRéécriture traduction APIations bilingues pour des applications évolutives et économes en ressources.
Commencez avec notre produit en seulement quelques étapes...
Inscrivez-vous sur Kie.ai pour obtenir votre clé API et accéder à Wan 2.2 14B Turbo API, spécialisé dans la conversion de la parole en vidéo.
Importez une image statique et un extrait audio, en veillant à respecter les formats pris en charge.
Utilisez l’URL de l’API pour soumettre votre requête, en précisant la résolution et les paramètres.
Récupérez la vidéo générée et affinez-la avec des LoRA si nécessaire pour une personnalisation avancée.
Trouvez les réponses aux questions les plus fréquentes sur notre service.