Édition visuelle pilotée par l'audio à l'aide d'outils de synthèse vocale
Rémi Decelle  1@  , Serge Miguet  1@  , Thibault Jaillon@
1 : Université Lyon 2
Univ Lyon, INSA-Lyon, CNRS, LIRIS, UMR5205, F-69621, France

L'édition visuelle ou Facial Reenactment est une tâche complexe qui nécessite une compréhension approfondie de divers outils pour obtenir de bons résultats. Malgré les progrès récents, plusieurs défis subsistent, tels que la synchronisation des lèvres, l'absence de mouvements labiaux pendant les silences et la préservation de l'identité. L'utilisation des spectrogrammes de Mel pour représenter l'audio est limitée pour capturer les nuances et les expressions faciales. Dans notre approche, nous utilisons des outils de synthèse vocale tels que le réseau EnCodec pour fournir des caractéristiques audio et textuelles, extraites à l'aide du modèle CLIP. Ces caractéristiques devraient permettre une meilleure qualité visuelle et une compréhension plus nuancée des mots prononcés et des expressions faciales. Nous avons également construit un jeu de données francophones. Les expériences nous encouragent à approfondir cette approche, qui donne des résultats équivalents à l'état de l'art.


Personnes connectées : 3 Vie privée
Chargement...