Microsoft Artificial Intelligence pourra imiter votre voix avec seulement 3 secondes d’audio

L’IA ou l’intelligence artificielle fait de plus en plus une brèche dans la société d’aujourd’hui avec différentes solutions et bouleverse tout type d’industrie. Maintenant, Microsoft a créé un modèle vocal appelé VALL-E qui est capable d’imiter n’importe quelle voix avec un son de 3 secondes.

[La inteligencia artificial revoluciona todos los ámbitos de la creación gráfica: ¿para sumar o restar?]

L’IA dans la voix humaine avec VALL-E

cette intelligence artificielle être capable d’imiter la voix de n’importe qui avec un son de 3 secondes c’est presque un peu effrayant. Notamment à cause des détournements que l’on peut en faire avec toutes sortes d’objectifs.

Si déjà dans l’art il rend impossible de savoir si une œuvre a été faite par la main d’un artiste (même en obtenant quelqu’un qui réaliser des illustrations similaires à celles générées par l’IA est bloquée sur des réseaux tels que reddit), l’avenir qui nous attend est totalement incertain.

Vue générale de VALL-E

L’Android gratuit

Depuis github le fonctionnement de ce modèle de voix neurale appelé VALL-E est expliqué, et il utilise des codes discrets dérivés d’un modèle de codec audio neuronal.

Ils se sont utilisé 60 000 heures de données vocales en anglais pour la formation de ce modèle vocal, qui est presque des centaines de fois plus grand que les systèmes existants actuels.

VALL-E utilise ces capacités d’apprentissage du contexte et utilise ainsi la voix personnalisée synthétisée en haute qualité avec seulement un enregistrement de 3 secondes de la voix d’une personne.

Et c’est que ce modèle de voix non seulement reste à imiter la voix, mais aussi maintient l’émotion de la personne lorsqu’elle parle et même l’environnement acoustique qui l’entoure ; c’est-à-dire que c’est presque un copier-coller de la voix de quelqu’un.

Différents exemples peuvent être reproduits sur github du fonctionnement de VALL-E, et la vérité est qu’il est si surprenant qu’il dépasse la capacité de ce modèle de voix à imiter le timbre de n’importe quelle personne.