La nueva y espeluznante IA puede simular tu voz perfectamente después de escucharla durante 3 segundos

La nueva y espeluznante IA puede simular tu voz perfectamente después de escucharla durante 3 segundos

La tecnología moderna ha revolucionado la forma en que hacemos las cosas. Incluso la versión más básica de los teléfonos inteligentes en los bolsillos de la mayoría de las personas o dispositivos de hogar inteligentes en nuestras salas de estar tiene una cantidad impresionante de capacidades, especialmente cuando considera que puede controlarlos simplemente hablando, gracias a la inteligencia artificial (IA). Pero a pesar de que las computadoras han progresado para ayudarnos a facilitarnos la vida, también están entrando en un nuevo territorio a medida que se vuelven capaces de imitar el comportamiento humano e incluso pensar por sí mismos. Y ahora, una nueva forma espeluznante de IA puede simular tu voz perfectamente después de escucharla durante solo tres segundos. Siga leyendo para obtener más información sobre la innovadora tecnología.

Lea esto a continuación: nunca cargue su teléfono Android de esta manera, dicen los expertos.

Microsoft ha desarrollado un nuevo tipo de IA que puede simular sin problemas su voz.

Shutterstock / Soloviova Liudmyla

Todos hemos confiado en máquinas para facilitar nuestra vida cotidiana de una forma u otra. Pero, ¿qué pasaría si una computadora pudiera intervenir e imitar la forma en que hablas sin que otros no se den cuenta?

La semana pasada, los investigadores de Microsoft anunciaron que habían desarrollado una nueva forma de IA de texto a voz que han denominado Vall-E, informa ARS Technica. La tecnología puede simular la voz de una persona utilizando un clip de audio de tres segundos, incluso recogiendo y preservando el tono emocional del altavoz original y los sonidos acústicos del entorno en el que están grabando. El equipo dice que el modelo podría ser útil para crear vocalizaciones automáticas del texto, aunque viene con riesgos potenciales de engaños altamente sofisticados similares a los videos de Deepfake.

La compañía dice que la nueva tecnología se basa en un "modelo de lenguaje de códec neural."

Shutterstock / fizkes

En su artículo discutiendo la nueva tecnología, Microsoft Dubs Vall-e A "Modelo de lenguaje de códec neural."Lo que esto significa es que, si bien el software tradicional de texto a voz (TTS) toma palabras escritas y manipula formas de onda para generar vocalizaciones, la IA puede recoger elementos sutiles de una voz y indicaciones de audio específicas que lo ayudan a crear una recreación confiable de un Persona que habla cualquier oración que se le haya alimentado, según el sitio web, Interessing Engineering.

"Para sintetizar el discurso personalizado (e.gramo., TTS de disparo cero), Vall-E genera los tokens acústicos correspondientes condicionados en las fichas acústicas de la grabación inscrita de 3 segundos y el aviso del fonema, lo que limita la información del altavoz y el contenido respectivamente ", explica el equipo en su documento. "Finalmente, los tokens acústicos generados se utilizan para sintetizar la forma de onda final con el decodificador de códec neural correspondiente."

RELACIONADO: Para obtener información más actualizada, regístrese en nuestro boletín diario.

El equipo usó más de 60,000 horas de discurso grabado para entrenar a la nueva IA.

Michael Julius Photos / Shutterstock

Para desarrollar el nuevo modelo, el equipo dice que usó alrededor de 60,000 horas de discurso grabado en inglés de más de 7,000 altavoces individuales de una biblioteca de audio reunida por meta conocida como Librilight. En la mayoría de los casos, las grabaciones se extrajeron de las lecturas de audiolibros de dominio público almacenados en Librivox, informa ARS Technica. En sus pruebas, el equipo dijo que Vall-E necesita la voz en la muestra de tres segundos para parecerse mucho a una de las voces de sus datos de capacitación para producir un resultado convincente.

El equipo ahora muestra su trabajo publicando ejemplos específicos del software en acción en una página de GitHub. Cada uno proporciona un clip de tres segundos del texto aleatorio de lectura de voz de un orador y una "verdad fundamental", que es un ejemplo grabado del altavoz que lee una oración que se utilizará para la comparación. Luego proporcionan una grabación de "línea de base" para mostrar cómo el software TTS típico generaría audio hablado y una versión "Vall-E" de la grabación para comparar los dos anteriores.

Si bien los resultados no son del todo perfectos, muestran algunos ejemplos muy convincentes en los que el discurso generado suena sorprendentemente humano. Los investigadores también agregan que, además de imitar la inflexión y la emoción, el software también puede replicar el entorno en el que se registra el audio base para el ejemplo, haciendo que parezca que alguien está hablando al aire libre, en una sala de resonación o en una llamada telefónica.

Hasta ahora, Microsoft no ha lanzado el programa para que otros prueben o experimenten con.

istock

El equipo de investigación concluye su artículo diciendo que planean aumentar la cantidad de datos de capacitación para ayudar al modelo a mejorar sus estilos de habla y mejorar para imitar la voz humana. Pero por el momento, Microsoft también se ha impedido hacer que el nuevo software esté disponible para los desarrolladores o el público en general para probar potencialmente debido a su capacidad de engañar a las personas o ser utilizado para fines nefastas. ae0fcc31ae342fd3a1346ebb1f342fcb

"Dado que Vall-E podría sintetizar el discurso que mantiene la identidad del hablante, puede llevar riesgos potenciales en el mal uso del modelo, como la identificación de voz o suplantando a un hablante específico", escribieron los autores en su conclusión. "Para mitigar tales riesgos, es posible construir un modelo de detección para discriminar si Vall-E sintetizó un clip de audio. También pondremos en práctica los principios de Microsoft AI al desarrollar aún más los modelos."