¿Puedes diferenciar entre el habla generada por inteligencia artificial y el habla de un ser humano real? Tal vez siempre has pensado que puedes. Tal vez te gusten Alexa y Siri, pero crees que nunca los confundirías con una mujer real. Las cosas están a punto de ponerse mucho más interesantes. Los ingenieros de Google han estado trabajando arduamente en la creación de un sistema de texto a voz llamado Tacotron 2. Según un artículo que publicaron este mes, el sistema primero crea un espectrograma del texto, una representación visual de cómo debería sonar el habla. Esa imagen se pasa por el algoritmo WaveNet de Google, que utiliza la imagen para producir un habla humana extremadamente natural. Utilizando este método, los investigadores informan que “nuestro modelo logra una puntuación media de opinión (MOS) de 4.53, comparable a una MOS de 4.58 para el habla grabada profesionalmente”. (Una puntuación media de opinión es un término de telecomunicaciones que mide qué tan real suena algo). Como demuestran las muestras de audio de Google, Tacotron 2 puede detectar a partir del contexto la diferencia entre el sustantivo “desierto” y el verbo “desertar”, así como el sustantivo “regalo” y el verbo “presentar”, y alterar su pronunciación en consecuencia. Puede enfatizar las palabras en mayúsculas y aplicar la inflexión adecuada al hacer una pregunta en lugar de hacer una afirmación. Y puede generar texto que suena tan similar al habla humana que es difícil o imposible saber la diferencia. Si quieres ver lo difícil que es, ve a la página de muestras de audio de Google y desplázate hasta el último conjunto de muestras, titulado “Tacotron 2 o humano”. Allí encontrarás Tacotron 2 y una persona real diciendo frases como “Esa chica hizo un video sobre lápiz labial de Star Wars”. SPOILER ALERT: Para poner a prueba tus habilidades, escucha las muestras y adivina cuál es cuál antes de leer el resto de este artículo. Entonces, ¿cuáles muestras son de texto a voz y cuáles son de una voz humana real? Los ingenieros de Google no lo dicen, pero han dejado una pista muy grande. Cada una de las muestras de archivo .wav tiene un nombre de archivo que contiene el término “gen” o “gt”. Según el artículo, es muy probable que “gen” indique habla generada por Tacotron 2 y “gt” sea habla humana real. (“GT” probablemente significa “ground truth”, un término de aprendizaje automático que básicamente significa “la cosa real”).
Artículo original: Inc.