Recuperando la voz con inteligencia artificial

Imagínate perder la capacidad de hablar debido a una enfermedad neurológica devastadora. Eso es lo que le sucedió a Pat Quinn, fundador del famoso desafío del cubo de hielo, quien fue diagnosticado con esclerosis lateral amiotrófica (ELA) en 2017. Sin embargo, en 2018, gracias a los avances en inteligencia artificial (IA), Quinn pudo recuperar su voz.

Proyecto Revoice, en colaboración con Lyrebird, una de las pocas empresas que utilizan IA para clonar la voz de una persona, hizo posible este milagro. La IA ha demostrado ser capaz de imitar a los seres humanos gracias a los algoritmos de aprendizaje automático y aprendizaje profundo. Aunque muchos desarrollos en este campo han sido negativos, el poder de imitación de la IA ha sido una fuerza de cambio positivo para Quinn y otros pacientes con ELA.

La mayoría de las personas que viven con ELA terminan paralizadas y sin poder comunicarse más que a través de voces artificiales generadas por computadora. Sin embargo, gracias a la colaboración entre Proyecto Revoice y Lyrebird, Quinn pudo recuperar su propia voz. Lyrebird, al igual que otras empresas como WaveNet de Google y Voicery, utiliza IA para clonar la voz de una persona. Estas aplicaciones se basan en algoritmos de aprendizaje profundo, una rama popular de la IA que analiza grandes conjuntos de datos en busca de patrones e información que no pueden ser capturados por software basado en reglas tradicionales.

Antes de la llegada de la tecnología de síntesis de voz impulsada por IA, los pacientes con ELA tenían que conformarse con voces digitales genéricas que no eran las suyas. Otras tecnologías podían unir frases pregrabadas con la voz del paciente, pero los resultados eran demasiado artificiales y requerían muchas horas de grabaciones de voz para ser de utilidad mínima. En cambio, las aplicaciones de aprendizaje profundo requieren menos datos y ofrecen mejores resultados.

Uno de los desafíos de las aplicaciones de aprendizaje profundo es la dependencia de muestras de datos de alta calidad para entrenar sus redes neuronales. El problema con los pacientes con ELA es que, una vez que pierden la capacidad de hablar, es imposible grabar muestras de voz. Afortunadamente, Quinn tenía horas de grabaciones de conferencias y entrevistas que pudieron ser utilizadas para entrenar el modelo de IA.

El mayor desafío fue la calidad de las grabaciones. Esta tecnología depende por completo de tener grabaciones consistentes y de alta calidad que también sigan un guión exacto. Por lo tanto, fue necesario trabajar con un estudio de sonido para “remasterizar” y transcribir cada línea de diálogo que se pudo encontrar de Pat.

La capacidad de recuperar la voz de una persona que ha perdido la capacidad de hablar es un logro asombroso. Gracias a la IA, los pacientes con ELA pueden tener una voz digital que les permite expresarse y comunicarse de manera más auténtica. A medida que la tecnología continúa avanzando, es posible que más personas puedan beneficiarse de esta innovación y recuperar su voz perdida.

Te puede interesar