Apple’s Siri es un asistente de voz que sigue siendo ingenioso, inteligente y periódicamente útil. Pero, ¿cómo demonios funciona realmente? “Reconocimiento de voz” es lo que hace Siri, pero esas palabras no revelan cómo el dispositivo captura realmente tus palabras cuando dices: “envía un correo electrónico a Juan: ve a afeitarte, amante de Linux”. Los sonidos de tu voz se codifican instantáneamente en una versión digital compacta que conserva su información. La señal del teléfono conectado se transmite de forma inalámbrica a través de una torre de telefonía móvil cercana y a través de una serie de líneas terrestres hasta un proveedor de servicios de Internet, donde se transfiere a un servidor en la nube, lleno de una serie de versiones programadas para entender el lenguaje.
Al mismo tiempo, tu voz se analiza en tu dispositivo. Un reconocedor instalado en tu teléfono se comunica con el servidor en la nube para determinar si el comando puede ser manejado localmente, como si le hubieras pedido que reproduzca una canción en tu teléfono, o si necesita conectarse a la red para obtener más ayuda. (Cuando el reconocedor local considera que su versión es suficiente para procesar el lenguaje, le informa al servidor en la nube que ya no es necesario: “Muchas gracias, estamos bien”).
El servidor compara tu voz con un modelo estadístico para estimar, en función de los sonidos que pronunciaste y el orden en que los pronunciaste, qué caracteres podrían representar. (Al mismo tiempo, el reconocedor local compara tu voz con una versión abreviada del modelo estadístico). Para ambos, las estimaciones de mayor probabilidad reciben luz verde.
Basado en estos comentarios, tu voz, ahora conocida como una secuencia de vocales y consonantes, se convierte en un modelo de lenguaje, que estima las palabras de las que está compuesta tu voz. Con un nivel suficiente de confianza, la computadora genera una lista de posibles interpretaciones para la secuencia de palabras en tu voz. Si hay suficiente confianza en este resultado y la computadora determina que tu objetivo es enviar un mensaje de texto, Erica Olssen es la destinataria (y su información de contacto se extrae de la lista de contactos del teléfono) y el resto es el contenido real de tu mensaje de texto, que aparece en la pantalla sin necesidad de usar las manos.
Si en algún momento del proceso tu voz es demasiado ambigua, las computadoras te pedirán a ti, como usuario: ¿Crees que es Erica Olssen o Erica Schmidt? EIN ORIGINAL.