Google Open Source AI: Mejorando la accesibilidad de los dispositivos móviles

Google ha dado un paso importante en su compromiso de mejorar la accesibilidad de los dispositivos móviles para usuarios con discapacidades visuales o que necesitan un modo “manos libres”. Recientemente, han abierto el código fuente de su modelo de inteligencia artificial (IA) que convierte secuencias de instrucciones en lenguaje natural en acciones en la interfaz de un dispositivo móvil.

El modelo se basa en la arquitectura de aprendizaje profundo Transformer y ha logrado una precisión del 70% en un nuevo conjunto de datos de referencia creado para el proyecto. Un equipo de científicos de Google Research ha publicado un artículo describiendo el modelo en la reciente conferencia de la Asociación de Lingüística Computacional (ACL).

El objetivo de este proyecto es desarrollar interfaces de lenguaje natural para usuarios de dispositivos móviles que tienen discapacidades visuales o que necesitan temporalmente un modo “manos libres”. El sistema utiliza dos modelos Transformer en secuencia: el primero convierte las instrucciones en lenguaje natural en una serie de “frases de acción”, y el segundo “ancla” las frases de acción al emparejarlas con objetos de la interfaz de usuario en pantalla.

Este avance tecnológico sienta las bases técnicas para la automatización de tareas en dispositivos móviles, lo que evitaría la necesidad de navegar por los detalles de la interfaz de usuario, lo cual puede ser especialmente valioso para usuarios con discapacidades visuales o situacionales. La arquitectura Transformer, desarrollada por Google en 2017, es clave en este modelo de IA. Tiene varias ventajas sobre otras arquitecturas de aprendizaje de secuencias, como las redes neuronales recurrentes (RNN), incluyendo una mayor estabilidad en el entrenamiento y una inferencia más rápida. Por esta razón, la mayoría de los sistemas de procesamiento de lenguaje natural (NLP) de última generación se basan en Transformer.

La operación clave en un Transformer es la atención, que aprende las relaciones entre las diferentes partes de las secuencias de entrada y salida. Por ejemplo, en un Transformer entrenado para traducir de un idioma a otro, la atención aprende a mapear las palabras del idioma de origen a las palabras del idioma de destino.

Este avance de Google en la inteligencia artificial y la accesibilidad de los dispositivos móviles es un paso importante hacia un futuro más inclusivo y accesible para todos los usuarios. Esperamos que esta tecnología siga evolucionando y brinde aún más posibilidades para mejorar la vida de las personas con discapacidades visuales o situacionales.

Fuente del artículo: InfoQ

Te puede interesar