Aprendizaje de la IA a través de errores: el nuevo algoritmo de OpenAI

En los últimos meses, los investigadores de OpenAI se han centrado en desarrollar inteligencia artificial (IA) que aprenda mejor. Sus algoritmos de aprendizaje automático ahora son capaces de entrenarse a sí mismos, por así decirlo, gracias a los métodos de aprendizaje por refuerzo de sus OpenAI Baselines. Ahora, un nuevo algoritmo permite que su IA aprenda de sus propios errores, casi como lo hacen los seres humanos.

El desarrollo proviene de un nuevo algoritmo de código abierto llamado Hindsight Experience Replay (HER), que los investigadores de OpenAI lanzaron la semana pasada. Como su nombre sugiere, HER ayuda a un agente de IA a “mirar hacia atrás” en retrospectiva, por así decirlo, mientras completa una tarea. Específicamente, la IA redefine los fracasos como éxitos, según el blog de OpenAI.

“La idea clave que HER formaliza es lo que los humanos hacen intuitivamente: aunque no hayamos tenido éxito en un objetivo específico, al menos hemos logrado uno diferente”, escribieron los investigadores. “Entonces, ¿por qué no fingir que queríamos lograr este objetivo desde el principio, en lugar del que nos propusimos originalmente?”

En pocas palabras, esto significa que cada intento fallido mientras la IA trabaja hacia un objetivo cuenta como otro objetivo “virtual” no intencionado. Piensa en cuando aprendiste a andar en bicicleta. En los primeros intentos, en realidad no lograste equilibrarte correctamente. Aun así, esos intentos te enseñaron cómo no andar en bicicleta y qué evitar al equilibrarte en una bicicleta. Cada fracaso te acercó más a tu objetivo, porque así es como aprenden los seres humanos.

Con HER, OpenAI quiere que sus agentes de IA aprendan de la misma manera. Al mismo tiempo, este método se convertirá en una alternativa al sistema de recompensas habitual involucrado en los modelos de aprendizaje por refuerzo. Para enseñar a la IA a aprender por sí misma, tiene que trabajar con un sistema de recompensas: o bien la IA alcanza su objetivo y recibe una “galleta” algorítmica o no lo hace. Otro modelo otorga galletas según qué tan cerca esté la IA de lograr un objetivo. Ambos métodos no son perfectos. El primero detiene el aprendizaje, porque la IA lo logra o no. El segundo, por otro lado, puede ser bastante complicado de implementar, según el IEEE Spectrum.

Al tratar cada intento como un objetivo en retrospectiva, HER le otorga a un agente de IA una recompensa incluso cuando en realidad no logró cumplir la tarea especificada. Esto ayuda a que la IA aprenda más rápido y con mayor calidad.

En resumen, el nuevo algoritmo de OpenAI, Hindsight Experience Replay (HER), permite que la inteligencia artificial aprenda de sus propios errores, redefiniendo los fracasos como éxitos. Esto acelera el aprendizaje de la IA y mejora su calidad. Con este enfoque, OpenAI busca desarrollar una IA más eficiente y autónoma, capaz de aprender de manera similar a los seres humanos.

Te puede interesar