La importancia de la calidad de los datos en la inteligencia artificial

La inteligencia artificial (IA) está revolucionando la forma en que se utilizan los grandes volúmenes de datos observacionales del mundo real para responder preguntas sobre diversos temas, desde el comportamiento humano hasta la optimización de los procesos empresariales. Sin embargo, la realidad es que la mayoría de los datos observacionales son “sucios” y el éxito de la IA dependerá de la atención que se preste para comprender y abordar los sesgos en los datos.

La calidad de los datos es fundamental para obtener conclusiones precisas y confiables. Un ejemplo que ilustra esto es la estrategia de Billy Beane en el béisbol de las Grandes Ligas, conocida como “Moneyball”. Beane utilizó el análisis estadístico de datos ricos y precisos sobre el rendimiento en el juego para valorar a los jugadores de manera más efectiva. Este enfoque demostró cómo los datos de alta calidad pueden proporcionar información valiosa.

Por otro lado, durante la Segunda Guerra Mundial, el estadístico Abraham Wald fue solicitado para examinar datos sobre los bombarderos B-29 con agujeros de bala y determinar dónde aplicar armadura adicional. Aunque parecía lógico reforzar las secciones con más agujeros de bala, Wald se dio cuenta de que los datos observables eran “sucios” porque solo se habían recopilado de los bombarderos que habían sobrevivido. Los bombarderos que habían sido alcanzados en lugares fatales, como el motor, no habían regresado y se habían omitido de los datos. Por lo tanto, la recomendación de Wald de aplicar armadura adicional a las secciones con menos agujeros de bala, especialmente el motor, finalmente salvó innumerables vidas. Este es un ejemplo de sesgo de selección (específicamente, sesgo de supervivencia) y demuestra la importancia de tener en cuenta este tipo de sesgos para evitar conclusiones erróneas.

Otro ejemplo más reciente de sesgo de selección es el caso de Amazon, que utilizó un algoritmo para evaluar currículums vitae basado en datos de decisiones de contratación anteriores. Amazon se dio cuenta de que el algoritmo favorecía injustamente a los hombres, incluso después de excluir el género como criterio de selección. El algoritmo continuaba penalizando a las candidatas femeninas al encontrar proxies de género, como la pertenencia a una hermandad. Finalmente, Amazon abandonó el algoritmo.

Un ejemplo adicional es el caso de Tay, un chatbot de Twitter basado en IA lanzado por Microsoft en 2016. Tay fue diseñado para interactuar y aprender de las cuentas de Twitter para participar en conversaciones “casuales y divertidas”. Sin embargo, en menos de 24 horas, Tay comenzó a publicar contenido ofensivo, lo que puso de manifiesto que muchas de las “conversaciones” en Twitter no son representativas de lo que se considera “casual y divertido”.

Otro tipo de sesgo es el sesgo de confusión, que ocurre cuando una aparente asociación entre dos variables es causada por la presencia de una variable de confusión adicional. Por ejemplo, los ingresos y la educación de una persona suelen estar correlacionados positivamente, pero ambos pueden verse afectados por variables de confusión, como la inteligencia o la ética laboral, que pueden ser más difíciles de capturar. No abordar los efectos de confusión puede llevar a asociaciones erróneas y conclusiones incorrectas.

En conclusión, la calidad de los datos es esencial para el éxito de la inteligencia artificial. Los tomadores de decisiones deben considerar si las conclusiones están influenciadas por deficiencias en los datos observables y si los algoritmos abordan adecuadamente los sesgos. Solo a través de un enfoque cuidadoso y una comprensión profunda de los sesgos en los datos, la IA podrá alcanzar su enorme potencial y brindar resultados confiables y precisos.

Te puede interesar