En los últimos años, ha habido una creciente preocupación entre los académicos de que muchos resultados famosos publicados en diversas áreas de la ciencia tienden a ser imposibles de reproducir. Esta crisis puede ser grave y pone en peligro la credibilidad de todos los científicos.
Por ejemplo, en 2011, Bayer HealthCare revisó 67 proyectos internos y descubrió que solo podían replicar menos del 25 por ciento de ellos. Además, más de dos tercios de los proyectos presentaban inconsistencias importantes. Más recientemente, en noviembre, una investigación de 28 artículos importantes de psicología encontró que solo la mitad de ellos podían ser replicados. Hallazgos similares se reportan en otros campos, como la medicina y la economía. Estos resultados impactantes ponen en peligro la credibilidad de todos los científicos.
¿Qué está causando este gran problema? Hay muchos factores que contribuyen a ello. Como estadístico, veo grandes problemas en la forma en que se realiza la ciencia en la era de los grandes datos. La crisis de reproducibilidad se debe en parte a análisis estadísticos inválidos que se basan en hipótesis impulsadas por los datos, lo cual es lo opuesto a cómo se hacían las cosas tradicionalmente.
En un experimento clásico, el estadístico y el científico primero formulan juntos una hipótesis. Luego, los científicos realizan experimentos para recopilar datos, que posteriormente son analizados por los estadísticos. Un famoso ejemplo de este proceso es la historia de “la dama que degusta el té”. En la década de 1920, en una fiesta de académicos, una mujer afirmó poder distinguir la diferencia de sabor si el té o la leche se agregaban primero en una taza. El estadístico Ronald Fisher dudaba de que ella tuviera tal habilidad. Él planteó la hipótesis de que, de ocho tazas de té preparadas de manera que cuatro tazas tuvieran leche agregada primero y las otras cuatro tazas tuvieran té agregado primero, el número de respuestas correctas seguiría un modelo de probabilidad llamado distribución hipergeométrica. Se realizó un experimento con ocho tazas de té enviadas a la dama en un orden aleatorio, y según la leyenda, ella categorizó todas las tazas correctamente. Esto fue una fuerte evidencia en contra de la hipótesis de Fisher. Las posibilidades de que la dama hubiera acertado todas las respuestas por azar eran extremadamente bajas, solo un 1,4 por ciento.
Ese proceso: plantear una hipótesis, recopilar datos y luego analizarlos, es poco común en la era de los grandes datos. La tecnología actual puede recopilar enormes cantidades de datos, del orden de 2.5 exabytes al día. Si bien esto es algo positivo, la ciencia a menudo se desarrolla a una velocidad mucho más lenta, por lo que los investigadores pueden no saber cómo formular la hipótesis correcta en el análisis de los datos. Por ejemplo, los científicos ahora pueden recopilar decenas de miles de expresiones genéticas de las personas, pero es muy difícil decidir si se debe incluir o excluir un gen en particular en la hipótesis. En este caso, es tentador formular la hipótesis basándose en los datos. Si bien estas hipótesis pueden parecer convincentes, las inferencias convencionales a partir de estas hipótesis suelen ser inválidas. Esto se debe a que, a diferencia del proceso de “la dama que degusta el té”, el orden de construcción de la hipótesis y la observación de los datos se ha invertido.
Es fundamental abordar esta crisis de reproducibilidad en la ciencia. Los científicos deben ser más rigurosos en sus análisis estadísticos y en la formulación de hipótesis basadas en conocimientos previos en lugar de simplemente en los datos. Además, se deben promover prácticas de investigación transparentes y replicables, donde los resultados puedan ser verificados y validados por otros investigadores.
La ciencia es un pilar fundamental de nuestra sociedad y es esencial que mantenga su credibilidad. Solo a través de la mejora de los métodos y prácticas científicas podremos garantizar que los resultados publicados sean confiables y reproducibles, lo que permitirá un avance real en el conocimiento y el progreso de la humanidad.


