El big data ha sido convertido en un término más de marketing que de tecnología, pero aún tiene un enorme potencial sin explotar. Sin embargo, hay un gran problema que debe resolverse primero. La mayoría de las empresas están nadando en más datos de los que saben qué hacer. Desafortunadamente, muchas de ellas asocian ese fenómeno de ahogamiento con el big data en sí mismo.
Tecnológicamente, el big data es algo muy específico: el matrimonio de datos estructurados (la información propietaria de su empresa) con datos no estructurados (fuentes públicas como flujos de redes sociales y feeds gubernamentales). Cuando se superponen datos no estructurados sobre datos estructurados y se utiliza software de análisis para visualizarlos, se pueden obtener ideas que antes no eran posibles: predecir las ventas de productos, dirigirse mejor a los clientes, descubrir nuevos mercados, etc.
El big data ya no sufre por la falta de herramientas que lo afectaba hace unos años, cuando trabajar con big data significaba tener científicos de datos en el personal y lidiar con herramientas de código abierto como R y Hadoop. Hoy en día, hay muchas empresas compitiendo entre sí para ayudarlo a visualizar el big data, desde especialistas como Tableau, Qlik, TIBCO y MicroStrategy hasta jugadores integrales como Microsoft, IBM, SAP y Oracle.
Sin embargo, según los ejecutivos de TI en el Midmarket CIO Forum / Midmarket CMO Forum de la semana pasada en Orlando, uno de los mayores problemas que tienen las empresas con todas estas plataformas de análisis es la ingestión de datos en ellas. Un CIO dijo: “Nuestro mayor problema en TI es cómo obtener datos en él. Ahí es donde estas cosas son realmente un dolor”.
Esta afirmación está respaldada por datos. Según un estudio del especialista en integración de datos Xplenty, un tercio de los profesionales de inteligencia empresarial dedican del 50% al 90% de su tiempo a limpiar datos sin procesar y prepararlos para ingresarlos en las plataformas de datos de la empresa. Esto probablemente tenga mucho que ver con el hecho de que solo el 28% de las empresas cree que está generando valor estratégico a partir de sus datos.
El problema de la limpieza de datos también significa que algunos de los profesionales más buscados en el campo de la tecnología en este momento están dedicando una gran parte de su tiempo a realizar el trabajo tedioso de clasificar y organizar conjuntos de datos antes de que se analicen. Esto obviamente no es muy escalable y limita severamente el potencial del big data. Y a medida que mejoramos en la recolección de más datos, con la ayuda de Internet de las cosas, el problema solo empeora.
Existen tres posibles soluciones para este problema:
- El software de análisis de big data mejora: dado que muchas de estas empresas han estado invirtiendo fuertemente en big data en los últimos cinco años, es poco probable que haya un avance en las herramientas que alivie la carga de la limpieza de datos, pero debemos esperar mejoras incrementales.
- Los preparadores de datos se convierten en los asistentes legales de la ciencia de datos: de la misma manera que los asistentes legales ayudan a los abogados al encargarse de tareas importantes de nivel inferior, los preparadores de datos podrían hacer lo mismo para los científicos de datos. Ya estamos viendo esto hasta cierto punto.
- La inteligencia artificial ayudará a limpiar los datos: la otra posibilidad es que se escriban software y algoritmos para limpiar, ordenar y categorizar los datos. Esto definitivamente sucederá, pero también debemos esperar que no sea una solución mágica. Microsoft, IBM y Amazon están invirtiendo en el uso de humanos para etiquetar datos que el software no puede manejar, y esos son tres de los campeones mundiales de la automatización y los algoritmos.
En conclusión, el análisis de big data tiene un gran potencial, pero el desafío de los datos debe abordarse primero. Las empresas deben encontrar formas más eficientes de ingresar datos en las plataformas de análisis y superar los obstáculos de la limpieza y organización de los datos. A medida que avancemos en esta área, veremos mejoras incrementales en las herramientas de análisis de big data y la aparición de nuevos roles como los preparadores de datos. La inteligencia artificial también jugará un papel importante en la limpieza de datos, pero no será una solución mágica. En última instancia, el éxito en el análisis de big data dependerá de la capacidad de las empresas para superar estos desafíos y aprovechar al máximo el potencial de los datos.