En la actualidad, muchas empresas están dando sus primeros pasos en el mundo del big data. Algunas ideas se están implementando mientras que otras aún se preguntan: ¿qué es realmente el big data?
El término “big data” puede resultar confuso para muchos. A primera vista, parece referirse a una gran cantidad de datos. Sin embargo, todos los datos en un sistema ERP y otras bases de datos también pueden considerarse como una gran cantidad de datos. El big data se refiere a cantidades demasiado grandes para las bases de datos tradicionales, ya sea en sentido absoluto o en relación a la rentabilidad.
Otro obstáculo en el manejo del big data es la estructuración de los datos. En un sistema ERP, el 99 por ciento de los datos están estructurados. El uno por ciento restante son textos como órdenes y facturas. Con el big data, ocurre lo contrario. Toda la información importante está desestructurada. Por supuesto, es interesante saber cuándo y dónde se tomó una foto, pero es más interesante saber qué hay en ella.
En mi opinión, la definición más importante de big data es “todos los datos que aún no se pueden utilizar para generar valor”. Aquí tienes un ejemplo de lo que quiero decir con eso. Las compras siempre se documentan. Sin embargo, lo que no se documenta es todo lo demás. ¿Cómo se dio cuenta el cliente del producto? ¿Vio un anuncio de un producto específico? ¿Los clientes solo leen los detalles del producto y compran de inmediato? ¿O leen minuciosamente los detalles técnicos y aún así no compran el producto?
Ahora que hemos discutido qué es el big data, debemos responder a la pregunta de la arquitectura adecuada para el big data. Especialmente en el ámbito del big data, las innovaciones van y vienen. Hace unos años, Map Reduce en Hadoop era imprescindible, ahora tenemos Apache Spark que ofrece un mejor rendimiento. Hace algún tiempo, Apache Hive era la opción preferida; ahora, son los archivos Parquet. Este entorno dinámico hace que la rentabilidad y la flexibilidad sean imperativas.
Apache Spark ofrece un gran rendimiento al tiempo que proporciona la flexibilidad deseada, por eso la mayoría de los proyectos en todo el mundo lo utilizan. La instalación es sencilla, las transformaciones complejas solo requieren unas pocas líneas de código y el software es gratuito.
En resumen, el mundo del big data es fascinante y está lleno de oportunidades. Las empresas que logren aprovechar al máximo sus datos desestructurados podrán obtener valiosos conocimientos y ventajas competitivas. ¡No te quedes atrás y adéntrate en el emocionante mundo del big data!
Artículo original: E3Zine