El Impacto de Apache Hadoop en la Era del Big Data

Esta semana, Apache Hadoop, el proyecto de código abierto que posiblemente desencadenó la locura del Big Data, cumplió 10 años. El fundador del proyecto, Doug Cutting de Cloudera, se puso nostálgico mientras los proveedores en el espacio lanzaban nuevas versiones de sus propios productos. Es difícil de creer, pero es cierto. El proyecto Apache Hadoop, la implementación de código abierto del Sistema de Archivos de Google (GFS) y el motor de ejecución MapReduce, cumplió 10 años esta semana. La tecnología, que originalmente formaba parte de Apache Nutch, un proyecto de código abierto aún más antiguo para el rastreo web, se separó en su propio proyecto en 2006, cuando un equipo de Yahoo fue enviado para acelerar su desarrollo.

En su publicación, Cutting señala correctamente que “el software tradicional de RDBMS empresarial ahora tiene competencia: el software de código abierto de Big Data”. La industria de las bases de datos había estado en una verdadera estasis durante más de una década. Hadoop y NoSQL cambiaron eso y obligaron a los proveedores incumbentes a actualizar sus productos con nuevas características importantes.

Microsoft SQL Server ahora admite índices de columnas para manejar consultas analíticas en grandes volúmenes de datos y su próxima versión de 2016 agrega la funcionalidad de PolyBase para consultas integradas de datos en Hadoop. Mientras tanto, Oracle e IBM han agregado sus propios puentes de Hadoop, junto con una mejor manipulación de datos semi-estructurados. Teradata se ha centrado en Hadoop y Big Data, comenzando con la adquisición de Aster Data y continuando a través de sus múltiples asociaciones con Cloudera y Hortonworks.

En la Era de Hadoop, prácticamente todos los grandes proveedores adquirieron una de las empresas especializadas en almacenamiento de datos. Cutting señala, de manera precisa, que los componentes principales originales de Hadoop han sido desafiados y/o reemplazados: “Nuevos motores de ejecución como Apache Spark y nuevos sistemas de almacenamiento como Apache Kudu demuestran que este ecosistema de software evoluciona rápidamente, sin un punto de control central”.

Si bien es cierto que ambos proyectos son fuertemente promovidos por Cloudera, el comentario de Cutting de que el ecosistema de Hadoop no tiene un punto de control central es algo que vale la pena considerar cuidadosamente; porque, si bien es correcto, no necesariamente es algo bueno. Los ciclos de reemplazo de tecnología rápida en la escena del Big Data dejan al espacio desafiado en términos de estabilidad.

Quizás, pero el objetivo en constante movimiento de la tecnología también puede significar que no obtengan ningún software en absoluto, porque el entorno actual es lo suficientemente propenso a riesgos como para dificultar el crecimiento de los proyectos empresariales. Necesitamos un equilibrio si queremos que el crecimiento sea proporcional al nivel de innovación tecnológica.

En conclusión, Cutting declara: “Espero seguir el impacto continuo de Hadoop a medida que se desarrolla el siglo de los datos”. Si bien no estoy seguro de que los datos y el análisis definan todo el siglo, probablemente tengan una buena década o dos. Esperemos que la industria pueda mejorar en el desarrollo de estándares que sean cooperativos y compatibles, en lugar de superpuestos y competitivos. No queremos volver a la estasis, pero un terreno más navegable sería beneficioso tanto para la industria como para sus clientes.

Hablando de la industria, hubo una serie de anuncios esta semana, además del cumpleaños de Hadoop. Pentaho introdujo la integración del lenguaje Python en su Suite de Integración de Datos. Paxata lanzó su nueva versión Winter ’15 (aunque en 2016), que incluye nuevas transformaciones de numeración automática y relleno, nuevos algoritmos para ayudar en las recomendaciones de preparación de datos e integración con LDAP y SAML para seguridad empresarial, inicio de sesión único y gestión de identidad. SkyTree, un proveedor de análisis predictivo, anunció que pronto lanzará una versión gratuita para un solo usuario de su producto, que anunciará formalmente en breve. Y RapidMiner, también en el espacio predictivo, lanzó su nueva versión 7 la semana pasada, con una interfaz de usuario renovada. El proveedor de NoSQL Aerospike lanzó una nueva versión de su base de datos homónima, que ahora cuenta con soporte para datos geoespaciales, mayor resistencia en entornos alojados en la nube y soporte en el lado del servidor para estructuras de datos de lista y mapa.

En resumen, esta ha sido una semana bastante ocupada. Y me atrevo a decir que, sin Hadoop como catalizador, habría sido mucho menos. A medida que el cambio climático, los mercados financieros, la geopolítica y el precio del petróleo alcanzan niveles de volatilidad alarmantes, el sector de datos de la industria tecnológica está prosperando. Podríamos esperar que la tecnología en torno al Big Data se pueda utilizar para ayudar a resolver, o al menos comprender mejor, algunos de los verdaderos problemas globales. Pero esto no será el siglo de los datos a menos que eso suceda.

Te puede interesar

Soluciones ERP para las Necesidades Complejas de Firmas de Consultoría Global

Soluciones ERP para las Necesidades Complejas de Firmas de Consultoría Global En el mundo empresarial contemporáneo, las firmas de consultoría global enfrentan desafíos únicos derivados

December 23, 2024 No Comments

ERP y la Transformación Digital en la Industria Editorial

ERP y la Transformación Digital en la Industria Editorial La industria editorial ha estado en constante evolución desde la invención de la imprenta. En la

December 23, 2024 No Comments

Construyendo una Base de E-commerce Escalable con un ERP Integrado

Construyendo una Base de E-commerce Escalable con un ERP Integrado En la actualidad, el comercio electrónico se ha convertido en un pilar fundamental para el

December 23, 2024 No Comments

Testimonios y Casos de Estudio

Recorrido del Producto

El Impacto de Apache Hadoop en la Era del Big Data

Te puede interesar

Menú

Contacto

info@axial-erp.co

(+57) 601 5898710

Bogotá Colombia | Estados Unidos