Esta semana, Apache Hadoop, el proyecto de código abierto que posiblemente desencadenó la locura del Big Data, cumplió 10 años. El fundador del proyecto, Doug Cutting de Cloudera, se puso nostálgico mientras los proveedores en el espacio lanzaban nuevas versiones de sus propios productos. Es difícil de creer, pero es cierto. El proyecto Apache Hadoop, la implementación de código abierto del Sistema de Archivos de Google (GFS) y el motor de ejecución MapReduce, cumplió 10 años esta semana. La tecnología, que originalmente formaba parte de Apache Nutch, un proyecto de código abierto aún más antiguo para el rastreo web, se separó en su propio proyecto en 2006, cuando un equipo de Yahoo fue enviado para acelerar su desarrollo.
En su publicación, Cutting señala correctamente que “el software tradicional de RDBMS empresarial ahora tiene competencia: el software de código abierto de Big Data”. La industria de las bases de datos había estado en una verdadera estasis durante más de una década. Hadoop y NoSQL cambiaron eso y obligaron a los proveedores incumbentes a actualizar sus productos con nuevas características importantes.
Microsoft SQL Server ahora admite índices de columnas para manejar consultas analíticas en grandes volúmenes de datos y su próxima versión de 2016 agrega la funcionalidad de PolyBase para consultas integradas de datos en Hadoop. Mientras tanto, Oracle e IBM han agregado sus propios puentes de Hadoop, junto con una mejor manipulación de datos semi-estructurados. Teradata se ha centrado en Hadoop y Big Data, comenzando con la adquisición de Aster Data y continuando a través de sus múltiples asociaciones con Cloudera y Hortonworks.
En la Era de Hadoop, prácticamente todos los grandes proveedores adquirieron una de las empresas especializadas en almacenamiento de datos. Cutting señala, de manera precisa, que los componentes principales originales de Hadoop han sido desafiados y/o reemplazados: “Nuevos motores de ejecución como Apache Spark y nuevos sistemas de almacenamiento como Apache Kudu demuestran que este ecosistema de software evoluciona rápidamente, sin un punto de control central”.
Si bien es cierto que ambos proyectos son fuertemente promovidos por Cloudera, el comentario de Cutting de que el ecosistema de Hadoop no tiene un punto de control central es algo que vale la pena considerar cuidadosamente; porque, si bien es correcto, no necesariamente es algo bueno. Los ciclos de reemplazo de tecnología rápida en la escena del Big Data dejan al espacio desafiado en términos de estabilidad.
Quizás, pero el objetivo en constante movimiento de la tecnología también puede significar que no obtengan ningún software en absoluto, porque el entorno actual es lo suficientemente propenso a riesgos como para dificultar el crecimiento de los proyectos empresariales. Necesitamos un equilibrio si queremos que el crecimiento sea proporcional al nivel de innovación tecnológica.
En conclusión, Cutting declara: “Espero seguir el impacto continuo de Hadoop a medida que se desarrolla el siglo de los datos”. Si bien no estoy seguro de que los datos y el análisis definan todo el siglo, probablemente tengan una buena década o dos. Esperemos que la industria pueda mejorar en el desarrollo de estándares que sean cooperativos y compatibles, en lugar de superpuestos y competitivos. No queremos volver a la estasis, pero un terreno más navegable sería beneficioso tanto para la industria como para sus clientes.
Hablando de la industria, hubo una serie de anuncios esta semana, además del cumpleaños de Hadoop. Pentaho introdujo la integración del lenguaje Python en su Suite de Integración de Datos. Paxata lanzó su nueva versión Winter ’15 (aunque en 2016), que incluye nuevas transformaciones de numeración automática y relleno, nuevos algoritmos para ayudar en las recomendaciones de preparación de datos e integración con LDAP y SAML para seguridad empresarial, inicio de sesión único y gestión de identidad. SkyTree, un proveedor de análisis predictivo, anunció que pronto lanzará una versión gratuita para un solo usuario de su producto, que anunciará formalmente en breve. Y RapidMiner, también en el espacio predictivo, lanzó su nueva versión 7 la semana pasada, con una interfaz de usuario renovada. El proveedor de NoSQL Aerospike lanzó una nueva versión de su base de datos homónima, que ahora cuenta con soporte para datos geoespaciales, mayor resistencia en entornos alojados en la nube y soporte en el lado del servidor para estructuras de datos de lista y mapa.
En resumen, esta ha sido una semana bastante ocupada. Y me atrevo a decir que, sin Hadoop como catalizador, habría sido mucho menos. A medida que el cambio climático, los mercados financieros, la geopolítica y el precio del petróleo alcanzan niveles de volatilidad alarmantes, el sector de datos de la industria tecnológica está prosperando. Podríamos esperar que la tecnología en torno al Big Data se pueda utilizar para ayudar a resolver, o al menos comprender mejor, algunos de los verdaderos problemas globales. Pero esto no será el siglo de los datos a menos que eso suceda.