La migración de sistemas de big data a la nube presenta una serie de desafíos y beneficios para los equipos de TI. Cada vez más empresas están trasladando sus clústeres de big data a la nube para obtener mayor flexibilidad y escalabilidad. Sin embargo, los gerentes de TI que han realizado esta migración advierten que no es un proceso sencillo y que surgen complicaciones continuas una vez que se ha realizado el traslado.
Los obstáculos comienzan con los desafíos de migración de cargas de trabajo y datos, y continúan con una variedad de problemas de gestión, según señalaron los oradores y asistentes a la Conferencia de Datos Strata 2017. Se mencionaron problemas como los frecuentes fallos del sistema y la necesidad de gestionar cuidadosamente los clústeres temporales que se configuran para ejecutar trabajos de procesamiento específicos y luego se apagan. Además, se señaló que algunas cargas de trabajo no se adaptan bien al modelo de computación en la nube, lo que puede requerir la integración con sistemas que siguen funcionando internamente.
La capacidad de crear y modificar clústeres de big data según sea necesario en la nube hace que valga la pena lidiar con los inconvenientes, según Chris Mills, líder del equipo de big data de The Meet Group Inc., una empresa de Nueva Hope, Pensilvania, que opera una serie de sitios de redes sociales y citas en línea. Después de cambiar de un entorno de big data local a uno en la nube de Amazon Web Services (AWS), los clústeres se pueden agregar o expandir “en cuestión de minutos”, dijo Mills. Esto ha reducido los costos generales de TI y ha hecho que las aplicaciones de análisis experimentales y de “inmersión profunda” sean más factibles, agregó.
Sin embargo, Mills advirtió que la migración a la nube “costará más y llevará más tiempo de lo planeado”. En el caso de The Meet Group, esto se debió en parte a que el equipo del proyecto identificó nuevas aplicaciones potenciales durante el proceso de migración. Pero también surgieron problemas inesperados en el camino. En total, se tardó aproximadamente seis meses en configurar la arquitectura de big data en la nube y otros seis meses en ajustar el entorno.
En Spotify, una empresa de transmisión de música, la migración de miles de cargas de trabajo de procesamiento desde un clúster Hadoop local a una nueva arquitectura en la plataforma Google Cloud generó desafíos técnicos y organizativos, según Alison Gilles, directora de ingeniería de su grupo de infraestructura de datos. Spotify no podía simplemente comenzar a trasladar trabajos a la nube sin bloquear potencialmente otros que se estaban ejecutando con éxito, dijo Gilles. Tampoco podían sus 100 equipos de ingeniería de productos y operaciones, que controlan sus propias cargas de trabajo, dejar de trabajar en proyectos relacionados con el servicio de transmisión para centrarse en el esfuerzo de migración.
Para asegurarse de que los trabajos de procesamiento no se bloqueen, Spotify está copiando datos de manera agresiva entre el clúster local y la arquitectura en la nube. En agosto, el trabajo de copia ascendió a 110,000 trabajos por sí solo. “Estamos incurriendo en una deuda técnica”, reconoció Josh Baer, encargado del proceso de migración de datos. “Pero creemos que la ganancia a largo plazo vale el dolor a corto plazo”. La unidad de infraestructura de datos también desarrolló un conjunto de software de código abierto para ayudar a agilizar las migraciones.
En resumen, la migración de sistemas de big data a la nube presenta desafíos significativos, pero también ofrece beneficios como mayor flexibilidad y escalabilidad. Sin embargo, es importante tener en cuenta que el proceso puede llevar más tiempo y costar más de lo esperado. Es fundamental planificar cuidadosamente la migración y estar preparado para enfrentar problemas inesperados a lo largo del camino.


