Cuando se trata de convertirse en un científico de datos, todavía hay muchos desafíos que se enfrentan en la gestión y agregación de estos datos para que sean útiles. Estos desafíos pueden superarse aprendiendo de las historias de éxito de otros científicos de datos que han completado un proyecto de análisis de datos después de cambiar de idea original y luego entregar resultados positivos a su organización. Queríamos entender cuáles son las lecciones clave que los científicos de datos en grandes empresas han aprendido mientras trabajaban en sus proyectos de análisis de big data. Por lo tanto, le pedimos a los miembros de AIM Expert Network (AEN) que compartieran una lección en forma de una idea que hayan aprendido recientemente. En este artículo, los miembros de AEN han compartido lo que planeaban lograr con la ayuda del análisis de big data, en qué punto se dieron cuenta de que se requería un cambio y la lección clave que aprendieron de este proceso. Este artículo ayudará a otros científicos de datos a evitar errores comunes que pueden cometer al ejecutar operaciones de análisis de datos para su organización.
Convertir tuberías de datos construidas en bases de datos tradicionales a plataformas de big data
Plan inicial: Hace unos años, cuando comenzamos a transicionar nuestras tuberías de datos como parte del proyecto “Modernización de BI utilizando big data” en toda la empresa, creíamos que el movimiento de código, que incluía procedimientos almacenados, macros y SQL en Teradata a la herramienta de big data Apache Hive, sería:
- Principalmente una migración directa
- Solo el 10% requeriría refactorización de código
- Ya que Hive era compatible con SQL 2 y Teradata era compatible con SQL 3
Punto de cambio: Cuando entramos en la fase de construcción del proyecto, nos dimos cuenta de que se necesitaba mucha optimización en varios lugares cuando se trataba de consultas de Hive, por ejemplo, aprovechar la unión SMB (Sort Merge Bucket Join), convertir nuestras tuberías de dimensión de cambio lento (SCD1 y 2) que requerían más del 40% de refactorización de código porque Hive no admite actualizaciones, etc.
Leer más aquí
Crédito del artículo: AIM