Las bodegas de datos en la nube son una de las soluciones PaaS más populares en la actualidad. El 54 por ciento de las organizaciones utilizan estos servicios y otro 15 por ciento planea hacerlo en un futuro cercano. Desde su adopción generalizada en 2013, las bodegas de datos en la nube han proporcionado una potencia de cálculo escalable casi infinita. Con grandes cantidades de datos que aumentan constantemente, surge la necesidad de dar sentido a todo ello a través de un proceso de integración conocido como Extract, Transform, Load (ETL).
Aunque ETL ha existido durante muchos años y se asocia comúnmente con la tecnología local, el rápido avance hacia la nube ha hecho que otra aproximación sea más común: Extract, Load, Transform (ELT). A pesar de la creciente popularidad de ELT en el mundo impulsado por la nube, muchas personas en la industria tecnológica siguen utilizando el acrónimo común, ETL, al referirse a ELT, a pesar de las diferencias fundamentales entre los dos. Si bien las letras en cada acrónimo representan las mismas palabras, el orden importa y mezclarlos podría resultar muy costoso para la organización.
Tanto ETL como ELT ofrecen beneficios únicos y las organizaciones deben entender cómo distinguir entre los dos al decidir cuál aplicar a casos de uso individuales.
ETL: El método tradicional
ETL es el método tradicional y consiste en extraer datos de diferentes fuentes, transformar los datos en un servidor ETL y luego cargar los datos transformados e integrados en una bodega de datos, donde están listos para su análisis y visualización. Por lo general, se realiza en un servidor local y es un proceso muy intensivo en cálculos que requiere una gran transferencia de datos, análisis, transformación y búsquedas.
ELT: El enfoque basado en la nube
El enfoque más nuevo basado en la nube, ELT, implica las mismas actividades, pero en lugar de transformar los datos en un motor ETL separado, se utiliza la potencia de la propia bodega de datos en la nube para transformar los datos sin procesar que se cargaron. ELT también es muy intensivo en cálculos, pero el trabajo se realiza dentro de la bodega de datos en la nube, un entorno que ha sido optimizado para estas cargas de trabajo.
Los costos de ETL y ELT
Realizar tareas de transformación e integración sofisticadas en una gran cantidad de datos es un proceso intensivo que puede resultar costoso. ETL requiere dos componentes arquitectónicos de alto rendimiento: un servidor ETL y una bodega de datos en la nube. Debido a que los entornos que ejecutan software ETL no están diseñados para escalar de la misma manera que las bodegas de datos en la nube de hoy en día, cuando los volúmenes de datos aumentan y las cargas de trabajo se vuelven más complejas, estos entornos tradicionales tienden a alcanzar límites. Esto puede crear cuellos de botella en la cadena de suministro de datos y afectar negativamente los informes y análisis. Como resultado, las organizaciones podrían perder oportunidades al tomar decisiones comerciales con datos desactualizados, incompletos o inexactos.
Por otro lado, en ELT, las transformaciones se realizan en la base de datos en la nube, lo que significa que solo se requiere un componente arquitectónico de alto rendimiento: la propia bodega de datos en la nube. ELT requiere la misma cantidad de potencia de cálculo que ETL, pero los datos se copian menos de un lugar a otro. Obtener la cantidad adecuada de espacio y potencia puede ser costoso y, sin ella, el rendimiento y las consultas se verán afectados. Las plataformas de datos en la nube son más rentables que las arquitecturas locales, pero esta sigue siendo una decisión de costo considerable que los responsables de la toma de decisiones deben tener en cuenta. Además, ETL puede llevar más tiempo debido a las escrituras adicionales requeridas en cada paso del proceso, lo que puede costar tiempo valioso a los equipos de datos.
Cómo determinar qué proceso utilizar
Comprender las diferencias entre ETL y ELT es vital para asegurarse de que una organización esté utilizando el enfoque correcto para satisfacer sus necesidades. Idealmente, la elección entre ETL y ELT debe determinarse caso por caso. A continuación, se presentan algunos escenarios en los que una opción sería mejor que la otra:
- ETL: Si los datos en cuestión son predecibles, provienen solo de algunas fuentes y las transformaciones son mínimas, ETL puede ser la estrategia más efectiva. ETL se adapta mejor a trabajar con bases de datos tradicionales que con plataformas MPP modernas. Debido a la naturaleza especializada de las plataformas de cálculo ETL, es más fácil manejar datos fuente no estructurados.
- ELT: Si el caso de uso específico de los datos aún no se conoce bien, ELT permite la libertad de transformar en una etapa posterior una vez que su caso de uso se vuelva más claro. ELT se adapta mejor a trabajar con plataformas MPP modernas. ELT ofrece la capacidad de presentar los mismos datos simultáneamente de diferentes formas, por ejemplo, como Data Vault, 3rd Normal Form y Star Schema. Esto puede ser útil para compartir datos y autoservicio.
Está claro que tanto ETL como ELT pueden ser beneficiosos para una organización. Las organizaciones deben estar atentas a las diferencias entre los dos y comprender los mejores casos de uso para ambos, especialmente en un contexto de presupuestos de TI cada vez más ajustados y la necesidad de procesos de trabajo más eficientes y efectivos. A medida que miramos hacia el futuro de los datos, el análisis y la nube, estas diferencias y sus costos asociados son vitales para tener en cuenta y garantizar el éxito empresarial.