En este artículo, exploraremos las diferencias clave entre el procesamiento en tiempo real y el procesamiento por lotes. En nuestro mundo actual, todo sucede en tiempo real y nuestras decisiones también deberían hacerlo. Por ejemplo, la prevención de fraudes a menudo es más beneficiosa que la detección de fraudes. La creciente demanda de toma de decisiones basada en datos ejerce presión sobre las organizaciones para que muevan los datos de sus infraestructuras de procesamiento por lotes heredadas a tuberías de procesamiento de datos en tiempo real basadas en la nube, que puedan escalar para manejar volúmenes cada vez más altos de datos.
El procesamiento por lotes implica recopilar y almacenar datos antes de que puedan ser procesados. Un trabajo de procesamiento por lotes se ejecuta sobre ese conjunto de datos históricos. Cualquier dato que llegue después de que la ventana de procesamiento por lotes se haya cerrado y que señale un evento importante, como indicios tempranos de un ciberataque inminente o señales de una transacción fraudulenta, se excluye del trabajo por lotes y se pierde. Por lo tanto, las empresas están migrando hacia flujos de datos en tiempo real para obtener información accionable cuando esté disponible, lo que ha generado un debate sobre cuál es la mejor forma de procesar datos: ¿procesamiento en tiempo real o procesamiento por lotes?
¿Qué es el procesamiento por lotes?
El procesamiento por lotes, en su forma más simple, es cuando los datos se recopilan y procesan de una sola vez como un lote a través de un sistema de análisis. Los trabajos por lotes son de larga duración, no supervisados y capaces de procesar enormes cantidades de datos históricos. Este último punto es donde el procesamiento por lotes ha tenido ventaja sobre el procesamiento en tiempo real en el pasado. Un ejemplo de procesamiento por lotes es la facturación o la nómina, que se procesan semanal o mensualmente. La empresa almacenará el conjunto de datos más grande antes de procesarlo para un análisis profundo.
¿Qué es el procesamiento en tiempo real?
El procesamiento en tiempo real implica un flujo constante de datos que fluye a través de una tubería de procesamiento de datos tan pronto como se recopila o se genera. Debido a la velocidad de procesamiento, las empresas pueden obtener información valiosa al instante en tiempo real. El procesamiento en tiempo real tiene dificultades cuando los volúmenes de entrada de datos superan la capacidad del sistema para procesar y producir resultados. Una solución común es limitar el procesamiento a eventos que lleguen dentro de una ventana de tiempo móvil. Un ejemplo de procesamiento en tiempo real abarca desde los feeds de redes sociales hasta la gestión de inventario en el comercio minorista. El procesamiento en tiempo real permite al consumidor tener la información más precisa al alcance de la mano.
Dando impulso al tiempo real a gran escala
Hasta hace poco, los trabajos de procesamiento masivo de datos eran exclusivos del procesamiento por lotes. El surgimiento de sistemas de gestión de flujos como Kafka, que alimentan datos a sistemas de análisis en tiempo real como Flink y Quine, junto con la proliferación de infraestructuras en la nube con autoscaling, significa que las empresas ahora tienen una alternativa en tiempo real que puede escalar a los volúmenes de datos de procesamiento por lotes. Se generan 2.5 quintillones de bytes de datos diariamente, un volumen enorme. La mayor parte de esos datos simplemente se ignora. El resto se almacena para ser procesado más tarde. El procesamiento en tiempo real resuelve el problema de “¿dónde vamos a poner esto si no queremos perderlo?” al extraer solo las ideas valiosas y descartar el resto. Las empresas que adoptan el procesamiento de eventos en tiempo real tendrán una ventaja competitiva. Las empresas que pueden procesar datos al instante pueden resolver una multitud de problemas en un mundo que valora la gratificación instantánea, la precisión y la personalización. Desde la detección instantánea de fraudes hasta el análisis en tiempo real del sentimiento de la audiencia, adoptar el procesamiento en tiempo real solo puede fortalecer a las empresas.


