Desde que era niño, uno de mis libros favoritos era la serie de “La Fundación” de Isaac Asimov. Me fascinaba y me encantaba la posibilidad de predecir el futuro. Esta posibilidad se basaba en la premisa de que en algún momento, cuando la cantidad de datos generados por los humanos alcanzara un nivel significativo, los algoritmos predictivos podrían modelar los cambios sociales con un nivel estadístico bastante alto. Creo que podemos decir con seguridad que como humanos hemos alcanzado ese punto en el que la cantidad de datos que generamos es “significativa”, por decir lo menos. Según algunas estadísticas disponibles públicamente, en Facebook generamos alrededor de 500TB de datos en un solo día. Estoy dispuesto a predecir que esta cifra es muy probable que sea aún mayor dependiendo de cuándo estés leyendo esto en el futuro.
Si la cantidad de datos necesarios para predecir el futuro ya no es un obstáculo y los modelos de análisis predictivo se vuelven cada vez más sofisticados, ¿qué nos impide mirar hacia el futuro? Bueno, en primer lugar, Asimov puede haber asumido, o no haber pensado mucho, en el hecho de que los datos que se generan hoy en día están en diferentes formatos, en diferentes sistemas y a menudo permanecen bloqueados como “datos oscuros”. Y ese puede no ser el único desafío. Las tecnologías de big data nos han dado el poder y el potencial para almacenar y procesar vastas cantidades de datos, pero lamentablemente todavía no tenemos una solución única para asimilar todos los datos de diferentes fuentes, armonizarlos, limpiarlos, combinarlos y luego alimentarlos a un motor de análisis sofisticado que pueda hacer el modelado predictivo. Estos son los pasos necesarios que requieren personas, procesos y tecnología y aún son insuficientes, lo que hace que actuar sobre la gran cantidad de datos siga siendo un desafío.
Más importante aún, el motor de análisis puede solicitar los datos en diferentes contextos dependiendo de las preguntas que le hagas al motor para responder. Por ejemplo, dependiendo de si quieres que tu herramienta de análisis predictivo determine el segmento de pacientes con mayor probabilidad de tener una enfermedad en particular, en comparación con el segmento de pacientes menos propensos a poder pagar sus facturas médicas, el “contexto” de los datos necesarios para alimentar al motor podría ser muy diferente.
En el mundo del big data, lo que se conoce como la Arquitectura Kappa se trata de abordar este desafío principal de cómo modelar el contexto adecuado cuando se necesita. Dentro de una Arquitectura Kappa, todos los datos, ya sean nuevos o una actualización de un valor de datos existente, se tratan como un evento de registro inmutable. Esto garantiza que todos los datos se almacenen como pilas de datos sin procesar con eventos y metadatos que luego en un momento posterior se puedan utilizar para reproducir o materializar en un contexto dependiendo de lo que desees extraer de la pila y alimentar a tu motor de análisis. Otra gran ventaja de esta arquitectura es que los datos siguen siendo fluidos y no necesariamente tienen que cumplir con un esquema o modelo cuando se persisten. El modelo se puede aplicar a la pila de datos en el momento del consumo con una metodología de esquema en la lectura o esquema de unión tardía.
La Arquitectura Kappa definitivamente está llevando a los humanos un paso más cerca de la predicción del futuro al almacenar y reproducir datos de una manera intuitiva y eficiente que es radicalmente diferente de los enfoques tradicionales de gestión de datos. Pero el hecho sigue siendo que las empresas aún necesitan tener un proceso y una estrategia sólidos para adquirir datos, ingerir los datos, limpiarlos, armonizarlos y aplicar reglas comerciales específicas para los objetivos generales de los datos. La plataforma de datos como servicio (dPaaS) es una solución que aborda esto de manera directa con la integración y las tecnologías de big data. Si estás buscando utilizar tus datos para obtener información valiosa (incluida la predicción del futuro), te insto a que eches un vistazo a la plataforma ALLOY, nuestra solución dPaaS, y cómo puede ayudarte. Los datos de hoy están disponibles en todas partes y es solo cuestión de tiempo antes de que nosotros, como humanos, comencemos a desbloquearlos en el momento adecuado para predecir el futuro.
Sin embargo, hay algo sobre predecir el futuro. Tan pronto como predices el futuro, terminas afectándolo cuando decides compartirlo con los sujetos y hacer que cambien su comportamiento. Por ejemplo, si te dijera que, según mi modelado predictivo, predigo que alrededor de 100,000 personas leerán este blog en el futuro, es posible que algunas personas elijan no hacerlo a propósito y afecten la predicción y el futuro. Es algo que hace reflexionar, si lo piensas bien.
Si te dedicas al negocio del big data, sin embargo, la forma en que desbloqueas tus datos oscuros no tiene por qué ser complicada cuando aplicas la metodología de intermediación de contexto en dPaaS. En cuanto a mí, voy a predecir que volveré a leer la serie de Asimov una vez más. Esa es una predicción sobre la que todavía puedo controlar el futuro.
Este blog fue escrito por Madhukar Kumar, vicepresidente de productos en Liaison Technologies.