El Futuro del Big Data: Predicciones Precisas con Menos Datos

Los avances en el aprendizaje automático y el análisis de big data están ayudando a los investigadores y, en última instancia, a las empresas, a hacer predicciones sobre las tendencias futuras mediante el análisis de patrones. Una nueva aplicación se centra en la medicina.

Investigadores de la Universidad de Córdoba han estado explorando cómo se pueden organizar, analizar y cruzar grandes volúmenes de datos para predecir ciertos patrones. Esto forma parte del proceso comúnmente conocido como “análisis de big data”. La revisión se centró en predecir la respuesta a ejemplos específicos, como tratamientos médicos, mejoras operativas para edificios inteligentes e incluso el comportamiento del Sol.

Cada proceso de predicción se basa en la entrada de variables clave. Al evaluar la eficacia del análisis de big data, los investigadores se propusieron mejorar los modelos destinados a predecir varias variables simultáneamente basadas en el mismo conjunto de variables de entrada. El objetivo aquí era encontrar formas de reducir el tamaño de los datos necesarios para que el pronóstico sea exacto, acelerando así el proceso de análisis de datos.

El proceso de optimización se centra en filtrar el “ruido” de fondo y eliminar las variables que no son significativas para la evaluación general del propósito del análisis. Los investigadores desarrollaron una nueva técnica que puede informar a la persona responsable del análisis qué ejemplos se requieren para que cualquier pronóstico realizado no solo sea confiable, sino que también se pueda mejorar para ofrecer el resultado más preciso. La técnica fue un tipo de modelo de regresión de múltiples salidas. Estos se clasifican como métodos de transformación de problemas y adaptación de algoritmos. Los modelos de regresión de múltiples salidas requieren estimar múltiples parámetros, uno para cada salida.

Como consideración, el grupo de investigación examinó un método que predice varios parámetros relacionados con la calidad del suelo. Esto se basó en un conjunto de variables de datos como los tipos de cultivos plantados, la labranza (preparación de la tierra) y el uso y tipos de pesticidas. Al aplicar el nuevo modelo, se redujo la cantidad de datos de entrada necesarios para ofrecer una predicción sobre el crecimiento de los cultivos. En total, se examinaron dieciocho bases de datos diferentes y, al aplicar el nuevo enfoque, los investigadores pudieron reducir la cantidad de información en un 80 por ciento sin afectar el rendimiento predictivo. Esto llevó a utilizar menos de la mitad de los datos originales y a obtener respuestas mucho más rápidas.

Comentando sobre el estudio, el investigador principal, el Dr. Sebastian Ventura, dijo: “Cuando estás lidiando con un gran volumen de datos, hay dos soluciones. O bien aumentas el rendimiento de la computadora, lo cual es muy costoso, o reduces la cantidad de información necesaria para que el proceso se realice correctamente”.

La investigación ha sido publicada en la revista Integrated Computer-Aided Engineering. El artículo de investigación se titula “Un método basado en conjuntos para la selección de instancias en el problema de regresión de múltiples objetivos”.

Fuente del artículo: Digital Journal

Te puede interesar