El mundo del Big Data y la ciencia de datos puede parecer complejo o incluso arcano desde afuera. En el ámbito empresarial, muchas personas probablemente entienden los conceptos básicos de lo que implica el análisis de Big Data: recopilar la creciente cantidad de datos que generamos y utilizarlos para obtener ideas significativas. Pero, ¿qué implica realmente esto en el día a día para los profesionales que se ensucian las manos con los detalles técnicos? Para echar un vistazo a este trabajo que algunos describen como “El trabajo más sexy del siglo XXI”, hablé con el destacado científico de datos Dr. Steve Hanks para obtener una visión general de lo que realmente implica el trabajo de un científico de datos y qué tipo de persona tiene más probabilidades de tener éxito en este campo.
El Dr. Hanks obtuvo un doctorado en ciencias de la computación en la Universidad de Yale, ha pasado 15 años como profesor de ciencias de la computación y ha trabajado en empresas como Amazon, Yahoo y Microsoft. Actualmente es el científico de datos principal en Whitepages.com, donde es responsable de supervisar el Contact Graph, una base de datos que contiene información de contacto de más de 200 millones de personas. La base de datos se busca alrededor de dos mil millones de veces al mes y es el principal activo comercial de la empresa. Esta base de datos ha impulsado el negocio de Whitepages desde su lanzamiento en 1997 y más recientemente se ha diversificado en el desarrollo de aplicaciones. Caller ID, su interfaz de usuario móvil de reemplazo, consulta la base de datos principal de Whitepages para proporcionar información más completa sobre quién está llamando y ayudar a reducir las llamadas molestas y de spam. También genera otra fuente de ingresos al proporcionar sus datos a otras empresas para su uso en la prevención de fraudes.
Principales habilidades de un científico de datos
El término “científico de datos” puede abarcar muchos roles en diversas industrias y organizaciones, desde la academia hasta las finanzas o el gobierno. El Dr. Hanks lidera un equipo de 12 a 15 miembros responsables de todos los análisis en Whitepages, y sus conjuntos de habilidades y tareas varían. Sin embargo, según él, hay tres habilidades clave que todo científico de datos debe entender.
En primer lugar, el Dr. Hanks señala que a menudo pasamos por alto el hecho de que los datos tienen un significado y es importante comprender ese significado. Tenemos que ir más allá de los números y entender lo que representan si queremos obtener ideas válidas a partir de ellos. Él enfatiza que “no tiene nada que ver con algoritmos o ingeniería ni nada por el estilo. Comprender los datos es realmente un arte y es muy importante”.
En segundo lugar, es necesario comprender el problema que se necesita resolver y cómo se relaciona con los datos. Aquí es donde se abre el kit de herramientas para encontrar los enfoques y algoritmos de análisis adecuados para los datos. El Dr. Hanks habla sobre el aprendizaje automático, que es muy popular en la actualidad, pero señala que existen cientos de técnicas para utilizar los datos y resolver problemas, como la investigación de operaciones, la teoría de decisiones, la teoría de juegos y la teoría de control, que han existido durante mucho tiempo. Él dice: “Una vez que comprendes los datos y entiendes el problema que estás tratando de resolver, es cuando puedes encontrar el algoritmo adecuado y obtener una solución significativa”.
En tercer lugar, es importante comprender y proporcionar la infraestructura necesaria para realizar cualquier análisis. En palabras del Dr. Hanks: “No sirve de nada resolver el problema si no tienes la infraestructura necesaria para entregar la solución de manera efectiva, precisa y en el momento y lugar adecuados”. Ser un buen científico de datos implica prestar atención a estas tres habilidades. Hay que prestar atención a los datos y a su significado, comprender los problemas y conocer los algoritmos adecuados para resolverlos, y también hay que entender la ingeniería para encontrar soluciones.
Al mismo tiempo, esto no significa que no haya espacio para la especialización. El Dr. Hanks señala que es prácticamente imposible ser experto en las tres áreas mencionadas, sin mencionar todas las subdivisiones de cada una de ellas. Es aceptable especializarse en una de estas áreas siempre y cuando se tenga una comprensión de todas ellas. El Dr. Hanks me dice: “Incluso si eres principalmente una persona de algoritmos o principalmente un ingeniero, si no comprendes el problema que estás resolviendo y qué son tus datos, tomarás malas decisiones”.
Cualidades clave de un científico de datos
En cuanto a las cualidades personales, la curiosidad por los datos es esencial, así como las habilidades de comunicación, según el Dr. Hanks. “Las personas de mi equipo pasan mucho tiempo hablando con los clientes para descubrir qué problemas necesitan resolver, o hablando con proveedores de datos para averiguar qué pueden proporcionar. Así que te conviertes en un intermediario y la comunicación es muy importante”. Diferentes tipos de personas se dedican a la ciencia de datos, y el Dr. Hanks me explicó que él probablemente no es un ejemplo muy típico. Sin embargo, en mi experiencia, no existe tal cosa. Las habilidades clave mencionadas por el Dr. Hanks abarcan una amplia gama de habilidades y personas de diferentes tipos de personalidad y mentalidad se sienten atraídas por esta profesión. “Simplemente me encantó la interacción”, dice el Dr. Hanks. “Desde el principio, me fascinó. Mi primera exposición a la ciencia de datos probablemente fue en la investigación de operaciones, y me encantó la idea de que se pudieran tomar grandes conjuntos de datos y utilizarlos para aprender cosas y mejorar cosas, y descubrí que realmente se podían utilizar para marcar la diferencia. Eso me ha parecido fascinante durante más de 30 años”. Aunque lleva tanto tiempo en el negocio, todavía se presentan problemas que lo hacen rascarse la cabeza, y estos sirven como un gran ejemplo de los desafíos con los que los científicos de datos se enfrentan a diario. “Esta mañana estaba trabajando en algo y uno de los algoritmos simplemente no estaba haciendo lo que se suponía que debía hacer, básicamente nos mostraba una conexión entre una persona en particular y un número de teléfono en particular que sabíamos que era incorrecta. Estos problemas pueden ser muy intermitentes y muy difíciles de diagnosticar. Tenemos algoritmos muy específicos que se supone que deben hacer cosas muy específicas, y cuando no lo hacen, simplemente tenemos que desmontarlos y descubrir por qué no lo hacen. El problema es que en estos días son muy complejos y tienen muchas piezas en funcionamiento. Puedo estar completamente desconcertado, como lo estoy en este momento… pero llegaremos allí, ¡siempre lo hacemos! Ese es realmente el tipo de desafío al que nos enfrentamos día a día: sistemas que simplemente no se comportan como se supone que deben hacerlo según nuestros esquemas”.
El futuro de la ciencia de datos
El Dr. Hanks ve un futuro de aumento de la transmisión de datos y el procesamiento de datos en tiempo real, en lugar del procesamiento por lotes de grandes cantidades de datos. Él cree que en este nuevo mundo, Hadoop MapReduce es menos apropiado y en su trabajo está comenzando a utilizar otros sistemas como Scala y Akka. Uno de los mayores desafíos que ve el Dr. Hanks es mantenerse al día con los rápidos avances de las nuevas tecnologías y nuevos algoritmos. Él cree que para ser un científico de datos efectivo, hay que ser holístico. Él cree que es relativamente fácil convertirse en especialista en MapReduce o en un algoritmo de aprendizaje automático en particular, pero el desafío está en mantenerse al día con la velocidad general de desarrollo en la ciencia de datos. “Es un campo que es asombrosamente grande y complejo, y tiene una increíble amplitud y profundidad”, me dice el Dr. Hanks. “Tienes que entender todas las piezas, pero el campo se está volviendo tan vasto que ese será el desafío al que se enfrentarán los científicos de datos en el futuro”.
En resumen, el trabajo de un científico de datos va más allá de los números y los algoritmos. Requiere comprender el significado de los datos, encontrar soluciones a problemas específicos utilizando los algoritmos adecuados y tener la capacidad de implementar la infraestructura necesaria para realizar análisis efectivos. Además, se requiere curiosidad por los datos y habilidades de comunicación para interactuar con los clientes y proveedores de datos. Aunque es imposible ser un experto en todas las áreas de la ciencia de datos, es importante tener una comprensión general de ellas. El futuro de la ciencia de datos se perfila hacia un mayor procesamiento de datos en tiempo real y la necesidad de mantenerse actualizado con las nuevas tecnologías y algoritmos en constante desarrollo.


