Los expertos discuten sobre la realidad de Big Data

expertos-bigdataEn un encuentro organizado por nuestro editor, tres académicos especialistas en el manejo y uso de información, presentan sus respectivas visiones sobre la realidad de Big Data, sus potenciales usos y alternativas. No dejan de lado los aspectos que hacen a determinar cuándo es necesaria o no una plataforma especializada. Big Data visto como un ambiente de herramientas preexistentes e innovación tecnológica al mismo tiempo.

Hay estudios que muestran que un 60 % de los directivos empresariales no terminan de entender el valor de Big Data para sus negocios. Estadísticos y “científicos de datos” difieren parcialmente sobre su alcance y utilidad, pero nadie niega que ya es un concepto instalado.

Nuestro editor entrevistó a Hugo Delfino, licenciado en Estadísticas con especialización en Dirección Estratégica y Planeamiento Empresario.; al Lic en Ciencias de la Computación Eduardo Poggi, profesor de postgrado de la UBA y al Dr. Marcelo Soria, Maestría en Explotación de Datos y Descubrimiento del Conocimiento. Los entrevistados hablaron sobre diferentes aspectos de Big Data y este artículo trata de ser un aporte en el que el lector encuentre una orientación conceptual.

Cuál es la realidad de Big Data

Refiriéndose a Big Data como cocepto, Poggi nos dice que “la industria de TI lo ha tomado como la nueva ola que le permite vender nuevos software, viejo software reciclado y mucho hardware. También lo han tomado ciertos actores sociales aumentando la borrosidad del término. Como suele suceder con estas cosas el tiempo le irá dando su verdadera dimensión. Pero mientras tanto el tema está y sería necio ignorarlo. Es más, desde la Academia deberíamos hacer un esfuerzo para tratar de encauzarlo.”

Lic. Hugo Delfino

Hugo Delfino, Licenciado en Estadística

Para Soria, “hay bastante confusión respecto al significado de Big Data. En realidad es la aplicación de métodos conocidos. Por supuesto que hay algunos elementos nuevos porque siempre se va innovando, pero le núcleo es un conjunto de métodos o bien de agrupamiento, o de clasificación, o de análisis que ya existían. La diferencia en la actualidad consiste en que se pueden aplicar a decenas, centenas o miles de millones de datos. A mí, el término que más me gusta utilizar es el de Ciencia de Datos. Es el más abarcador. Dentro de Ciencia de Datos uno puede incluir una pata estadística, una pata que tenga que ver con aprendizaje automático, inteligencia artificial o redes neuronales. La cantidad de datos con la que se está trabajando, podría decirse que pasa a un segundo plano.”

La historia del procesamiento de datos se ha escrito con ciencia y sufridos procesos de prueba/error en los que han padecido alegrías y desencantos tanto proveedores como usuarios. Muchas buenas tecnologías y soluciones no lograron aterrizar en el mercado por falta de adopción o aptitud de parte del sector usuario. “Hay muchas organizaciones donde no tienen claro qué cosas se pueden hacer. Y tal vez sea esa una tarea pendiente de la enseñanza o aprendizaje desde el ambiente académico. Hay empresas en las que, dentro del modelo de negocio, no está claro qué se puede hacer con la explotación de los datos. No se tiene clara esa primer parte, que es más conceptual que determinar la herramienta a utilizar. Se trata de establecer cuáles son los datos clave para el negocio. Los estadísticos, históricamente solíamos padecer la carencia de datos. Hoy hay una sobreabundancia de datos y no sabemos qué hacer con ellos. Si bien la estadística siempre trata de resumir los datos y organizarlos para presentarlos aplicando analíticos, se nos presenta un nuevo problema: determinar si vamos a usar todos los datos o si utilizaremos técnicas de muestreo para sacar subconjuntos de datos y modelar sin entrar en Big Data,” nos dice el Lic Delfino.

Cuándo Tiempo Real es ventaja

Poggi nos dice que hoy “tenemos una enorme disponibilidad de datos en “tiempo real” que antes no teníamos o sólo en casos determinados. Por lo menos, hoy hay datos con un gran caudal (mucho volumen en poco tiempo) con incidencia social, mientras que antes estaba limitado a aspectos científicos, militares, etc. Con lo que este tema ha entrado en otros ámbitos.

Por buscar una analogía, antes podíamos pensar los reservorios de datos como un gran lago, de a poco se iban sumando datos (por medio de la lluvia o afluentes) y algunos se iban, pero el núcleo se mantenía, siempre estaban ahí para que los estudiáramos. Hoy tendríamos que pensar que, además de esto, tenemos otros reservorios de datos que corren como un río de montaña y los datos que no usamos y dejamos pasar ya no los vamos a ver más (o, lo que es parecido, el costo de ir a buscarlos es prohibitivo). Aquí es donde empieza a jugar Big Data, no reemplaza, se agrega y debería enriquecer lo que ya tenemos.

Lic. Eduardo Poggi

Lic en Ciencias de la Computación Eduardo Poggi

Ejemplos hay muchos: los twits mientras un presidente habla por cadena nacional o un cantante famoso da un recital permiten percibir lo que opina la audiencia mientras el evento transcurre. Las cámaras ciudadanas captan ilícitos o accidentes mientras ocurren o cuando están por ocurrir. Sensores de todo tipo en los camiones de basura, patrulleros, taxis, … pueden estar monitoreando muchas más cosas que las que cualquier NOC puede llegar a procesar con personas mirando las pantallas. Y todavía no llegamos a todo tipo de artefactos conectados a Internet.”

Pero el tiempo real no siempre es necesario o indicado. Delfino nos da el ejemplo de ciertos modelos donde el tiempo real no tiene un impacto de valor. “En general, en los modelos se trabaja con los patrones comunes y el tiempo real no es algo que se puede incorporar a todos los modelos de riesgo. Los hechos puntuales siempre ocurren y las empresas como los seguros, se manejan con grandes números. También hay que tener cuidado con la ansiedad de tener los comportamientos del consumidor en “tiempo real” y tomar decisiones apresuradas. Los consumidores no cambian de un día al otro sus preferencias básicas o su perfil. Hay cosas que no son accionables. El rating de TV en tiempo real no sirve para hacer que la gente cambie de programas.”

“Aun en ciertas actividades muy promocionadas por los proveedores de soluciones Big Data, tales como la venta masiva de servicios, el tiempo real puede no ser impactante. Incluso cuando se trata de actividades veloces, como la venta de planes telefónicos o viajes, necesariamente se tienen que dar ciertos pasos y su control en tiempo real no va a cambiar mucho el resultado. El tiempo real se hace más necesario en empresas de logística, retailers que trabajan con stocks mínimos. Hay empresas donde ahorrar tiempos y espacios de depósito es ahorrar mucho dinero, si bien esto ya es un tema más operativo,” comenta Soria.

Facilidad de uso: ¿Mayor riesgo?

En su libro titulado Antifrágil, Nassim Nicholas Taleb se refiere a la sobreabundancia de datos y su manejo en la construcción de variables diciendo: Si tenemos un conjunto de 200 o más variables aleatorias, sin relación alguna entre sí, entonces resultará casi imposible no hallar entre ellas cierta correlación elevada, digamos del 30%, pero será una correlación completamente engañosa.

Respecto a poner ciertas herramientas al alcance de una mayor cantidad de gente posiblemente no capacitada, el Dr Soria comenta que “a principios de los 90 apareció software estadístico que facilitaba mucho el trabajo. Todos podían hacer estadísticas fácilmente. Pero esa facilidad de uso hizo que se cometieran muchos errores. Por suerte, los paquetes estadísticos de ahora son bastante difíciles de usar. El que mete mano es el que conoce. No puede haber “estadísticas para todos.” Con Big Data pasa algo parecido. Los proveedores ofrecen “acercarle Big Data a todos.” Posiblemente se facilite, por ejemplo, la interrogación de bases de datos enormes desde una Tablet, pero si no tengo conocimientos me voy a equivocar. Y muchas veces es peor el error de equivocarse, que el de no haber hecho nada. Es importante que la gente que usa los modelos tenga experiencia. Que se dé cuenta cuándo los modelos muestran inestabilidades insipientes. Es importante la intuición o el “olfato” que da la experiencia.

Todo depende del área de negocio. En algunos negocios se puede conducir con intuición. En otros hace falta conocimiento crítico de las herramientas, como en los modelos de riesgo crediticio, donde el consumidor no importa tanto como los elementos explicativos de la predicción. Si el modelo funciona bien, no ven la necesidad real de cambiarlo.”

La carencia de profesionales y conocimiento

Para Poggi, más allá de la finalidad, ”la realidad es que sabemos poco de cómo tratar grandes volúmenes de datos complejos (textos, imágenes, videos, sonidos, …), esencialmente sucios y en poco tiempo. Tenemos que aprender a manejar ruido, redundancia, errores no sistemáticos, falta de estructura, vocabularios y dominios ilimitados, reglas de negocio (privacidad) para poder sacar conclusiones razonables en poco tiempo. La mayoría de las metodologías y algoritmos que manejamos en estadística, inteligencia artificial e informática no soportan esto. Esta es precisamente la demanda de Big Data y considero que es genuina.

Estas fuentes de datos no reemplazan a las tradicionales, se suman. Y seguramente el valor estará dado en la interrelación de ambas fuentes. Además, debemos aprender a sacar conclusiones mezclando nuestros datos puros, sanos y estructurados con otros que no lo son. Seguramente lo que salga de todo esto será aproximado, el desafío es entonces lograr herramientas que nos permitan entregar junto con nuestras hipótesis factores de confianza de forma similar a lo que hacemos con los métodos tradicionales.”

Dr. Marcelo Soria (2)

Dr. Marcelo Soria, Maestría en Explotación de Datos y Descubrimiento del Conocimiento

Soria prefiere hablar de Ciencia de Datos y no de Big Data. “Dentro de Big Data hay como una tendencia a olvidarse de las estadísticas. Y eso no lo comprendo porque no se pueden dejar de lado las técnicas tradicionales de la estadística. En informes y White Papers vemos que se dice que con Big Data no hace falta hacer estadísticas, que es algo más fácil porque se trabaja con todos los datos. Y en general ese enfoque lleva al fracaso. El científico de datos, por ejemplo, debe ser un profesional cada vez mejor preparado precisamente en estadística.

Pero también hay deficiencias en los estadísticos tradicionales. Deberían estar más asociados a departamentos de IT o ciencias de la computación, además de los de matemáticas. A menudo no tienen buenas nociones de estructuras de bases de datos como No-SQL, por ejemplo, y el manejo de las bases de datos les resulta complicado.

Otra dificultad de los estadísticos está en transmitir los resultados de los análisis en forma efectiva, hablando sobre el negocio y utilizando gráficos y otros medios de presentación. Precisamente es aquí donde la del científico de datos se presenta como una formación que lo hace sólido en estadísticas y en computación. Puede no ser un buen programador, pero sabe hablar con un programador y establecer los requisitos de lo que necesita. No es un administrador de bases de datos, pero sabe diseñar consultas. Y es sólido en la comunicación, en la visualización. Y la visualización ha crecido como un campo casi independiente. Cuánto más complejos son los datos, no más grandes, el poder contar lo que se está viendo se hace cada vez más difícil. Están naciendo herramientas y personas especializadas en visualización.

Big Data no es sólo pararse sobre millones de datos. Es lograr que se forme un equipo del que el científico de datos forma parte y perseguir objetivos del negocio, responder a interrogantes que pueden convertirse en resultados para el negocio. Y lo pueden hacer usando estadísticas, aprendizaje automático u otras técnicas.”

Delfino, desde su enfoque como estadístico y familiarizado con la aplicación de su disciplina a problemas del negocio, opina que “la profesión de Data Cientist tiene un perfil muy científico y carece todavía de carácter interdisciplinario, donde actúen otras ramas de la ciencia, la psicología y la sociología, que desde algunos ángulos tienen un enfoque más de negocio. Estamos demasiado enfocados a cómo extraemos información de esas grandes masas de datos. A los estadísticos suele planteársele: “tengo estos conjuntos de datos ¿Qué puedes extraer?” y en realidad debería ser lo inverso, pedir que se extraiga algo que se necesita descubrir. Los estadísticos formados hace algunos años, es cierto, tienen todavía deficiencias en el manejo de la tecnología. Pero las nuevas generaciones están superando eso. Un estadístico francés Krivitsky dijo “Si tienes un conjunto de datos y aplicas una técnica, algo va a salir.” Como los sistemas son infalibles, siempre sale algo. Cuando los científicos de datos vienen de otras ciencias, el problema es que a veces aplican la técnica para cualquier cosa, con redundancias de variables, regresiones donde les incluyen variables sin importar qué tienen. En síntesis, tienen que ser equipos interdisciplinarios.”