Obteniendo significados de datos no estructurados

12 Ene 2015 en Management

En los últimos años ha crecido el volumen de la información digitalizada. A eso se le suma la presencia de flujos de datos que provienen de diferentes procesos y transacciones por distintas vías o “multi-canal.” La masa de datos que circulan en las organizaciones se va duplicando en períodos cada vez más breves.

Según Gartner, de ese gran volumen de datos un 80% es no estructurado. Incluye información que nace de llamados de clientes, emails y mensajes e intercambios en medios sociales. Por otra parte, la gobernabilidad de las infraestructuras de IT en sí misma genera enormes masas de datos nacidos en servicios embebidos y dispositivos de usuarios. De hecho, sería bastante complicado analizar en forma ordenada semejantes masas de datos, pero si hablamos de datos no estructurados, es todavía más difícil obtener información significativa.

Para obtener esa información significativa que permita tomar decisiones del negocio, las organizaciones tienen que tener en cuenta tanto a los datos estructurados como a los que no lo son. Cosas casi inasibles, como el sentimiento de los clientes, son ahora una componente fundamental en las decisiones comerciales y estratégicas de las empresas. La búsqueda de oportunidades a través de lo que se denomina e-discovery, es un ejemplo de estrategia que permite acercarse a la utopía de personalizar productos para los clientes de una empresa.

Hoy no sólo es necesario analizar información provista por los mismos consumidores y otras organizaciones; también se debe tener en cuenta información colectada por dispositivos y sensores cada vez más numerosos y con miras a mantener a las redes corporativas en un nivel de seguridad aceptable y funcionamiento monitoreado.

Sabemos que todo lo referente a Big Data es en general discutible respecto a su manejo y beneficios. Pero en algunos casos, se ha comprobado que la capacidad de poder manejar diferentes fuentes de datos estructurados o no, permite identificar concomitancias entre fuentes diversas y detectar patrones útiles para la toma de decisiones. En teoría y en cierta medida demostrada práctica, este enfoque permite detectar tendencias que no aparecen en los métodos tradicionales que sólo manejan información cuantificable. El uso de datos no estructurados puede ofrecer vistas muy reveladoras en los procesos del negocio, sobre todo en los comerciales. Según lo expresa en un artículo publicado en Datamation el Sr Salil Godika, directivo de la firma Happiest Minds, existen nueve aspectos que deben tenerse en cuenta a la hora de analizar datos no estructurados en entornos Big Data.

El primero consiste en detectar cuáles fuentes de datos son realmente importantes para el análisis. Conviene dejar de lado las fuentes que no se relacionan directamente con lo relevante al caso de análisis.

En segundo lugar, recomienda enfocarse en la forma en que se presentarán los resultados, más que en la metodología analítica. Todo análisis es inútil si no se tiene una clara idea de cuál debería ser el resultado. Debe entenderse bien a qué pregunta responderán esos resultados, si se tratará de una cantidad, una tendencia u otro elemento. También debe tenerse claro el camino que seguirán esos resultados una vez obtenidos para que puedan ser usados, por ejemplo, en un motor de análisis predictivo antes de ingresar al proceso de segmentación e integración con el esquema de información de la organización.

En tercer lugar, es necesario decidir acerca de la tecnología a utilizar para la ingestión de datos y su almacenamiento. Si bien los datos crudos pueden proceder de diferentes fuentes, los resultados del análisis deberían ser ubicados en un apilado de tecnología o en un almacén de datos con conexión cloud. De esa forma los resultados podrán ser fácilmente utilizados. En la elección del almacenamiento y los recursos de recuperación se tendrá en cuenta la escalabilidad, el volumen, la variedad y la velocidad de los requerimientos, entre otros. El stack de tecnología debería ser bien evaluado frente a los requerimientos finales que se perseguirán luego que se haya constituido la arquitectura de información.

El factor tiempo real es importante. Los resultados del análisis podrían ser necesarios en tiempo real, requerir de alta disponibilidad y funcionar en tiempo real dentro de entornos multi-tenencia. El tiempo real es relevante en operaciones de e-commerce, donde se necesitan cotizaciones en tiempo real. Productos y tecnologías para esta funcionalidad de ingestión de datos de medios sociales son ofrecidos por empresas como Storm, Flume y Lambda. La alta disponibilidad y el control de brechas de pérdida de datos. Conviene usar herramientas como Apache Kafka para obtener redundancia en la información entrante.

En cuarto lugar, se recomienda mantener la información e un “lago de datos” antes de almacenarla en un warehouse de datos. El proceso tradicional consistente en examinar una información, por ejemplo una pieza HTML, tomar el texto y descartar el resto, hace que alguna información se pierda en el proceso de almacenamiento en el warehouse. Con Big Data, ocurre lo contrario. En el lago de datos se almacena la información en su forma nativa y se la considera potencialmente útil a otros propósitos específicos, preservándose sus metadatos o todo lo que pueda contribuir a su eventual análisis.

La quinta recomendación tiene que ver con la preparación de los datos para su almacenamiento. Si bien se conservarán los archivos originales, si hace falta usar los datos, conviene tener una copia limpia. En los archivos de texto puede encontrarse mucho ruido y abreviaturas que encubren información valiosa. Es bueno realizar la limpieza de ruidos como espacios en blanco o símbolos y convertir texto informal en cadenas de lenguaje formal. Si es posible detectar el lenguaje que se habla, debería ser categorizado. Los resultados duplicados deberían removerse, verificar si faltan datos o valores y extirpar la información ajena al tema.

El sexto punto es el de la recuperación de la información útil. Mediante el procesamiento del lenguaje natural y el análisis semántico, se puede hacer uso de solapas para marcar la extracción de entidades con nombres comunes, tales como persona, organización, ubicación y sus respectivas relaciones. A partir de ese ejercicio, se puede crear una matriz de frecuencia de términos para comprender el patrón de palabras y su flujo en los textos.

La evaluación ontológica es la séptima recomendación. A través del análisis se pueden establecer las relaciones entre las fuentes y las entidades extraídas y así la base de datos estructurada podrá ser diseñada según especificaciones. Esto puede llevar tiempo, pero las vistas provistas pueden valer mucho la pena para una organización.

El modelado estadístico y la ejecución son el tema número ocho. Una vez que se han creado las bases de datos, los datos deben ser clasificados y segmentados. Utilizar aprendizaje de máquina supervisado o no, puede economizar tiempos. Existen algoritmos de proveedores como K-means, Logistic Regression, Naive Baye y Support Vector Machines. Estas herramientas pueden ser utilizadas para detectar similitudes en comportamientos de clientes, elementos para el targenting de campañas y clasificación general de documentos. La disposición de los clientes hacia la empresa puede determinarse con análisis de sentimiento extraído de revisiones o retroalimentaciones, lo cual ayuda a comprender futuras recomendaciones de productos, tendencias generales y a la vez sirve de guía para la introducción de nuevos productos y servicios. Los temas de los que los clientes hablan más pueden ser analizados mediante técnicas de modelado temporal, capaces de extraer los tópicos o eventos que los clientes comparten en medios sociales, formularios de encuestas y otras plataformas.

En noveno lugar, aparece la obtención del insight necesario del análisis y su visualización. Una vez alcanzado el resultado final, es importante que las respuestas al análisis sean provistas en formato tabular y gráfico, ofreciendo elementos accionables. Para asegurarse de que la información pueda ser utilizada y accedida por los involucrados, debería ser presentada en forma de que pueda ser revisada incluso mediante un dispositivo de mano o herramienta Web, de modo que el receptor pueda ejecutar las acciones recomendadas en tiempo real o casi real.

Como conclusión, el autor nos dice que las nuevas formas de información tales como los medios sociales y los logs de máquinas se han convertido en elementos cruciales para las organizaciones. Esto es debido a su capacidad de ofrecer contenidos e inteligencia de diagnóstico únicas una vez que se los analiza adecuadamente. Los científicos de datos tradicionales deberán adquirir nuevos conocimientos para analizar datos no estructurados. Si bien las empresas desarrollan capacidades para manejar inteligencia de contenidos, el verdadero potencial está en la fusión de diferentes formatos de datos y la combinación de fuentes de datos estructurados con datos semi o no estructurados que surgen de los usuarios o de la actividad de un dispositivo.