El desafío de los datos no estructurados

A veces decimos que en una empresa faltan datos aunque lo que ocurra pueda ser exactamente lo contrario. La mayoría de las compañías no están escasas de datos. Tienen depósitos llenos de cajas de archivos o terabytes de almacenamiento digital. Lo que falta es una forma de inteligencia aplicable a los procesos del negocio y a la mejora de los resultados. El uso de herramientas de data mining (minería de datos) permite convertir a los almacenamientos de bases de datos en lo que denominamos Business Intelligence.
El problema es que, generalmente, la mayor parte del conocimiento que reside en una organización no está alojado en bases de datos. Para acceder y explorar esa información que no está en bases de datos es que tenemos a las herramientas de minería de textos. Con estas herramientas, se pueden descubrir relaciones y conjuntos de información extraídos de grandes almacenes de datos nunca antes analizados.
A diferencia de la información no estructurada, la que sí lo está se caracteriza por tener cada bit de información con un formato y un significado preadjudicado. Las compañías han usado data mining en los últimos años para extraer inteligencia de sus negocios mediante esos datos estructurados. Dado que los campos de las bases de datos están claramente definidos, es sencillo procesar consultas y fórmulas capaces de extraer información significativa en lugar de datos “crudos.” Las computadoras han mostrado ser eficaces en el manejo de cantidades masivas de datos estructurados, algo que al ser humano no le resulta posible sin enormes cantidades de tiempo y esfuerzo.
Los datos no estructurados son los que encontramos en e-mails, presentaciones PowerPoint, informes, correo de voz, notas, agendas y hasta fotografías. Algunos especialistas se refieren a esta información como “semi-estructurada” ya que contiene metadatos que sí están estructurados, tales como encabezados de e-mails, fechas de revisión de documentos Word, etc.  De todos modos, con el propósito de su manejo, se la clasifica a toda como no estructurada.
Esta clase de datos suele ascender a un nivel superior al 80% del total de información disponible en una compañía promedio. Eso representa un alto porcentaje de los almacenamientos de conocimientos y no siempre es fácil de encontrar, analizar o poner en uso. Alguien dijo “estamos llenos de información pero hambrientos de conocimientos.” Seguramente se refería a aquella información que sólo será útil cuando pueda ser ubicada y sintetizada en el conocimiento de algo utilizable.