El manejo de los datos no estructurados

El empleo de consultas de texto o “búsquedas” es una de las formas en las que podemos ubicar información en formato texto no estructurada, aunque esta modalidad tiene severas limitaciones. Sigue dependiendo del factor humano respecto a la lectura de la información, detección de las relaciones y conversión en conocimiento utilizable. Uno de los problemas es el de poder sistematizar el verdadero significado e importancia de los términos lingüísticos. Una misma frase puede tener diferentes significados cuando cambia un artículo o preposición y hasta cuando alguien cometió un error de ortografía, por ejemplo. 
El ser humano detecta todos estos matices cuando analiza algo escrito o hablado. Es algo que hacemos espontáneamente y en forma fácil y sencilla. Los humanos son mejores que las computadoras cuando se trata de datos menos estructurados, el problema es que los humanos no pueden escalar a grandes masas de datos.
Para superar este escollo, algunas compañías como ClearForest Corp., Inxight Software Inc., Megaputer Intelligence Inc., y SPSS Inc., crearon productos que analizan grandes cantidades de información en texto y la convierten en inteligencia manipulable.
El primer paso es la aplicación de algoritmos de procesamiento de lenguaje natural que determinan el significado de las oraciones teniendo en cuenta contexto, gramática, sinónimos y hasta vulgarismos. Luego se clasifica a los documentos y se los agrupa por similitud. Algunas herramientas permiten extraer cierta clase de datos como nombres de compañías o ciudades. Otras, presentan la información en modo gráfico, facilitando la detección de relaciones.
Si bien esta tecnología es relativamente nueva y no es aún tan precisa como la del data mining convencional, su uso ha comenzado a crecer. En empresas como Dow Chemical, por ejemplo, se está usando para realizar búsquedas de patentes. Algunos fabricantes, a su vez, emplean esta nueva tecnología para la búsqueda de registros en sus call centers y con el propósito de identificar quejas que respondan a un mismo patrón. Global Aviation Information Network (GAIN), consorcio internacional de líneas aéreas comerciales, agencias gubernamentales y fabricantes de aviones, está desarrollando herramientas capaces de reunir datos generados por mecánicos, pilotos y hasta personal como azafatas. El objetivo es el de detectar problemas mecánicos comunes que pueden ser corregidos antes de que se conviertan en un inconveniente serio y hasta en un desastre.
“Estamos intentando ver de forma más inteligente a los eventos que ocurren con relativa frecuencia y que al ser inofensivos en sí mismos debido a la robustez de los sistemas, pasan inadvertidos. Pero si son parte de los eslabones en la cadena de un accidente, tratamos de pararlos antes de que se llegue a ese desenlace,” señaló un administrador de sistemas de seguridad de esa asociación relacionada a la industria de las aerolíneas.