Big Data, un mundo de herramientas Open Source

30 Dic 2013 en Software

 ¿Por qué la mayor parte de las herramientas para el manejo de Big Data provienen de los entornos open source? Si nos hacemos esta pregunta, la respuesta puede ser que eso se deba a que la computación de alta performance (HPC, por High Performance Computing) basó gran parte de sus implementaciones en Linux y otros recursos Open Source.

Y aunque todavía no se utilizaba la denominación Big Data, las implementaciones de sistemas como los de predicción sísmica, investigación (geología, biología, genética,etc) fueron sin duda los primeros en utilizar enormes masas de datos que debían ser procesados con alta potencia de computación.

Big Data pasa luego a formar parte del mundo comercial. Su utilización caracteriza a una era post Warehouse de Datos, donde se ven como anticuadas o lentas las tradicionales etapas/procesos de captura, depuración y carga de datos que un warehouse requiere para el posterior análisis de los mismos.

Muchos ven a Big Data como a la panacea de los marketineros digitales. También ven a esta capacidad de “procesar todo” como al entierro de la inferencia estadística. Los proveedores de soluciones que aprovechan la nueva especialidad prometen precisas segmentaciones de mercados; vistas multi-canal de los consumidores y muchas otras cosas. Sin duda que Big Data facilita muchas operaciones, especialmente donde se utilizan tecnologías de captura como RFID en el terreno de las llamadas NFC (Near Field Communications) o donde hay concurrencias pico de volúmenes de tarea, por dar un ejemplo.

 Otros, simplemente opinan que se trata de la capacidad de poder procesar enormes masas de datos en tiempos más útiles para los procesos del negocio o de una organización determinada. Seguramente existen áreas donde existe el beneficio de poder hacer las cosas más rápidamente y sin limitaciones de volumen.

Las herramientas Open Source para Big Data

Volviendo al mundo open source, vamos a hacer un breve resumen de las herramientas Big Data más exitosas y recomendables.

 Apache Avro es un sistema de serialización de datos basado en esquemas definidos en base a JSON (JavaScript Object Notation, el estándar abierto cuyo formato utiliza texto legible por humanos para transmitir objetos de datos compuestos de pares de atributos de valor). Cuenta con APIs (Application Programming Interfaces) para Java, C, C ++ y C#. Es independiente de los sistemas operativos utilizados.

BigData es una base de datos distribuida que puede funcionar sobre un solo sistema o bien escalar a cientos o miles de máquinas. Sus características incluyen intercambio compartido dinámico, alta performance, alta concurrencia, alta disponibilidad y otros. Existe soporte comercial y es independiente del sistema operativo que se utilice.

 Chukwa es un recurso creado a partir de HDFS (Hadoop Distributed File System) y MapReduce. Chukwa se encarga de colectar datos desde grandes sistemas distribuidos. También incluye herramientas para mostrar y analizar los datos que colecta. Funciona sobre los sistemas operativos Linux y OS X.

 Flume es otro de los proyectos de Apache. Su función es la de colectar, agregar y transferir datos de log (iniciación de sesiones, etc) hacia HDFS. Está desarrollado en base a Java y es un sistema robusto y con tolerancia ante fallos. Funciona sobre los sistemas operativos Windows, Linux y OS X.

Apache Hadoop, más conocido en la comunidad de IT, es un proyecto cuyo objetivo es ofrecer procesamiento distribuido de conjuntos de datos tremendamente grades. Su popularidad nació a partir de su utilización en organizaciones que operan grandes entornos cloud, como Yahoo, Amazon, eBay, AOL, Facebook, Google, Hulu, Spotify y muchos otros. Corre sobre sistemas operativos Windows, Lunux y OS X.

HPCC o High Performance Computing Cluster, es un recurso que fue desarrollado por LexisNexis Risk Solutions. Sus creadores manifiestan que agrega una performance superior a Hadoop. Existen versiones disponibles en modo comunitario y también pago para empresas. Opera sobre el sistema Linux.

Lucene se autoproclama como “el estándar de facto en librerías de búsqueda.” Esta herramienta ofrece indexación y búsquedas en grandes conjuntos de datos a una velocidad muy alta. De hecho, puede indexar más de 95GB de datos por hora cuando utiliza hardware de última generación. Es independiente del sistema operativo que se utilice.

 MapReduce fue originalmente desarrollado por Google.. En su sitio Web, MapReduce se auto define como “un modelo de programación y marco de software para escribir aplicaciones que procesen en forma veloz a grandes volúmenes de datos en grandes clusters de nodos de computación y en forma paralela.” Es utilizado por Hadoop y por muchas otras aplicaciones de procesamiento de datos. Es independiente del sistema operativo que se utilice.

Oozie es uno más de los proyectos Apache y fue diseñado para la coordinación y programación de tareas en Hadoop. Puede disparar tareas (Jobs) en horarios preestablecidos o basándose en disponibilidad de datos. Corre sobre Linux y OS X.

Solr es una plataforma de búsqueda a nivel empresarial  basada en las herramientas Lucene. Actualmente potencia la capacidad de búsqueda en muchos sitios Web de alta actividad, incluyendo a Netflix, AOL, CNET y Zapposs. Es independiente del sistema operativo que se utiliza.

Sqoop es una solución que transfiere datos entre Hadoop y sistemas de administración de bases de datos relacionales (RDBMs) y Warehouses de Datos. Actualmente es un proyecto Apache de alto nivel y es independiente del sistema operativo utilizado.

Storm, ahora propiedad de Twitter, ofrece capacidades de computación distribuida en tiempo real y se lo suele describir como “Hadoop en tiempo real.” Es altamente escalable, robusto y con tolerancia a fallos. Funciona con casi todos los lenguajes de programación y sobre el sistema operativo Linux.

Terracotta es una tecnología de las llamadas “Big Memory” y su función es permitir que las aplicaciones empresariales almacenen y administren grandes volúmenes de datos en la memoria de los servidores. De esta manera, incrementa la performance en forma drástica. La compañía que la desarrolla ofrece versiones abiertas y también comerciales de la plataforma Terracotta y los software BigMemory, Ehcache y Quartz. Es independiente del sistema operativo utilizado.

Zookeeper fue antes un sub proyecto de Hadoop. Actualmente Zookeeper se define como a un “servicio centralizado para el mantenimiento de información de configuración y denominación, proveyendo servicios de sincronización distribuida y servicios a grupos.” Cuenta con APIs para Java y C y se tienen planificadas interfaces para Python, Perl y REST. Los sistemas operativos sobre los que funcionan son Linux, Windows y OS X, estos dos últimos sólo para desarrollo.

 

ERP en la nube: implementación en semanas, flexibilidad y menor costo

iLatina fue la primer empresa del país que ofreció una solución ERP en forma de servicio (SaaS, por Software as a Service). Su primer cliente fue la compañía petrolera PAE donde llegó a tener más de un millar de usuarios entre usuarios internos, proveedores y c ontratistas. Estamos hablando de los inicios de la década del 2000.

Hoy las empresas usuarias de esta solución ERP son varias y entre ellas se incluyen compañías de Extracción y Exploración de Petróleo (Upstream Oil & Gas), Transporte y Embarque de Crudo (Operaciones de Oleoductos incluidas); compañías Mineras y otras que operan en forma distribuida y muchas veces en puntos geográficos de difícil acceso.

Los factores en común que tenían estos clientes:

-Necesitaban poner sus operaciones en marcha en plazos de tiempo muy exigentes

-No podían o no deseaban disponer de un centro de datos propio con sus consiguientes costos de operación y mantenimiento.

-No querían enfrentar el costo inicial de la adquisición de costosas licencias.

-Las características de su negocio hacían que la implementación debiese hacerse en semanas, no años.

-Necesitaban una solución ERP capaz de funcionar mapeando sus procesos de negocio y no atravesar por la implementación de un esquema de módulos (Compras, Cuentas a Cobrar, etc) que luego debieran ser vinculados para que operaran en forma orquestada. Necesitaban una solución basada en procesos.

-Querían tener acceso a toda la funcionalidad desde cualquier punto del globo vía Web.

-Tenían numerosos contratistas y terceras partes cuya actividad debían controlar a nivel de sus operaciones y requerimientos.

-Necesitaban ordenar su etapa de inicio de operaciones controlando los niveles y responsables de autorizaciones por cada etapa de cada proyecto.

-Además, querían una contabilidad generada en forma automática desde las transacciones y transparencia de cada transacción de punta-a-punta.

 

Todos los clientes de iLatina lograron sus objetivos y en el presente operan en forma fluida y satisfactoria sin incurrir en costos de soporte y mantenimiento, hardware, espacio en centro de datos y consumo de energía.

Para el soporte, instrucción, solución de problemas, los usuarios cuentan con una mesa de ayuda especializada online o telefónicamente.

Los datos de las compañías usuarias están debidamente asegurados y respaldados siguiendo las mejores prácticas de excelencia.

Los usuarios en sitios remotos u hostiles acceden vía smartphones o tablets a todas las funciones a las que tienen acceso autorizado, además de reportes e indicadores clave que han sido creados con las más actuales herramientas de Business Intelligence y Analíticos.

Sin inmovilizar capital, los clientes que utilizan la solución ODIS ERP de iLatina pueden crecer, escalar en su volumen e incluso, si así lo desean, integrar la solución con otros software ERP world-class.

iLatina ha probado ser de altísima eficacia poniendo en marcha la sistematización de los datos de operaciones en plazos inalcanzables para otras soluciones como SAP, Oracle, Infor, TOTVS, Microsoft Dynamics y otros.

Muchas empresas que son usuarios corporativos de esas prestigiosas marcas han “arrancado” sus operaciones,  hasta su puesta en régimen y optimización de procesos, utilizando soluciones de iLatina como facilitador para un arranque rápido. Luego, han podido migrar a los software que sus corporaciones utilizan como estándar. Sin ataduras, sin limitaciones o exigencias de tiempo, penalidades económicas o pérdida de capital invertido en licencias.

Visite www.ilatinab2b.com y compruebe nuestra eficacia.