Big Data: Que hacen los líderes del IT y muchas propuestas interesantes de otros proveedores.

6 Ago 2014 en Big Data,Management

Aunque se ha hablado mucho de Big Data, todavía estamos en los días tempranos de esta modalidad. Es un momento crítico para los movimientos estratégicos y competitivos de las empresas. La juventud del mercado hace que no existan rastros o experiencias que corregir, imitar o contrarrestar. Ya vemos a una cantidad de jugadores entre las firmas establecidas y los start-ups que van surgiendo desde Silicon Valley a la India. Cuando el mercado se consolide y madure, muchas de estas empresas habrán desaparecido o habrán sido adquiridas en un proceso en el que se afianzará el liderazgo de los ganadores.

 

Andy Patrizio, columnista de Datamation, elaboró un informe que contiene el perfil de 30 empresas en el campo de Big Data Analytics. El autor aclara que no se trata de una guía de compras, sino una visión general de esas compañías. El informe no registra a los proveedores de hardware a menos que tengan una consistente posición en software que acompañe su accionar en este terreno. Para poner peras con peras, digamos que el factor común es la capacidad de manejo de grandes masas de datos y los analíticos necesarios para su explotación en términos del negocio

Los Grandes Jugadores en Big Data

IBM. Además de contar con su batería de grandes y poderosos equipos de computación, IBM cuenta con sus plataformas de software de base de datos DB2, Informix e InfoSphere. Por otra parte, tiene las aplicaciones analíticas de Cognos y SPSS. Todo con integración bien planificada por su división Global Services. Además, como la mayoría de las empresas que incursionan en Big Data, soporta a la plataforma analítica Hadoop.

HP. Si bien no ha ganado gran visibilidad en nuestro mercado, HP es un importante vendedor y proveedor de servicios. En lo que lo relaciona con Big Data, tiene la plataforma Vertica, que adquirió en 2011. Vertica Analytics Platform fue diseñada para manejar grandes volúmenes de datos estructurados en ambientes de rápido crecimiento. La plataforma maneja capacidades del orden de petabytes en forma escalable y sobre hardware empresarial que podemos considerar commodity. Además, HP cuenta con su unidad Autonomy con su software HAVEn que se utiliza para analizar enormes volúmenes de datos tanto estructurados como no estructurados.

EMC. Esta compañía sabemos que es un especialista en almacenamiento de datos. A partir de esa capacidad, ha construido sus recursos de analíticos para Big Data. La organización incluye un grupo especializado en Big Data que se encarga de integrar hardware y software en una variedad de segmentos como son la computación de alta performance, procesos corporativos y exploración de petróleo y gas. EMC también cuenta con la ayuda de una unidad, Marketing Science Lab, capaz de apoyar a los clientes en el uso de analíticos de Big Data para sus departamentos de marketing.

Teradata. La plataforma Aster de Teradata incluye una mezcla de analíticos, incluyendo a su Discovery Platform, a una base de datos y a un portfolio de Discovery de información con funciones preconstruidas para una amplia variedad de aplicaciones Big Data. También tiene a Aster SQL-GR de nueva generación con su motor de analíticos gráficos, al SNAP Framework para integración y a una interfaz SQL unificada para funcionar a través de diversos motores anal´tiicos y fuentes de datos. Por último, cuenta con su propia implementación de MapReduce.

Oracle. Oracle está en la categoría de los que tienen hardware y software a partir de su adquisición de Sun Microsystems. Esta compañía cuenta con su Big Data Appliance en el que combina servidor Intel con una cantidad de productos de software de su propia marca. Entre ellos está Oracle NoSQL Database, Apache Hadoop, Oracle Data Integrator con Application Adapter for Hadoop y Oracle Loader for Hadoop. Luego tenemos a la herramienta Oracle R Enterprise, que utiliza el lenguaje de programación R y su entorno de software para realizar computación estadística y gráficos de alta calidad. A todo esto, se suma Oracle Java Hotspot Virtual Machine.

SAP. La principal herramienta de SAP para los ambientes Big Data es su base de datos in-memory HANA, de la cual la compañía propone procesar analíticos de hasta 80 terabytes de datos, integrar con Hadoop, realizar búsquedas de contenidos de texto y llegar al nivel de los analíticos predictivos en tiempo real.

Microsoft. Si bien es una compañía que tampoco está muy bien posicionada (en cuanto a mindshare) dentro del campo de Big Data, tiene su propia y amplia estrategia. Tiene una alianza con Hortonworks (también la tiene Teradata) y ofrece una herramienta basada en HDInsights para el análisis de datos estructurados o no sobre la plataforma Hortonworks Data Platform. Microsoft también ofrece la plataforma iTrend para realizar un reporte dinámico de la actividad de campañas, marcas y productos.

Amazon Web Services. Amazon cuenta con una variedad de plataformas Big Data. Entre ellas están Elastic MapReduce, basada en Hadoop, la base de datos para Big Data DynamoDB y la warehouse masivamente paralela Redshift. Todos estos servicios funcionan dentro de su esquema Amazon Web Services y con otros de sus servicios relacionados.

VMware. VMware es bien conocida por su hypervisor de virtualización. Sin embargo, también está construyendo sobre esa plataforma los elementos que le permiten ofrecer software para Big Data. Así tenemos a VMware vSphere Big Data Extensions, de reciente aparición, con el que permite que vSphere pueda controla implantaciones Hadoop y facilite así el lanzamiento de proyectos Big Data en las empresas usuarias de su tecnología.

Google. Google es reconocida como empresa de servicios cloud, pero también está haciendo de las suyas en el terreno de analíticos Big Data a través de su BigQuery. Se trata de una plataforma analítica basada en la nube con la que se puede analizar velozmente grandes conjuntos de datos. A diferencia de la mayoría de los servicios, los datos se suben a BigQuery en lugar de ser almacenados en la nube.

Más jugadores en Big Data

Splunk. Es una empresa que inicialmente desarrolló una herramienta analítica de logs. Luego de establecer una alianza con Tableau Software, comenzó a usar el paquete analítico de esta última. Splunk se ha reconfigurado como empresa de máquina de analíticos de datos. Puede monitorear transacciones de punta-a-punta, estudicar la experiencia de consumidores, comportamiento y uso de servicios en tiempo real e identificar tendencias salientes, además de lo que se denomina análisis de los sentimientos en las plataformas sociales.

MemSQL. Esta compañía ha desarrollado una base de datos relacional in-memory que puede manejar combinaciones de cargas de datos y analíticos en forma simultánea. MemSQL es un sistema de base de datos transaccional in-memory altamente escalable con creciente foco en los analíticos históricos.

Palantir Technologies. Esta es una empresa en la que ha invertido la CIA y tiene dos principales productos analíticos de Big Data: Palantir Gotham integra datos estructurados y no estructurados en la ejecución de búsquedas y descubrimiento. Palantir Metrópolis es para integración de datos, administración de información y analíticos cuantitativos. El software conecta a una variedad de fuentes de datos públicos y descubre tendencias, anomalías en las relaciones e incluye análisis predictivo.

Trifacta. Trifacta cierra la brecha entre lo que es recolección de datos y su transformación en algo utilizable, lo cual generalmente es un proceso de dos pasos. El software de transformación de datos Trifacta automatiza el proceso de transformar datos desde fuentes en bases de datos como Hadoop, en algo pronto a ser utilizado por software de visualización y herramientas de Business Intelligence.

Datameer. Sus Datameer Analytics Solutions (DAS) son, según la empresa, la única solución end-to-end para Hadoop en cuanto a analíticos. DAS es una plataforma de integración empresarial para Hadoop en la que se incluye la integración de fuentes de datos, un motor analíticos con una interfaz tipo hoja de cálculo con más de 200 funciones analíticas y funciones de visualización.

Tamr. Es una empresa de reciente formación que ofrece un producto que recoge datos de las bases de datos de las compañías y utiliza inteligencia de máquina para ofrecer una vista única a través de todos los sistemas. Tamr se parece a una herramienta de búsqueda e indexado en cuanto a que recoge todos los campos de los datos y entrega un reporte de todas las fuentes de datos para que sea evaluado por un especialista.

Neo Technology. Desarrolla una base de datos graph NoSQL. Aclaramos que no es una base de datos gráfica. Es una que utiliza graph, las estructuras matemáticas utilizadas para establecer relaciones de apareo entre objetos de una determinada colección. Se refiere a la conexión de pares de vértices. Una base de datos graph contiene información acerca de cómo cada entrada se relaciona con las demás. A diferencia de las bases de datos estándar, muestra las relaciones que un ítem tiene con otro.

Data Stax. Realiza su propia versión de la base de datos Apache Cassandra. De esa manera ofrece una plataforma masivamente escalable para NoSQL y se puede utilizar en aplicaciones empresariales de misión crítica. Es completamente distribuida y siempre disponible para ofrecer analíticos en tiempo real y escalables.

Infobright. Su arquitectura Knowledge Grid es una base de datos relacional estándar que pone foco en los datos generados por máquinas y está muy orientada a dar soporte a IoT (Internet of Things) con su base de datos analítica de alta performance. Rápidamente analiza datos generados por máquinas, permitiendo que las aplicaciones realicen consultas complejas.

Fractal Analytics. Esta compañía de India utiliza analíticos de datos para que las empresas puedan comprender mejor, predecir e influencia el comportamiento de los consumidores. Los analíticos permiten que las compañías puedan identificar nuevas oportunidades del mercado a medida que surgen y así poder aprovecharlas tempranamente. Es un producto orientado a cadenas de retail, compañías de productos de consumo, empresas de seguros y otras organizaciones que interactúan con los consumidores. Con esta herramienta, las empresas pueden predecir y ver la forma en que se comporta el consumidor y así mejorar la eficiencia de su marketing, manejo de precios y administración de la cadena de abastecimiento.

Metric Insights. Se trata de una bastante rara plataforma “push.” Entrega los datos que necesitan los usuarios internos de una organización. La plataforma alerta al usuario cuando y porqué han cambiado métricas del negocio. Se maneja con datos de una variedad de herramientas BI, SaaS, Big Data y de visualización que son utilizadas por el usuario. Le entrega un reporte personalizado y lo mantiene actualizado a medida que los datos van cambiando.

Informatica. Es una firma de larga trayectoria que fue fundada por un ex vicepresidente de Oracle. También se ha subido a Big Data con el desarrollo de cinco productos: PowerCenter Big Data Edition, que permite a los desarrolladores la integración entre casi cualquier clase de datos a cualquier escala sin tener que aprender a usar Hadoop; HParser, un entorno de transformación y análisis de datos que no requiere codificación; Data Quality Big Data Edition, que entrega datos de cualquier tipo y volumen utilizando reglas preestablecidas de calidad de datos procesadas nativamente en Hadoop; Vibe Data Stream for Machine Data, que realiza colección de stream de datos en tiempo real para analíticos Big Data con alta disponibilidad, confiabilidad y en tiempo real; y finalmente Data Masking, que brinda seguridad basada en políticas para aplicaciones que corren sobre Hadoop y otras plataformas Big Data.

Syntasa. Es una empresa que ofrece Analíticos como Servicio para el sector del marketing minorista online. Su solución está basada en Hadoop y realiza ingestión de datos, ejecución de algoritmos y generación de output en tiempo real, acelerando así drásticamente el proceso de compresión para la toma de decisiones del negocio. Con esta solución, los retailers pueden amoldar la potencia y velocidad de una oferta de producto, manejando lo que es información al consumidor, adquisición y retención de clientes.

Chartio. Esta empresa soporta a una variedad de recursos, incluyendo a MySQL, PostgresSQL, Amazon Web Services, Amazon Relational Data Base Services, Rackspace Cloud, Heroku, Google Analytics y Oracle. Orece a los usuario un tablero de comando muy simple para que puedan visualizar sus datos. Puede funcionar tanto desde PCs como de Tablets. Cuenta con una variedad de filtros y sliders para manipular los datos en tiempo real.

Thoughtworks. Esta compañía que ha incorporado los principios del desarrollo Agile en lo que han denominado Agile Analytics, una modalidad para la creación de warehouses, data marts, aplicaciones de BI y aplicaciones analíticas con foco en la temprana y continua entrega de valor para el negocio a través del ciclo de vida del desarrollo.

Platfora. Esta empresa trabaja con clusters Hadoop, incluyendo a Cloudera, MapR, y a Amazon EMR. Convierte grandes volúmenes de datos en tableros dimensionales y predictivos, con reportes y vistas. La compañía tiene una arquitectura de servidor que permite la inmediata entrega, superponer actividad analítica y la opción de profundizar en áreas específicas.

YarcData. Es parte del fabricante de supercomputadoras Cray. YarcData desarrolla un appliance Big Data denominado Urika, el que puede ser comprado o alquilado a Cray. Realiza búsquedas gráficas entre diferentes conjuntos de datos y optimiza los hallazgos para hacerlos pasibles de consultas en tiempo real y así detectar relaciones, identificar patrones y descubrir las interconexiones ocultas.

SiSense. Esta empresa vende Prism a grandes empresas y también a algunas medianas o pequeñas dado que su producto ElastiCube, una base de datos analítica de alta performance, ha sido especialmente ajustada para analíticos en tiempo real. ElastiCubes se compone de almacenes de datos ultra rápidos que han sido específicamente diseñados para consulta intensiva. Se posicionan como una alternativa de menor precio ante los sistemas Vertica de HP.

ZettaSet. Hadoop y muchas otras aplicaciones Big Data son Open Source y, como suele ocurrir en mercados jóvenes, el apuro es primero por incorporar funcionalidad. La seguridad llega después. ZettaSet Orchestrator hace que Hadoop sea más seguro y ha reforzado los entornos de analíticos a nivel empresarial con encriptado en tiempo real aun cuando los datos están en movimiento.

ClearStory Data. Desarrolla una aplicación escalable para descubrimiento y análisis de datos a través de diferentes fuentes. Está dirigida específicamente a la tarea de seguimiento y análisis de actividad a lo largo del todo el ciclo de vida del consumidor. La plataforma utiliza una base de datos in-memory para procesar mútliples clases de datos sobre la marcha y luego los combina en información utilizando una moderna interfaz de usuario.