En el horizonte: Qué representa Big Data como servicio

1 Sep 2014 en Big Data,Software

En artículos anteriores nos hemos referido a esta perspectiva que aparece como lógica dentro de una tendencia general hacia los servicios on-demand y la nube. Hoy, mediante Internet y las avanzadas técnicas de virtualización y plataformas cloud, la ubicación física de los servidores va perdiendo la importancia que antes tuvo en la encarnación del centro de datos. La evolución del software como servicio (SaaS) se ha extendido a la infraestructura como servicio, incluyendo al almacenamiento de datos.

Big Data como Servicio

La definición de Big Data como servicio (BDaaS) no es tan simple como la de SaaS. En realidad tiene más de la componente “servicio” ya que consistiría en permitir que los usuarios accedan a la disponibilidad de información masiva para generar reportes, descubrir ocurrencia de determinados eventos o condiciones y mucho más. Esto se lograría con la reutilización de servicios de datos apoyados por mejores prácticas en su administración mediante modelado de datos y servicios de metadatos.

Según quiénes estudian el tema, la perspectiva de BDaaS se ve facilitada por el simple hecho de que las plataformas en las que residen los datos ya no son tan importantes. Varum Sharma, arquitecto de soluciones empresariales escribió un artículo en Service Technology Magazine donde sintetiza esta situación explicando que las empresas están dejando de operar basadas en aplicaciones para hacerlo en base a datos. Big Data contempla datos que pueden estar en fuentes internas o externas, como los de ventas, redes sociales y otros, lo cual favorece al concepto de dispositivos menos limitados que los del centro de datos.

Cuando se habla de Big Data se habla de volúmenes que pueden alcanzar a petabytes de información, lo cual habla de lo pesado, costoso e innecesario de mover semejantes masas de datos, por ejemplo, a un entorno Hadoop propio o bien de subir voluminosos datos internos a la nube. Lo que aparece como más razonable, según lo sugiere la firma de investigación Gartner, es un modelo híbrido. “Hacer algo del procesamiento en la nube tiene sentido y hacer algo en las instalaciones propias también. Si se tienen datos que vienen de servicios cloud, se puede implantar una infraestructura que administre la recolección de esos datos en la nube, hacer los analíticos que haga falta y mover los resultados a las instalaciones propias. No hace falta mover todo a la nube,” nos dice Nick Heudecker, director de investigación de Gartner.

Heudecker no cree que BDaaS sea factible en modelos puramente cloud u on-demand. En su opinión, BDaaS no existe como algo que tiene un principio y fin definido. Los elementos a definir son demasiados para un modelo puramente cloud. En Big Data participan datos del warehouse empresarial, Hadoop, Bases de Datos Relacionales, procesamiento de eventos, NoSQL, bases de datos in-memory y una variedad de otros elementos. “Si todo eso es lo que conforma a Big Data ¿Cómo se lo puede hacer realidad en forma de servicio?”

Big Data sobre Plataforma como Servicio

Para otros observadores, la definición de Big Data va cambiando y también la de BDaaS. Muchos ven que BDaaS se apoyaría convenientemente sobre PaaS (Platform as a Service) porque en las empresas quieren implementar las cosas rápido y tener mayor flexibilidad, como la que ofrece PaaS.

Hoy en las empresas se utilizan diversas tecnologías, tal vez demasiadas y difíciles de administrar, como Hadoop, por ejemplo. BDaaS encontraría un contexto favorable en PaaS debido a que se pueden aprovisionar los recursos que hacen falta y desligarlos una vez que se termina la tarea. Así se evita tener que realizar grandes inversiones en hardware. Por ejemplo, se puede acceder a Microsoft Azure y generar una plataforma basada en Hortonworks que funcione con un cluster de numerosos nodos. Ellos lo pueden hacer de inmediato y al momento se tiene esa plataforma disponible como servicio.

CSC (Computer Sciences Corporation) es una empresa de servicios de IT que factura U$S 13.000 millones anuales y en la que se apoya el modelo híbrido y BDaaS “en un mundo donde las empresas quieren tener toda la información posible,” como dice Jim Kaskade, VP a cargo de Big Data y analíticos en CSC. “Es tanta la información que hace falta como para almacenarla y analizarla. Por eso es bueno tenerla como si estuviese en un solo lugar donde analizar y consultar rápidamente. Eventualmente, se llega a un modelo federado donde no importa dónde se almacenan los datos,” agrega.

CSC, por ejemplo, ha creado sus servicios Big Data sobre Plataforma como Servicio (BDPaaS) con las nubes privadas Amazon, CSC Cloud Solutions, Red Hat OpenStack y VMware VSphere, integrando así a los data centers de los clientes con los principales proveedores de servicios cloud. CSC BDPaaS ofrece análisis de lotes de datos (batch), analíticos granulares e interactivos y analíticos de streaming en tiempo real. Según sus propuestas, se pueden organizar entornos Big Data en menos de 30 días y hasta en los más complejos contextos híbridos.

Las propuestas de los proveedores convencionales

No queda duda que el modelo BDaaS amenaza el negocio de quiénes venden equipamiento a las empresas. Si bien los proveedores de servicios seguirán adquiriendo hardware y software de base, su poder de negociación llevará a que la rentabilidad no sea la misma, como así la escala.

Es por eso que los principales proveedores del mercado se han puesto a trabajar para brindar servicios. Por ejemplo, HP ofrece su propio BDaaS o HAVEn as a Service, un método basado en cloud para que las empresas se puedan suscribir a diversos productos de analíticos Big Data según lo vayan necesitando. HAVEn es la marca de HP para su implementación de Hadoop, Autonomy, Vertica y otros productos BD para procesar y analizar datos.

Por su parte, EMC, también ha emitido un White Paper con su propuesta BDaaS, en el que promueve sus propios productos GrennPlumb y Pivotal. Sus servicios están basados en cuatro plataformas: infraestructura cloud, data fabric (plataforma distribuida de administración de datos basada en memoria y que utiliza recursos en clusters), plataforma de datos como servicio y software analítico como servicio.

La gobernabilidad de los datos

Sharma se refiere a la gobernabilidad de los datos en la nube dentro del modelo BDaaS híbrido. Las herramientas de Data Governance ya son obligatorias en su opinión. Ignorar la seguridad de los datos, su calidad y acceso, puede ser costoso para una organización en términos de dinero, eficiencia y reputación.

Debe tenerse en cuenta que todo gira alrededor de almacenar, analizar y consultar mayor cantidad de datos de una mayor cantidad de fuentes. No se trata sólo del mayor volumen de datos que se almacenan, sino de la velocidad con la que se los puede adquirir y actuar con ellos.

Kaskade opina que el futuro de BDaaS es un escenario donde no hay casi intervención humana. Es como lo que ya existe en el sector financiero, donde los bancos alertan al cliente si hay un cargo excesivo a una tarjeta, por ejemplo. Esta clase de acción instantánea se verá en todas partes. “Ya hay muchas industrias donde se aplica el procesamiento de eventos complejos. Están actuando sobre millones de corrientes de datos entrantes y haciendo analíticos en tiempo real,” agrega.

Kaskade cree que lo primero que no deben hacer las empresas es crear un entorno de tecnología o sandbox específico para Big Data, porque podrían no necesitarlo. “Lo que todos necesitan es poner adelante el caso de uso y responder a las preguntas que llevan a él. Eso determinará lo que habrá que comprar. A lo mejor hará falta sólo una aplicación SaaS. No piensen que tienen necesariamente que hacer una gran inversión. Resuelvan el problema y muestren a la mesa directiva de la empresa qué es lo que pudieron hacer, antes de ir por más,” concluye.

Este artículo se basa en la columna de Andy Patrizio en Datamation.