Un mejor manejo de la Deduplicación

Hoy ya una tecnología probada, la deduplicación o “dedup” ha estado entre nosotros desde hace unos diez años. Actualmente es parte integral de los procesos de backup y almacenamiento de datos. Es una tecnología que sigue evolucionando en términos de mayor flexibilidad, como de facilidad de uso o mejora de los resultados.

 

Drew Robb, columinista de Datamation, se encargó de recoger algunos aspectos que pueden resultar útiles al lector en lo que hace a la deduplicación.

Robb habló con Rob Emsley, director senior de Marketing de la división Data Protection and Availability de EMC. El destaca que los algoritmos de la deduplicación en sí mismos no han cambiado mucho recientemente. Lo que ha evolucionado en mayor medida es lo relacionado al dónde y cuándo se ejecuta la deduplicación.

Hasta hace algunos años, existía competencia respecto a los métodos de deduplicación. Se discutía cuáles eran los correctos. Algunos decían que era mejor deduplicar en la fuente misma de los datos; otros sostenían que convenía realizarlo en el dispositivo-objetivo final. También estaban convencidos de que era positivo hacerlo “inline” y otros decían que la deduplicación sólo debía ejecutarse luego de otro proceso, tal como lo es el backup, por ejemplo.

Lo correcto es que hay casos de uso adecuados para todas estas modalidades. La respuesta del mercado en cuanto a la adopción de esos métodos ha pasado a ser “todos sirven.”

“Ya no asistimos a esas constantes discusiones de fuente versus objetivo o inline versus post proceso,” nos dice Emsley.

La razón para esta igualdad es que los proveedores de deduplicación han desarrollado herramientas que permiten una variedad de métodos dependiendo de la naturaleza de las cargas de trabajo con datos. Por ejemplo, EMC ha desarrollado su línea de productos Data Domain en la que la deduplicación puede ocurrir en el cliente, dentro de la infraestructura dedicada al backup o bien en el sistema de almacenamiento con deduplicación. De esa manera, se logra reducir la cantidad de almacenamiento consumido por los backups y también se reduce el volumen de datos de backup que deben moverse a través de la red.

La utilización de appliances

La deduplicación solía ser algo un poco rudimentario. Era el agregado en otras operaciones. Algo como un nuevo elemento injertado en el proceso de backup. Actualmente está mucho mejor embebida en el software de backup. También existen appliances que se proveen listos para usar en esas funciones.

Así se han originado los PBBA (Purpose Built Backup Appliance) que se imponen durante el 2013 y ya representan un mercado que genera ingresos por U$S 3.100 millones según cifras de IDC. “Los PBBAs son hoy la solución preferida para desplegar sistemas de almacenamiento con deduplicación,” comenta Emsley.

Bloques variables

Es sabido que existe cierta variación en los ratios de deduplicación. Por ejemplo, el ratio de la cantidad de datos que existe al comenzar y el que queda al finalizar el proceso y cuando todos los duplicados han sido removidos. Uno de los métodos para la mejora de ese ratio consiste en variar la tasa de bloques. Un determinado tipo de dato puede tener un ratio de deduplicación relativamente pobre con un tamaño de bloque, pero puede tener uno excelente si se utiliza un tamaño de bloque menor. “Elijan un sistema que deduplique tamaños de bloques variables y no fijos si se quiere maximizar el ratio de deduplicación,” agrega Emsley.

A nivel de Bytes

Bill Andrews, CEO de la firma ExaGrid, va un poco más lejos. El ve un desafío en la implementación de bloques de tamaño variable. Cree que con esa estrategia se termina teniendo una tabla enorme, necesaria para el seguimiento de los bloques de deduplicación. Por ejemplo, en un tamaño de bloque de 8 KB, un entorno de backup de 10 TB tendría mil millones de entradas en esa tabla de dispersión. Eso puede llevar a un consumo adicional de controladores y drives de discos.

En este punto, Andrews recomienda una deduplicación denominada a “nivel de zona.” Allí se utilizan zonas más extensas que se comparan para encontrar los bytes que se han modificado en ellas. Este enfoque permite el uso de virtualmente cualquier aplicación de backup y, a medida que el volumen de datos aumenta, la ventana de backup permanece en una longitud fija y eso puede eliminar la necesidad de upgrades.

La virtualización

Las tecnologías de deduplicación y virtualización llegaron casi al mismo tiempo. Ambas ganaron popularidad entre los usuarios. Casey Burns, gerente de marketing de productos de Quantum para las líneas DXi, Virtual Cloud Solutions, encuentra una relación entre la proliferación de las máquinas virtuales y el crecimiento en la demanda de deduplicación. En su opinión, resulta indispensable implementar tecnología de deduplicación que pueda actuar libremente en los entornos virtuales.

“Hemos tenido clientes que dicen que, sin la deduplicación, las economías que logran de la virtualización habrían sido disminuidas por un explosivo crecimiento de las VMs,” comentó Burns.

Separar los tipos de datos

No todos los datos son aptos para la deduplicación. Por eso, si se intenta deduplicar todo, los ratios generales podrán caer, algunos procesos pueden ralentizarse y pueden crecer los costos operativos totales.

“Los ratios de deduplicación suelen quedar cortos ante las expectativas de los usuarios debido a que no todas las cargas de datos son amigables con la deduplicación,” comenta el analista de Gartner Pushan Rinnen.

Y Burns coincide con esa opinión. “Saber cuál es la clase de datos que mejor se adapta a la deduplicación y cuál no, hace a un mundo de diferencia en términos de la eficiencia del flujo de datos. A medida que mayor cantidad de datos de las empresas son contenidos no estructurados, tales como video o imágenes satelitales, crece la importancia de la separación de esos datos del flujo de deduplicación,” agrega.

Diez proveedores que lideran en almacenamiento Flash

 

Luego de casi diez años de evolución, el almacenamiento de estado sólido ha llegado a un punto en el que los proveedores pueden ofrecer soluciones confiables a un costo que ya no es exorbitante. Los clientes, por su parte, ansían procesar cada vez mayores masas de información en almacenamiento que rinda casi como una memoria RAM. Lo que hace muy poco era todavía visto como almacenamiento para que las notebooks o tablets fuesen más livianas y ágiles, ahora se ha incorporado a los grandes sistemas de almacenamiento corporativo. Es en esos grandes almacenamientos donde también el almacenamiento flash hace las veces de caché de alta velocidad.

 

En el terreno de los subsistemas de almacenamientos de datos, también conocidos como arreglos, tenemos a varios jugadores relevantes. En el grupo están los tradicionales y establecidos proveedores y también aparecen algunos nuevos jugadores. Estos últimos, suelen ser adquiridos por proveedores infraestructura establecidos, que encuentran en la adquisición el camino para ingresar a un nuevo segmento.

 

Los sistemas flash no son todos iguales y hemos tenidos bastante discusión alrededor de los beneficios de cada variante, especialmente en lo que tiene que ver con el deterioro en la performance cuando un volumen atraviesa continuos ciclos de grabado/lectura/borrado.  Pero dejando de lado esas cuestiones sobre las que existe abundante literatura informativa, podemos decir que un diferenciador tiene que ver con el tipo de flash. Encontramos a algunos proveedores utilizando MLC (Multi-level Cell) y a otros con SCL (Single-level Cell). SLC es más veloz y más durable, pero tiene la contra de la menor capacidad. MLC es una tecnología que ha mejorado notablemente su velocidad, confiabilidad y niveles de uso a un punto en el que ahora es una tecnología aceptada en aplicaciones empresariales. Por su parte, SLC todavía se utiliza donde los requerimientos de inpunt/output son más elevados en términos de velocidad.

 

Aquí va entonces la lista de los proveedores que el columnista de Datamation, Andy Patrizio, considera como a los líderes en el segmento de los sistemas de almacenamiento flash.

 

1-      EMC/XtremIO. Lanzado el año pasado, el software para el arreglo de almacenamiento puramente flash de EMC, XtremIO, está ya en la versión 3.0 y viene con nuevos tipos de configuración, mayor escalabilidad, mejor manejo de cargas de datos elevados y una compresión más eficiente. EMC promete deduplicación, protección de datos y el manejo o throughput de datos más veloz del mercado.

2-      NetApp. Esta compañía ofrece dos opciones. Se trata de sus equipamientos EP540 y EP550. A diferencia de sus competidores que utilizan drives con formato de tarjeta, NetApp usa el tradicional arreglo de 2U completado con drives SAS (Serial Attached SCSI) SSD de 2.5 pulgadas.

3-      SanDisk/Fusion-io. La compañía SanDisk adquirió a Fusion a principios de este año, pero por el momento no ha realizado cambios de importancia en el produto existente. La característica principal es Dynamic Data Placement, que se encarga de proveer automáticamente asignación de capas entre flash y los discos duros. Automáticamente mueve los bloques de datos más utilizados a la capa flash y los menos utilizados a la capa de discos duros.

4-      Oracle/Pillar. Oracle utiliza muchísimo almacenamiento flash en sus servidores Sparc y x86, pero también ofrece un sistema de almacenamiento SAN en bloques conocido como Pillar. La línea Axiom de arreglos de almacenamiento Pillar ofrece funcionalidad unificada NAS y SAN capaz de reconocer características de las aplicaciones y también soporta módulos NAS, Fibre Channel y iSCSI. Con estas propiedades, puede mezclar flash con discos giratorios y así consolidar todas las diferentes necesidades de almacenamiento en un mismo sistema.

5-      Kaminario. Es un arreglo completamente flash. Kaminario apunta al reemplazo de los discos duros eliminando latencias. Se trata de un arreglo con elevada performance en IOPS y de escalamiento horizontal que es capaz de acelerar la performance de las aplicaciones, al mismo tiempo que ocupa menos espacio que las soluciones tradicionales SAN. La compañía se jacta de producir el único arreglo flash capaz de escalar up y out.

6-      IBM/Texas Memory Systems. TMS fue el creador de los sistemas de almacenamiento SSD y apareció con su primer drive de esta clase en 1978. En el 2000, presentó una línea completa de SSDs. Utiliza tanto SLC como eMLC (Por Enteprise MLC), que fue diseñado para uso empresarial y tiene una tasa de errores mucho menor que los típicos MLC. TMS ofrece caching SSD, DRAM y PCLe Flash. Si bien ahora es una compañía IBM, su línea de almacenamientos Opera fue puesta a punto para acelerar el funcionamiento de las base de datos Oracle en especial.

7-      Pure Storage. Es una empresa que inició sus operaciones hace sólo cinco años. Fabrica productos de storage diseñados desde el principio para aprovechar las ventajas de la memoria flash y no pasó por el proceso del disco duro y luego la adaptación a flash. Pure Storage se atribuye el haber reducido el costo por GB en flash a un nivel similar al de los discos duros. Los productos de la compañía fueron diseñados para acelerar el funcionamiento de aplicaciones con I/O aleatorio como las de virtualización de servidores, aplicaciones de bases de datos y cloud computing.

8-      Cisco/Whiptail. Cisco Systems adquirió a Whiptail el año pasado para complementar las configuraciones de sus Unified Compute Systems, cuyo almacenamiento se apoyaba en un acuerdo con EMC. A diferencia de la mayoría de los proveedores de arreglos de almacenamiento que funcionan con los productos de otros proveedores, Whiptail será integrado en UCSs (Unified Computing Systems) de Cisco para mejorar la performance en los entornos operados bajo la computación fabric de Cisco. Este software integrará al storage SSD como parte del sistema general.

9-      SolidFire. SolidFire diseña y fabrica sistemas de storage flash especialmente para proveedores de servicios cloud y lo que puede considerarse como la nueva generación de centros de datos. SolidFire tiene como virtudes el ahorro en consumo de energía y así reduce también la necesidad de enfriamiento y consumo de capacidad. Ofrece miles de servidores en un mismo sistema de storage.

10-   Nimbus Data Systems. Es otro proveedor de arreglos falsh. Utiliza MLC y se jacta de ofrecer cuatro veces más performance de grabación y dos veces en cuanto a lectura, aunque nunca dijeron en comparación con qué productos de la competencia! Su software permite deduplicación, compresión y aprovisionamiento (provisioning) para reducir el costo por GB a 0.78 centavos de dólar, según la empresa. Esto sería, siempre según ellos mismos, más económico que los arreglos híbridos.

 

 

 

 

 

 

 

Porqué vale la pena invertir en analíticos

 

Recientemente, la firma Nucleus Research dio a conocer un informe en el que se evaluó el ROI (Return on Investment o retorno de la inversión) que se logra al implementar soluciones basadas en analíticos. La firma elaboró un índice que expresa el retorno que se obtiene por cada dólar invertido en analíticos. Ese retorno, que era de U$S 10.66 por cada dólar, ahora es de U$S 13.01.

 

Algo cierto es que la inversión en analíticos está en boga entre las empresas más agresivas y competitivas. Y el gasto en esas soluciones aumenta. Según la analista de mercado de Gartner, Bianca Granetto, la necesidad de potenciar a los analíticos está impulsando a su vez inversiones en CRM (Customer Relationship Management), ERP (Enterprise Resource Management) y ECM (Enterprise Content Management), entre otros rubros.

 

Por otra parte, un estudio realizado por Forrester Research muestra que las compañías aumentan sus gastos en tecnologías que les permitan atender mejor a sus clientes. Así aparecen los analíticos como un segmento básico en el cual invertir.

 

Como ocurre con toda inversión dentro de una organización, quiénes la soliciten deben demostrar el retorno de la misma para que sea autorizada y se dispongan los fondos necesarios. Esa demostración de retorno a veces se puede elaborar a partir del caso de negocio que plantea un sector de la organización o sus conductores. Otras veces, hay que recurrir a información externa, haciendo bench-mark, consultando a proveedores o bien apelando a reportes de las firmas de investigación especializadas.

 

Un estudio realizado por la firma Nucleus Research muestra que las empresas pueden esperar un retorno promedio de unos 13 dólares por cada dólar invertido. Esa relación era de 11.66 dólares a uno en 2011. Si se toma esta comparación como indicador, el valor de la inversión en analíticos ha crecido en términos de retorno. El estudio de Nucleus abarcó una muestra de empresas de todo tamaño y amplia variedad de sectores. Se tomaron en cuenta diversas soluciones de analíticos, incluyendo a las que son best-of-breed (combinación de diversas soluciones que se destacan en sus especialidades) y a las de los principales proveedores.

 

Según la analista de Nucleus Research, Nina Sandy, los ejecutivos de finanzas son quienes mejor están recibiendo estas propuestas de analíticos. “Ellos saben lo que es vérselas con una miríada de diferentes hojas de cálculo que hay en la organización cuando tienen que tener una vista clara de las situaciones. Ellos definitivamente ven el valor que encierra el desarrollo de workflows adecuados y de obtener mejor productividad de la gente.”

 

Aunque algunos lectores lo encuentren sorprendente, hay varios estudios que muestran a numerosas empresas utilizando hojas de cálculo en el funcionamiento del negocio. “Cuando se pasan meses tratando de consolidar datos de diferentes hojas de cálculo para tener la información necesaria para la toma de una decisión y preguntándose ¿Qué fórmula habrán usado y qué versión de la hoja de cálculo? Es algo muy pesado,” nos dice Sandy.

 

La adhesión de los usuarios

Según Nina Sandy, las empresas ven otros beneficios colaterales. La forma en que los usuarios adoptan estas soluciones es un importante beneficio de los analíticos. Una vez que la gente comienza a tener una vista consolidada de la información, comienza a hacer más cosas que las que hacían antes. Se tornan mucho más proactivos y al ir integrándose mejor a los procesos colectivos de trabajo, se facilita el compartir y la colaboración. De esa manera, aumenta el nivel de compromiso individual con el contenido de la información. El compromiso de la gente no termina cuando entrega el número que le pidieron. Tanto la gente de sistemas como otros ejecutivos están viendo que las aplicaciones analíticas, cuando son self-service y especialmente las basadas en cloud, que ofrecen flexibilidad y facilidad de uso, representan un camino excelente para lograr la participación de la gente y el aumento de su productividad. Así lo afirma Nina Sandy en base a los estudios que ha realizado su firma.

 

Otro fenómeno es que, al dejar de gastar montón de tiempo generando reportes trabajosos, la gente de IT puede usar su tiempo en la mejora del entorno. Esto quiere decir en verificar que la empresa cuente con los datos correctos, asegurándose de que los patches de los programas estén actualizados y también de que la seguridad y la gobernabilidad sean las adecuadas.

 

Por lo que ha observado esta analista, el temor a la nube ha ido desapareciendo entre la gente de IT. Lo que antes se veía como amenaza a sus empleos, la nube, es ahora considerada como algo que facilita la creación de aplicaciones y el avance en las carreras profesionales.

 

Respecto a la nube, casi la mitad de las empresas de la muestra de Nucleus utilizan analíticos en esa modalidad. De la otra mitad, un 60% planea hacerlo en los próximos dos años.

La nube ha demostrado que puede usarse para conseguir nueva funcionalidad rápidamente para los usuarios de la empresa. Y ese es un importante objetivo en las compañías. Junto con la necesidad de analizar nuevas clases de datos, como los no estructurados, que no pueden ser manejados por planillas de cálculo. Una vez que las organizaciones ordenan sus procesos, quieren asegurarse de que pueden analizar todos los datos que sea necesario.

 

 

 

 

 

 

 

Un mejor manejo de la Deduplicación

 

Hoy ya una tecnología probada, la deduplicación o “dedup” ha estado entre nosotros desde hace unos diez años. Actualmente es parte integral de los procesos de backup y almacenamiento de datos. Es una tecnología que sigue evolucionando en términos de mayor flexibilidad, como de facilidad de uso o mejora de los resultados.

 

Drew Robb, columinista de Datamation, se encargó de recoger algunos aspectos que pueden resultar útiles al lector en lo que hace a la deduplicación.

 

Robb habló con Rob Emsley, director senior de Marketing de la división Data Protection and Availability de EMC. El destaca que los algoritmos de la deduplicación en sí mismos no han cambiado mucho recientemente. Lo que ha evolucionado en mayor medida es lo relacionado al dónde y cuándo se ejecuta la deduplicación.

 

Hasta hace algunos años, existía competencia respecto a los métodos de deduplicación. Se discutía cuáles eran los correctos. Algunos decían que era mejor deduplicar en la fuente misma de los datos; otros sostenían que convenía realizarlo en el dispositivo-objetivo final. También estaban convencidos de que era positivo hacerlo “inline” y otros decían que la deduplicación sólo debía ejecutarse luego de otro proceso, tal como lo es el backup, por ejemplo.

 

Lo correcto es que hay casos de uso adecuados para todas estas modalidades. La respuesta del mercado en cuanto a la adopción de esos métodos ha pasado a ser “todos sirven.”

 

“Ya no asistimos a esas constantes discusiones de fuente versus objetivo o inline versus post proceso,” nos dice Emsley.

 

La razón para esta igualdad es que los proveedores de deduplicación han desarrollado herramientas que permiten una variedad de métodos dependiendo de la naturaleza de las cargas de trabajo con datos. Por ejemplo, EMC ha desarrollado su línea de productos Data Domain en la que la deduplicación puede ocurrir en el cliente, dentro de la infraestructura dedicada al backup o bien en el sistema de almacenamiento con deduplicación. De esa manera, se logra reducir la cantidad de almacenamiento consumido por los backups y también se reduce el volumen de datos de backup que deben moverse a través de la red.

 

La utilización de appliances

 

La deduplicación solía ser algo un poco rudimentario. Era el agregado en otras operaciones. Algo como un nuevo elemento injertado en el proceso de backup. Actualmente está mucho mejor embebida en el software de backup. También existen appliances que se proveen listos para usar en esas funciones.

 

Así se han originado los PBBA (Purpose Built Backup Appliance) que se imponen durante el 2013 y ya representan un mercado que genera ingresos por U$S 3.100 millones según cifras de IDC. “Los PBBAs son hoy la solución preferida para desplegar sistemas de almacenamiento con deduplicación,” comenta Emsley.

 

Bloques variables

Es sabido que existe cierta variación en los ratios de deduplicación. Por ejemplo, el ratio de la cantidad de datos que existe al comenzar y el que queda al finalizar el proceso y cuando todos los duplicados han sido removidos. Uno de los métodos para la mejora de ese ratio consiste en variar la tasa de bloques. Un determinado tipo de dato puede tener un ratio de deduplicación relativamente pobre con un tamaño de bloque, pero puede tener uno excelente si se utiliza un tamaño de bloque menor. “Elijan un sistema que deduplique tamaños de bloques variables y no fijos si se quiere maximizar el ratio de deduplicación,” agrega Emsley.

 

A nivel de Bytes

Bill Andrews, CEO de la firma ExaGrid, va un poco más lejos. El ve un desafío en la implementación de bloques de tamaño variable. Cree que con esa estrategia se termina teniendo una tabla enorme, necesaria para el seguimiento de los bloques de deduplicación. Por ejemplo, en un tamaño de bloque de 8 KB, un entorno de backup de 10 TB tendría mil millones de entradas en esa tabla de dispersión. Eso puede llevar a un consumo adicional de controladores y drives de discos.

 

En este punto, Andrews recomienda una deduplicación denominada a “nivel de zona.” Allí se utilizan zonas más extensas que se comparan para encontrar los bytes que se han modificado en ellas. Este enfoque permite el uso de virtualmente cualquier aplicación de backup y, a medida que el volumen de datos aumenta, la ventana de backup permanece en una longitud fija y eso puede eliminar la necesidad de upgrades.

 

La virtualización

Las tecnologías de deduplicación y virtualización llegaron casi al mismo tiempo. Ambas ganaron popularidad entre los usuarios. Casey Burns, gerente de marketing de productos de Quantum para las líneas DXi, Virtual Cloud Solutions, encuentra una relación entre la proliferación de las máquinas virtuales y el crecimiento en la demanda de deduplicación. En su opinión, resulta indispensable implementar tecnología de deduplicación que pueda actuar libremente en los entornos virtuales.

 

“Hemos tenido clientes que dicen que, sin la deduplicación, las economías que logran de la virtualización habrían sido disminuidas por un explosivo crecimiento de las VMs,” comentó Burns.

 

Separar los tipos de datos

No todos los datos son aptos para la deduplicación. Por eso, si se intenta deduplicar todo, los ratios generales podrán caer, algunos procesos pueden ralentizarse y pueden crecer los costos operativos totales.

 

“Los ratios de deduplicación suelen quedar cortos ante las expectativas de los usuarios debido a que no todas las cargas de datos son amigables con la deduplicación,” comenta el analista de Gartner Pushan Rinnen.

 

Y Burns coincide con esa opinión. “Saber cuál es la clase de datos que mejor se adapta a la deduplicación y cuál no, hace a un mundo de diferencia en términos de la eficiencia del flujo de datos. A medida que mayor cantidad de datos de las empresas son contenidos no estructurados, tales como video o imágenes satelitales, crece la importancia de la separación de esos datos del flujo de deduplicación,” agrega.