La recuperación es tan importante como la prevención

19 May 2004 en Servidores

Es cierto que los sistemas Fault Tolerant reducen la probabilidad de ciertos errores, pero a medida que su complejidad y nivel de interacción crecen, se incrementa la chance de accidentes. La pregunta más importante es: ¿Cuando los sistemas fallen, qué tan fácilmente se podrán recuperar? Si bien estos sistemas fallarán menos que los que no tienen ninguna redundancia, también pueden ser un dolor de cabeza para su recuperación si no se tiene la gente y los procedimientos adecuados.
¿Qué pasaría si en lugar de gastar tantos dólares en hardware fault-tolerant se equilibraran los costos bajando el tiempo de recuperación (MTTR, Mean Time To Repair)? Una verdadera tolerancia a fallas sistémica es una combinación de hardware, software, procesos, capacitación y documentación efectiva. En ciertos casos, la gente de IT pone su mayor énfasis en el hardware, luego apenas presta atención al software y deja de lado por completo a los requerimientos de proceso de recuperación,  capacitación y documentación. Es tan importante prevenir fallas, como prepararse ante su ocurrencia y reducir el tiempo de parada resultante. Las actividades relacionadas con la recuperación del servicio y resolución de problemas son esenciales. ITIL (IT Information Library) Service Support es un texto que ofrece importantes guías respecto a Incident Management (para restauración de servicios) y Problem Management (para atender a las raíces de origen del problema).
El equipo de investigación ROC (Recovery Oriented Computing) de las universidades de Berkeley/Stanford, también provee información de valor sobre el tema en la dirección: http://roc.cs.berkeley.edu/
MTBF es una importante métrica para tener en cuenta respecto a la confiabilidad de un sistema. El punto es que hasta los sistemas con tolerancia a fallas, fallan. Una visión integral incluiría tanto a la confiabilidad del sistema, como a la velocidad con la que puede recuperarse un sistema caído. En algunos casos, tiene sentido invertir menos en hardware y más en entrenamiento, documentación y perfeccionamiento de los procesos necesarios para prevenir fallas y facilitar su recuperación.
Fuente: Artículo de George Spafford para Datamation