El valor de los promedios de tiempo entre fallas de los sistemas

19 May 2004 en Servidores

El promedio de tiempo entre fallas o MTBF (Mean Time Between Failure) es una medida basada en información de proveedores. Se trata de estimaciones y promedios. Por ejemplo, un promedio de tiempo entre fallas de 30.000 horas, nos daría casi tres años y medio de funcionamiento continuo. Pero este razonamiento no siempre es válido, especialmente si se aplica a sistemas complejos. Por tratarse de estimaciones y promedios, se corre el riesgo de ser una de las anomalías con mayor frecuencia de fallas que quedará escondida en un promedio aritmético. Las causas pueden ser tan simples como que las estimaciones se hayan realizado bajo diferentes condiciones de ambiente, como disipación de calor y calidad del suministro eléctrico.
Por otra parte, los costos de los entornos con tolerancia a fallas (Full Tolerance) crecen rápidamente a medida que se trata de alcanzar mejores tasas de MTBF. Los sistemas con tolerancia a fallas (compuestos de hardware, software, documentación y procesos) se tornan crecientemente complejos a medida que el nivel de tolerancia a fallas crece. Paradójicamente, es este nivel de complejidad el que puede convertirse en campo fértil para los desastres.
En 1984, Charles Perrow escribió un libro titulado “Normal Accidents: Living with High Risk Technologies.” El autor observa que los accidentes de sistemas pueden ser resultado de una falla importante, pero lo más frecuente es que ocurran a causa de interacciones imprevistas entre fallas en diversos componentes.
Los errores pueden ser visibles o latentes. A los primeros los podemos manejar cuando los detectamos. La segunda clase es la más peligrosa porque permanecerá sin ser detectada, esperando su momento. Además, en los grandes sistemas son cientos de componentes los que se acoplan entre sí muy estrechamente y los posibles senderos de interacción no son necesariamente predecibles. Perrow destaca que, durante un accidente, la interacción de componentes con fallas puede ser incialmente incomprensible.
Fuente: Artículo de George Spafford para Datamation