PDF de programación - Diseñando sistemas de alta disponibilidad y Tolerancia a Fallos

Imágen de pdf Diseñando sistemas de alta disponibilidad y Tolerancia a Fallos

Diseñando sistemas de alta disponibilidad y Tolerancia a Fallosgráfica de visualizaciones

Publicado el 15 de Marzo del 2021
587 visualizaciones desde el 15 de Marzo del 2021
79,1 KB
19 paginas
Creado hace 21a (14/03/2003)
Diseñando Sistemas de Alta Disponibilidad

y Tolerantes a Fallos



(Versión 1.3)

Puedes descargar la última versión de este documento de:

http://jo.morales0002.eresmas.net/fencasa.html

José María Morales Vázquez

Métodos y Tecnología (MTP). Agastia nº 44-46

28027 Madrid, Spain

[email protected]



Resumen. La tolerancia a fallos, tal y como la conocemos hoy en día, se basa
fundamentalmente en un concepto: redundancia. La mejor forma de asegurar la
disponibilidad de nuestros equipos y los servicios que ellos suministran de
manera fiable y sin interrupción las 24 horas del día durante siete días a la
semana, es la duplicación de todos sus elementos críticos y la disposición de los
elementos software y hardware necesarios para que los elementos redundantes
actúen cooperativamente, bien sea de forma activa-activa o activa-pasiva, pero
siempre de forma transparente para el usuario final. En el presente documento
repasaremos los principales elementos de riesgo de un sistema informático,
estudiaremos la forma de evitarlos o reducirlos y aplicaremos esta solución a un
caso real.

1 Introducción

Siguiendo la taxonomía dada por el grupo de trabajo WG10.4, perteneciente al comité
técnico TC-10 de la IFIP (International Federation for Information Processing), la
disponibilidad es una medida relativa a la preparación para su utilización de un
sistema informático, mientras que la fiabilidad es una medida relativa a su capacidad
para mantenerse operativo en el tiempo. Ambas propiedades están englobadas dentro
de una propiedad mucho más amplia, la confiabilidad, que también incluye aspectos
de seguridad, confidencialidad e integridad de datos.

Todas ellas conllevan un elevado aumento del coste invertido en hardware y
software. Al igual que ocurre en el mundo del deporte, realizar una carrera de 100
metros en menos de 11 segundos es relativamente fácil para un deportista de élite. A
partir de aquí, cada décima de segundo de menos será fruto de duras horas de
entrenamiento. En el caso que nos ocupa, eligiendo correctamente los componentes de
nuestro sistema es relativamente fácil alcanzar un sistema disponible el 98% del
tiempo. El paso del 98 al 99 por ciento, y de aquí al 99,999% (lo que los

Diseñando Sistemas de Alta Disponibilidad y Tolerantes a Fallos 2


estadounidenses llaman los cinco nueves del tiempo de funcionamiento) es una tarea
compleja que lleva aparejado un aumento exponencial del coste total del sistema.


Las métricas comúnmente utilizadas para medir la disponibilidad y fiabilidad de un
sistema son el tiempo medio entre fallos o MTTF (mean time to failure) que mide el
tiempo medio transcurrido hasta que un dispositivo falla, y el tiempo medio de
recuperación o MTTR (mean time to recover) que mide el tiempo medio tomado en
restablecerse la situación normal una vez que se ha producido el fallo. El tiempo en el
que un sistema está fuera de servicio se mide a menudo como el cociente
MTTR/MTTF. Lógicamente, nuestro principal objetivo es aumentar el MTTF y
reducir el MTTR de forma que minimicemos ese tiempo.

En el presente documento discutiremos la solución adoptada ante un caso real. Se
trataba de reconstruir la arquitectura informática de una importante cadena
empresarial de nuestro país, con cerca de 100 establecimientos de diferentes tamaños
(entre 5 y 50 usuarios en cada uno de ellos) distribuidos por toda la geografía
española, y dos grandes centros corporativos: uno con 100 usuarios y el otro con mas
de 300 repartidos entre dos edificios distantes entre sí por, aproximadamente, un
kilómetro, con el objetivo de hacerlo altamente disponible. El cliente exigía que la
solución estuviera basada en productos Microsoft.

2 Estudio de la Solución

La solución que aquí defendemos, por diversos motivos, difiere ligeramente de la que
se implantó en la realidad. No obstante, aquí se presentará aquella que nosotros
creemos que hubiese sido la solución óptima para el proyecto que nos ocupa
dividiéndola en cinco grandes capítulos: infraestructura, servidores, mensajería,
arquitectura Web y seguridad. Antes de exponer la solución adoptada en cada uno de
estos apartados se discutirán las ventajas e inconvenientes de las diferentes opciones
disponibles.

2.1 Infraestructura

La línea de división entre la infraestructura y la arquitectura de un sistema informático
es, a menudo, muy difícil de ver. Sobre todo porque si nos planteamos la arquitectura
de una organización desde un punto de vista evolutivo, los elementos que en un
momento dado se consideran como propios de la arquitectura pasan a ser
posteriormente parte de la infraestructura. Esto, por ejemplo, ha ocurrido ya con las
redes locales y está empezando a ocurrir con los sistemas de mensajería. Aquí
trataremos dentro de este apartado exclusivamente los problemas derivados del
suministro eléctrico y los sistemas de comunicaciones.

Diseñando Sistemas de Alta Disponibilidad y Tolerantes a Fallos 3


Suministro Eléctrico. La primera causa de fallos que debemos subsanar en nuestro
sistema es la provocada por interrupciones o anomalías en el suministro eléctrico. Si,
por el motivo que sea, nuestros equipos se quedan sin energía o ésta les llega alterada
nuestro sistema no funcionará en absoluto o no lo hará correctamente. Tres son los
posibles problemas que se nos pueden presentar en este aspecto:

§ Fallos en las fuentes de alimentación locales de los equipos.
§ Fluctuaciones de tensión en el suministro eléctrico.
§ Cortes totales de suministro eléctrico.

Fallos las fuentes de alimentación locales de los equipos. Las partes mas débiles de
los sistemas informáticos, y las que fallan mas a menudo son las fuentes de
alimentación. Todos los filtros, generadores externos y sistemas de alimentación
ininterrumpida no nos valen de nada si lo que falla es la fuente de alimentación local
de uno de nuestros equipos. Afortunadamente, la mayoría de los servidores de gama
alta y elementos críticos de un sistema informático se fabrican hoy en día con una
fuente de alimentación redundante o con la posibilidad de instalársela. Si algunos de
los equipos vitales para nuestro sistema no disponen de esta opción deberíamos de
encargar a sus respectivos fabricantes una fuente de repuesto, mantenerlas todas
correctamente etiquetadas para poder identificarlas rápidamente y practicar sus
sustitución para estar seguros de poder hacerlo correctamente y en el menor tiempo
posible cuando sea necesario.



Fluctuaciones de Tensión. Incluso en las mejores áreas de suministro la corriente
eléctrica sufre variaciones. Cuando éstas son pequeñas pueden pasarnos inadvertidas,
aunque a la larga fatigan y acortan la vida útil de nuestros equipos. Si estas
fluctuaciones son mayores pueden ocasionarnos graves daños materiales. Podemos
hablar de cuatro fenómenos distintos englobados dentro de esta categoría: picos de
tensión (spikes), sobretensiones (surges), caídas (sags) y bajadas de tensión
(brownouts).

Los picos de tensión son grandes incrementos de la misma de duración
infinitesimal. Es posiblemente, de todos los fenómenos que aquí discutiremos, el más
peligroso y más difícil de tratar. La mayoría de las veces son ocasionados por factores
externos que están totalmente fuera de nuestro control (como el arranque en las
proximidades de un gran motor eléctrico o la recuperación después de un corte de
suministro de la central eléctrica) y los efectos suelen ser devastadores: estamos
hablando de puntas que pueden rondar los 1.000 voltios que, momentáneamente,
llegan a equipos diseñados para trabajar a sólo 220.

A la hora de elegir nuestro protector contra estos fenómenos debemos de tener en
cuenta fundamentalmente dos parámetros: que la velocidad de reacción del elemento
ante los picos sea lo mas elevada posible y que, ante las puntas más severas, el
protector se autodestruya a sí mismo aislando nuestro sistema de la red eléctrica como
última medida de salvaguarda.

Existen en el mercado diferentes soluciones de propósito general para protegernos
de este
transformadores,
transformadores de tensión constante, etc. El coste de las mismas suele ser

transistores de sacrificio, arrays de

fenómeno:

Diseñando Sistemas de Alta Disponibilidad y Tolerantes a Fallos 4


directamente proporcional a la verdadera protección que nos proporcionan. Existen
protectores mas especializados (y también mas caros) diseñados específicamente para
salvaguardar elementos informáticos y que trabajan creando un camino eléctrico
alternativo para derivar esos picos de tensión sin que lleguen a afectar a nuestros
equipos.

Muchas de las nuevas UPS (Uninterruptible Power Supply) también proporcionan
protección contra los picos de tensión proporcionándonos un suministro de tensión
constante, pero no olvidemos que, como última opción, el protector debe de
autodestruirse como medida de seguridad y es mucho mas barato reemplazar o reparar
un protector que una UPS.

Las sobretensiones son ocasionadas por causas similares a las que generan los
picos de tensión, pero suelen ser de mayor duración (unos cientos de milisegundos) y
de menor intensidad. La protección contra las sobretensiones es bastante más sencilla
que contra los picos: una buena UPS con protección y suministro de tensión
con
  • Links de descarga
http://lwp-l.com/pdf18994

Comentarios de: Diseñando sistemas de alta disponibilidad y Tolerancia a Fallos (0)


No hay comentarios
 

Comentar...

Nombre
Correo (no se visualiza en la web)
Valoración
Comentarios...
CerrarCerrar
CerrarCerrar
Cerrar

Tienes que ser un usuario registrado para poder insertar imágenes, archivos y/o videos.

Puedes registrarte o validarte desde aquí.

Codigo
Negrita
Subrayado
Tachado
Cursiva
Insertar enlace
Imagen externa
Emoticon
Tabular
Centrar
Titulo
Linea
Disminuir
Aumentar
Vista preliminar
sonreir
dientes
lengua
guiño
enfadado
confundido
llorar
avergonzado
sorprendido
triste
sol
estrella
jarra
camara
taza de cafe
email
beso
bombilla
amor
mal
bien
Es necesario revisar y aceptar las políticas de privacidad