1. UNIVERSIDAD REGIONAL AUTÓNOMA DE LOS ANDES
UNIANDES
CENTRO DE APOYO SANTO DOMINGO
FACULTAD DE SISTEMAS MERCANTILES
CARRERA SISTEMAS
DISTRIBUCIÓN DE DATOS
AUTORAS: DIANA TUTASIG
EVELIN GARAVÍ
NIVEL: 6to MATUTINA
TUTOR: ING. JAVIER ULLOA
PERÍODO
OCTUBRE 2012 – ABRIL 2013
3. 1 TEMA
Tolerancia a fallos en los sistemas distribuidos.
2 INTRODUCCIÓN
Los sistemas distribuidos son sistemas cuyos componentes hardware y software que están
en ordenadores conectados en red, se comunican y coordinan sus acciones mediante el paso
de mensajes, para el logro de un objetivo. Se logra al establecer la comunicación mediante
un protocolo prefijado por un esquema cliente-servidor.
El servidor encargado de procesar una solicitud de servicio, y el cliente, que la envía. La
arquitectura Cliente – Servidor es un modelo distribuido donde dichos papeles se
encuentran claramente definidos. Al habla de un cliente - servidor se puede asociar con una
arquitectura centralizada, donde una es la máquina que presta los servicios específicos. Sin
embargo un servidor puedo actuar como cliente de otro.
3 OBJETIVOS
3.1 OBJETIVO GENERAL
Conocer cuando ocurre una tolerancia a fallos en los sistemas distribuidos.
3.2 OBJETIVOS ESPECIFÍCOS
Identificar cuando un sistema falla.
Conocer a que llamaremos fallos.
Determinar con que finalidad ocurre la tolerancia a fallos
4. 4 FUNDAMENTACIÓN TEORICA
4.1 Tolerancia a Fallos
Un sistema consiste de un conjunto de componentes de hardware y software y son
diseñados para proveer un servicio específico. Los componentes de un sistema pueden estar
interrelacionados entre ellos. Un desperfecto de un sistema ocurre cuando el sistema no
desempeña estos servicios de la manera especificada. Un estado erróneo en un sistema es
un estado en el cual podría conducir a un fallo en el sistema. Un fallo es una condición
física anormal, las causas de un fallo incluyen: errores de diseño (como errores en la
especificación del sistema o en la implementación), problemas de fabricación, deterioro por
el uso u otros problemas externos (como condiciones ambientales adversas, interferencia
electromagnética, entradas imprevistas o el mal uso del sistema). Un error es una parte del
estado del sistema la cual difiere de los valores esperados.
Un error del sistema puede ser visto como una manifestación de mal funcionamiento del
sistema, el cual podría conducir a un fallo del sistema. Es necesario entonces, que el
sistema sea capaz de recuperarse de las fallas, necesitamos deshacernos del estado de error
del sistema, en otras palabras, la recuperación de un fallo, es un proceso que involucra la
restauración de un estado erróneo a un estado libre de error.
4.1.1 Clasificación de Fallas
Falla de Procesos
En una falla de proceso, la ejecución arroja un resultado incorrecto, los procesos
provocan que el sistema se desvíe de las especificaciones y el proceso puede
suspender su progreso. Ejemplos de errores que causan la falla de los procesos son
los interbloqueos, tiempo expirado, violación de protección, error en la entrada
provista por el usuario, violaciones de consistencia (puede ocurrir si se emplea la
técnica de control de concurrencia optimista). Dependiendo del tipo de error que
cause que un proceso falle, este proceso puede ser abortado o reiniciado desde un
estado anterior. Por ejemplo, un proceso interbloqueado puede ser restablecido
desde un estado anterior, donde este puede tratar de adquirir nuevamente recursos.
Por otro lado, entradas erróneas requieren que el proceso se aborte.
5. Falla de Sistema
Una falla de un sistema ocurre cuando el procesador falla en la ejecución. Esto es
causado por errores de software y problemas de hardware (como errores de CPU,
falla en la memoria principal, falla en el bus, falla de energía, etc.). En el caso de
una falla de sistema, el sistema es detenido y reiniciado en un estado correcto. El
estado correcto puede estar en algún estado predefinido o en un estado anterior
(punto de revisión) del sistema guardado en un almacenamiento no volátil.
Una falla de sistema puede ser clasificada de la siguiente forma:
Falla de Amnesia
Ocurre cuando se reinicia el sistema en un estado predefinido, y no depende del
estado del sistema antes de la falla. No se conoce el estado que tenía el sistema
antes de la falla.
Falla de Amnesia Parcial
Ocurre cuando se reinicia el sistema y se conoce parte del estado que presentaba
antes de ocurrir la falla. También se predefine un estado inicial para fallas.
Falla de Pausa
Ocurre cuando el sistema se reinicia al mismo estado en que se encontraba antes de
la falla
Falla de Aborto
Ocurre cuando un sistema nunca se reinicializa
Falla en medio de almacenamiento secundario
Se dice que ocurre una falla en medio de almacenamiento cuando los datos
almacenados no pueden ser accedidos (cualquiera de sus partes o en su totalidad).
La causa de esta falla normalmente es provocada por error de paridad, daño de las
cabezas lectoras, partículas de polvo depositadas en el medio. En caso de una falla
en el medio de almacenamiento secundario, sus contenidos se encuentran alterados
y deberían ser reconstruidos desde una versión del archivo, que se toma del registro
histórico de actividades del archivo. Para tolerar una falla del medio de
almacenamiento secundario, el sistema puede ser configurado con un sistema de
discos espejos. Un sistema de disco espejo generalmente son dos discos físicamente
independientes que se comunican con la memoria y/o con el CPU a través de
6. controladores y buses independientes. Esto hace que el almacenamiento de datos en
un disco sea la imagen del otro. Así, un sistema puede tolerar fallas de un disco de
subsistema.
Falla en los medios de Comunicación
Una falla de un medio de comunicación, ocurre cuando un sitio no puede
comunicarse con otro sitio operacional de la red. Esto es ocasionado por la falla del
nodo de conmutación y/o por los enlaces de comunicación del sistema. La falla de
un nodo de conmutación incluye la falla del sistema y la falla de almacenamiento
secundario, por otro lado, la falla de enlace incluye una ruptura física y ruido en los
canales de comunicación. Note que una falla en un medio de comunicación (esto
depende de la topología y la conectividad) puede no causar la pérdida total de las
facilidades de comunicación. Por ejemplo, una falla en el medio de comunicación
puede simplemente causar una pérdida del mensaje, la recepción de un mensaje con
algunos errores, o la partición de una red donde un segmento de sitios pueden ser
incomunicados con los sitios en otro segmento, aunque los sitios dentro de un
segmento pueden comunicarse entre sí.
4.1.2 Tipos de Fallos
Fallos de parada: El elemento que falla, simplemente deja de funcionar y no
interfiere con el resto del sistema una vez falla.
Fallos de omisión: El elemento que falla no hace cierta parte de su cometido ej.: un
canal de comunicación puede presentar fallos de omisión de envío o de respuesta.
Fallos de temporización: El elemento que falla no lo hace en el tiempo previsto
Fallos de respuesta: El elemento responde incorrectamente a las peticiones que se
le realizan
Fallos arbitrarios: El componente que falla funciona de forma descontrolada.
8. 5 CONCLUSIONES
La tolerancia a fallos ayuda al sistema distribuido de forma que no afecte al entorno
de trabajo.
Cuando un elemento falla intervienen varios aspectos en los cuales puede
presentarse ya sea Hardware o Software.
Indican momentos de respuestas erróneas a una petición realizada.
6 BIBLIOGRAFÍA
Candela, S., García, C. R., Quezada, A., Santana, F. J., & Santos, J. M. (2001).
Fundamentos de Sistemas Operativos. España: Thomson Editores Spain.
Marco Galindo, M. J., Marco Simó, J. M., Prieto Blázquez, J., & Segret Sala, R. (2010).
Escaneando la informática. Barcelona: UOC.
Sommerville, L. (2005). Ingeniería de Software (Septima ed.). Madrid: PEARSON
EDUCACIÓN.