El documento presenta los conceptos de tolerancia a fallos para sistemas de televisión digital. Explica que los sistemas de TV digital son cada vez más grandes y complejos, lo que aumenta la probabilidad de fallos. La tolerancia a fallos busca garantizar que el trabajo se complete correctamente a pesar de fallos mediante redundancia y detección y recuperación de fallos. El objetivo es minimizar la pérdida de trabajo cuando ocurren fallos sin necesidad de reiniciar el sistema. Finalmente, señala que debido a la diversidad de factores en un sistema de TV
Tolerancia a fallos y la TVDI - Josemar Rodrigues de Souza
1. JAUTI 2012
I JORNADAS DE DIFUSIÓN DE APLICACIONES Y
USABILIDAD DE LA TELEVISIÓN DIGITAL INTERACTIVA
Tolerancia a fallos y la TV Digital
La Plata | Argentina – 23/10/2012
Josemar Rodrigues de Souza, Ph.D
UNEB
2. EL GRUPO
UNEB – Universidade do Estado da Bahia
Salvador, Bahia, Brasil
Publica
25 campi
40.000 alunos
1500 professores
ACSO – Núcleo de Arquitetura de Computadores e Sistemas Operacionais
(http://www.acso.uneb.br) - Josemar
Linhas de investigação
• Computação de Alto Desempenho (CYTED Grid)
• Robótica Autonoma
• TV Digital (Alexandre Rafael Lenz) – nova linha
Grupo de Pesquisa Comunidades Virtuais - Lynn
Linhas de investigação
• Jogos digitais e Aprendizagem (conteúdo)
4. OBJETIVOS DE LA PRESENTACIÓN
Presentar algunos aspectos
investigadores de TV Digital.
de
Tolerancia
a
Fallos
(TF),
para
5. PROBLEMA
Sistemas de TV Digital, cada vez mas grandes y complejos.
Tiempos de cómputo ininterrumpido más largos.
Componentes trabajando cerca de los límites tecnológicos.
Importante: Fiabilidad / Disponibilidad del sistema.
La probabilidad
de fallos es
mucho mayor
Es crítico
mantenerlos
funcionando
Es necesario considerar técnicas de
Tolerancia a Fallos
6. NECESIDADE
Necesitamos sistemas fiables que permiten la ejecución de
aplicaciones de TV Digital.
A pesar de que existan fallos en una parte del sistema (nodos o
red) el sistema debe continuar operando de un modo
aceptable, dando el servicio adecuado, aún en presencia de
fallos.
Precisamos de arquitecturas Tolerante a fallos que permita
recuperarse automáticamente de fallos de una parte del
sistema, sin afectar seriamente al rendimiento total.
7. PRESENCIA DE FALLO
No siempre es posible o
aceptable
Re-ejecución de la
aplicación
¿Qué hacer en
presencia de
fallo?
Acabar
correctamente
la aplicación
Requiere:
• Redundancia
• Detección
• Recuperación
Tolerancia a
fallos
Introduce:
• Overhead
• Coste
7
8. OBJETIVO DEL TF - 1
Garantizar al máximo que el trabajo total sea realizado
correctamente cuando falle una parte del sistema (red o
host), aun cuando las prestaciones disminuya, tentando que se
pierda el mínimo de trabajo posible de los elementos que
quedaron desconectados por fallo.
9. OBJETIVO DEL TF - 2
No si trata de restart de máquinas, lo que queremos es que el trabajo
termine, aun cuando con menores prestaciones
Cuando utilisamos sistemas de bajo coste, no debemos utilizar
redundancia física - lo que estamos interesados es en redundancia
funcional: otras máquinas asumen las funciones; programas y datos.
10. OBJETIVO DEL TF - 3
Incluyendo Tolerancia a Fallos (TF) en los algoritmos, el tiempo total de
ejecución será menor que si el procesamiento fuese reiniciado desde el
principio.
11. CONCEPTOS Y VOCABLOS DE TOLERANCIA A FALLOS
El vocablo Tolerancia a Fallos (TF) como designación de área sufre
varias críticas. La mayor crítica es la posibilidad de comprender el
término como una propiedad absoluta:
• En esa visión distorsionada, un sistema tolerante a fallos toleraría toda
y cualquier fallo en cualquier situación, lo que realmente es una
promesa irrealizable y puede conducir a falsas expectativas entre
usuarios.
12. CONCEPTOS Y VOCABLOS DE TOLERANCIA A FALLOS
O que é TF?
TF de un sistema de computación es la habilidad de entregar un servicio confiable.
El servicio suministrado por un sistema es su comportamiento como es percibido por
suyo(s) usuario(s); un usuario es otro sistema (físico, humano) que interactua con el
anterior a través de la interfaz de servicio. La función de un sistema es lo que es
pretendido que el sistema haga, y es descrito por la especificación funcional del
sistema.
13. CONCEPTOS Y VOCABLOS DE TOLERANCIA A FALLOS
Defecto, error y fallo:
Un defecto (failure) en el sistema ocurre cuando el servicio suministrado se desvía de su
especificación, o porque la especificación no describe adecuadamente la función del
sistema. Un error (error) es parte del estado del sistema que puede causar un defecto, el
sistema ésta en estado erróneo y el procesamiento posterior desde ese estado pueden
llevar a un defecto, el defecto solo ocurre cuando un error alcanza a interfaz del
servicio y altera el servicio. Un fallo (fault) es lo que determina o hipotéticamente causa
un error (AVIZIENIS)
procesamiento
posterior puede
llevar a defecto
universo de la información
Modelo de 3 universos:
fallo, error y defecto
(WEBER)
universo físico
fallo
error
universo del usuario
defecto
desvío de la
especificación
14. CONCEPTOS Y VOCABLOS DE TOLERANCIA A FALLOS
Resumén:
De forma resumida, sistemas TF son sistemas que pueden enmascarar la
presencia de fallos, entonces el objetivo del TF, es evitar defectos, mismo en la
presencia de fallos (faults), que son inevitables (JALOTE)
15. CONCEPTOS Y VOCABLOS DE TOLERANCIA A FALLOS
Los factores que interviene en un sistema de TV Digital son de las
más diversa índoles y complejos, por tanto la selección de
arquitecturas TF es bastante bienvenida.