5. CONFIABILIDAD
La confiabilidad es la capacidad de un
elemento de desempeñar una función
requerida, en condiciones establecidas
durante un intervalo de tiempo
determinado.
5
6. ¿para qué?
1. Determinar el tiempo hasta el cual se
espera que falle una proporción (p) dada
de un elemento en operación. Esto es útil
para determinar tiempos de garantía
apropiados así como sus costos.
2. Encontrar el tiempo al cual se espera que
sobreviva una proporción (1-p) dada de los
elementos en operación. Es una estimación
de la calidad de los productos o elementos.
6
7. ¿para qué?
3. Determinar la propensión a fallar que tiene
un producto en un tiempo dado. Para
comparar dos o más diseños o procesos, o
lo que se ofrece por un proveedor.
4. Dado que un artículo ha sobrevivido un
tiempo T, encontrar la probabilidad de que
sobreviva un tiempo t adicional. Para
planear el reemplazo de los equipos
(mantenibilidad).
7
8. CONFIABILIDAD
La confiabilidad se puede definir como,
la probabilidad de que un elemento
seguirá llevando a cabo su función
prevista, sin fallas durante un período
determinado de tiempo bajo condiciones
establecidas.
Es el modelo probabilístico que permite
estimar el comportamiento futuro de un
dispositivo, equipo, producto.
8
9. Datos
La Información para el estudio de
confiabilidad
requiere
datos
de:
tiempos de vida, tiempos de falla,
tiempo a evento, degradación, etc.
Ello
implica
BUENOS
registros
históricos.
A veces hay observaciones “censuradas”
por los largos intervalos requeridos, que
lo hacen inviable para lo practico.
9
10. Los datos de la vida están relacionados con la "edad"
de los elementos hasta el tiempo de falla.
Los Datos de falla suelen ser datos del
"envejecimiento" debido al tiempo de funcionamiento:
tensión, fuerza, ciclos (estrés/temperatura), el
kilometraje, los incidentes (partidas/paradas),
temperatura o cualquier valor de medición apropiado.
Se incluyen datos de los materiales como el estrés,
humedad, vibraciones, etc.
Todos se pueden modelar con los parámetros de la
distribución de probabilidades.
Tener en cuenta el tamaño muestreal para un buen
nivel de confianza.
10
11. Datos censurados
Cuando se pierde información de algunos
individuos de la muestra (izquierda-derecha).
11
12. Función de confiabilidad
La confiabilidad se define como la
probabilidad Pr de que un componente
funcione durante un periodo de tiempo T.
Variable aleatoria continua t, como el
tiempo a falla del componente cuando
T0. Se define por:
Es una función decreciente denominada también función
de supervivencia es la probabilidad de sobrevivir hasta
el tiempo T.
12
14. Función de distribución de
fallas acumuladas
probabilidad que un elemento no falle en
el instante T o antes de T. Se define
por:
Entonces la función Confiabilidad es:
R(t)= 1 – F(t)
14
15. Función de densidad de
probabilidad de fallas
La probabilidad de falla de un elemento
por unidad de tiempo, en cada instante
t; es decir, es el cociente entre la
probabilidad de que un elemento falle
en el intervalo (t,t+t) y t. Se define
por:
… permite estimar probabilidades de
fallas.
15
16. Función de tasa de falla
Es la probabilidad de que un elemento
que está funcionando en el instante t
deje de funcionar en el intervalo t+t.
Proporciona la descripción de la
distribución de fallas por unidad de
tiempo.
16
17. Tasa de Fallas
Cada producto tiene una tasa de
fracaso, que es el número de unidades
que fallan por unidad de tiempo.
Esta tasa de fallas cambia a través de la vida
del producto, que muestra la clásica “curva
de bañera”, la tasa de falla v/s tiempo de
operación para una población: un intervalo
inicial de “mortalidad infantil” que se origina
por los elementos que se escapan al muestreo,
el bodegaje, los traslados e instalación, con
tasa decreciente.
17
18. Luego pasa al tiempo de vida útil
durante el cual las fallas ocurren
aleatoriamente con tasa constante, y
finalmente el tiempo de envejecimiento
o desgaste donde hay una tasa
creciente
de
alto
costo
de
mantenimiento.
18
19. Típica curva de la “Bañera”
R(t)
Vida
temprana o
etapa de
alta tasa de
falla
Envejecimiento o
etapa de tasa de
falla creciente
Estado estable o
tasa constante
edad
Fallas
Inducidas
constante
19
21. Intervalo de vida útil,
o de servicio, o de misión.
Notar que no hay una relación directa entre
el tiempo de servicio y la tasa de falla: es
posible diseñar un dispositivo de alta
confiabilidad y corta vida de servicio: misil
21
23. Tiempo medio para fallas
(MTTF)
Es la media o valor esperado, de la
distribución de probabilidad definida
por f(t).
Medida de tendencia central de la distribución. El
MTTF es el estimador más clásico en el área de
confiabilidad, ya que es el parámetro de interés en
la selección de equipos y diseño de sistemas.
23
24. MTTF
El tiempo medio de falla de elementos NOreparables,
tales
como
componentes
electrónicos, satélites, ampolletas, etc.
La base de tiempo se puede ajustar al
comportamiento:
MTTFhr = 1/hr
MTTFaño = 1/año = 1/(hrx24x365)
24
25. Tiempo medio entre fallas
(MTBF)
Es la vida media del elemento y es la
esperanza matemática del tiempo de
funcionamiento hasta la falla de un
elemento cuya densidad de fallas es f(t):
25
27. MTBF
MTBF (Mean Time between Failures) es
usado para describir elementos reparables.
El tiempo total del ciclo:
MTBF= MTTF + MTTR
No confundir que indica un valor mínimo
garantizado.
27
28. La Tasa de fallas es:
% Fallas =( Num de fallas/Num de
dispositivos probados) X 100%
El MTBF es el tiempo medio que toma hasta
que ocurre una falla:
MTBF = Tiempo Total del dispositivo/
Número Total de fallas
28
29. La Tasa de Falla es el recíproco del
MTBF para sistemas de tasa constante:
FR = =1/MTBF
Ej.: un componente con una tasa de
falla de 2 fallas por millón horas, el
MTBF es: MTBF= 1/, o sea,
1/(2 fallas/106 Hr) = 500.000 Hr/falla
29
30. Tasa de fallas en FIT
FIT (Failures in Time) es un estandard
para la tasa de falla por 109 horas.
FIT= fit = Hr×109
Para convertir la tasa de fallas a fit:
FIT = FR/ 10-9 =
/10-9
30
31. Disponibilidad - Availability
Sistemas reparables que requieren
operar continuamente, y que en
cualquier punto aleatorio del tiempo o
están operando o fuera de operación
debido a una falla, sobre la cual se debe
trabajar para restaurar la operación en
un tiempo mínimo.
31
36. Tiempo Medio para Reparar
MTTR (Mean Time To Repair)
Tiempo medio necesario para reparar el
sistema.
Es difícil modelarlo matemáticamente;
generalmente se recurre a datos
estadísticos medidos en la practica.
Dependiente de muchas condiciones
operativas: repuestos, NMS, expertiz,
distancia, logística, capacitación, etc.
36
37. Si el sistema tiene un tiempo de vida
que sigue una distribución exponencial
con tasa de falla , y la tasa de
reparación es , la disponibilidad es:
37
39. Distribuciones
Las distribuciones para modelar los
tiempos
de
falla
son:
Weibull,
lognormal, exponencial y gamma, la
distribución normal casi no se utiliza.
Se considera sistemas sin memoria.
39
40. Función de densidad de
probabilidad: fdp
La función de densidad f(t) es
continua si cumple para f(t) 0.
El área bajo la curva es igual a 1, en
confiabilidad el intervalo es de cero a
infinito.
f (t )dt 1
40
41. Función de distribución
acumulada: fda
Esta función se define como la integral de
la función de densidad desde cero hasta
el tiempo t y representa la probabilidad
de fallar antes del tiempo t.
(P(t) t), es decir:
t
P(T t ) F (t ) f ( x)dx 1
0
A continuación el caso de la distribución exponencial.
41
45. Distribución Exponencial
fdp
f (t )e
t
; t0
Fda (de fallas)
t
P(T t ) F (t ) e x dx e x
t
0
1 e t , t 0
0
Función Confiabilidad:
R(t ) e
t
45
47. Interpretaciones
Después de cierto tiempo t, que es igual
al MTBF, la confiabilidad R(t) es:
(a) Si un gran número de unidades es considerado, sólo
el 37% de su tiempo de operación será mayor que el
MTBF.
(b) Para una simple unidad, la probabilidad que
trabajará durante un tiempo MTBF, es sólo
alrededor del 37%.
(c) Podemos decir que la unidad funcionará durante el
tiempo MTBF con un nivel de confianza del 37%.
47
48. (d) Para poner estas cifras en contexto, considerar
una fuente de alimentación con un MTBF de
500.000 Hrs (una tasa de falla de 0,2%/1000 Hrs),
la publicidad diría “un MTBF de 57 años”.
(e) A partir de la ecuación para R (t) se calcula que a
los 3 años (26.280 horas) la fiabilidad es de
aproximadamente 0,95, es decir, si dicha unidad se
utiliza las 24 horas del día durante 3 años, la
probabilidad de sobrevivir es alrededor del 95 %.
El mismo cálculo para un periodo de diez años dará
una R (t) de alrededor de 84%.
48
49. f) Para obtener, al final del tiempo de
misión, una confiabilidad del 99.9%, se
debe garantizar un MTTF 1000 veces
superior al Tiempo de Misión.
49
50. Considerando un cliente que ha
adquirido 700 de tales equipos, con ese
MTBF de 57 años, podrá experimentar
en promedio, que el 0,2% de las
unidades fallen cada 1000 hrs, por lo
tanto, el Nº de fallas por año es:
50
51. Distribución de Weilbull
La distribución de Weibull de dos
parámetros es la distribución más
ampliamente utilizada para el análisis de
los datos de vida.
El 3er parámetro es el de tiempo libre
de falla o de localización, por el
desplazamiento del to.
Es un caso particular de exponencial.
51
53. Función distribución de
probabilidad WEIBULL
t
f (t )
1
e
t
: la pendiente o parámetro de forma,
: la característica de vida o parámetro
de escala.
En general para valores de beta 0<<1 la función de
riesgo es decreciente y para valores de >1 la función
de riesgo es creciente. Indica cómo se desarrolla la
tasa de fallas en el tiempo.
53
56. Distribución Acumulativa de
Weilbull
F(t) = Probabilidad de falla en un tiempo t;
t = tiempo, ciclos, distancia, u otro
parametro apropiado;
= parámetro de característica de
vida o de escala;
= parámetro de pendiente o forma.
56
57. fda Weilbull
es el tiempo
en el que el
63,2% se
espera que
fallen.
57
61. Aplicación
Para dispositivos y equipos electrónicos,
el fabricante entrega el MTBF, o sea, la
media del modelo probabilístico de
pruebas.
En fábrica se aplican modelos de vida
acelerada. Comunmente indican cientos
de miles de horas.
Si hay historia, es preferible usar
datos propios del MTBF.
61
63. La confiabilidad de una red o servicio, no
sólo depende del comportamiento
intrínseco de sus elementos, también
hay
efectos
exógenos,
como
interferencias, radiaciones, catástrofes,
accidentes
de
tránsito,
robos,
congestiones,…. condiciones que no
siempre pueden ser controladas.
63
64. La confiabilidad estandard para la
Red es “5-9s”
Proceso de Análisis
“Bottom-up”
Red
Nivel Sistema
Nivel Circuitos
Nivel Componentes
Terminología común
Disponibilidad (%)
“Downtime” (minutos/año)
MTBF (horas)
Tasa Fallas (FITs)
66. En este nivel un análisis de confiabilidad
está relacionado con cada componente
en particular (resistores, capacitores, IC,…), el
diseño circuital electrónico (amplificador,
mezclador, oscilador,…) o la tarjeta o módulo
funcional.
Hoy gran parte de la tecnología está basada
en soluciones de software, que también tiene
su propio tratamiento de confiabilidad.
66
67. En este curso no se verá en detalle este
nivel de análisis.
Para la fabricación de componentes hay
metodologías de estimación de su
confiabilidad, tales como:
MIL-HDBK-217
CNET 93
RDF 2000
67
68. Los componentes puestos a prueba han
durado unos tiempos t1,t2,..., t5.
Los datos en este caso serán las duraciones de vida de cada uno de los n
componentes puestos a prueba, es decir, una muestra t1, t2,tn, de la
variable aleatoria T que representa la duración del proceso.
68
69. Función confiabilidad
R (t) = Pr (T > t)
si designamos:
Ns (t) = Nº de elementos en
funcionamiento en el instante t
N (o) = Nº de elementos en
funcionamiento al principio
Nf (t) = Nº de elementos averiados
hasta el momento t
69
70. se cumplirá:
N (o) = Nf (t) + Ns (t)
Dado que la densidad de fallas es f (t), el tiempo T
que se espera que transcurra hasta una falla viene
dado por:
70
71. Estimación
= número de fallas / (horas bajo test *
número de unidades bajo test)
Unidades de la tasa de fallas:
%/K: Porcentaje de unidades que fallan
cada 1000 horas.
PPM/K: Partes por millón que fallan cada
1000 horas
1 PPM/K = 1x10-6 fallas / 1x103 horas =
= 1 falla / 109 horas = = 1 FIT
(“fails in time”)
71
72. En cualquier caso en la línea de
producción de un componente, el
análisis de confiabilidad, pasa por
un muestreo y pruebas bajo
condiciones
aceleradas
de
envejecimiento.
72
73. Modelos de aceleración
Los modelos de aceleración se derivan a menudo de
modelos físicos o cinéticos relacionados al modelo de
falla, por ejemplo:
Regla de Potencia Inversa para Voltaje
Modelo exponencial de Voltaje
Modelos de Dos: Temperatura / Voltaje
Modelo de Electromigración
Modelos de tres esfuerzos (Temperatura, Voltaje
y Humedad)
Arrhenius
73
74. Confiabilidad circuitos
En forma simplificada para un circuito
de puede proceder a un calculo de la
confiabilidad estimada, sumando las
tasas
de
falla
de
todos
sus
componentes.
Si un PABX tiene 10.000 componentes,
cada uno con x=10-7=0,1 ppm/Hr,
entonces: x= 10-3 para el sistema.
Rs = e-t / 1000
MTBFeq= 1.000 Hr
74
75. Un circuito
Suponiendo tiene:
4 diodos: d= 0.000002
1
„ 0 transistores: t= 0.00001
2
„ 0 resistencias: r= 0.000001
10 condesadores: c= 0.000002
Además que:
El cableado(circuito impreso) y las soldaduras sean
100% confiables.
Que los componentes trabajan bajo sus niveles
nominales de voltaje, corriente y temperatura.
75
77. Es en el diseño que se deben aplicar
criterios de análisis de confiabilidad
para
asegurar
la
calidad
del
componente, circuito o tarjeta.
Incluye condiciones ambientales típicas
de operación, soldaduras, contactos,
embalajes, etc.
77
79. Diagrama funcional
Los equipos están constituidos por
módulos o tarjetas.
En general cada uno de ellos cumple una
función dentro del proceso de señales.
Funcionalmente p.ej.:
FP
AMPrf
Mix
AMPif
AMP
Osc
79
80. Diagrama Confiabilidad
Existen varios métodos de análisis:
• Simulación Montecarlo
• Arbol de fallas
• Cadena Markov
• RBD: Diagrama de bloques
• FMECA: Failure mode and effects and
criticality analysis
• Red de Petri
Se debe establecer la función de estructura que
describe el lazo entre el estado del sistema y el
estado de los N componentes que forman el sistema.
80
81. Revisar la importancia
estructural:
¿Qué importancia tienen los componentes en
la estructura?
¿Si el componente “i” falla, dejará de operar
el sistema?
¿Cuántos estados posibles hay del sistema?
¿En cuántos estados, el componente “i”, es
funcional?
¿En que estados, al fallar el componente “i”,
el sistema fallará?
Ver: Curso de confiabilidad; P.Reyes A.
81
82. RBD: Diagrama de bloques
Reliability block diagrams
Para el caso planteado, si cada elemento
falla, afectará a todo el sistema, luego
cada elemento es crítico…, por lo tanto,
el flujo de confiabilidad pasa por todos
ellos.
FP
AMPrf
Mix
Osc
AMPif
AMP
Este diagrama en serie, representa que cada una
de las etapas interrumpe la funcionalidad de la
totalidad del sistema.
82
83. La
confiabilidad del sistema es la
probabilidad
de
que
todos
los
componentes funcionen.
Un sistema en serie que tiene “k”
componentes, suponiendo que trabajan
en modo independiente, la confiabilidad
del sistema es la probabilidad de que
todos los componentes funcionen
correctamente.
83
84. Sistema Serie
Aplica entonces la regla del producto de
las probabilidades de sobrevivencia
individuales para la sobrevivencia del
todo:
Rs(t) = R1(t)R2(t)R3(t) = e-(1+ 2+ 3)t
En un sistema Serie la confiabilidad está dada
por el producto de la confiabilidad de cada
bloque y la Tasa de Falla es la suma de las Tasas
de Falla:
R s= k R i s = Σ k i
84
85. La confiabilidad del sistema serie es menor que
aquella del componente de menor confiabilidad.
La función distribución de fallas de un
sistema con N componentes es:
La disponibilidad:
85
86. Sistema tolerante a falla
Elementos en paralelo, asegurando que
cada uno es suficiente para asegurar el
funcionamiento del sistema.
Un sistema paralelo falla cuando ambos
elementos fallan: REDUNDANCIA, respaldo,
reserva.
86
87. REDUNDANCIA
Se define como la existencia de dos o
mas elementos, no necesariamente
idénticos, para cumplir una función
única. Hay distintos tipos de
Redundancia:
Activa – Paralelo Puro – Paralelo compartido
Standby - Hot Standby - Cold Standby (Pasiva)
Warm Standby - Sistemas R de N
[Standby: en espera]
87
88. Redundancia Activa
Tiene todos los elementos
simultáneamente en paralelo.
operando
Todos los itemes están trabajando y en uso al
mismo tiempo, a pesar de que sólo un
elemento se requiere para la función.
No hay ningún cambio en la tasa de falla del
sistema sobreviviente tras la falla de un
elemento.
88
89. Paralelo Puro
– no hay cambio en la tasa de falla
del sistema sobreviviente después
de la falla de un elemento.
Paralelo compartido
– la tasa de falla del sistema
sobreviviente cambia después de
la falla de un elemento.
89
90. Redundancia Standby
Tiene un elemento alternativo que se activa
en caso de falla del otro elemento.
Solamente un item está operando a la vez
para ejecutar la función.
La tasa de falla del elemento alternativo
afecta la característica de falla de los
demás, ya que ahora son más susceptibles al
fracaso, alestar bajo carga.
90
91. Hot Standby:
-
lo mismo que redundancia activa o standby
activo.
Cold Standby (Pasiva):
-
no está normalmente operando. La falla de un
elemento fuerza al item standby para
comenzar a operar.
Warm Standby:
- elemento normalmente activo, pero no bajo
carga. Tasa de falla será menor debido a la
tensión más baja.
Sistemas R de N:
- consta de N elementos, en la que R de los N
elementos deben funcionar para que el
sistema opere correctamente.
91
92. Confiabilidad de sistema
tolerante a fallas
La probabilidad de falla de un sistema
paralelo se debe a la probabilidad de
falla contemporánea (simultánea) de los
elementos.
Para
una
configuración
de
N
componentes en paralelo,
Función distribución de fallas y Confiabilidad:
92
96. Configuraciones mixtas: RBD
Hay dos equipos A1 y A2 que son redundantes.
Un interruptor S (accionado usando un circuito de
comando de cambio CS) que permite seleccionar
uno de los dos aparatos. ¿cuál es la confiabilidad
del sistema total?
96
97. Para el esquema de confiabilidad se determinan los
elementos que generan los eventos críticos que
conducen al daño del sistema. Tales eventos son:
1. Se dañan simultáneamente, A1 y A2
2. Se daña S
3. Se dañan ambos, A1 y CS.
Cada uno de los eventos considerados es suficiente
para bloquear el sistema, entonces se conectan
como RBD en serie.
Los sub-eventos que componen los eventos 1 y 3 se
deben conectar en paralelo porque deben suceder
ambos para que el sistema falle.
97
107. Una red es un conjunto de nodos
interconectados en alguna topología:
bus, malla, anillo.
Se segmenta las redes por
tecnología y aplicación: acceso,
transporte, servicio, WDM, IP, etc.
107
108. Un servicio es la aplicación que hace
uso de extremo a extremo de una o
varias redes: telefonía, internet,
TV, datos, etc.
En este caso el servicio ve las redes
como una nube, y varias de ellas.
poder
ADSL
Router
WDM
108
110. Requerimientos
Muchas son las instalaciones de los operadores
de TIC, que requieren los mas altos estándares
de confiabilidad. En general se estima
operaciones de “5 nueves”, es decir, 99,999%.
Un ej. es Visa Internacional por la importancia
de sus transacciones (104/seg) procesando
decenas de millones de US$/min, una
interrupción de su operación por un minuto es
muy significativa.
Se dice que en 12 años ha demostrado una
confiabilidad de 12 años (92 min indisponible).
110
114. NOTAR QUE A MEDIDA QUE SE AUMENTA
LA COMPLEJIDAD, EN REDES Y SERVICIOS,
SON MUCHOS LOS ELEMENTOS QUE
INTERVIENEN.
POR LO TANTO LA
EXPECTATIVA DE LOS 5’9 REQUIERE QUE
SUS
COMPONENTES
TENGAN
UNA
CONFIABILIDAD AÚN MUCHO MAYOR.
114
115. Disponibilidad de red
Debe agregarse al análisis la disponibilidad de las
interconexiones. Los nodos son muchos mas en real.
115
123. Otras
La confiabilidad también aplica a: condiciones de
interrupción por degradación.
Cortes por desvanecimiento en radiopropagación.
Interrupción del servicio por congestión.
Una interrupción tiene efecto en churn y pérdida
de tráfico cursado.
La confiabilidad de los software.
123
127. Dr.Ing. Nikola Milanovic; Models, Methods and Tools
for Availability Assessment of IT-Services and
Business Processes.
Dr. Primitivo Reyes Aguilar; Curso de Confiabilidad
Dr. David Buchmann; Verified Network Configuration
Dr. Joel A. Nachlas; Fiabilidad
127
128. Conclusión
Sin duda la CALIDAD en los servicios
de
telecomunicaciones
está
muy
estrechamente ligada a la confiabilidad
de las redes. Según los criterios de
riesgo se vinculan los SLA, y se pueden
evaluar los costos de multas. También
se puede estimar la migración de
clientes (churn), sin dejar de lado los
efectos de calidad de atención y ventas.
128