1. Estado Finito De
Cadenas De Markov
DISCRETE STOCHASTIC PROCESSES
Draft of 2nd Edition
R. G. Gallager
Capitulo 4
Presentación Por:
Enrique Malavé Rivera
Luis A. Pons Pérez
3. Las cadenas de Markov son los
procesos
estocásticos definidos solo en enteros.
Los valores de tiempo,n=0,1,….,En
cada tiempo entero≥ 0,existe un valor
entero aleatorio.
La variable (RV)Xn, es llamada el
estado en el n(tiempo) y el proceso en
la familia de rv{Xn, n≥0}.
4. Un proceso entero de tiempo{Xn,n≥0} puede
ser visto como un proceso{X(t),t≥0} definida
para todo t real, tomando X(t)=Xn para n ≤ t <
n+1.
En general ,para las cadenas de Markov,el
conjunto de valores posibles para cada Xn rv
es un conjunto numerable, normalmente se
toma como {0,1,2,…}. En este capítulo se
dedica la atención a un cojunto finito de
valores posibles, por ejemplo {1,…,M}.Así
que estamos mirando procesos cuyas
funciones que se muestran son secuencias
de números enteros, cada uno entre 1 y M.
5. No hay ningún significado especial para
el uso de etiqueta de enteros por los
estados, ni raz ón de peso para incluir a
0 como un estado para el caso de
infinitos numerables y para no incluirlo
en el caso finito. Para el caso infinito
numerable las aplicaciones más
comunes provienen de la teoría de
colas,y el estado a menudo representa
el número de clientes en espera, que
puede ser cero. Para el caso finito, a
menudo usan vectores y matrices, y es
más convencional para el uso positivo
de etiquetas de enteros.
6. Definición : Una cadena de Markov es un
proceso entero de tiempo {Xn,n≥0}donde
cada uno de rv Xn ,n ≥ 1, es un valor entero y
depende del pasado, solo através de la rv
más reciente Xn-1.Más
especificamente, para todos los enteros
positivos,n,I,j,k,…M,Pr{Xn=j│Xn-1=I,Xn-
2=K,…,XO=m}=Pr{Xn=j│Xn-1=i}.(4.1).es
Esta ecuación es más fácil de leer si se
abrevia como Pr{Xn│Xn-2,..XO}=Pr{Xn│Xn-
1}. Esta abreviatura significa que se cumple
la igualdad de todos los valores de la
muestra de cada una de las caravanas, es
decir que significa lo mismo que (4.1).
7. Por otra parte,,Pr{Xn= j│Xn-1} solo
depende de I y j( sin n) y se denota por
Pr {Xn=j│Xn-1=i}=Pij.Pij es la
probabilidad de pasar al estado j, dado
que el anterior soy yo, el nuevo
estado, dado el Estado anterior, es
independiente de todos los estados
anteriores. El uso de la palabra Estado
aquí,se ajusta a la idea habitual del
estado de un sistema, el Estado en un
momento dado es el resumen de todo lo
relacionado con el pasado que es
relevante para el futuro.
8. Las cadenas de Malkov se pueden utilizar
para modelar una gran variedad de
fenómenos físicos y puede utilizarse para
aproximar muchos otros tipos de procesos
estocásticos.
9. Estado Finito De
Cadenas De Markov
DISCRETE STOCHASTIC PROCESSES
Draft of 2nd Edition
R. G. Gallager
Capitulo 4.3,4.4 y 4.5
Presentación Por:
Luis A. Pons Pérez
10. Hace poco mas de cien años se
escribió el primer trabajo sobre
Cadenas de Markov, aun así este
sigue siendo un instrumento muy útil
de estudio estocástico.
11. Las Cadenas de Markov son de gran
importancia:
1. Se usa para explicar ejemplos de
biología, de física, de ciencias sociales
y economía.
2. Los modelos son sencillos pues su
teoría esta muy bien trabajada.
12. El proceso {Xn} es una Cadena de Markov si
para cualquier
n N, j , i , in−1, . . . , i0 S (espacio de estados)
P(Xn+1 = j |Xn = i ,Xn−1 = in−1, . . . ,X0 = i0)=P(Xn+1 = j |Xn= i)
Esta es la Propiedad de Markov y establece
que:
◦ Dado el presente cualquier otra información del
pasado es irrelevante para predecir el futuro.
14. La matriz [P] de transición de
probabilidades de las cadenas de Markov
es llamada una matriz estocástica.
Una matriz estocástica es una matriz
cuadrada de términos no negativos en la
cual los elementos en cada línea suman 1.
15. Debemos considerar n pasos de probabilidades
de transición Pijn en términos de [P].
La probabilidad de ir del estado i al estado j en
dos pasos es la suma sobre h de todos los
posibles tránsitos de dos pasos, de i a h y de h a
j. Esto utilizando la condición de Markov.
(Pr{Xn=j | Xn−1=i,Xn−2=k, . . . ,X0=m} = Pr{Xn=j | Xn−1=i})
16. M
Pij2 Pih Phj
h 1
Puede verse que es solo el termino i j del
producto de la matriz [P] consigo misma.
Esto denota[P][P] como P2, esto significa
P 2 es el (i , j) elemento de la
que ij
matriz[P]2.
Similarmente, Pijn es el elemento i j de la n
potencia de la matriz [P].
17. Pues como [ P]m n [ P]m [ P]n entonces:
M
Pijm n Pih Phj
m n
h 1
Esta ecuación es conocida como La Ecuación
Chapman-Kolmogorov.
n
**Un método muy eficiente de computar [P]n así como Pij
para un n muy grande, multiplicando [P]2 por [P]2, [P]4 por
[P]4, hasta entonces multiplicar estas potencias binarias
entre si hasta donde sea necesario.
18. La matriz [P]n es muy importante por varias
razones:
◦ Los elementos i , j de la matriz lo cual es P n que
ij
es la probabilidad de estar en un estado j a tiempo
n dando un estado i a tiempo 0.
◦ Pues si la memoria del pasado muere con un
incremento en n, entonces podemos esperar la
dependencia de i y n desaparecer en P n .
ij
◦ Esto quiere decir que [P]n debe converger a un
limite de n → 1, y , segundo, que cada línea de
[P]n debe tender al mismo grupo de
probabilidades.
◦ Si esta convergencia se gesta (aunque luego
determinemos las razones bajo las que se da), [P]n
y [P]n+1 serán iguales cuando el limite → .
19. Esto quiere decir entonces que :
Lim[ P]n ( Lim[ P]n [ P])
20. La mejor forma de lidiar con la potencia n
de una matriz es el encontrar los
eigenvalores y los eigenvectores de una
matriz.
21. Definición
El vector de línea es el eigenvector
izquierdo de [P] del eigenvalor si ≠ 0 y
[P]= .
El vector columna v es el eigenvector
derecho del eigenvalor si v ≠ 0 y [P]v = v.
22. Los eigenvalores y los eigenvectores
pueden ser encontrados usando algebra
elemental.
23. Estas ecuaciones no tienen solución en cero si la
matriz [P − I], donde [I] es la matriz
identidad, (debe haber un v no igual a 0 para el cual
[P − I] v = 0). Entonces debe ser tal que el
determinante de [P − I], conocido como
(P11 − )(P22 − ) − P12P21, es igual a 0.
Resolver estas ecuaciones cuadráticas en
, encontraremos que tiene dos soluciones, 1 = 1
y 2 = 1 − P12 − P21.
Asuma inicialmente que P12 y P21 son ambos 0.
Entonces la solución para el eigenvector izquierdo y
derecho, π(1) y v(1), de 1 y π(2) y v(2) de 2, son
dadas por:
24. Estas soluciones poseen un factor de normalización
arbitrario.
1 0
Dejemos que []
0 2
y que [U] sea la matriz con
columnas v(1) y v(2).
Entonces las dos ecuaciones derechas de eigenvectores
en
Pueden ser combinadas de forma compacta como
[P][U] = [U][Λ].
Surge entonces (dado como se ha normalizado el
eigenvector) que el inverso de [U] es exactamente la
matriz cuyas líneas son el eigenvector izquierdo de [P]
Lo que muestra que todo eigenvector derecho de un
eigenvalor debe ser ortogonal a cualquier eigenvalor
izquierdo.
Vemos entonces que [P]=[U][Λ][U]−1y consecuentemente
[P]n = [U][Λ]n[U]−1.
26. Si recordamos que 2 = 1 − P12 −
P21, veremos que | 2| ≤ 1. Si P12 = P21 =
0, entonces 2 = 1 tal que [P] y [P]n son
simplemente matrices idénticas. Si P12 =
P21 = 1, entonces 2 = −1 tal que [P]n
alterna entre la matriz identidad para n
eventos y [P] para n impar.
En todos los demás casos | 2| < 1 y [P]n
se acerca a la matriz cuyas líneas son
iguales a π.
27. Parte de este caso especifico generaliza a un numero
arbitrario de estados finitos.
En particular =1 es siempre un eigenvalor y el vector
e cuyos componentes son igual a 1 es siempre un
eigenvector derecho de =1 (esto se debe de que cada
línea de una matriz estocástica suma igual a 1).
Desafortunadamente, no todas las matrices
estocásticas pueden ser representadas en la forma de
[P]= [U][Λ][U−1] (ya que M la necesidad de los
independientes eigenvectores derechos no existe.
En general, l matriz diagonal de eigenvalores en
[P] = [U][Λ][U−1] debe entonces esta ser remplazada
por el la Forma Jordan, la cual no necesariamente
nos producirá resultados deseables.
28. Teoría de Perron-Frobenius
La teoría de Perron-Frobenius puede
caracterizarse como una teoría de matrices
cuadradas.
◦ Con todos los términos positivos y en
generalizando para ciertos casos, se posee
términos no negativos.
Los resultados primordialmente conciernen
a los eigenvalores, los eigenvectores y a las
potencias de las matrices.
29. Un vector real x (un vector con componentes reales) es definido como
positivo, denotando x > 0.
Si xi > 0 para cada componente i. Una matriz real [A] es
positiva, denotando [A] > 0, si Aij > 0 para cada i , j.
De igual forma, x es no negativo, denotando x ≥ 0, si xi ≥ 0 para todo i.
[A] es no negativa, denotando [A] ≥ 0, si Aij ≥ 0 para todo i, j.
Nota: Es posible tener x ≥ 0 and x ≠ 0 sin tener que x > 0, pues x > 0
quiere decir que al menos un componente de x es positivo y todos son
no negativos.
Si x > y y y < x ambos quieren decir que x −y > 0.
De igual forma si x ≥ y y y ≤ x quiere decir que x −y ≥ 0.
Entonces las desigualdades matriciales correspondientes tienen
significados correspondientes.
30. Que muestra el Teorema de Perron-
Fobenius
Muestras:
◦ Una matriz positiva cuadrada [A] siempre
tiene un eigenvalor positivo que excede la
magnitud de todos los demás eigenvalores.
◦ Este tiene un eigenvector derecho v que es
positivo y único dentro una escala de factores.
◦ Establece estos resultados relacionando a
los siguientes y comúnmente usados
problemas de optimización.
31. Para una matriz cuadrada dada [A] > 0, y
para cualquier vector no igual a cero x ≥
0, sea g(x) el mas grande numero real a por
el que ax ≤ [A]x. Sea definida por:
Podemos expresar g(x) explícitamente re-
escribiendo ax ≤ Ax como axi ≤ Aij xj para
toda i. La mas grande a para la que esto es
satisfecho es:
Donde
32. Si [A] > 0, x ≥ 0 y x ≠ 0, lleva a que el
numerador iAij xj es positivo para todo i.
Como gi(x) es positivo para xi > 0 e
infinito para xi = 0, tal que g(x) > 0.
33. Teorema Perron-Frobenius
Para Matrices Positivas
Sea [A] > 0 sea una M por M matriz, sea > 0
dada por
y por donde
y dejemos ser un vector x que maximiza
Entonces:
1. v = [A]v y v > 0.
2. Para cualquier otro eigenvalor μ de [A], |μ| < .
3. Si x satisface x = [A]x, entonces x = βv para
algunos (posiblemente complejos) números β.
34. Definición
Una Matriz Irreducible es una matriz no
negativa tal que para cada par de nodos i
, j en su grafica, existe un desplazamiento
de i a j.
35. Para algunas matrices estocásticas, una matriz
irreducible es una matriz estocástica, una matriz
recurrente de Cadena de Markov.
Si denotamos el elemento i, j de [A]n por
Anij, entonces vemos como Anij > 0 si existe un
largo de desplazamiento n desde i a j en la grafica.
Si [A] es irreducible, un desplazamiento existe
desde cualquier i a cualquier j (incluyendo j = i)
con largo al menos M, desde que el
desplazamiento necesario visita cada otro nodo al
menos una vez.
Entonces si Anij > 0 para algunos n, 1 ≤ n ≤ M, y
Mn=1 Anij > 0 .
36. *La clave para analizar Matrices
Irreducibles es que la Matriz B n 1[ A] es
M n
estrictamente positiva.
37. Teorema Perron-Frobenius
Para Matrices Irreducibles
Sea [A] ≥ 0 sea una M por M matriz irreducible y sea lo
supremo en
y en donde
Entonces lo supremo es alcanzado como un máximo en algún
vector v y el par ,v que tiene las siguientes cualidades:
1. v = [A]v y v > 0.
2. Para cualquier otro eigenvalor μ de [A], |μ| ≤ .
3. Si x satisface x = [A]x, entonces x = βv para algunos
(posiblemente complejos) números β.
38. Nota!!!!
Este es casi el mismo teorema que mencionamos
anteriormente , la diferencia es que , se espera
que [A] sea irreducible (pero no necesariamente
positiva), y la magnitud la necesidad de los otros
eigenvalores no es estrictamente menos que .
Cuando miramos a matrices recurrentes de un
periodo d, encontraremos que hay d - 1 otros
eigenvalores de magnitud igual a .
Por esta posibilidad de otros eigenvalores con la
misma magnitud que , nos referimos a como el
mas grande del los eigenvalores reales de [A].
39. Corolario
El mas grande de los eigenvalores reales
de una matriz irreducible [A] ≥ 0 tiene un
eigenvector izquierdo positivo . es el
único eigenvector de ( dentro de un
factor escala) y que es solo un vector no
negativo no cero u (dentro de un factor
escala) que satisface u ≤ u[A].
40. Corolario
Sea el mas grande de los eigenvalores
reales de una matriz irreducible y sea el
eigenvector derecho e izquierdo de ser v
>0 y >0. Entonces, dentro de un factor
escala, v es el único eigenvector derecho
no negativo de [A] (no hay otros
eigenvalores que tengan eigenvectores no
negativos). Similarmente, dentro de un
factor escala, es el único eigenvector
izquierdo no negativo de [A].
41. Corolario
Sea [P] una matriz estocástica irreducible
(Una matriz recurrente de cadena de
Markov). Entonces =1 siendo el mas
grande de los eigenvalores de
[P], e = (1, 1, . . . , 1)T es el
eigenvector derecho de =1, único dentro
de un factor escala, y hay una
probabilidad única vector π > 0 que es el
eigenvector izquierdo de =1.
42. Corolario
Sea [P] una matriz de transición de una
uni-cadena . Entonces =1 siendo el mas
grande de los eigenvalores de
[P], e = (1, 1, . . . , 1)T es el
eigenvector derecho de =1, único dentro
de un factor escala, y hay una
probabilidad única vector π ≥ 0 que es el
eigenvector izquierdo de =1; i>0 para
cada estado i de recurrencia y i=0 para
cada estado de transición.
43. Matriz de Transición
Los qij se agrupan en la denominada
matriz de transición de la Cadena de
Markov:
q00 q01 q02 ...
qij i , jS
q10 q11 q12 ...
Q
q20 q21 q22 ...
...
... ... ...
44. Propiedades De
La Matriz De Transición
Por ser los qij probabilidades,
i, j S , qij 0,1
Por ser 1 la probabilidad del suceso
seguro, cada fila ha de sumar 1, es
decir,
i S , q
jS
ij 1
*Una matriz que cumpla estas dos
propiedades se llama matriz
estocástica
45. Corolario
El mas grande de los eigenvalores reales
de una matriz irreducible [A] ≥ 0 es
estrictamente una función creciente de
cada componente de [A].
46. Corolario
Sea el mas grande de los eigenvalores
de [A] > 0 y sea y v los egenvectores
positivos derecho e izquierdo de
, normalizado tal que v =I. Entonces:
47. Teorema
Sea [P] una matriz de transición de un
estado finito ergodico de Cadena de
Markov. Entonces = 1 es el mas grande
de los eigenvalores reales de [P], y > |μ|
para cada otro eigenvalor μ. En adición el
Limn→1[P]n = eπ , donde π > 0 es el único
vector de probabilidad capaz de satisfacer
π[P] = π y e = (1, 1, . . . , 1)T es el único
vector v (dentro de un factor escala) que
satisface [P]v = v.
48. Cadenas Ergódica
Sea x una Cadena de Markov finita.
Diremos que x es ergódica sii es
irreducible, recurrente y aperiódica
Ejemplo:
49. Teorema
Sea [P] un matriz de transición de una
unicadena ergódica. Entonces = 1 es el
mas grande de los eigenvalores reales de
[P], y >|μ| para cualquier otro eigenvalor
μ.
En adición, el Limm→1[P]m = eπ ,
donde π ≥ 0 es el único vector de
probabilidad que satisface π[P] = π y e =
(1, 1, . . . , 1)T es el único v (dentro de un
factor escala) satisfaciendo [P]v = v.
50. La noción sobre las Cadenas de Markov
Ergódica es diferente en el texto de Galager
comparado a la teoría general.
La diferencia esta en que en el texto toma
una Cadena de Markov como algo que ha
sido especificado sin indicar o especificar el
estado inicial de distribución, porque
diferentes estados iníciales de distribución
pertenecen a diferentes procesos
estocásticos.
Si una Cadena de Markov comienza en un
estado inicial estacionado, entonces el
proceso estocástico correspondiente es el
estacionario y de otra manera no lo será.
51. Cadenas de Markov
Con Recompensa
Suponga que cada estado i en una Cadena de
Markov esta asociado con una recompensa ri. En
la medida que la Cadena de Markov cambia de
estado en estado, existe una secuencia asociada a
recompensa que no es independiente, pero está
relacionadas por la estadística de la cadena de
Markov.
La situación es similar a pero diferente de, a un
proceso de renovación de recompensa. En la
medida que el proceso de renovación de
recompensa, la recompensa ri puede igualmente
ser un costo o arbitrariamente una función de
valor real del estado.
52. El modelo de la Cadena de Markov con
recompensa es uno muy amplio.
Casi todo proceso estocástico puede ser
aproximado por Cadena de Markov.
En el estudio de teoría de renovaciones, se
puede observar que el concepto de
renovación es muy grafico y no solo para
modelar portafolios corporativos o el
desempeño de un portafolio. También para
el estudio de la vida residual y muchos
otros fenómenos.
53. Comúnmente es natural asociar recompensas
con transiciones mas que asociarlas con
estados. Si rij denota la recompensa asociada
con la transición de i a j y Pij denota la
probabilidad de transición
correspondiente, entonces ri=j Pijrij es e la
recompensa esperada asociada a la transición
del estado i.
Como solo estamos analizando la
recompensa esperada, y como el efecto de
las recompensas de transición rij están
resumidas en el estado de recompensa
ri=j Pijrij , se ignora la recompensa de
transición y solo consideramos el estado de
recompensa.
54. Ejemplo 4.5.1 (Primer Tiempo de
Pase Esperado).
Un problema común cuando se trabajo
con Cadenas de Markov es encontrar en
numero de pasos esperados, comenzando
en algún estado inicial, antes de algún
estado final es entrado.
55. Como el contestar este problema no depende de
que después de que un estado final es
entrado, podemos modificar la Cadena para
convertir el estado final dado, es decir el estado
1, en un estado de aprisionamiento ( o sea un
estado 1 es un estado del cual no existe
salida, para el que Pii = 1). Esto es , si ponemos
P11 = 1, P1j = 0 para todo j ≠1, y dejamos Pij sin
cambiar para todo i ≠ 1 y todo j.
La conversión de una Cadena de Markov de cuatro estado en una cadena
en la que el estado 1 es un estado restringido. Obsérvese que los arcos que
salen del nodo 1 han sido removidos.
56. Sea vi el numero esperado de pasos para
alcanzar el estado 1 comenzando en el
estado i ≠ 1. Este numero de pasos incluye
el primer paso mas el numero de pasos
esperados desde cualquier estado que se
entre posteriormente (el cual es 0 si el
estado 1 es entrado como el siguiente).
57. Para la cadena propuesta , estas son las
ecuaciones:
Para un Cadena Arbitraria de M estados donde
1es un estado atrapado y todos los demás
estados son transitan, este set de ecuaciones se
transforma en:
58. Si definimos ri = 1 para i≠1 y ri = 0 para i =
1, entonces ri es una unidad de recompensa para
una entrada no realizada aun al estado de
contención, y vi como la esperada recompensa
agregada antes de entrar el estado de contención.
Al tomar r1 = 0, la recompensa cesa al entrar en el
estado de contención, y vi es la recompensa
esperada en curso, el primer transcurso esperado
del estado i al estado 1.
En este ejemplo la recompensa ocurre solamente
en estados de transito. Pero como los estados de
transito tienen cero probabilidad de estado
continuo, el estado continuo gana por unidad
tiempo, g =i πiri, es 0.
59. Si definimos v1 = 0, entonces
, junto con v1 = 0, que tiene la forma de
vector:
Esta ecuación v = r +[P]v es un grupo de M
ecuaciones lineales, de los cuales la primera es
v1 = 0 + v1, y , con v1 = 0, el ultimo M − 1
corresponde a
60. Bibliografía
DISCRETE STOCHASTIC
PROCESSES, Draft of 2nd Edition, R.
G. Gallager, May 24, 2010.
Presentación: Cadenas de
Markov, Ezequiel López
Rubio, Departamento de Lenguajes y
Ciencias de la
Computación, Universidad de Málaga.