SlideShare una empresa de Scribd logo
1 de 97
Descargar para leer sin conexión
200 Conceptos
                                                                         De

                                                           Probabilidad,
                                               Variables Aleatorias
                                                                         Y

                                         Procesos Estocásticos
                                                                         En

                                  Redes de Comunicaciones




                    pij (t + s ) = ∑ pik (t ) pkj ( s )
                                    k




                Marco Aurelio Alzate Monroy




PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
El azar favorece a la mente preparada.

                                                              Louis Pasteur




PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
Introducción

Considere una sesión ftp (file transfer protocol). Durante la transferencia de un archivo
de cierto tamaño (en kbytes) se sufre cierto retardo (en s). La transferencia se hace con
cierta velocidad o caudal (en kbytes/s). ftp ofrece mediciones de estas tres cantidades al
presentar resultados como los siguientes:

     150 Opening ASCII mode data connection for file1 (240 bytes)
     226 Transfer complete.
     local: file1   remote: file1
     245 bytes received in 0.47 seconds (0.51 Kbytes/s)

     150 Opening ASCII mode data connection for file2 (1486 bytes)
     226 Transfer complete.
     local: file2   remote: file2
     1526 bytes received in 0.37 seconds (4 Kbytes/s)

     150 Opening ASCII mode data connection for file3 (12768 bytes)
     226 Transfer complete.
     local: file3   remote: file3
     13197 bytes received in 25 seconds (0.52 Kbytes/s)

     150 Opening ASCII mode data connection for file4 (13084 bytes)
     226 Transfer complete.
     local: file4   remote: file4
     13540 bytes received in 19 seconds (0.71 Kbytes/s)

     150 Opening ASCII mode data connection for file5 (72379 bytes)
     226 Transfer complete.
     local: file5   remote: file5
     75121 bytes received in 44 seconds (1.7 Kbytes/s)

     150 Opening ASCII mode data connection for file6 (8140 bytes)
     226 Transfer complete.
     local: file6   remote: file6
     8427 bytes received in 1.2 seconds (7 Kbytes/s)

Se puede observar cómo no sólo el tamaño de los archivos varía sino que el caudal
mismo también varía a pesar de tratarse de la misma conexión. Se diría que esta medida
de desempeño es aleatoria. Por supuesto, esto no debe sorprendernos: diferentes
conexiones se establecen con el servidor ftp en instantes de tiempo que no podemos
predeterminar; el número de archivos que se transferirán en cada conexión tampoco es
predecible con anterioridad; no se puede conocer de antemano la duración de cada
archivo; ftp ofrece un servicio confiable, de manera que debe detectar y corregir errores,
los cuales se presentan en los medios de transmisión debido al ruido y a la imperfección
de los enlaces; etc.

En este libro estudiaremos algunas herramientas de análisis de redes de
telecomunicaciones cuando se considera dicha aleatoriedad. Se supone que el lector tiene
un propósito fundamentalmente práctico en cuanto lo motiva el estudio de una disciplina
tan técnica como las redes de comunicaciones. Sus intereses pueden incluir técnicas de



   PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
modulación digital, detección y corrección de errores, procesamiento de señales,
enrutamiento óptimo, codificación, control de flujo y congestión, seguridad y privacidad,
integración de servicios, modelamiento de tráfico, etc. Sin embargo, puesto que hay
muchos aspectos fundamentales comunes a todos estos ejemplos, es necesario utilizar una
teoría abstracta para extraer estos elementos comunes con el mayor provecho. En efecto,
una teoría abstracta es fácil de estudiar porque no requiere el conocimiento de ningún
sistema en particular, no necesita de grandes recursos de laboratorio (sólo papel y lápiz,
aunque un computador a veces puede resultar muy útil) y puede tener una amplia
aplicabilidad. Por supuesto, para los intereses específicos de los lectores de este libro
(ingeniería de redes de comunicaciones), es importante tener la oportunidad de aplicar la
teoría a medida que la vamos aprendiendo, por lo que en este libro encontraremos
muchas oportunidades de "ver la teoría en acción" para hacerlo más motivador.

En particular, dado que el interés común de nuestros lectores son las redes de
comunicaciones, la mayoría de aplicaciones que se consideran en este libro se refieren al
tráfico sobre dichas redes. En efecto, si bien podría pensarse que los componentes de la
red (equipos y protocolos) tienen un comportamiento determinístico, ellos existen para
satisfacer las demandas de los usuarios, las cuales se presentan en cantidades aleatorias y
en instantes de tiempo aleatorios. El modelamiento probabilístico de los tiempos entre
llegadas y las intensidades de las demandas de los usuarios de una red, así como sus
efectos sobre los componentes (software y hardware) de la red, es una aplicación de la
teoría abstracta de las probabilidades y los procesos estocásticos que constituye toda una
nueva teoría de tráfico. Aunque también tendremos oportunidad de repasar algunas
aplicaciones de nivel físico tales como modulación digital, codificación de fuente y
codificación de canal, el énfasis será en la red como un sistema dinámico sometido a la
aleatoriedad del tráfico.

Se espera que, al finalizar el estudio de este libro, el lector encuentre la teoría de
probabilidad útil para comprender, describir, analizar, diseñar y controlar redes de
comunicaciones y que, como aplicación concreta de la teoría, conozca modelos prácticos
del tráfico sobre redes modernas de comunicaciones y sus efectos sobre los mecanismos
de control de admisión, control de acceso, conmutación y control de congestión.

Para facilitar el estudio, se han enumerado los conceptos, ejemplos y ejercicios de manera
consecutiva, …




   PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
Contenido

I.     Conceptos básicos de teoría de probabilidad
       1. Experimento aleatorio
       2. Regularidad estadística
       3. Espacio muestral
       4. Evento
       5. Conjunto potencia del espacio muestral
       6. Campo-σ de eventos
       7. Mínimo Campo-σ
       8. Campo-σ de Borel, U(R)
       9. Medida de probabilidad
       10. Frecuencia relativa
       11. Espacio de probabilidad
       12. Algunos teoremas elementales derivados de los axiomas 9.1 – 9.3
       13. Probabilidad condicional
       14. Teorema de la probabilidad total
       15. Regla de Bayes
       16. Independencia de eventos
       17. Modelamiento probabilístico
       18. Sobre los conceptos de aleatoriedad y probabilidad
II.    Conceptos Básicos de Variables aleatorias
       19. Variable aleatoria
       20. Función de distribución acumulativa de probabilidad
       21. Propiedades de la función de distribución acumulativa de probabilidad
       22. Probabilidad de algunos subconjuntos de R
       23. Variables Aleatorias Continuas y Discretas
       24. Función de distribución de probabilidad, pmf
       25. Función de densidad de probabilidad, pdf
       26. Propiedades de la pdf y la pmf
       27. Valor esperado de una variable aleatoria
       28. Función de una variable aleatoria
       29. pdf de una función de una variable aleatoria
       30. Valor esperado de una función de una variable aleatoria
       31. Varianza de una variable aleatoria
       32. Propiedades del Valor Esperado y la Varianza de una Variable Aleatoria
       33. Momentos de una Variable Aleatoria
       34. Algunas variables aleatorias discretas: Rango, Distribución, valor esperado y
           varianza (Bernoulli, geométrica, binomial, Poisson, uniforme discreta)
       35. Algunas variables aleatorias continuas: Rango, Distribución, valor esperado y
           varianza (uniforme continua, exponencial, Erlang, gaussiana, Pareto, gamma,
           Weibull, lognormal, beta, Cauchy, Pascal, Laplace, chi-cuadrado, t de
           student, Rice, Rayleigh, Pareto)
       36. Función característica
       37. Función generadora de momentos




      PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
38. Función generadora de probabilidad
     39. Cola de una distribución. Cola pesada
     40. Desigualdad de Markov
     41. Desigualdad de Chebyshev
     42. Desigualdad de Chernov. Cotas de Chernov
     43. Generación de muestras pseudos-aleatorias con distintas distribuciones
III. Vectores aleatorios
     44. Vector aleatorio bidimensional
     45. Función de distribución acumulativa conjunta
     46. Propiedades de la función de distribución acumulativa conjunta
     47. Función de distribución acumulativa marginal
     48. Función de densidad de probabilidad conjunta
     49. Propiedades de la función de densidad de probabilidad conjunta
     50. Función de densidad de probabilidad marginal
     51. Función de distribución de probabilidad conjunta
     52. Propiedades de la función de distribución de probabilidad conjunta
     53. Función de distribución de probabilidad marginal
     54. Función de distribución acumulativa condicional
     55. Función de densidad de probabilidad condicional
     56. Función de distribución de probabilidad condicional
     57. Probabilidad total
     58. Independencia de dos variables aleatorias
     59. Combinación lineal de dos variables aleatorias
     60. Suma de variables aleatorias independientes. La suma y la integral de
          convolución.
     61. Función de dos variables aleatorias
     62. Momentos conjuntos de dos variables aleatorias. Covarianza, coeficiente de
          correlación, correlación.
     63. Ortogonalidad. Interpretación geométrica
     64. Esperanza condicional
     65. Extensiones a más de dos variables.
     66. Principio de ortogonalidad.
     67. Predicción lineal. Ecuaciones normales.
     68. Estimación de máxima verosimilitud
     69. Generación de muestras pseudos-aleatorias de vectores aleatorios
IV. Secuencias de variables aleatorias
     70. Secuencia de v.a. independientes e idénticamente distribuidas
     71. Sumas de v.a. i.i.d: pdf, media, varianza
     72. Sumas de v.a. i.i.d. con un número aleatorio de términos
     73. Tiempos de detenimiento y Desigualdades de Wald
     74. Ley débil de los grandes números
     75. Ley fuerte de los grandes números
     76. Teorema del límite central
     77. Convergencia de secuencias de v.a.
     78. Convergencias segura
     79. Convergencia casi segura o con probabilidad 1




   PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
80. Convergencia en probabilidad
      81. Convergencia en media cuadrada
      82. Convergencia en distribución
      83. Relaciones entre los distintos modos de convergencia
      84. Lemmas de Borel-Cantelli
V.    Conceptos Básicos de Procesos Estocásticos
      85. Proceso Estocástico
      86. Clasificación por espacio de estados y parámetro de tiempo
      87. CDF y pdf conjuntas
      88. Funciones de esperanza, autocovarianza y correlacion
      89. Procesos con incrementos independientes
      90. Procesos estacionarios
      91. Caminata aleatoria
      92. Continuidad
      93. Derivadas e Integrales estocásticas
      94. Ergodicidad en la media
      95. Ergodicidad en la autocorrelación
      96. Procesos Gaussianos
      97. Proceso de Poisson
      98.
(…)




VI. Procesamiento Estadístico de Señales
    99. Espectro de Potencia
    100. Ruido Blanco
    101. Filtrado de Procesos Estocásticos mediante sistemas lineales e invariantes en
         el tiempo
    102. Modelamiento de Señales
    103. Procesos Autoregresivos de promedios móviles
    104. Filtro Wiener
    105. Filtro Kalman
    106. Estimación no parámetrica del espectro de potencia
    107. Métodos basados en el periodograma
    108. Métodos basados en la minimización de la varianza
    109. Métodos basados en la maximización de la entropía
    110. Estimación paramétrica del espectro de potencia
    111. Estimación autoregresiva
    112. Estimación de Promedios móviles
    113. Estimación autoregresiva de promedios móviles
    114. Detección de tonos en ruido blanco
    115. Eigendescomposición de la matriz de autocorrelación
    116. Método de Pisarenko




     PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
117. Método MUSIC
      118. Análisis de componentes principales
VII. Introducción a la Teoría de la Estimación y la Detección
      119. Pruebas de Hipótesis
      120. Pruebas Bayesianas
      121. Pruebas MiniMax
      122. Pruebas Neyman-Pearson
      123. Pruebas Compuestas
VIII. Cadenas de Markov
IX. Teoría de Colas
X. Caracterizacion de Tráfico con dependencia de rango corto
XI. Caracterizacion de Tráfico con dependencia de rango largo
XII. Garantías de Calidad en Redes Modernas de Comunicaciones
XIII. Introducción a la Simulación de Eventos Discretos




   PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
200 Conceptos de Probabilidad, Variables Aleatorias y                                   1
Procesos Estocásticos en Redes de Comunicaciones


       I.        Conceptos Básicos de Teoría de Probabilidad
1. Experimento aleatorio

     Un experimento es un proceso de observación mediante el cual se selecciona un
     elemento de un conjunto de posibles resultados. Un experimento aleatorio es
     aquel en el que el resultado no se puede predecir con anterioridad a la
     realización misma del experimento.

Los ejemplos típicos de los cursos de probabilidad incluyen lanzar una moneda, que
equivale a seleccionar un elemento del conjunto {cara, sello}, lanzar un dado, que
equivale a seleccionar un elemento del conjunto {1,2,3,4,5,6}, o escoger una carta de la
baraja de naipes, que equivale a seleccionar un elemento del conjunto {(f,n) : f∈{picas,
tréboles, corazones, diamantes}, n∈{1,2,3,4,5,6,7,8,9,10,J,Q,K}}. Otros ejemplos más
interesantes para nosotros incluyen medir la tasa de pérdida de paquetes en una
conversación VoIP, que equivale a seleccionar un elemento del conjunto {x∈R | 0 ≤ x ≤
1}, medir el retardo de un paquete de voz en esa misma conversación, que equivale a
seleccionar un elemento del conjunto R+ (los reales positivos), o verificar el estado de
ocupación de un canal de comunicaciones, que equivale a seleccionar un elemento del
conjunto {libre, ocupado}.

En un experimento aleatorio, aunque se mantengan constantes las condiciones bajo las
cuales se realizan diferentes instancias del mismo, el resultado no se puede predecir con
anterioridad a la realización del experimento. Por ejemplo, como vimos en la
introducción, generalmente no es posible predecir el caudal, el tamaño del archivo ni el
tiempo de transferencia en una transacción ftp, lo que indica que transferir un archivo de
un servidor a un cliente mediante ftp constituye un experimento aleatorio. Igualmente, si
desde la ventana de comandos de nuestro PC ejecutamos la instrucción
            C:>netstat –e 10 > estadisticas.txt

y navegamos por Internet por algunos minutos, generaremos un archivo con algunas
estadísticas de la red, incluyendo el número de bytes que se han recibido en períodos de
diez segundos. La figura 1 presenta una gráfica del número de bytes recibidos durante
varios períodos en una instancia del experimento. Evidentemente, no estamos en
condiciones de predecir cuántos bytes llegarán en el siguiente período, aún cuando
podemos afirmar que, por ejemplo, sería muy extraño si llegaran más de 150 kbytes y, en
cambio, sí sería de esperar que fueran más de 10 kbytes. De cualquier manera, queda
claro que observar el número de bytes recibidos en 10 segundos mientras se navega por
Internet constituye un experimento aleatorio.




     PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
200 Conceptos de Probabilidad, Variables Aleatorias y                                                                       2
Procesos Estocásticos en Redes de Comunicaciones

                                                     4
                                                 x 10                    Experimento netstat
                                            14


                                            12



                                            10

                Numero de bytes / periodo
                                            8


                                            6



                                            4



                                            2



                                            0
                                                 0       20   40   60   80         100        120   140   160   180   200
                                                                             Periodos de 10 s




Figura 1. Observar el número de bytes que llegan de la red en un período de 10 segundos
           constituye un buen ejemplo de lo que es un experimento aleatorio.

¿Porqué no podemos predecir el resultado de un experimento aleatorio? En principio, esta
pregunta ha desvelado a muchos científicos de muchas maneras distintas. Las siguientes
son tres posibles razones: (1) Desconocemos las leyes naturales que rigen el experimento,
(2) conocemos dichas leyes pero son tan complejas que nos es imposible –o resulta
indeseable- evaluarlas, (3) existe una indeterminación básica en el universo. La tercera
razón es propia de la mecánica cuántica, en la que cada partícula se describe mediante
una función de onda que representa la incertidumbre en su posición y su velocidad en
cada instante. Las primeras dos razones, en cambio, hablan de nuestra ignorancia, lo que
haría de la aleatoriedad un concepto subjetivo. La definición 19 trata de estos aspectos.
Lo cierto es que, como muestran los experimentos netstat o ftp, ni siquiera el más
experto ingeniero conocedor de los más íntimos detalles de la implementación de cada
protocolo de una red de comunicaciones a todos los niveles de su jerarquía funcional
podría predecir los instantes en que cada usuario de la red generará demandas o la
magnitud de esas demandas. En consecuencia, aunque una mente privilegiada con
infinitos poderes divinos pudiera considerar una red de comunicaciones como un sistema
determinístico, a nosotros, pobres mortales, nos toca aceptar nuestra incertidumbre sobre
el comportamiento de la red y conformarnos con el hecho de que, al observar la red,
estamos llevando a cabo un experimento aleatorio.

2. Frecuencia Relativa
     Sea A un subconjunto del conjunto de posibles resultados de un experimento
     aleatorio. Si repetimos N veces el experimento y observamos que en NA de esas
     repeticiones se obtuvo un elemento de A, decimos que fN(A) = NA/N es la
     frecuencia relativa del subconjunto A en esas N repeticiones del experimento.




     PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
200 Conceptos de Probabilidad, Variables Aleatorias y                                        3
Procesos Estocásticos en Redes de Comunicaciones


Nótese que la notación es muy imprecisa pues fN(A) no es una función de A subindicada
por N. En efecto, en una secuencia diferente de N repeticiones del mismo experimento
podríamos obtener un valor distinto de fN(A). Por ejemplo, considérense las siguientes dos
secuencias de 10 lanzadas de un dado (el listado 1 muestra cómo lanzar dados en matlab):

Secuencia 1 : 2                 4         2             2   1   5   3   6      3       3
Secuencia 2 : 6                 4         2             5   6   1   5   3      5       4

Si observamos la frecuencia relativa del subconjunto A = {el resultado es menor que
cuatro} = {1, 2, 3} obtenemos que f10(A) = 0.7 en la primera secuencia y f10(A) = 0.3 en la
segunda secuencia, mientras que, considerando las dos secuencias conjuntamente,
obtenemos f20(A) = 0.5. Con respecto al subconjunto B = {el resultado es un número par}
= {2, 4, 6}, en cada secuencia individual se obtiene f10(B) = 0.5 al igual que en la
secuencia conjunta, f20(B) = 0.5.

Afortunadamente, en muchas ocasiones las frecuencias relativas observadas en diferentes
secuencias de experimentos parecen converger a un número muy preciso a medida que el
número de repeticiones aumenta en cada secuencia, como se menciona a continuación.

3. Regularidad estadística
     La regularidad estadística es la propiedad que tienen muchos experimentos
     aleatorios según la cual, al repetir el experimento un gran número de veces
     bajo condiciones constantes, algunas estadísticas de los resultados obtenidos,
     como la frecuencia relativa de algún subconjunto de ellos, parecen tender a
     valores precisos a medida que aumenta el número de repeticiones.

Aceptar con humildad nuestra incapacidad de predecir el comportamiento de una red de
comunicaciones no quiere decir que debamos considerar imposible el diseño de dichas
redes con estrictos requerimientos de desempeño. Al contrario, lo que debemos hacer (y
lo que han hecho los ingenieros de redes de comunicaciones en los últimos 150 años) es
tratar de cuantificar nuestra incertidumbre para así poder usarla como una herramienta a
nuestro favor. Afortunadamente, muchos experimentos aleatorios presentan cierta
regularidad estadística que facilitan la cuantificación de nuestra incertidumbre.

Considérese, por ejemplo, el experimento netstat de la figura 1. Supongamos que
después de haber observado el número de bytes recibidos durante n períodos de 10
segundos medimos la fracción de períodos en los que llegaron más de 40 kbytes y menos
de 60 kbytes. Esta fracción es la frecuencia relativa del evento E = {x∈N : 40000 < x <
60000},
                                              1 n
                                   f n ( E ) = ∑ 1 ( xi ∈ E )
                                              n i =1
donde xi es el número de bytes recibidos en el i-ésimo período de 10 s y 1(s) es la función
indicadora de la sentencia s, igual a 1 si la sentencia s es cierta e igual a 0 si la sentencia
s es falsa. La figura 2 muestra una gráfica de fn(E) vs n, en la que se puede apreciar cómo




     PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
200 Conceptos de Probabilidad, Variables Aleatorias y                                                                                                  4
Procesos Estocásticos en Redes de Comunicaciones


fn(E) parece tender a algún valor específico a medida que aumentamos el número de
experimentos, n. (El listado 2 muestra un programa en matlab que genera gráficas como
las de las figuras 1 y 2 a partir del archivo estadisticas.txt producido por la
instrucción netstat –e 10 >estadisticas.txt).

Es precisamente la regularidad estadística la que nos permite estudiar con rigurosidad los
experimentos aleatorios que a diario tiene que realizar un ingeniero a cargo de una red de
comunicaciones, pues ella nos permite saber que, a la larga, se pueden esperar
comportamientos claramente predecibles. Por ejemplo, si la persona que estuvo
navegando por la web durante los 33 minutos que duró el experimento netstat de la
figura 1 sigue haciendo el mismo tipo de consultas durante los siguientes 33 minutos,
podríamos afirmar con un alto grado de certeza que “en cerca del 72% de los períodos de
10 s, se espera que lleguen entre 40 y 60 kbytes”.

La teoría de la probabilidades pretende estudiar estas tendencias observadas en las
estadísticas que se pueden asociar con un gran número de repeticiones de un experimento
aleatorio, pero librándonos de términos imprecisos como “a la larga”, “se espera que”,
“cerca de”, etc. Por ejemplo, la teoría de probabilidades querría que dijéramos que “con
una confianza del 72%, en el próximo período de 10 s llegarán entre 40 y 60 kbytes”. Así
pues, es la regularidad estadística de muchos experimentos aleatorios la que le permite a
la teoría de la probabilidad convertirse en una herramienta para cuantificar nuestra
incertidumbre.
                                                                                                    Experimento netstat
                                                                          0.8
                 Fraccion de periodos con llegadas entre 40 y 60 kbytes




                                                                          0.7


                                                                          0.6


                                                                          0.5


                                                                          0.4


                                                                          0.3


                                                                          0.2


                                                                          0.1


                                                                           0
                                                                                0   20   40   60   80         100        120   140   160   180   200
                                                                                                        Periodos de 10 s


  Figura 2. Aunque no podemos predecir el número de bytes que llegarán de la red en el
   próximo período de 10 segundos, podemos afirmar que cerca del 72% del tiempo se
                          reciben entre 40 kbytes y 60 kbytes.

4. Espacio Muestral
     El espacio muestral de un experimento aleatorio es el conjunto de todos los
     posibles resultados que podrían observarse en una realización del experimento.




     PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
200 Conceptos de Probabilidad, Variables Aleatorias y                                  5
Procesos Estocásticos en Redes de Comunicaciones


Cuando definimos un experimento como un proceso de observación mediante el cual se
selecciona un elemento de un conjunto de posibles resultados, queda claro que, si
queremos especificar adecuadamente un experimento, lo primero que debemos describir
con precisión es ese conjunto de posibles resultados. En este libro, como es costumbre en
la mayoría de textos sobre probabilidades, denotaremos el espacio muestral mediante la
letra griega mayúscula Ω (ómega) y sus elementos, de manera genérica, se denotarán
mediante la correspondiente letra minúscula ω. Algunos ejemplos que ya se mencionaron
en la definición 1 son
1. Lanzar una moneda y ver qué lado queda hacia arriba: Ω = {cara, sello}.
2. Lanzar un dado y contar los puntos en la cara que queda hacia arriba:
    Ω = {1,2,3,4,5,6}.
3. Escoger una carta de la baraja de naipes: Ω = {picas, tréboles, corazones,
    diamantes}×{1,2,3,4,5,6,7,8,9,10,J,Q,K}, donde × representa el producto cartesiano
    entre los dos conjuntos. (Observe que, aunque existen una diferencia de notación con
    respecto a la utilizada en la definición 1, sigue siendo el mismo espacio muestral).
4. Medir la fracción de paquetes perdidos durante una hora en una red IP:
    Ω = {x∈R : 0 ≤ x ≤ 1}.
5. Medir el retardo experimentado por un paquete de datos mientras transita por una red
    IP: Ω = R+ = { x∈R : x > 0}.
6. Verificar el estado de ocupación de un canal de comunicaciones:
    Ω = {libre, ocupado}.

Pero podemos pensar en muchos más:

7. Se cuenta el número de canales libres en un enlace E1: Ω = {0,1,2,…,32}.
8. Se mira el estado de ocupación de cada uno de los canales en un enlace E1 : Ω =
    {libre, ocupado}32. La potencia indica que se deben ejecutar 32 productos cartesianos
    del conjunto {libre, ocupado} con sigo mismo, con lo que se construye el conjunto de
    todas las cadenas de 32 símbolos en las que cada símbolo puede tomar uno de los
    valores libre u ocupado. Nótese que, aunque el experimento parece sencillo, la
    cardinalidad del espacio muestral (su número de elementos) es mayor a cuatro mil
    millones (|Ω | = 4.294’967.296).
9. Se determina si un bit, transmitido sobre un canal de comunicaciones, llega
    correctamente al otro lado: Ω = {si, no}
10. Se cuenta el número de transmisiones que requiere un paquete de datos hasta llegar
    correctamente a su destino: Ω = {1,2,3,…}
11. Se cuenta el número de bits recibidos con error en una trama de L bits que llega a
    través de un canal ruidoso: Ω = {0,1,2,…,L}
12. Se mide durante una hora la fracción de tiempo que un enlace de comunicaciones
    permanece ocupado: Ω = {x∈R : 0 ≤ x ≤ 1}.
13. Se cuenta el número de paquetes que llegan a un enrutador de una red de
    comunicaciones durante un período de una hora: Ω = {0,1,2,…}.
14. Se mide el tiempo que transcurre entre la llegada de dos paquetes consecutivos a un
    enrutador de una red de comunicaciones: Ω = R+ = { x∈R : x > 0}.




     PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
200 Conceptos de Probabilidad, Variables Aleatorias y                                                                                                6
Procesos Estocásticos en Redes de Comunicaciones


Otros pueden ser más elaborados:

15. Un transmisor envía una señal senoidal a través de un canal con ruido aditivo y en el
    receptor se toman N∈N muestras de la señal recibida, una cada Ts∈R segundos:
    Ω = { y ∈ ℝ N : yn = A sin ( 2π f ( nTs ) + φ ) + ε n , A ∈ ℝ , f ∈ ℝ ,φ ∈ ℝ , ε ∈ ℝ N , n ∈ {0,1,..., N − 1}}
    Esto es, las operaciones en el transmisor, el canal y el receptor constituyen un proceso
    de observación mediante el cual seleccionamos uno de todos los vectores N-
    dimensionales que corresponden a N muestras de una señal con amplitud, frecuencia
    y fase desconocidas, sumergida en ruido aditivo.
16. Se entrena una red neuronal feed-forward con n1 entradas, n2 neuronas en la capa
    escondida y una neurona en la capa de salida para que detecte un ataque DoS (Denial
    of Service) a partir de n1 características obtenidas del tráfico dirigido a un servidor
    web durante la última media hora:
          
                                            n2         n1                                                                               
                                                                                                                                             
      Ω = ( f : R n1 → {0,1}) : f ( x) = 1  ∑ wi tanh  ∑ v j ,i x j − vn1 +1,i  ≥ wn2 +1  , x ∈ R n1 , v ∈ R n1 +1 × R n2 , w ∈ R n2 +1 
                                             i =1                                           
          
                                                       j =1                                                                             
                                                                                                                                             
    Esto es, el algoritmo de entrenamiento es un proceso de observación mediante el cual
    seleccionamos una de todas las posibles funciones que puede evaluar una red
    neuronal con la estructura propuesta.
17. Se corre un algoritmo de enrutamiento para encontrar una ruta adecuada entre una
    fuente y un destino conectados mediante una red IP:
    Para describir un posible espacio muestral para este experimento, consideremos que
    la red está compuesta por un conjunto de N>1 enrutadores, numerados de 1 a N,
    donde la fuente está conectada al enrutador 1, el destino está conectado al enrutador N
    y una matriz de adyacencias ANxN describe la existencia de enlaces entre los
    enrutadores, de manera que Ai,j = 1 si los nodos i y j están conectados por un enlace o
    Ai,j = 0 si no lo están.
    Ω = {(1 = n1 , n2 , n3 ..., nk = N ) : ( 2 ≤ k ≤ N ) , (1 < ni < N , i = 2,3,..., k − 1) , ( An ,n = 1, i = 1, 2,..., k − 1) , ( ni ≠ n j , i ≠ j )}
                                                                                                     i   i +1


    Esto es, la ejecución del algoritmo de enrutamiento es un proceso de observación
    mediante el cual se escoge una de todas las posibles secuencias de enrutadores
    adyacentes que empiezan con el enrutador 1 y terminan con el enrutador N, en las que
    no hay enrutadores repetidos.

Nótese que, aunque cada experimento aleatorio puede tener solamente un espacio
muestral, la ignorancia del modelador respecto a detalles particulares del experimento le
puede llevar a considerar espacios muestrales más grandes, lo cual no está mal mientras
el espacio muestral supuesto por el modelador, Ωm, contenga al espacio muestral
verdadero, Ωv. En efecto, en ese caso, simplemente los “posibles resultados”
pertenecientes a Ω m – Ωv nunca ocurrirán. Por ejemplo, en el experimento 7, un
modelador con mayor conocimiento a priori podría saber que ese canal E1 hace parte de
una red PCM para telefonía, en cuyo caso reduciría su espacio muestral a Ω =
{0,1,2,…,30} si sabe que el canal 0 siempre está ocupado con bits de sincronización y el
canal 16 siempre está ocupado con bits de señalización. Igualmente, en el experimento 5,
algún modelador podría saber cuál es la mínima longitud de los paquetes, L bits, y la
máxima capacidad de la ruta, C bps, con lo que podría reducir el espacio muestral a Ω =




      PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
200 Conceptos de Probabilidad, Variables Aleatorias y                                  7
Procesos Estocásticos en Redes de Comunicaciones


{x∈R : x ≥ L/C}. Cabe anotar que, en muchas ocasiones, un modelador con una gran
cantidad de conocimiento a priori que le permita encontrar un conjunto Ωm muy cercano
a Ω v, puede decidir escoger un espacio muestral aún mayor a Ω m con el único propósito
de simplificar el tratamiento analítico posterior. Por ejemplo, como el número de
paquetes que llegan en una hora es un número entero, un modelador podría saber que en
el experimento 4 un espacio muestral más cercano al verdadero está contenido en {m/n ∈
Q+ : n ≥ m, n ≤ 3600 C / L}, donde Q+ son los números racionales no negativos, L es el
mínimo tamaño de los paquetes en bits y C es la suma de las capacidades de todos los
enlaces en bps. Sin embargo, parece intuitivamente claro que podría ser más fácil
considerar el espacio muestral propuesto anteriormente, el intervalo real [0,1].
La figura 3 muestra un diagrama de Venn que incluye el conjunto j compuesto por
todos los posibles resultados de todos los posibles experimentos (¿cuán grande es este
conjunto?) y, en él, algunos campos muestrales asignados a un experimento particular,
Ωv ⊂ Ω1 ⊂ Ω2 ⊂ Ω3 y Ω 4. El verdadero espacio muestral, Ω v, puede ser un conjunto muy
complejo. Ω 1 es el espacio muestral que podría seleccionar un modelador juicioso con
una gran cantidad de conocimiento a priori. Ω2 es el espacio muestral que decidiría
seleccionar este mismo modelador para facilitar el análisis posterior. Ω3 es el espacio
muestral seleccionado por otro modelador igualmente juicioso pero que tiene muy poco
conocimiento a priori. Por último, Ω 4 es el espacio muestral que seleccionaría un
modelador poco juicioso y muy desafortunado, pues no podrá llegar a ningún destino útil
por haber empezado parándose sobre arenas movedizas (a menos, claro está, que él sepa
que su espacio muestral puede no incluir al verdadero y, en cada paso del análisis,
mantenga presente los posibles efectos de este error. Esto es lo que hace el diseñador de
una red neuronal, por ejemplo, cuando busca en el espacio de las funciones calculables
por la red una que reproduzca el procedimiento que genera los datos de entrenamiento).
                                j                       Ω3 Ω
                                                            2   Ω1 Ω
                                                                    v




                                                                        Ω4



           Figura 3. Algunos espacios muestrales asignados a un mismo experimento

5. Evento

     Un evento es un subconjunto del espacio muestral de un experimento aleatorio.

El evento A ⊂ Ω ocurre al realizar una instancia del experimento si el resultado obtenido
pertenece a A, ω ∈ A.




     PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
200 Conceptos de Probabilidad, Variables Aleatorias y                                   8
Procesos Estocásticos en Redes de Comunicaciones


Supongamos, por ejemplo, que medimos la fracción de paquetes perdidos en una
videoconferencia, de manera que los posibles resultados son Ω = {x∈R : 0 ≤ x ≤ 1}. Si
nos interesa satisfacer un requerimiento de calidad de servicio según el cual no se pueden
perder más del 0.1% de los paquetes, deberíamos buscar que una fracción importante de
las instancias del experimento correspondieran a elementos del subconjunto A = { x∈Ω :
x ≤ 0.001}.
De la misma manera, en cada uno de los experimentos propuesto en el punto 3 podemos
definir algunos eventos apropiados:
1. Lanzar una moneda y ver qué lado queda hacia arriba: Los posibles eventos de interés
    incluyen a los subconjuntos unitarios de Ω , A={cara} y B={sello}. No sobra recordar
    que, mientras cara es un posible resultado del experimento, esto es, un elemento de
    Ω, {cara} es un subconjunto unitario de Ω. ¡Y es muy importante reconocer la
    diferencia! De otro lado, además de los eventos A y B mencionados antes hay otros
    dos posibles eventos : Ω (el evento cierto) y Φ, (vacío o el evento nulo), pues ellos
    dos siempre son subconjuntos de Ω.
2. Lanzar un dado y contar los puntos en la cara que queda hacia arriba:
    En el espacio muestral Ω = {1,2,3,4,5,6} están incluidos conjuntos como A = {hay
    más de tres puntos} = {4,5,6} y B = {hay un número par de puntos} = {2,4,6}.
3. Escoger una carta de la baraja de naipes: En el espacio muestral descrito antes están
    contenidos, por ejemplo, los eventos A = {Una figura de pinta roja} = {corazones,
    diamantes}×{J,Q,K} y B = {Un as negro} = {(picas, 1), (tréboles, 1)}.
4. Medir la fracción de paquetes perdidos durante una hora en una red IP:
    El espacio muestral es el intervalo [0,1] de la recta real, donde podemos definir un
    evento A que dispararía una alarma en el centro de gestión de la red, Α = {x∈[0,1] :
    0.1 ≤ x }: ¡En la última hora se perdió más del 10% de los paquetes!
5. Medir el retardo experimentado por un paquete de voz mientras transita por una red
    IP dotada con mecanismos VoIP: En este caso, como un paquete que llegue con más
    de 100 ms (p.ej.) de retardo es descartado en el receptor, un evento de gran interés
    sería A = {x∈Ω : x > 0.1} = {El paquete no alcanza a ser reproducido en el
    receptor}.
6. Verificar el estado de ocupación de un canal de comunicaciones: Como en el ejemplo
    1, los posibles eventos de interés son los subconjuntos unitarios {libre} y {ocupado},
    que son diferentes a los elementos de Ω, libre y ocupado.
7. Se cuenta el número de canales libres en un enlace E1: Si una videoconferencia
    requiere 384 kbps, un evento de interés podría ser A = {Se puede establecer una
    videoconferencia} = {6,7,8,…,32}.
8. Se mira el estado de ocupación de cada uno de los canales en un enlace E1 : Ω =
    {Libre, Ocupado}32. Si definimos 33 eventos diferentes [Xi = {Hay i canales libres},
    i=0,1,2,…,32], estaríamos “reconstruyendo” el experimento 7. Sin embargo, mientras
    “16 canales libres” es un elemento del espacio muestral del experimento 7, en el
    experimento 8 se trata de un evento (un subconjunto del espacio muestral) compuesto
    por ¡601’080.390 elementos!
9. Se determina si un bit, transmitido sobre un canal de comunicaciones, llega
    correctamente al otro lado: Ω = {si, no}. Como en el experimento 1, no tenemos
    muchos más eventos que los unitarios {si} y {no}, aunque siempre podemos escoger
    también el evento cierto y el evento Nulo.



     PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
200 Conceptos de Probabilidad, Variables Aleatorias y                                                                                      9
Procesos Estocásticos en Redes de Comunicaciones


10. Se cuenta el número de transmisiones (a través de un canal ruidoso) que requiere un
    paquete de datos hasta llegar correctamente a su destino: Ω = {1,2,3,…}. El evento
    {No hay errores de transmisión} corresponde al subconjunto unitario {1}.
11. Se cuenta el número de bits con errores en una trama de L bits que se recibe de un
    canal ruidoso: Ω = {0,1,2,…,L}. El evento {Es necesario retransmitir el paquete}
    corresponde al subconjunto {1,2,3,…,L} = {0}C, donde el superíndice C indica
    complemento en Ω : Será necesario retransmitir el paquete si se daña al menos un bit.
12. Se mide durante una hora la fracción de tiempo que un enlace de comunicaciones
    permanece ocupado: Ω = {x∈R : 0 ≤ x ≤ 1}. Un posible criterio de gestión de la red
    podría llamar al evento {x∈Ω : x ≥ 0.8} como {Es necesario dispersar el tráfico que
    cursa sobre el enlace}.
13. Se cuenta el número de paquetes que llegan a un enrutador de una red de
    comunicaciones durante una hora: Ω = {0,1,2,…}. Si el enrutador es capaz de
    atender hasta µ paquetes por hora, un evento de sumo interés para el administrador de
    la red será A = {n∈Ω : n > µ}, pues la ocurrencia del evento A indica que el enrutador
    está experimentando congestión.
14. Se mide el tiempo que transcurre entre la llegada de dos paquetes consecutivos a un
    enlace de una red de comunicaciones: Ω = R+ = { x∈R : x > 0}. ¿Cuál sería el evento
    A={Cuando llega el segundo paquete, el primer paquete ya ha sido transmitido}? La
    respuesta puede no ser fácil porque depende del estado del enlace (cuántos paquetes
    había en espera de servicio) cuando llegó el primer paquete, cuya observación
    constituye otro experimento aleatorio. Sin embargo, si la longitud mínima de los
    paquetes es L bits y la capacidad del enlace es C bps, sabemos con seguridad que el
    evento que nos preguntan está contenido en otro evento mayor, A ⊆ B = {x∈Ω : x >
    L/C}.
15. Un transmisor envía una señal senoidal a través de un canal con ruido aditivo y en el
    receptor se toman N∈N muestras de la señal recibida, una cada Ts∈R segundos:
    Ω = { y ∈ ℝ N : yn = A sin ( 2π f ( nTs ) + φ ) + ε n , A ∈ ℝ, f ∈ ℝ,φ ∈ ℝ, ε ∈ ℝ N , n ∈ {0,1,..., N − 1}}
     La detección de la señal en el receptor se hace más difícil entre menor sea la relación
                                                                                                                          N −1
     entre la potencia de la señal, Ps = A2/2, y la potencia del ruido, PN = 1                                            ∑ε     2
                                                                                                                                 n
                                                                                                                                     , por lo
                                                                                                                      N   n=0

    que un evento de interés para el diseñador del receptor sería, por ejemplo, R = {y∈Ω :
    Ps>PN}.
16. Se entrena una red neuronal feed-forward con n1 entradas, n2 neuronas en la capa
    escondida y una neurona en la capa de salida para que detecte un ataque DoS (Denial
    of Service) a partir de n1 características obtenidas del tráfico dirigido a un servidor
    web durante la última media hora:
         
                                           n2         n1                                                                               
                                                                                                                                            
     Ω = ( f : R n1 → {0,1}) : f ( x) = 1  ∑ wi tanh  ∑ v j ,i x j − vn1 +1,i  ≥ wn2 +1  , x ∈ R n1 , v ∈ R n1 +1 × R n2 , w ∈ R n2 +1 
                                            i =1                                           
         
                                                      j =1                                                                             
                                                                                                                                            
     Si se tomaron N muestras {xi∈Rn1, i = 0, …, N-1}, unas bajo condiciones normales de
     operación, a las cuales asignamos yi=0, y otras bajo condiciones de ataque, a las
     cuales asignamos yi=1, podríamos querer obtener un resultado perteneciente al evento
     A = {La red se equivoca en menos del 10% de las muestras de prueba} o




     PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
200 Conceptos de Probabilidad, Variables Aleatorias y                                                                                              10
Procesos Estocásticos en Redes de Comunicaciones

                                                                           N −1
                                                               1                                    
                                                   A =  f ∈Ω :
                                                               N
                                                                           ∑
                                                                           n=0
                                                                                  f ( xi ) − yi < 0.1
                                                                                                     
      Si descubriésemos que este evento es el conjunto vacío, deberíamos modificar la
      estructura de la red o rebajar nuestra exigencia del 90% de aciertos.

17. Se corre un algoritmo de enrutamiento para encontrar una ruta adecuada entre una
    fuente y un destino conectados mediante una red IP. De acuerdo con la nomenclatura
    utilizada para este experimento en la definición anterior, el espacio muestral es:
    Ω = {(1 = n1 , n2 , n3 ..., nk = N ) : ( 2 ≤ k ≤ N ) , (1 < ni < N , i = 2,3,..., k − 1) , ( An ,n = 1, i = 1, 2,..., k − 1) , ( ni ≠ n j , i ≠ j )}
                                                                                                     i   i +1


    Como uno de los criterios típicos para los algoritmos de enrutamiento es que el
    número de saltos en la ruta sea lo más pequeño posible, un evento de interés sería el
    conjunto de rutas con menos de H saltos, A = {R ∈ Ω : |R| ≤ H}, pues entre los
    elementos de ese subconjunto podríamos buscar rutas con características adicionales
    en cuanto a mínimo ancho de banda, máxima latencia, etc. (obsérvese que |R| es el
    número de nodos en la ruta, de manera que |R| ≤ H implica que el número de saltos es
    estrictamente menor que H).

6. Conjunto Potencia de Ω, {0,1}Ω

      El Conjunto Potencia de Ω es el conjunto de todos los posibles eventos, esto es,
      la clase de conjuntos conformada por todos los subconjuntos contenidos en
      Ω, {0,1} Ω = {A : A⊆Ω }.

En aquellos experimentos aleatorios en los que el espacio muestral tiene una cardinalidad
finita, es legítimo pensar en enumerar todos los posibles eventos que pueden ocurrir, esto
es, todos los posibles subconjuntos de Ω. Para construir esta clase de conjuntos basta con
considerar todas las secuencias binarias de |Ω | bits, donde |Ω | es la cardinalidad de Ω, de
manera que a cada posición en la secuencia le corresponde un elemento de Ω. Así, con
cada secuencia construimos un subconjunto conformado por los elementos asociados con
un uno en la posición correspondiente de la secuencia. Por ejemplo a la secuencia 0,
compuesta por |Ω| ceros, le corresponde el conjunto vacío, que siempre es un subconjunto
de cualquier conjunto; a la secuencia 2i-1, con i∈{1,2,…, |Ω|}, compuesta por |Ω |-1 ceros
y un uno en la posición i, le corresponde el evento unitario {ωi}; a la secuencia 2i-1 + 2j-1,
con i,j∈{1,2,…, |Ω|}, i≠j, compuesta por |Ω |-2 ceros y dos unos en las posiciones i y j, le
corresponde el evento binario {ωi, ωj}; a la secuencia 2|Ω |-1, compuesta por |Ω| unos, le
corresponde el espacio muestral mismo que, por definición, es un subconjunto de si
mismo. Debido a esta metodología de construcción, es razonable que al conjunto potencia
del espacio muestral Ω se le denote como {0,1}Ω. Más aún, como en {0,1}Ω hay un
conjunto vacío, |Ω | conjuntos unitarios, (|Ω | 2) conjuntos binarios –donde (m k) es el
número de combinaciones de k elementos escogidos entre m posibles–, (|Ω | 3) conjuntos
                                                                                        Ω
ternarios, etc., la cardinalidad de {0,1}Ω es {0,1}Ω = ∑  Ω  = 2 Ω .
                                                          
                                                                                       n=0    n 




      PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
200 Conceptos de Probabilidad, Variables Aleatorias y                                                           11
Procesos Estocásticos en Redes de Comunicaciones


En el experimento 6 de la definición 4, por ejemplo, en el que verificamos el estado de
ocupación de un canal de comunicaciones, solamente hay dos posibles resultados, por lo
que tenemos solamente cuatro posibles eventos:
                       Libre      Ocupado          Evento
                                     0                  0             Φ
                                     0                  1        {Ocupado}
                                     1                  0         {Libre}
                                     1                  1             Ω
Pero si viéramos el estado de ocupación de dos canales, considerando cada uno
individualmente, tendríamos 16 posibles eventos:
(libre,   (libre,    (ocupado, (ocupado,                Evento
 libre) ocupado)        libre)    ocupado)
   0               0                  0                 0   Φ
   0               0                  0                 1   {No hay canales libres}
   0               0                  1                 0   {(ocupado, libre)}
   0               0                  1                 1   {El primer canal esta ocupado}
   0               1                  0                 0   {(libre, ocupado)}
   0               1                  0                 1   {El segundo canal está ocupado}
   0               1                  1                 0   {Sólo hay un enlace libre}
   0               1                  1                 1   {Al menos un canal está ocupado}
   1               0                  0                 0   {No hay canales ocupados}
   1               0                  0                 1   {Ambos están libres o ambos están ocupados}
   1               0                  1                 0   {El segundo canal está libre}
   1               0                  1                 1   {El primero está ocupado o el segundo está libre}
   1               1                  0                 0   {El primer canal está libre}
   1               1                  0                 1   {El primero está libre o el segundo está ocupado}
   1               1                  1                 0   {Al menos un canal está libre}
   1               1                  1                 1   Ω
Con tres canales tendríamos 256 posibles eventos y con cuatro canales deberíamos
considerar 65536 eventos… En el experimento ocho, por ejemplo, en el que
inocentemente queremos ver el estado de ocupación de cada canal en un enlace E1,
tendríamos 24.294’967.296 posibles eventos, ¡más de 101.000’000.000 eventos! ¡Un uno seguido
por mil millones de ceros! Para hacernos a una idea de la cardinalidad de este conjunto,
consideremos el tamaño del universo: 4×1026 metros (la distancia que ha podido recorrer
la luz desde el BigBang, que son 42 mil millones de años luz, algo más de los 14 mil
millones de años que han transcurrido desde entonces debido a que la expansión cósmica
ha triplicado las distancias). Si el radio del electrón es 2.8×10-15 m, podríamos empacar
cerca de 1041 electrones en el universo, sin dejar ningún espacio entre ellos. Luego, si por
cada posible evento en nuestro experimento sencillo nos regalaran un electrón,
¡necesitaríamos 10999’999.959 universos para almacenarlos! En ese número de universos es
altamente probable encontrar uno idéntico al nuestro, ¡excepto porque nuestro amable
lector tendría otro color de ojos! ¿Cómo nos pudimos meter en un problema tan grande si
sólo queríamos monitorear un simple enlace E1?
De hecho, aunque observar los 32 canales de un inofensivo enlace E1 puede generar un
número mucho más que astronómicamente grande de posibles eventos, todavía se trata de
un conjunto describible (tanto que podemos contar cada uno de sus elementos). Pero,
¿podría el lector imaginarse el conjunto potencia del experimento 14? ¡Es el conjunto de
todos los subconjuntos que se pueden formar con los números reales no negativos! Si los
famélicos 32 canales de un enlace E1 lograrán atemorizarnos de hoy en adelante cada vez
que pasemos cerca de la pequeña PBX de la oficina, ¿qué podría hacer el conjunto de los




       PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
200 Conceptos de Probabilidad, Variables Aleatorias y                                  12
Procesos Estocásticos en Redes de Comunicaciones


números reales? Grandes matemáticos como Bolzano, Cauchy, Weierstrass, Dedekind y
Cantor han estudiado estos “monstruos matemáticos”, algunos de ellos con apreciables
consecuencias en su salud mental. Como nos preocupa la salud mental de nuestros
lectores, resulta conveniente definir el siguiente concepto, campo-σ de eventos. Esto es,
en vez de pretender que se atemorice la próxima vez que vaya a revisar el PBX de la
oficina, sólo queremos motivar al lector a seleccionar un conjunto pequeño de eventos de
interés cada vez que decida modelar un experimento aleatorio.

7. Campo-σ de Eventos

     Un Campo de Eventos, Y , es una clase de subconjuntos de Ω que satisface los
     siguientes axiomas: (1) Y es no vacío, (2) si A∈ Y, AC∈ Y, (3) si A,B∈ Y, A∪B∈
     Y. Un campo-σ de eventos es un campo contablemente aditivo, esto es, que
     satisface la condición adicional (3ª) si {An∈ Y, n=1,2,…}, ∪∞=1 An ∈ Y.
                                                                  n


La idea es que más adelante vamos a definir la probabilidad como una función que le
asigna una medida real a cada evento de interés. Pero una función no queda bien definida
si no especificamos claramente su rango y su dominio. Y, como vimos en la definición 6,
no podemos especificar como dominio el conjunto de todos los posibles eventos, pues en
muchos casos ese conjunto puede ser monstruoso. Sólo cuando el espacio muestral tiene
cardinalidad finita (¡y pequeña!), es posible considerar el conjunto de todos los eventos,
el cual es un campo-σ, evidentemente. Pero tampoco podemos seleccionar algunos pocos
eventos de interés e ignorar el resto si no le damos una estructura al dominio
correspondiente, con el que evitemos llegar rápidamente a inconsistencias. Si nos interesa
el evento A⊆Ω, ¿cómo no nos podría interesar el evento AC = {No sucede A}? O si nos
interesan los eventos A y B ⊆ Ω, ¿cómo no nos podría interesar el evento A∪B = {sucede
por lo menos uno de los dos eventos}? Al cerrar el campo de eventos sobre las uniones y
los complementos, estamos incluyendo en él todos los eventos asociados con los eventos
de interés definidos originalmente, con lo cual podemos asignar medidas de probabilidad
a cada evento sin preocuparnos por inconsistencias, como veremos en la definición 10.
Podemos deducir algunas propiedades adicionales de un campo-σ de eventos a partir de
los axiomas que lo definen. Por ejemplo,
(1) Ω ∈ Y. En efecto, como Y no es vacío, debe contener al menos un evento A y, por el
    segundo axioma, también debe contener a AC. El tercer axioma requiere que la unión
    de cualquier par de miembros de Y pertenezca a Y, por lo que A∪AC = Ω ∈ Y.
(2) Φ∈ Y. Esta propiedad surge de aplicar el segundo axioma a la propiedad anterior.
(3) Si A∈ Y y B∈ Y, A∩B∈ Y. En efecto, por el segundo axioma AC∈ Y y BC∈ Y, por lo
    que el segundo axioma asegura que AC∪BC∈ Y y, aplicando nuevamente el segundo
    axioma, (AC∪BC)C = A∩B∈ Y.
(4) Similarmente, usando los axiomas 2 y 3ª, podemos decir que si {An∈ Y, n=1,2,…},
     ∩∞=1 An ∈ Y.
      n

Así pues, el campo-σ contiene todos los complementos, intersecciones numerables y
uniones numerables de cada uno de los conjuntos que lo componen. La virtud de esta




     PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
200 Conceptos de Probabilidad, Variables Aleatorias y                                   13
Procesos Estocásticos en Redes de Comunicaciones


construcción es que, con ella, podemos desarrollar todas las funciones lógicas Booleanas
sobre los eventos de interés, lo cual nos da la coherencia que necesitamos para
expresarnos de manera lógica respecto a los eventos sin salirnos de nuestro campo de
eventos, pues estos constituyen un álgebra booleana cerrada para la negación, la
conjunción y la disyunción.
Antes de mostrar algunos ejemplos, es conveniente incluir una definición adicional.

8. Mínimo Campo-σ de Eventos

     Dada una clase de eventos V ⊆ {0,1}Ω, el mínimo campo-σ de eventos que
     contiene a V, σ(V), es el campo-σ de menor cardinalidad entre todos los
     campos-σ que lo contienen.

Como sugeríamos al concluir la definición 6, una vez escogidos el experimento aleatorio
y su espacio muestral Ω, lo siguiente por hacer es seleccionar una clase de eventos de
interés, V, y, con esta clase, construir el mínimo campo-σ que contiene a todos los
eventos en V. Este mínimo campo-σ se representa mediante σ(V) y se puede construir
así: Si denotamos f como el conjunto de campos-σ que contienen a V, podemos saber
que f no es vacío pues por lo menos {0,1}Ω es un campo-σ de subconjuntos de Ω que
contiene a V. Definiendo σ(V) como la intersección de todos los campos-σ en f,
sabremos que σ(V) es el mínimo campo-σ que contiene a V. En efecto, si Y 1 y Y 2 son
dos campos-σ que contienen a V, Y 1∩ Y 2 = {A∈ Y 1 : A∈ Y 2} es una clase de eventos
que también contiene a V (pues cada evento en V está tanto en Y 1 como en Y 2) y que
forma un campo-σ porque no es vacío (al menos Ω y Φ pertenece a ambos), si el evento
A pertenece a ambos campos, el evento AC también pertenece a ambos campos, y si los
eventos A y B pertenecen a ambos campos, el evento A∪B también pertenece a ambos
campos. Por supuesto, | Y 1∩ Y 2| ≤ min(|Y 1|, | Y 2|), por lo que la intersección de todos
los campos en f nos da el mínimo campo-σ, σ(V). Siendo así, si { Y n , n=1,2,…} es el
conjunto de todos los campos-σ que contienen a V, σ(V) se puede definir como
           ∞
σ (V ) = ∩ n =1Y n .
       (ojo: teoría de conjuntos, secuencias de conjuntos monótonamente
       crecientes o decrecientes, ínfimos y supremos, límites, etc… ¿Valdrá la
       pena mencionar estos conceptos? Después de todo van a ser muy útiles
       cuando hablemos de convergencia de secuencias de v.a. ¿Tal vez un
       apéndice?)
Como ejemplo, consideremos algunos posibles campos-σ definidos en los 10 primeros
experimentos propuestos anteriormente.
1. Lanzar una moneda y ver qué lado queda hacia arriba: La sencillez del espacio
   muestral sugiere que un campo sigma apropiado es el conjunto potencia. Después de
   todo, la cardinalidad de dicho campo-σ es solamente 4.
2. En el experimento de lanzar un dado y contar los puntos en la cara que queda hacia
   arriba incluimos los conjuntos A = {hay más de tres puntos} = {4,5,6} y B = {hay un




     PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
200 Conceptos de Probabilidad, Variables Aleatorias y                                    14
Procesos Estocásticos en Redes de Comunicaciones


     número par de puntos} = {2,4,6}, con los cuales se puede construir el siguiente
     campo-σ en Ω = {1,2,3,4,5,6}:
     Y = {Φ, {5}, {4,6}, {4,5,6}, {2}, {2,5}, {2,4,6}, {2,4,5,6}, {1,3}, {1,3,5}, {1,3,4,6},
           {1,3,4,5,6}, {1,2,3}, {1,2,3,5}, {1,2,3,4,6}, Ω}
     La cardinalidad de este campo-σ es 16, menor a los 64 eventos del conjunto potencia.
     Obsérvese que otro campo-σ que también contiene a la clase de eventos V ={A,B} es
     el siguiente:
     Z = {Φ, {6}, {5}, {5,6}, {4}, {4,6}, {4,5}, {4,5,6}, {2}, {2,6}, {2,5}, {2,5,6}, {2,4},
           {2,4,6}, {2,4,5}, {2,4,5,6}, {1,3}, {1,3,6}, {1,3,5}, {1,3,5,6}, {1,3,4},
           {1,3,4,6}, {1,3,4,5}, {1,3,4,5,6}, {1,2,3}, {1,2,3,6}, {1,2,3,5}, {1,2,3,5,6},
           {1,2,3,4}, {1,2,3,4,6}, {1,2,3,4,5}, Ω}
     Cuya cardinalidad, 32, sigue siendo menor a |{0,1}Ω|=64. Sin embargo Y = σ(V) es el
     mínimo campo-σ que incluye a los eventos de V. De hecho, nótese que Y = Y ∩ Z.
     Para construir un modelo probabilístico de este experimento en donde sólo interesen
     los eventos en V, es suficiente con asignar medidas de probabilidad a cada uno de los
     eventos de Y y no hace falta asignarle probabilidades a cada evento en Z ni, mucho
     menos, a cada evento en {0,1}Ω.
3.   En el experimento de escoger una carta de la baraja de naipes definimos los eventos A
     = {Una figura de pinta roja} = {corazones, diamantes}×{J,Q,K} y B = {Un as
     negro} = {(picas,1), (tréboles,1)}. En este caso, como los eventos son excluyentes
     (no pueden suceder simultáneamente), el mínimo campo-σ de eventos que incluye a
     A y B es bastante pequeño: Y = {Φ, A, B, A∪B, AC, BC, (A∪B)C, Ω}. Por supuesto, el
     conjunto potencia tiene 252 eventos, ¡más de cuatro mil billones (cuatro mil millones
     de millones)!
4.   En el experimento de medir la fracción de paquetes perdidos durante una hora en una
     red IP teníamos como espacio muestral el intervalo [0,1] de la recta real, donde
     resulta imposible definir el conjunto potencia. Si definimos una familia de eventos f
     compuesto por los intervalos cerrados {[0, x], x≤1}, podríamos considerar el mínimo
     campo-σ que contiene a f, σ(f). Este conjunto se llama el campo de Borel del
     intervalo [0,1], U([0,1] –ver enseguida la definición 9-), y, aunque es difícil de
     describir, sabemos que también contiene todos los intervalos abiertos, semiabiertos,
     cerrados, puntos aislados y uniones contables de dichos eventos… ¡Todo lo que nos
     pueda interesar! Claro, hay muchos subconjuntos de [0,1] que no están en U([0,1]) –
     ¡la mayoría!- pero son tan “raros” para nuestros propósitos de modelar la fracción de
     paquetes perdidos, que no nos interesa incluirlos en nuestro campo-σ de eventos
     (¡afortunadamente!).
5.   Medir el retardo experimentado por un paquete de voz mientras transita por una red
     VoIP: Si sólo nos interesa el evento A = {x∈Ω : x > 0.1} = {El paquete no alcanza a
     ser reproducido en el receptor}, el campo-σ de eventos sería elemental: Y = {Φ, A,
     AC, Ω}, a pesar de que el espacio muestral está compuesto por los reales no
     negativos.
6.   Verificar el estado de ocupación de un canal de comunicaciones: Como los posibles
     eventos de interés son los subconjuntos unitarios {libre} y {ocupado}, el conjunto




     PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
200 Conceptos de Probabilidad, Variables Aleatorias y                                   15
Procesos Estocásticos en Redes de Comunicaciones


    potencia resulta un perfecto campo-σ para trabajar: {0,1}Ω = {Φ, {libre}, {ocupado},
    Ω}
7. Se cuenta el número de canales libres en un enlace E1. Definamos dos eventos de
    interés, A = {Se puede establecer una videoconferencia} = {6,7,8,…,32} y B = {Se
    puede transmitir video MPEG-4 a por lo menos 768 kbps} = {12,13,14,…, 32}. En
    este caso, como el evento A incluye al evento B, σ({ Α,Β}) = {Φ, A, B, AC, BC, AC∪B,
    A∩BC, Ω}.
8. Se mira el estado de ocupación de cada uno de los canales en un enlace E1. Si
    definimos 33 eventos [Xi = {Hay i canales libres}, i=0,1,2,…,32], como se trata de
    eventos mutuamente excluyentes, el mínimo campo- σ tendría sólo 233 eventos de
    interés. Los eventos de este mínimo campo-σ se podrían asociar en una
    correspondiencia uno-a-uno con los eventos del conjunto potencia del experimento
    anterior.
9. Se determina si un bit, transmitido sobre un canal de comunicaciones, llega
    correctamente al otro lado. En este experimento, como en los experimentos 1 y 6, el
    conjunto potencia es un campo-σ apropiado.
10. Se cuenta el número de transmisiones (a través de un canal ruidoso) que requiere un
    paquete de datos hasta llegar correctamente a su destino: Ω = {1,2,3,…}. Con Los
    eventos A={No hay errores de transmisión} = {1} y B={Mejor desistir de seguir
    intentándolo} = {16,17,18,…} se puede construir un pequeño campo-σ con sólo ocho
    eventos: Y = {Φ, A, B, A∪B, AC, BC, (A∪B)C, Ω }.

9. Campo-σ de Borel, U(R)
                       R

     El campo-σ de Borel de los números reales, U(R), es el mínimo campo-σ que
     contiene a todos los intervalos semi-infinitos de la forma Ax = {ω∈R : -∞ < ω ≤
     x}, x∈R. Los subconjuntos de R que pertenecen a U(R) se denominan
     “conjuntos de Borel”.

En muchas ocasiones el espacio muestral de nuestros experimentos será el conjunto de
los números reales, por lo que se hace muy importante definir un campo sigma de eventos
“sencillo” que involucre todos los eventos “razonables” que nos puedan interesar. Como
veremos enseguida, el campo de Borel de los números reales incluye a todos los
intervalos cerrados, abiertos, semiabiertos, finitos ó semi-infinitos, incluyendo todos los
puntos aislados. Cuando nos limitamos a uniones numerables de este tipo de eventos en
R, podemos construir un espacio de probabilidad coherente sobre el cual podremos
aplicar toda la lógica booleana sin llegar a inconsistencias.
Veamos qué tipos de eventos se incluyen en U(R):
    (1) (-∞,x]∈ U(R) ∀x∈R, por definición
    (2) Aplicando el segundo axioma a los eventos anteriores,
        (x,∞) ∈ U(R) ∀x∈R
    (3) Como (-∞,b] y (a,∞) pertenecen a U(R),
        (-∞,b]∩(a,∞) = (a,b] ∈ U(R) ∀a∈R, b∈R, a<b.




     PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
200 Conceptos de Probabilidad, Variables Aleatorias y                                                                16
Procesos Estocásticos en Redes de Comunicaciones


    (4) De acuerdo con el punto anterior, (a - 1/n, a] ∈ U(R) y, como un campo-σ es
        cerrado para las intersecciones contables,
          ∞
                1 
         ∩  a − n , a  = [a] ∈ U(R) ∀a∈R
         n =1         
    (5) De los puntos (3) y (4), [a]∪ (a,b] = [a,b] ∈ U(R) ∀a∈R, b∈R, a<b.
    (6) [b]C∩ (a,b] = (a,b) ∈ U(R) ∀a∈R, b∈R, a<b.
    (7) [a]∪ (a,b) = [a,b) ∈ U(R) ∀a∈R, b∈R, a<b.
Si todos los intervalos (abiertos, cerrados, semiabiertos, semi-infinitos) y todos los puntos
aislados son conjuntos de Borel, al igual que las uniones e intersecciones numerables de
dichos subconjuntos, ¿Puede haber algún subconjunto de R que no sea un conjunto de
Borel? Sí, y no pocos. ¡De hecho, la mayoría de subconjuntos de R no pertenecen al
campo de Borel de los reales! Sin embargo nuestra forma particular de pensamiento nos
dificulta si quiera imaginarlos. Consideremos, por ejemplo, el conjunto de Cantor.
Comenzando con el intervalo cerrado [0,1], extraemos de él el segmento central
correspondiente al intervalo abierto (1/3, 2/3), dejando los dos intervalos cerrados [0,1/3]
y [2/3,1]. A cada uno de estos intervalos le extraemos los respectivos segmentos centrales
(1/9, 2/9) y (7/9, 8/9), dejando cuatro intervalos cerrados [0,1/9], [2/9, 3/9], [6/9, 7/9] y
[8/9,1]. Así seguimos repitiendo el proceso de extracción con cada intervalo cerrado que
nos vaya quedando, Ad Infinitum, como sugiere la figura 4. El conjunto que nos queda
cuando repetimos la iteración un número infinito de veces es el conjunto de Cantor, V.




 0           1/9           2/9          3/9             4/9   5/9           6/9              7/9           8/9       1
       Figura 4. Primeras cuatro iteraciones en la construcción del conjunto de Cantor

¿Porqué V no es un conjunto de Borel? Después de todo, en cada iteración obtenemos un
conjunto de intervalos cerrados numerables, de manera que después de cada iteración
seguimos teniendo un conjunto de Borel; pero ¿Qué pasa después de un número infinito
de iteraciones? ¡Que ya no existe ningún intervalo! En efecto, en la iteración n, para n =
1,2,3,…, estamos retirando 2n-1 intervalos, cada uno de longitud 3-n, de manera que la
                                                    ∞                            n
longitud total de los intervalos que extraemos es 1 ∑  2 
                                                                                     1 1           .   El conjunto de
                                                                                    =           =1
                                                  3     3           n= 0            3  1 − 23 
Cantor es una “nube de polvo” que no contiene ningún intervalo, sólo puntos aislados.
Pero si cada punto individual de R es un conjunto de Borel, ¿porqué la unión de todos los
puntos que pertenecen a V no habría de pertenecer a U(R)? Porqué la propiedad (3ª) de
la definición 7 exige que los eventos sean numerables y no es posible numerar los puntos
en el conjunto de Cantor. En efecto, nótese que si miramos con una lupa el conjunto de
Cantor en el intervalo [0, 3-n], basta con la lupa aumente 3n veces para reconstruir el



     PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
200 Conceptos de Probabilidad, Variables Aleatorias y                                  17
Procesos Estocásticos en Redes de Comunicaciones


conjunto de Cantor completo. Por eso el conjunto de Cantor constituye un objeto
autosemejante (es idéntico a sí mismo en un número infinito de escalas) con dimensión
fractal ln(2)/ln(3) ≈ 0.6, a pesar de tener una dimensión topológica 0. De hecho, ni
siquiera se puede describir V como el conjunto de los puntos extremos de los intervalos
cerrados que van quedando en cada iteración pues existe otra cantidad no numerable de
puntos que, sin ser el extremo de ninguno de esos intervalos, jamás se eliminan del
conjunto de Cantor, como se puede apreciar para el punto ¼ en la figura 5.
        0                          1/4      1/3           2/3                    1




        0                                   1/9           2/9    1/4            1/3



       2/9                         1/4     7/27         8/27                     1/3




       2/9                                 19/81        20/81    1/4            7/27



      20/81                        1/4    61/243        62/243                  7/27



                Figura 5. El punto [1/4] pertenece al conjunto de Cantor
Para terminar, vale la pena mencionar que aunque el conjunto de Cantor parece ser una
curiosidad matemática diseñada para mostrar extraños subconjuntos de R que no
pertenecen a U(R), mediante procedimientos de construcción generalizados semejantes
al algoritmo de Cantor, se han desarrollado importantísimos modelos de tráfico en redes
de comunicaciones, tales como el modelo wavelet multifractal (MWM), que ha
demostrado ser de gran utilidad en el modelamiento de redes modernas de
comunicaciones.

10. Medida de Probabilidad

     Una medida de probabilidad P asociada a un experimento aleatorio (Ω ,Y ) es
     una función P:Y →R que asigna a cada evento en Y un número real que
     satisface los siguientes axiomas: (1) P(Ω) = 1, (2) Si A∈Y , P(A) ≥ 0, (3) Si
     A,B∈Y son mutuamente excluyentes (A∩B=Φ), P(A∪B) = P(A) + P(B). Si Y
     es un campo-σ infinitamente aditivo, también debe satisfacerse el siguiente
     axioma adicional: (3ª) Si {An∈Y , n=1,2,3,…} es una colección de eventos tal
                                        ∞      ∞
     que Ai∩Aj = Φ para i≠j, entonces P  ∪ An  = ∑ P ( An ) .
                                         n =1  n =1

Esta definición axiomática es, de muchas maneras, la “más correcta”, a pesar de que deja
de lado el problema de darle un significado al número que se asigna a cada evento. Lo
cierto es que si Kolmogorov estableció esta definición en 1933, en respuesta al reto
lanzado por Hilbert en 1900 sobre determinar unas bases formales para la teoría de la



     PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
200 Conceptos de Probabilidad, Variables Aleatorias y                                    18
Procesos Estocásticos en Redes de Comunicaciones


probabilidad, fue inspirado en propiedades fundamentales de los conceptos típicos de
probabilidad que habían hasta entonces: (1) Que si repito un experimento un gran número
de veces y mido la fracción de experimentos en que sucede el evento A (ver definiciones
2 y 10), la fracción obtenida tiende a la P(A) a medida que hago más y más repeticiones.
(2) Que si logro describir el espacio muestral como un conjunto de cardinalidad finita en
el que ninguno de los eventos unitarios ocurre preferencialmente sobre los otros, la
probabilidad de un evento está dada por la cardinalidad del evento sobre la cardinalidad
del espacio muestral. (3) Que si consulto a un experto sobre la ocurrencia de un evento en
una hipotética realización de un experimento, la probabilidad del evento es el grado de
certeza que el experto tiene en que dicho evento ocurra. (4) Que si he acumulado cierta
evidencia a favor o en contra de una hipótesis, la probabilidad del evento en el que dicha
hipótesis es cierta está dada por el grado de implicación lógica que existe de la evidencia
a la hipótesis. (5) etc. Resulta muy afortunado saber que siempre es posible asociar los
axiomas propuestos por Kolmogorov a propiedades particulares de la probabilidad en
cada una de sus interpretaciones.
Para nosotros, como ingenieros preocupados por problemas técnicos muy precisos,
resulta muy cómodo escoger eclécticamente entre cada una de las interpretaciones la que
más nos favorezca o la que mejor nos guíe en el proceso de desarrollar un modelo
probabilístico para nuestro problema. Por ejemplo, no hemos sabido de ningún ingeniero
de comunicaciones al que le quite el sueño el problema filosófico que implica utilizar un
medidor de BER (Bit-Error-Rate) para estimar la probabilidad de que un bit se dañe
durante su transmisión por un canal de comunicaciones (como en el experimento 9) y
después utilizar esa medida como su nivel de confianza en que el próximo bit que
transmita se dañe en el canal, aunque así esté mezclando las interpretaciones (1) y (3).

Dada la facilidad que tenemos los ingenieros de comunicaciones para tomar mediciones,
aún prevalece entre nosotros la interpretación frecuentista (1), a la luz de la cual podemos
interpretar los axiomas de Kolmogorov, como se describe en el siguiente numeral.

11. Medida de Probabilidad Interpretada como el Límite de la
Frecuencia Relativa

     Sea un experimento aleatorio (Ω ,Y ) y un evento A∈Y . Una forma de
     interpretar la probabilidad del evento A es mediante la relación
     P(A) = lim f N ( A) , donde fN(A) es la frecuencia relativa del evento A en N
                 N →∞
     repeticiones del experimento.

Como mencionamos en la definición 2 sobre la regularidad estadística de un experimento
aleatorio, si repetimos N veces un experimento con espacio muestral Ω y contamos en
cuántas repeticiones ocurrió el evento A ⊂ Ω, NA, definimos la frecuencia relativa del
evento A en esas N repeticiones como fN(A) = NA/N. Obsérvese que el proceso de
observación de NA es, en sí mismo, otro experimento aleatorio, de manera que en
diferentes conjuntos de N repeticiones podemos obtener diferentes valores de fN(A). Sin
embargo, la regularidad estadística sugiere que, entre más repeticiones hagamos, el valor




     PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
200 Conceptos de Probabilidad, Variables Aleatorias y                                                                     19
Procesos Estocásticos en Redes de Comunicaciones


de fN(A) tiende a un valor fijo, independientemente del conjunto particular de N
repeticiones que seleccionemos.

Por ejemplo, supongamos que deseamos saber cuál es la probabilidad del evento A = {a
un enrutador llegan más de 1000 bytes en un período de 100 ms}. Para esto medimos la
frecuencia relativa de dicho evento en 200 períodos consecutivos y la graficamos en
función del número de períodos observados. Si hacemos mediciones durante un minuto,
obtendremos tres conjuntos distintos, como muestra la figura 6, en cada uno de los cuales
la frecuencia parece tender a un número cercano a 0.4. Si las condiciones del tráfico
permanecen estables durante el minuto de observación y son iguales a las condiciones en
el período de 100 ms por cuya probabilidad nos interesamos (que podría ser, por ejemplo,
el siguiente período que aún no hemos observado), diríamos que la probabilidad de que
lleguen más de 1000 bytes es “cercana” a 0.41. Pues bien, es fácil ver que los axiomas
que definen la probabilidad como una medida de los subconjuntos de Ω contenidos en Y
están inspirados en propiedades elementales de la frecuencia relativa. En efecto,
                                           Fraccion de periodos de 100 ms con mas de 80 kbps
              1
                                                                                                    Primera prueba
             0.9                                                                                    Segunda prueba
                                                                                                    Tercera prueba
             0.8

             0.7

             0.6

             0.5

             0.4

             0.3

             0.2

             0.1

              0
                   0      2        4         6          8           10         12       14     16        18          20
                                                            Tiempo en segundos

                       Figura 6. fN(A) vs N para tres conjuntos distintos de pruebas.

(1) fN(Ω) = N / N = 1
(2) como NA ≥ 0, fN(A) ≥ 0
(3) Si A∩B = Φ, NA∪B = NA + NB, de manera que fN(A∪B) = fN(A) + fN(B).

Permítaseme insistir, porque debemos ser cuidadosos con esto, que el límite de la
frecuencia relativa es apenas una interpretación de la probabilidad que puede ser útil para
los ingenieros de redes de comunicaciones ya que a nosotros nos es posible tomar muchas
mediciones con facilidad y en tiempos razonables (medir el retardo de 10000 paquetes,

1
  De hecho, en la definición 40 (cotas de Chernoff) veremos que, bajo ciertas condiciones, la frecuencia
relativa se acerca a la probabilidad exponencialmente rápido a medida que hacemos más y más
observaciones, en el sentido de que el evento B = {|fN(A) - P(A)| < ε} ocurre con probabilidad mayor o igual
a 1 – δ, con δ = 2exp(-2Nε2). Si, por ejemplo, queremos encontrar un intervalo de longitud 0.05 (ε = 0.025)
en el cual se encuentre P(A) con probabilidad mayor o igual a 0.95 (δ = 0.05), deberíamos hacer N = 2951
observaciones.




     PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
200 Conceptos de Probabilidad, Variables Aleatorias y                                    20
Procesos Estocásticos en Redes de Comunicaciones


medir el número de errores en 10000 bits transmitidos, medir la condición de “spam” en
10000 mensajes de correo electrónico, etc.). Sin embargo, en muchos casos, el
experimento mismo que queremos modelar ni siquiera es repetible, de manera que no
tiene sentido considerar esta interpretación. J. M. Keynes, por ejemplo, era economista y
cada uno de sus experimentos podía durar décadas; por esa razón, la interpretación
frecuentista, que parece objetiva en cuanto a que muestra resultados verificables “a la
larga”, lo conduce a expresar su famosa frase: “A la larga, todos estamos muertos”. En
estas condiciones, lo mejor es considerar la probabilidad como expresión de simetría o
como nivel de confianza.

De todas maneras, desde un punto de vista puramente matemático, la interpretación
misma pierde relevancia pues la definición es precisa e implacable: la probabilidad es una
función que asigna a cada subconjunto de Ω en Y una medida en R que satisface tres
axiomas básicos. Lo cierto es que, cuando uno está inmerso en un problema de
modelamiento probabilístico, a veces resulta muy útil preguntarse “si yo pudiera repetir
este experimento muchas veces, ¿qué esperaría que sucediera a la larga?”, pues la
respuesta puede sugerirnos el siguiente paso en el proceso o puede explicarnos un
resultado poco intuitivo. De hecho, en este libro echaremos mano de la interpretación
frecuentista liberalmente para justificar muchas definiciones o para interpretar muchos
resultados.

12. Espacio de Probabilidad

     Un espacio de probabilidad es la tripleta (Ω, Y , P) asociada con un
     experimento aleatorio, donde Ω es el espacio muestral o el conjunto de todos
     los posibles resultados del experimento, Y es un campo-σ de subconjuntos de
     Ω construido a partir de una clase de eventos de interés y P es una función de Y
     en R que satisface los axiomas en la definición 10.
     Como solamente se les puede asignar una medida de probabilidad a los
     subconjuntos de Ω que pertenecen a Y , a dichos subconjuntos se les denomina
     “subconjuntos medibles”.

En cualquier caso en que queramos trabajar sobre modelos probabilísticos de una realidad
particular, deberemos partir de la descripción explícita del espacio de probabilidad (Ω , Y,
P) pues, de otra manera, estaremos perdidos: ni siquiera sabremos dónde estamos
parados! En efecto, una vez descrito el problema en términos de un espacio de
probabilidad, podremos movernos con confianza sobre todos los resultados de la teoría de
las probabilidades sabiendo que, mientras seamos consecuentes y rigurosos con ellas,
llegaremos a resultados significativos, pues es sobre los axiomas que definen a Y y P que
se construye TODA la teoría de probabilidades.

Hasta este punto, la teoría de probabilidades sería simplemente una rama de la “teoría de
las mediciones”, que es el área de la matemáticas que estudia las funciones µ : X →R
que asignan una medida real µ(E) a cada conjunto E de una colección de conjuntos X. En
teoría de mediciones se estudia formalmente la conveniencia de que X forme un campo-



     PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
200 Conceptos de Probabilidad, Variables Aleatorias y                                       21
Procesos Estocásticos en Redes de Comunicaciones


σ, en cuyo caso µ(⋅) es una medida aditivamente contable, como es el caso de las medidas
de probabilidad asignadas a los subconjuntos medibles del espacio muestral de un
experimento aleatorio. Sin embargo, la definición 17 (independencia) le dará a la teoría
de probabilidades una identidad propia que le permitirá distinguirse de la teoría general
de las mediciones.

13. Algunos Resultados Básicos Derivados de los Axiomas de la
Probabilidad

        Sea (Ω,Y, P) un espacio de probabilidad en el que hay dos eventos medibles A y
        B ∈ Y. Entonces (1) P(AC) = 1 – P(A), (2) P(Φ) = 0, (3) P(A) ≤ 1, (4) P(A∪B) =
        P(A) + P(B) - P(A∩B), (5) Si A ⊂ B, P(A) ≤ P(B).

Los anteriores cinco resultados son apenas una muestra mínima de todas las conclusiones
que se pueden sacar de la definición 10 pues, como ya se dijo, de los tres axiomas se
deriva TODA la teoría de las probabilidades. Sin embargo, como estos cinco resultados
se usan cotidianamente cuando se estudian modelos probabilísticos de cualquier sistema,
vale la pena tenerlos tan presentes como los mismos axiomas de los que se derivan:

(1) P(AC) = 1 – P(A)
    En efecto, como A∩AC=Φ y A∪AC=Ω , los axiomas 1 y 3 conducen a P(Ω) = P(AC)
    + P(A) = 1. Restando P(A) a ambos lados obtenemos el resultado deseado.
(2) P(Φ) = 0
    En efecto, A=A∪Φ, que son eventos mutuamente excluyentes, por lo que podemos
    aplicar el tercer axioma: P(A) = P(A) + P(Φ). Restando P(A) a ambos lados
    obtenemos el resultado deseado.
(3) P(A) ≤ 1
    En efecto, como ya demostramos que P(A) = 1 – P(AC), basta con aplicar el segundo
    axioma en AC, P(AC)≥0, para obtener el resultado deseado.
(4) P(A∪B) = P(A) + P(B) - P(A∩B)
    En efecto, podemos expresar A∪B como la unión de dos eventos mutuamente
    excluyentes, A∪B = A∪(B∩AC), de manera que P(A∪B) = P(A) + P(B∩AC). Por otro
    lado, B también se puede expresar como la unión de dos eventos mutuamente
    excluyentes, B = (A∩B)∪(B∩AC), de manera que P(B∪AC) = P(B) - P(A∩B).
    Remplazando esta expresión de P(B∪AC) en la primera expresión de P(A∪B)
    obtenemos el resultado deseado. Los diagramas de Venn de la figura 7 representan
    esta derivación.
               Ω                                    Ω                    Ω
                       A           B                       A    B∩AC               B∩AC
                                                                             A∩B

                                                        A∪B = A∪(B∩AC)   B = (A∩B)∪(B∩AC)
      Figura 7. Construcciones para derivar la expresión P(A∪B) = P(A) + P(B) - P(A∩B)




     PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
200 Conceptos de Probabilidad, Variables Aleatorias y                                22
Procesos Estocásticos en Redes de Comunicaciones


(5) Si A ⊂ B, P(A) ≤ P(B)
    En efecto, podemos expresar B como la unión de dos eventos mutuamente
    excluyentes, B = A∪(B∩AC), de manera que P(B) = P(A) + P(B∩AC). Y, como
    P(B∩AC) ≥ 0, P(B) ≥ P(A).

14. Probabilidad condicional

        Sea (Ω,Y , P) un espacio de probabilidad en el que hay dos eventos A y B
        ∈ Y . La probabilidad condicional del evento A dado que se sabe de la
        ocurrencia del evento B es
                                              0     P( B) = 0
                                         
                             P( A | B) =  P( A ∩ B)
                                          P( B)     P( B) > 0
                                         
Esta definición, como tan “sacada de la manga”, en realidad obedece a un concepto muy
simple si se le mira desde la interpretación frecuentista de la probabilidad. Supongamos
que repetimos N veces el experimento en cuestión y contamos cuántas veces sucedió el
evento A, NA, cuántas veces el evento B, NB y cuántas veces sucedieron simultáneamente,
NA∩B. Ahora nos fijamos solamente en aquellas NB repeticiones en las que ocurrió el
evento B e ignoramos todas las demás. Si contamos entre las NB repeticiones en que
ocurrió B en cuántas de ellas también ocurrió A, tendríamos la frecuencia relativa del
evento A entre aquellas repeticiones del experimento en que ocurrió B: fN(A|B) = NA∩B /
NB. Dividiendo el numerador y el denominador por N, obtenemos fN(A|B) = fN(A∩B)/
fN(B), que es una expresión MUY parecida a la definición de probabilidad condicional.
De acuerdo con el anterior resultado, si pudiésemos definir la probabilidad de un evento
como el límite de su frecuencia relativa cuando el número de repeticiones tiende a
infinito, tendríamos que el condicionamiento sería simplemente una propiedad más de la
probabilidad. Pero como la probabilidad es un concepto más abstracto (una función de Y
en R que satisface 3 axiomas), este resultado frecuentista es apenas un motivo de
inspiración para la definición propuesta. De todas formas, la definición no nos debe
sorprender porque la teoría de probabilidades quiere modelar, precisamente, el
comportamiento de ese límite sin obligarnos a gastar un tiempo infinito en hacer un
número infinito de repeticiones del experimento.
Por supuesto, volviendo a nuestra definición axiomática, es legítimo preguntarnos por un
nuevo espacio de probabilidad en el que la probabilidad condicional sea una medida de
probabilidad válida. Lo primero que notamos, por ejemplo, es que en el nuevo espacio de
probabilidades el espacio muestral debe ser B, pues nos estamos limitando a estudiar los
casos en que tenemos certeza absoluta de que el evento B ocurrió. Pero, ¿cuál sería un
nuevo campo de eventos apropiado? Como todos los eventos de interés contenidos en Y
se ven reducidos a su intersección con B, es razonable pensar en un campo de eventos
como Z= {A∩B : A∈Y }. ¿Es éste un campo-σ de subconjuntos de B? Veamos
    (1) Z es no vacío porque por lo menos Φ∈ Y ⇒ Φ∩B=Φ∈ Z:
                Z es no vacío
    (2) Si A∈ Y, entonces AC=Ω-A∈ Y, de manera que A∩B∈ Y y AC∩B=B-(A∩B)∈ Y,
        donde B-(A∩B) es el complemento de A∩B en B:



     PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
200 Conceptos de Probabilidad, Variables Aleatorias y                                     23
Procesos Estocásticos en Redes de Comunicaciones


                Si X∈ Z, entonces XC=Β-X∈ Z
     (3) Si A1∈ Y, A2∈ Y, entonces A1∪B∈ Y, A2∪B∈ Y y, por consiguiente, A1∩B∈ Z,
         A2∩B ∈ Z, entonces A1∩B∈ Z, A2∩B∈ Z, (A1∪A2)∩B=(A1∩B)∪(A2∩B)∈ Z:
                Si X∈ Z, Y∈ Z, entonces X∪Y∈ Z
     (4) Lo mismo se puede verificar para la uniones contables

¿Y será la probabilidad condicional P(⋅|B) una medida válida en (B, Z)? Veamos:
   (1) P(B|B)=P(B)/P(B) = 1
   (2) P(A|B)≥0
   (3) Si (A1∩B) ∩ (A2∩B)=Φ, (en realidad no necesitamos que A1 y A2 sean
       excluyentes, pues basta con que no puedan ocurrir simultáneamente con B),
       entonces P((A1∪A2) | B) = P((A1∪A2) ∩B)/P(B) = P((A1∩B) ∪ (A2∩B))/P(B) =
       (P(A1∩B) + P(A2∩B))/P(B) = P(A1|B) + P(A2|B)
   (4) Lo mismo se puede verificar para uniones contables.

En conclusión, dado el espacio de probabilidad (Ω,Y, P(⋅)), podemos construir un nuevo
espacio de probabilidad (B, Z, P(⋅|B)) condicionando todos los eventos de Y a la
ocurrencia del evento B, donde B ∈ Y y P(B)>0. Esto es, hemos reducido el espacio
original a uno más pequeño.
Considérese, por ejemplo, el experimento nueve, en el que transmitimos un bit y vemos si
llegó correctamente a su destino en el otro extremo del canal binario. Si consideramos
como parte del experimento observar el bit transmitido, nuestro nuevo espacio muestral
será Ω = {(0,0), (0,1), (1,0), (1,1)}, donde el resultado (i, j) corresponde a la transmisión
del bit i y la recepción del bit j. La probabilidad de que se produzca un error en ese canal
es P({(0,1),(1,0)}), que es la probabilidad del evento ERROR = {se recibe un bit distinto
al bit transmitido}. Condicionando en el bit transmitido, tenemos dos tipos de error con
las siguientes probabilidades
         P({Recibir 0} | {se transmitió 1}) = P({(1,0}) / P({(1,0), (1,1)})
         P({Recibir 1} | {se transmitió 0}) = P({(0,1}) / P({(0,0), (0,1)})
Dada la simetría que existe en las técnicas de modulación digital, es de esperar que los
dos tipos de error tengan la misma probabilidad, en cuyo caso nos encontramos ante un
espacio de probabilidad que modela un Canal Binario Simétrico (BSC, binary symmetric
channel). Claramente, al utilizar un medidor de BER sobre un canal BSC, estamos
tratando de estimar las probabilidades condicionales descritas anteriormente, por lo que el
modelo se puede representar de la siguiente manera:
                           1 con prob. p                      1 - BER


                                                        BER             BER
                        0 con prob. 1-p
                                                              1 - BER
                    Figura 8. Modelo probabilístico de un canal binario simétrico




     PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
200 Conceptos de Probabilidad, Variables Aleatorias y                                       24
Procesos Estocásticos en Redes de Comunicaciones


donde el espacio de probabilidad que modela el canal es (Ω = {(0,0), (0,1), (1,0), (1,1)},
Y = {0,1}Ω, P). El conocimiento inicial que tenemos sobre la medida de probabilidad P
en este modelo probabilístico de un canal de comunicaciones es el siguiente:
        P[{(1,0),(1,1)}] = 1 – P[{(0,0),(0,1)}] = p
        P[{(0,0),(1,0)} | {(1,0),(1,1)}] = 1 - P[{(0,1),(1,1)} | {(1,0),(1,1)}] = …
        P[{(0,1),(1,1)} | {(0,0),(0,1)}] = 1 - P[{(0,0),(1,0)} | {(0,0),(0,1)}] = BER
Obsérvese en este ejemplo cómo resulta de fácil “medir” la probabilidad condicional
BER. En general, ésta es la gran utilidad de la probabilidad condicional: encontrar la
probabilidad de un evento A puede ser muy difícil, pero una vez condicionamos el evento
de interés a otro evento B (juiciosamente seleccionado), puede resultar muy fácil
encontrar la probabilidad condicional de A dado B. Este truco se repite una y otra vez en
el modelamiento probabilístico de redes de comunicaciones, como tendremos
oportunidad de ver en breve. Pero, ¿de qué nos sirve la probabilidad condicional de A
dado B si lo que queríamos encontrar era la probabilidad de A? El siguiente teorema
explica dónde reside la utilidad del truco.

15. Teorema de la probabilidad total

        Sea (Ω,Y, P) un espacio de probabilidad en el que hay un evento A ∈ Y y
        una secuencia de eventos {Bk}, k=1,2,… que forman una partición de Ω
        (esto es, Ω = ∪ Bk y Bi ∩ B j = Φ, i ≠ j ), que también pertenecen a Y . Entonces
                           k

                                            P( A) = ∑ P( Bk )P( A | Bk )
                                                        k
Esto es más fácil de ver si consideramos la partición más pequeña, constituida por B y BC.
En efecto, con ella podemos expresar el evento A como la unión de dos eventos
mutuamente excluyentes, A = (A∩B)∪(A∩BC), de manera que P(A) = P(A∩B) +
P(A∩BC). Pero, por la definición misma de la probabilidad condicional, P(A∩B) =
P(B)P(A|B) y P(A∩BC)=P(BC)P(A|BC), de manera que P(A) = P(B)P(A|B) +
P(BC)P(A|BC). La generalización a particiones más numerosas (incluyendo aquellas
contablemente infinitas) es inmediata.

En el modelo del canal simétrico binario de la figura 8, por ejemplo, ¿cuál será la
probabilidad de recibir un cero? Podemos condicionar en el bit transmitido, ya que las
probabilidades condicionadas en el bit transmitido son conocidas:

P({Rx 0}) = P({Tx 0})P({Rx 0} | {Tx 0}) + P({Tx 1})P({Rx 0} | {Tx 1})
          = (1 – p) (1 – BER) + p BER = 1 – BER – p + 2pBER

Claro, la probabilidad de recibir un uno debe ser uno menos la probabilidad de recibir un
cero, lo cual puede ser verificado mediante la probabilidad total:

           P({Rx 1}) = P({Tx 0})P({Rx 1} | {Tx 0}) + P({Tx 1})P({Rx 1} | {Tx 1})
                     = (1 – p) BER + p (1 – BER) = BER + p - 2pBER




     PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
200 Conceptos de Probabilidad, Variables Aleatorias y                                                25
Procesos Estocásticos en Redes de Comunicaciones


Obsérvese que si BER=0 ó si BER=1, no existiría ninguna duda en el receptor sobre el bit
transmitido, pues el bit recibido tendrá toda la información necesaria para identificar el
primero sin equivocaciones. Cualquier otro valor de BER genera incertidumbre en el
receptor, especialmente en el caso extremo en que BER = 0.5, pues en este caso
obtenemos que P({Rx 1}) = P({Rx 0}) = 0.5, independientemente de p, de manera que
podemos ahorrarnos el canal y hacer que en el receptor se lance una moneda equilibrada
por cada bit transmitido.

Una pregunta de mucho interés para el módem receptor es la siguiente: Dado que recibí
cierto símbolo a la salida del canal, ¿cuáles son las probabilidades del respectivo símbolo
a la entrada del canal? La siguiente regla es muy útil para este tipo de preguntas.

16. Regla de Bayes

        Sea (Ω,Y, P) un espacio de probabilidad en el que hay un evento A ∈ Y y
        una secuencia de eventos {Bk}, k=1,2,… que forman una partición de Ω y
        que también pertenece a Y. Entonces
                                             P ( Bk )P ( A | Bk )
                              P ( Bk | A) =
                                            ∑ P( B j )P( A | B j )
                                                        j

Esta regla surge directamente de la definición de la probabilidad condicional, pues
P(A∩Bk) = P(Bk) P(A | Bk) y P(A) = ∑ j P( B j )P( A | B j ) , de manera que la regla de bayes
sólo es una forma de expresar la definición P(Bk | A) = P(A∩Bk) / P(A).

Considérese nuevamente el canal binario simétrico (BSC) donde el transmisor se
caracteriza por transmitir 1 con probabilidad p y transmitir 0 con probabilidad 1 – p y el
canal se caracteriza por una tasa de error por bit BER, como muestra la figura 8. Si el
destino recibe 0, ¿cuál es la probabilidad de que la fuente haya enviado 1?

                                                                       (
                                                        P ({Tx1}) P {Rx 0} {Tx1}   )
               (
            P {Tx1} {Rx 0} =     )       P ({Tx1}) P ({Rx 0} {Tx1} ) + P ({Tx 0}) P ({Rx0} {Tx 0})
                                                  p ⋅ BER
                                     =                                          .
                                         p ⋅ BER + (1 − p )(1 − BER)

17.       Independencia de eventos

          Sea (Ω,Y , P) un espacio de probabilidad en el que hay dos eventos A y B
          ∈ Y . A y B son independientes si y sólo si P(A∩B) = P(A)P(B) o,
          equivalentemente, si P(A|B) = P(A) y P(B|A) = P(B).

          Tres eventos medibles A, B y C son independientes si se cumplen las
          siguientes cuatro condiciones: (1) P(A∩B) = P(A)P(B), (2) P(A∩C) =
          P(A)P(C), (3) P(B∩C) = P(B)P(C), y (4) P(A∩B∩C) = P(A)P(B)P(C).




      PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos
Doscientos conceptos

Más contenido relacionado

Destacado

Presentación para el ibero1
Presentación para el ibero1Presentación para el ibero1
Presentación para el ibero1vivi41
 
Analisis de toma de decisiones
Analisis de toma de decisionesAnalisis de toma de decisiones
Analisis de toma de decisionesdanieljosepaz
 
Que es lengua y cultura
Que es lengua y culturaQue es lengua y cultura
Que es lengua y culturajacinto06
 
Investigacion cuantitativa y cualitativa
Investigacion cuantitativa y cualitativaInvestigacion cuantitativa y cualitativa
Investigacion cuantitativa y cualitativaKira Vasquez
 
Internet y el comercio electronico
Internet y el comercio electronicoInternet y el comercio electronico
Internet y el comercio electronicoMonika Aguilar
 
Pasosparalograrsupropioinfarto 110928142535-phpapp02
Pasosparalograrsupropioinfarto 110928142535-phpapp02Pasosparalograrsupropioinfarto 110928142535-phpapp02
Pasosparalograrsupropioinfarto 110928142535-phpapp02David Alejandro Melo
 
El Caballo y su Primo el Perro
El Caballo y su Primo el PerroEl Caballo y su Primo el Perro
El Caballo y su Primo el PerroTechi Ramos
 
REDES INFORMÁTICAS
REDES INFORMÁTICASREDES INFORMÁTICAS
REDES INFORMÁTICASLSJG
 
Coyuntura Nacional "Un gobierno de falsedades y comedias MCP" IV Plenaria de...
Coyuntura Nacional "Un gobierno de falsedades y comedias  MCP" IV Plenaria de...Coyuntura Nacional "Un gobierno de falsedades y comedias  MCP" IV Plenaria de...
Coyuntura Nacional "Un gobierno de falsedades y comedias MCP" IV Plenaria de...Over Dorado Cardona
 
Word 2010 guía-columnas
Word 2010 guía-columnasWord 2010 guía-columnas
Word 2010 guía-columnasLeAnDeOr
 
Guraso batzarra
Guraso batzarraGuraso batzarra
Guraso batzarrainaxiot
 
Programa electoral IU 2011
Programa electoral IU 2011Programa electoral IU 2011
Programa electoral IU 2011mujerpcenavarra
 
Video de computacion referente a las drogas 4 to comercio b integrantes beece...
Video de computacion referente a las drogas 4 to comercio b integrantes beece...Video de computacion referente a las drogas 4 to comercio b integrantes beece...
Video de computacion referente a las drogas 4 to comercio b integrantes beece...jordy15
 

Destacado (20)

Presentación para el ibero1
Presentación para el ibero1Presentación para el ibero1
Presentación para el ibero1
 
Admision directa
Admision directaAdmision directa
Admision directa
 
Analisis de toma de decisiones
Analisis de toma de decisionesAnalisis de toma de decisiones
Analisis de toma de decisiones
 
Cronograma 112577 y 112552
Cronograma 112577 y 112552Cronograma 112577 y 112552
Cronograma 112577 y 112552
 
Que es lengua y cultura
Que es lengua y culturaQue es lengua y cultura
Que es lengua y cultura
 
Investigacion cuantitativa y cualitativa
Investigacion cuantitativa y cualitativaInvestigacion cuantitativa y cualitativa
Investigacion cuantitativa y cualitativa
 
Internet y el comercio electronico
Internet y el comercio electronicoInternet y el comercio electronico
Internet y el comercio electronico
 
Comunicado festival
Comunicado festivalComunicado festival
Comunicado festival
 
Pasosparalograrsupropioinfarto 110928142535-phpapp02
Pasosparalograrsupropioinfarto 110928142535-phpapp02Pasosparalograrsupropioinfarto 110928142535-phpapp02
Pasosparalograrsupropioinfarto 110928142535-phpapp02
 
El mundo actual
El mundo actualEl mundo actual
El mundo actual
 
El Caballo y su Primo el Perro
El Caballo y su Primo el PerroEl Caballo y su Primo el Perro
El Caballo y su Primo el Perro
 
REDES INFORMÁTICAS
REDES INFORMÁTICASREDES INFORMÁTICAS
REDES INFORMÁTICAS
 
Coyuntura Nacional "Un gobierno de falsedades y comedias MCP" IV Plenaria de...
Coyuntura Nacional "Un gobierno de falsedades y comedias  MCP" IV Plenaria de...Coyuntura Nacional "Un gobierno de falsedades y comedias  MCP" IV Plenaria de...
Coyuntura Nacional "Un gobierno de falsedades y comedias MCP" IV Plenaria de...
 
Blog!
Blog!Blog!
Blog!
 
Poesia dossier 5è2013 14
Poesia dossier 5è2013 14Poesia dossier 5è2013 14
Poesia dossier 5è2013 14
 
Word 2010 guía-columnas
Word 2010 guía-columnasWord 2010 guía-columnas
Word 2010 guía-columnas
 
Guraso batzarra
Guraso batzarraGuraso batzarra
Guraso batzarra
 
Programa electoral IU 2011
Programa electoral IU 2011Programa electoral IU 2011
Programa electoral IU 2011
 
Dn12 u2 a3_mli
Dn12 u2 a3_mliDn12 u2 a3_mli
Dn12 u2 a3_mli
 
Video de computacion referente a las drogas 4 to comercio b integrantes beece...
Video de computacion referente a las drogas 4 to comercio b integrantes beece...Video de computacion referente a las drogas 4 to comercio b integrantes beece...
Video de computacion referente a las drogas 4 to comercio b integrantes beece...
 

Similar a Doscientos conceptos (20)

Plan anual ral
Plan anual ralPlan anual ral
Plan anual ral
 
Plan anual ral
Plan anual ralPlan anual ral
Plan anual ral
 
Lenguajes para programación cuántica
Lenguajes para programación cuánticaLenguajes para programación cuántica
Lenguajes para programación cuántica
 
Algoritmos_geneticos
Algoritmos_geneticosAlgoritmos_geneticos
Algoritmos_geneticos
 
Manual redes
Manual redesManual redes
Manual redes
 
2 arquitecturas de red 2
2 arquitecturas de red 22 arquitecturas de red 2
2 arquitecturas de red 2
 
Capa fisica
Capa fisicaCapa fisica
Capa fisica
 
Pdf redes de_computadoras_e_internet
Pdf redes de_computadoras_e_internetPdf redes de_computadoras_e_internet
Pdf redes de_computadoras_e_internet
 
Manual redes
Manual redesManual redes
Manual redes
 
Diseño de redes corporativas
Diseño de redes corporativasDiseño de redes corporativas
Diseño de redes corporativas
 
I
II
I
 
Portafolio de evidencias22 compu
Portafolio de evidencias22 compuPortafolio de evidencias22 compu
Portafolio de evidencias22 compu
 
Modelos y protocolos redes
Modelos y protocolos redesModelos y protocolos redes
Modelos y protocolos redes
 
Redes guia 7
Redes  guia 7Redes  guia 7
Redes guia 7
 
Routing And Wavelength Assignment - Computer Networks
Routing And Wavelength Assignment - Computer NetworksRouting And Wavelength Assignment - Computer Networks
Routing And Wavelength Assignment - Computer Networks
 
Guillermo Cuantico
Guillermo CuanticoGuillermo Cuantico
Guillermo Cuantico
 
Plan anual ral
Plan anual ralPlan anual ral
Plan anual ral
 
Plan anual ral
Plan anual ralPlan anual ral
Plan anual ral
 
Aplicaciones
AplicacionesAplicaciones
Aplicaciones
 
Pila osi
Pila osiPila osi
Pila osi
 

Doscientos conceptos

  • 1. 200 Conceptos De Probabilidad, Variables Aleatorias Y Procesos Estocásticos En Redes de Comunicaciones pij (t + s ) = ∑ pik (t ) pkj ( s ) k Marco Aurelio Alzate Monroy PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
  • 2. El azar favorece a la mente preparada. Louis Pasteur PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
  • 3. Introducción Considere una sesión ftp (file transfer protocol). Durante la transferencia de un archivo de cierto tamaño (en kbytes) se sufre cierto retardo (en s). La transferencia se hace con cierta velocidad o caudal (en kbytes/s). ftp ofrece mediciones de estas tres cantidades al presentar resultados como los siguientes: 150 Opening ASCII mode data connection for file1 (240 bytes) 226 Transfer complete. local: file1 remote: file1 245 bytes received in 0.47 seconds (0.51 Kbytes/s) 150 Opening ASCII mode data connection for file2 (1486 bytes) 226 Transfer complete. local: file2 remote: file2 1526 bytes received in 0.37 seconds (4 Kbytes/s) 150 Opening ASCII mode data connection for file3 (12768 bytes) 226 Transfer complete. local: file3 remote: file3 13197 bytes received in 25 seconds (0.52 Kbytes/s) 150 Opening ASCII mode data connection for file4 (13084 bytes) 226 Transfer complete. local: file4 remote: file4 13540 bytes received in 19 seconds (0.71 Kbytes/s) 150 Opening ASCII mode data connection for file5 (72379 bytes) 226 Transfer complete. local: file5 remote: file5 75121 bytes received in 44 seconds (1.7 Kbytes/s) 150 Opening ASCII mode data connection for file6 (8140 bytes) 226 Transfer complete. local: file6 remote: file6 8427 bytes received in 1.2 seconds (7 Kbytes/s) Se puede observar cómo no sólo el tamaño de los archivos varía sino que el caudal mismo también varía a pesar de tratarse de la misma conexión. Se diría que esta medida de desempeño es aleatoria. Por supuesto, esto no debe sorprendernos: diferentes conexiones se establecen con el servidor ftp en instantes de tiempo que no podemos predeterminar; el número de archivos que se transferirán en cada conexión tampoco es predecible con anterioridad; no se puede conocer de antemano la duración de cada archivo; ftp ofrece un servicio confiable, de manera que debe detectar y corregir errores, los cuales se presentan en los medios de transmisión debido al ruido y a la imperfección de los enlaces; etc. En este libro estudiaremos algunas herramientas de análisis de redes de telecomunicaciones cuando se considera dicha aleatoriedad. Se supone que el lector tiene un propósito fundamentalmente práctico en cuanto lo motiva el estudio de una disciplina tan técnica como las redes de comunicaciones. Sus intereses pueden incluir técnicas de PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
  • 4. modulación digital, detección y corrección de errores, procesamiento de señales, enrutamiento óptimo, codificación, control de flujo y congestión, seguridad y privacidad, integración de servicios, modelamiento de tráfico, etc. Sin embargo, puesto que hay muchos aspectos fundamentales comunes a todos estos ejemplos, es necesario utilizar una teoría abstracta para extraer estos elementos comunes con el mayor provecho. En efecto, una teoría abstracta es fácil de estudiar porque no requiere el conocimiento de ningún sistema en particular, no necesita de grandes recursos de laboratorio (sólo papel y lápiz, aunque un computador a veces puede resultar muy útil) y puede tener una amplia aplicabilidad. Por supuesto, para los intereses específicos de los lectores de este libro (ingeniería de redes de comunicaciones), es importante tener la oportunidad de aplicar la teoría a medida que la vamos aprendiendo, por lo que en este libro encontraremos muchas oportunidades de "ver la teoría en acción" para hacerlo más motivador. En particular, dado que el interés común de nuestros lectores son las redes de comunicaciones, la mayoría de aplicaciones que se consideran en este libro se refieren al tráfico sobre dichas redes. En efecto, si bien podría pensarse que los componentes de la red (equipos y protocolos) tienen un comportamiento determinístico, ellos existen para satisfacer las demandas de los usuarios, las cuales se presentan en cantidades aleatorias y en instantes de tiempo aleatorios. El modelamiento probabilístico de los tiempos entre llegadas y las intensidades de las demandas de los usuarios de una red, así como sus efectos sobre los componentes (software y hardware) de la red, es una aplicación de la teoría abstracta de las probabilidades y los procesos estocásticos que constituye toda una nueva teoría de tráfico. Aunque también tendremos oportunidad de repasar algunas aplicaciones de nivel físico tales como modulación digital, codificación de fuente y codificación de canal, el énfasis será en la red como un sistema dinámico sometido a la aleatoriedad del tráfico. Se espera que, al finalizar el estudio de este libro, el lector encuentre la teoría de probabilidad útil para comprender, describir, analizar, diseñar y controlar redes de comunicaciones y que, como aplicación concreta de la teoría, conozca modelos prácticos del tráfico sobre redes modernas de comunicaciones y sus efectos sobre los mecanismos de control de admisión, control de acceso, conmutación y control de congestión. Para facilitar el estudio, se han enumerado los conceptos, ejemplos y ejercicios de manera consecutiva, … PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
  • 5. Contenido I. Conceptos básicos de teoría de probabilidad 1. Experimento aleatorio 2. Regularidad estadística 3. Espacio muestral 4. Evento 5. Conjunto potencia del espacio muestral 6. Campo-σ de eventos 7. Mínimo Campo-σ 8. Campo-σ de Borel, U(R) 9. Medida de probabilidad 10. Frecuencia relativa 11. Espacio de probabilidad 12. Algunos teoremas elementales derivados de los axiomas 9.1 – 9.3 13. Probabilidad condicional 14. Teorema de la probabilidad total 15. Regla de Bayes 16. Independencia de eventos 17. Modelamiento probabilístico 18. Sobre los conceptos de aleatoriedad y probabilidad II. Conceptos Básicos de Variables aleatorias 19. Variable aleatoria 20. Función de distribución acumulativa de probabilidad 21. Propiedades de la función de distribución acumulativa de probabilidad 22. Probabilidad de algunos subconjuntos de R 23. Variables Aleatorias Continuas y Discretas 24. Función de distribución de probabilidad, pmf 25. Función de densidad de probabilidad, pdf 26. Propiedades de la pdf y la pmf 27. Valor esperado de una variable aleatoria 28. Función de una variable aleatoria 29. pdf de una función de una variable aleatoria 30. Valor esperado de una función de una variable aleatoria 31. Varianza de una variable aleatoria 32. Propiedades del Valor Esperado y la Varianza de una Variable Aleatoria 33. Momentos de una Variable Aleatoria 34. Algunas variables aleatorias discretas: Rango, Distribución, valor esperado y varianza (Bernoulli, geométrica, binomial, Poisson, uniforme discreta) 35. Algunas variables aleatorias continuas: Rango, Distribución, valor esperado y varianza (uniforme continua, exponencial, Erlang, gaussiana, Pareto, gamma, Weibull, lognormal, beta, Cauchy, Pascal, Laplace, chi-cuadrado, t de student, Rice, Rayleigh, Pareto) 36. Función característica 37. Función generadora de momentos PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
  • 6. 38. Función generadora de probabilidad 39. Cola de una distribución. Cola pesada 40. Desigualdad de Markov 41. Desigualdad de Chebyshev 42. Desigualdad de Chernov. Cotas de Chernov 43. Generación de muestras pseudos-aleatorias con distintas distribuciones III. Vectores aleatorios 44. Vector aleatorio bidimensional 45. Función de distribución acumulativa conjunta 46. Propiedades de la función de distribución acumulativa conjunta 47. Función de distribución acumulativa marginal 48. Función de densidad de probabilidad conjunta 49. Propiedades de la función de densidad de probabilidad conjunta 50. Función de densidad de probabilidad marginal 51. Función de distribución de probabilidad conjunta 52. Propiedades de la función de distribución de probabilidad conjunta 53. Función de distribución de probabilidad marginal 54. Función de distribución acumulativa condicional 55. Función de densidad de probabilidad condicional 56. Función de distribución de probabilidad condicional 57. Probabilidad total 58. Independencia de dos variables aleatorias 59. Combinación lineal de dos variables aleatorias 60. Suma de variables aleatorias independientes. La suma y la integral de convolución. 61. Función de dos variables aleatorias 62. Momentos conjuntos de dos variables aleatorias. Covarianza, coeficiente de correlación, correlación. 63. Ortogonalidad. Interpretación geométrica 64. Esperanza condicional 65. Extensiones a más de dos variables. 66. Principio de ortogonalidad. 67. Predicción lineal. Ecuaciones normales. 68. Estimación de máxima verosimilitud 69. Generación de muestras pseudos-aleatorias de vectores aleatorios IV. Secuencias de variables aleatorias 70. Secuencia de v.a. independientes e idénticamente distribuidas 71. Sumas de v.a. i.i.d: pdf, media, varianza 72. Sumas de v.a. i.i.d. con un número aleatorio de términos 73. Tiempos de detenimiento y Desigualdades de Wald 74. Ley débil de los grandes números 75. Ley fuerte de los grandes números 76. Teorema del límite central 77. Convergencia de secuencias de v.a. 78. Convergencias segura 79. Convergencia casi segura o con probabilidad 1 PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
  • 7. 80. Convergencia en probabilidad 81. Convergencia en media cuadrada 82. Convergencia en distribución 83. Relaciones entre los distintos modos de convergencia 84. Lemmas de Borel-Cantelli V. Conceptos Básicos de Procesos Estocásticos 85. Proceso Estocástico 86. Clasificación por espacio de estados y parámetro de tiempo 87. CDF y pdf conjuntas 88. Funciones de esperanza, autocovarianza y correlacion 89. Procesos con incrementos independientes 90. Procesos estacionarios 91. Caminata aleatoria 92. Continuidad 93. Derivadas e Integrales estocásticas 94. Ergodicidad en la media 95. Ergodicidad en la autocorrelación 96. Procesos Gaussianos 97. Proceso de Poisson 98. (…) VI. Procesamiento Estadístico de Señales 99. Espectro de Potencia 100. Ruido Blanco 101. Filtrado de Procesos Estocásticos mediante sistemas lineales e invariantes en el tiempo 102. Modelamiento de Señales 103. Procesos Autoregresivos de promedios móviles 104. Filtro Wiener 105. Filtro Kalman 106. Estimación no parámetrica del espectro de potencia 107. Métodos basados en el periodograma 108. Métodos basados en la minimización de la varianza 109. Métodos basados en la maximización de la entropía 110. Estimación paramétrica del espectro de potencia 111. Estimación autoregresiva 112. Estimación de Promedios móviles 113. Estimación autoregresiva de promedios móviles 114. Detección de tonos en ruido blanco 115. Eigendescomposición de la matriz de autocorrelación 116. Método de Pisarenko PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
  • 8. 117. Método MUSIC 118. Análisis de componentes principales VII. Introducción a la Teoría de la Estimación y la Detección 119. Pruebas de Hipótesis 120. Pruebas Bayesianas 121. Pruebas MiniMax 122. Pruebas Neyman-Pearson 123. Pruebas Compuestas VIII. Cadenas de Markov IX. Teoría de Colas X. Caracterizacion de Tráfico con dependencia de rango corto XI. Caracterizacion de Tráfico con dependencia de rango largo XII. Garantías de Calidad en Redes Modernas de Comunicaciones XIII. Introducción a la Simulación de Eventos Discretos PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
  • 9. 200 Conceptos de Probabilidad, Variables Aleatorias y 1 Procesos Estocásticos en Redes de Comunicaciones I. Conceptos Básicos de Teoría de Probabilidad 1. Experimento aleatorio Un experimento es un proceso de observación mediante el cual se selecciona un elemento de un conjunto de posibles resultados. Un experimento aleatorio es aquel en el que el resultado no se puede predecir con anterioridad a la realización misma del experimento. Los ejemplos típicos de los cursos de probabilidad incluyen lanzar una moneda, que equivale a seleccionar un elemento del conjunto {cara, sello}, lanzar un dado, que equivale a seleccionar un elemento del conjunto {1,2,3,4,5,6}, o escoger una carta de la baraja de naipes, que equivale a seleccionar un elemento del conjunto {(f,n) : f∈{picas, tréboles, corazones, diamantes}, n∈{1,2,3,4,5,6,7,8,9,10,J,Q,K}}. Otros ejemplos más interesantes para nosotros incluyen medir la tasa de pérdida de paquetes en una conversación VoIP, que equivale a seleccionar un elemento del conjunto {x∈R | 0 ≤ x ≤ 1}, medir el retardo de un paquete de voz en esa misma conversación, que equivale a seleccionar un elemento del conjunto R+ (los reales positivos), o verificar el estado de ocupación de un canal de comunicaciones, que equivale a seleccionar un elemento del conjunto {libre, ocupado}. En un experimento aleatorio, aunque se mantengan constantes las condiciones bajo las cuales se realizan diferentes instancias del mismo, el resultado no se puede predecir con anterioridad a la realización del experimento. Por ejemplo, como vimos en la introducción, generalmente no es posible predecir el caudal, el tamaño del archivo ni el tiempo de transferencia en una transacción ftp, lo que indica que transferir un archivo de un servidor a un cliente mediante ftp constituye un experimento aleatorio. Igualmente, si desde la ventana de comandos de nuestro PC ejecutamos la instrucción C:>netstat –e 10 > estadisticas.txt y navegamos por Internet por algunos minutos, generaremos un archivo con algunas estadísticas de la red, incluyendo el número de bytes que se han recibido en períodos de diez segundos. La figura 1 presenta una gráfica del número de bytes recibidos durante varios períodos en una instancia del experimento. Evidentemente, no estamos en condiciones de predecir cuántos bytes llegarán en el siguiente período, aún cuando podemos afirmar que, por ejemplo, sería muy extraño si llegaran más de 150 kbytes y, en cambio, sí sería de esperar que fueran más de 10 kbytes. De cualquier manera, queda claro que observar el número de bytes recibidos en 10 segundos mientras se navega por Internet constituye un experimento aleatorio. PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
  • 10. 200 Conceptos de Probabilidad, Variables Aleatorias y 2 Procesos Estocásticos en Redes de Comunicaciones 4 x 10 Experimento netstat 14 12 10 Numero de bytes / periodo 8 6 4 2 0 0 20 40 60 80 100 120 140 160 180 200 Periodos de 10 s Figura 1. Observar el número de bytes que llegan de la red en un período de 10 segundos constituye un buen ejemplo de lo que es un experimento aleatorio. ¿Porqué no podemos predecir el resultado de un experimento aleatorio? En principio, esta pregunta ha desvelado a muchos científicos de muchas maneras distintas. Las siguientes son tres posibles razones: (1) Desconocemos las leyes naturales que rigen el experimento, (2) conocemos dichas leyes pero son tan complejas que nos es imposible –o resulta indeseable- evaluarlas, (3) existe una indeterminación básica en el universo. La tercera razón es propia de la mecánica cuántica, en la que cada partícula se describe mediante una función de onda que representa la incertidumbre en su posición y su velocidad en cada instante. Las primeras dos razones, en cambio, hablan de nuestra ignorancia, lo que haría de la aleatoriedad un concepto subjetivo. La definición 19 trata de estos aspectos. Lo cierto es que, como muestran los experimentos netstat o ftp, ni siquiera el más experto ingeniero conocedor de los más íntimos detalles de la implementación de cada protocolo de una red de comunicaciones a todos los niveles de su jerarquía funcional podría predecir los instantes en que cada usuario de la red generará demandas o la magnitud de esas demandas. En consecuencia, aunque una mente privilegiada con infinitos poderes divinos pudiera considerar una red de comunicaciones como un sistema determinístico, a nosotros, pobres mortales, nos toca aceptar nuestra incertidumbre sobre el comportamiento de la red y conformarnos con el hecho de que, al observar la red, estamos llevando a cabo un experimento aleatorio. 2. Frecuencia Relativa Sea A un subconjunto del conjunto de posibles resultados de un experimento aleatorio. Si repetimos N veces el experimento y observamos que en NA de esas repeticiones se obtuvo un elemento de A, decimos que fN(A) = NA/N es la frecuencia relativa del subconjunto A en esas N repeticiones del experimento. PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
  • 11. 200 Conceptos de Probabilidad, Variables Aleatorias y 3 Procesos Estocásticos en Redes de Comunicaciones Nótese que la notación es muy imprecisa pues fN(A) no es una función de A subindicada por N. En efecto, en una secuencia diferente de N repeticiones del mismo experimento podríamos obtener un valor distinto de fN(A). Por ejemplo, considérense las siguientes dos secuencias de 10 lanzadas de un dado (el listado 1 muestra cómo lanzar dados en matlab): Secuencia 1 : 2 4 2 2 1 5 3 6 3 3 Secuencia 2 : 6 4 2 5 6 1 5 3 5 4 Si observamos la frecuencia relativa del subconjunto A = {el resultado es menor que cuatro} = {1, 2, 3} obtenemos que f10(A) = 0.7 en la primera secuencia y f10(A) = 0.3 en la segunda secuencia, mientras que, considerando las dos secuencias conjuntamente, obtenemos f20(A) = 0.5. Con respecto al subconjunto B = {el resultado es un número par} = {2, 4, 6}, en cada secuencia individual se obtiene f10(B) = 0.5 al igual que en la secuencia conjunta, f20(B) = 0.5. Afortunadamente, en muchas ocasiones las frecuencias relativas observadas en diferentes secuencias de experimentos parecen converger a un número muy preciso a medida que el número de repeticiones aumenta en cada secuencia, como se menciona a continuación. 3. Regularidad estadística La regularidad estadística es la propiedad que tienen muchos experimentos aleatorios según la cual, al repetir el experimento un gran número de veces bajo condiciones constantes, algunas estadísticas de los resultados obtenidos, como la frecuencia relativa de algún subconjunto de ellos, parecen tender a valores precisos a medida que aumenta el número de repeticiones. Aceptar con humildad nuestra incapacidad de predecir el comportamiento de una red de comunicaciones no quiere decir que debamos considerar imposible el diseño de dichas redes con estrictos requerimientos de desempeño. Al contrario, lo que debemos hacer (y lo que han hecho los ingenieros de redes de comunicaciones en los últimos 150 años) es tratar de cuantificar nuestra incertidumbre para así poder usarla como una herramienta a nuestro favor. Afortunadamente, muchos experimentos aleatorios presentan cierta regularidad estadística que facilitan la cuantificación de nuestra incertidumbre. Considérese, por ejemplo, el experimento netstat de la figura 1. Supongamos que después de haber observado el número de bytes recibidos durante n períodos de 10 segundos medimos la fracción de períodos en los que llegaron más de 40 kbytes y menos de 60 kbytes. Esta fracción es la frecuencia relativa del evento E = {x∈N : 40000 < x < 60000}, 1 n f n ( E ) = ∑ 1 ( xi ∈ E ) n i =1 donde xi es el número de bytes recibidos en el i-ésimo período de 10 s y 1(s) es la función indicadora de la sentencia s, igual a 1 si la sentencia s es cierta e igual a 0 si la sentencia s es falsa. La figura 2 muestra una gráfica de fn(E) vs n, en la que se puede apreciar cómo PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
  • 12. 200 Conceptos de Probabilidad, Variables Aleatorias y 4 Procesos Estocásticos en Redes de Comunicaciones fn(E) parece tender a algún valor específico a medida que aumentamos el número de experimentos, n. (El listado 2 muestra un programa en matlab que genera gráficas como las de las figuras 1 y 2 a partir del archivo estadisticas.txt producido por la instrucción netstat –e 10 >estadisticas.txt). Es precisamente la regularidad estadística la que nos permite estudiar con rigurosidad los experimentos aleatorios que a diario tiene que realizar un ingeniero a cargo de una red de comunicaciones, pues ella nos permite saber que, a la larga, se pueden esperar comportamientos claramente predecibles. Por ejemplo, si la persona que estuvo navegando por la web durante los 33 minutos que duró el experimento netstat de la figura 1 sigue haciendo el mismo tipo de consultas durante los siguientes 33 minutos, podríamos afirmar con un alto grado de certeza que “en cerca del 72% de los períodos de 10 s, se espera que lleguen entre 40 y 60 kbytes”. La teoría de la probabilidades pretende estudiar estas tendencias observadas en las estadísticas que se pueden asociar con un gran número de repeticiones de un experimento aleatorio, pero librándonos de términos imprecisos como “a la larga”, “se espera que”, “cerca de”, etc. Por ejemplo, la teoría de probabilidades querría que dijéramos que “con una confianza del 72%, en el próximo período de 10 s llegarán entre 40 y 60 kbytes”. Así pues, es la regularidad estadística de muchos experimentos aleatorios la que le permite a la teoría de la probabilidad convertirse en una herramienta para cuantificar nuestra incertidumbre. Experimento netstat 0.8 Fraccion de periodos con llegadas entre 40 y 60 kbytes 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 20 40 60 80 100 120 140 160 180 200 Periodos de 10 s Figura 2. Aunque no podemos predecir el número de bytes que llegarán de la red en el próximo período de 10 segundos, podemos afirmar que cerca del 72% del tiempo se reciben entre 40 kbytes y 60 kbytes. 4. Espacio Muestral El espacio muestral de un experimento aleatorio es el conjunto de todos los posibles resultados que podrían observarse en una realización del experimento. PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
  • 13. 200 Conceptos de Probabilidad, Variables Aleatorias y 5 Procesos Estocásticos en Redes de Comunicaciones Cuando definimos un experimento como un proceso de observación mediante el cual se selecciona un elemento de un conjunto de posibles resultados, queda claro que, si queremos especificar adecuadamente un experimento, lo primero que debemos describir con precisión es ese conjunto de posibles resultados. En este libro, como es costumbre en la mayoría de textos sobre probabilidades, denotaremos el espacio muestral mediante la letra griega mayúscula Ω (ómega) y sus elementos, de manera genérica, se denotarán mediante la correspondiente letra minúscula ω. Algunos ejemplos que ya se mencionaron en la definición 1 son 1. Lanzar una moneda y ver qué lado queda hacia arriba: Ω = {cara, sello}. 2. Lanzar un dado y contar los puntos en la cara que queda hacia arriba: Ω = {1,2,3,4,5,6}. 3. Escoger una carta de la baraja de naipes: Ω = {picas, tréboles, corazones, diamantes}×{1,2,3,4,5,6,7,8,9,10,J,Q,K}, donde × representa el producto cartesiano entre los dos conjuntos. (Observe que, aunque existen una diferencia de notación con respecto a la utilizada en la definición 1, sigue siendo el mismo espacio muestral). 4. Medir la fracción de paquetes perdidos durante una hora en una red IP: Ω = {x∈R : 0 ≤ x ≤ 1}. 5. Medir el retardo experimentado por un paquete de datos mientras transita por una red IP: Ω = R+ = { x∈R : x > 0}. 6. Verificar el estado de ocupación de un canal de comunicaciones: Ω = {libre, ocupado}. Pero podemos pensar en muchos más: 7. Se cuenta el número de canales libres en un enlace E1: Ω = {0,1,2,…,32}. 8. Se mira el estado de ocupación de cada uno de los canales en un enlace E1 : Ω = {libre, ocupado}32. La potencia indica que se deben ejecutar 32 productos cartesianos del conjunto {libre, ocupado} con sigo mismo, con lo que se construye el conjunto de todas las cadenas de 32 símbolos en las que cada símbolo puede tomar uno de los valores libre u ocupado. Nótese que, aunque el experimento parece sencillo, la cardinalidad del espacio muestral (su número de elementos) es mayor a cuatro mil millones (|Ω | = 4.294’967.296). 9. Se determina si un bit, transmitido sobre un canal de comunicaciones, llega correctamente al otro lado: Ω = {si, no} 10. Se cuenta el número de transmisiones que requiere un paquete de datos hasta llegar correctamente a su destino: Ω = {1,2,3,…} 11. Se cuenta el número de bits recibidos con error en una trama de L bits que llega a través de un canal ruidoso: Ω = {0,1,2,…,L} 12. Se mide durante una hora la fracción de tiempo que un enlace de comunicaciones permanece ocupado: Ω = {x∈R : 0 ≤ x ≤ 1}. 13. Se cuenta el número de paquetes que llegan a un enrutador de una red de comunicaciones durante un período de una hora: Ω = {0,1,2,…}. 14. Se mide el tiempo que transcurre entre la llegada de dos paquetes consecutivos a un enrutador de una red de comunicaciones: Ω = R+ = { x∈R : x > 0}. PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
  • 14. 200 Conceptos de Probabilidad, Variables Aleatorias y 6 Procesos Estocásticos en Redes de Comunicaciones Otros pueden ser más elaborados: 15. Un transmisor envía una señal senoidal a través de un canal con ruido aditivo y en el receptor se toman N∈N muestras de la señal recibida, una cada Ts∈R segundos: Ω = { y ∈ ℝ N : yn = A sin ( 2π f ( nTs ) + φ ) + ε n , A ∈ ℝ , f ∈ ℝ ,φ ∈ ℝ , ε ∈ ℝ N , n ∈ {0,1,..., N − 1}} Esto es, las operaciones en el transmisor, el canal y el receptor constituyen un proceso de observación mediante el cual seleccionamos uno de todos los vectores N- dimensionales que corresponden a N muestras de una señal con amplitud, frecuencia y fase desconocidas, sumergida en ruido aditivo. 16. Se entrena una red neuronal feed-forward con n1 entradas, n2 neuronas en la capa escondida y una neurona en la capa de salida para que detecte un ataque DoS (Denial of Service) a partir de n1 características obtenidas del tráfico dirigido a un servidor web durante la última media hora:    n2  n1     Ω = ( f : R n1 → {0,1}) : f ( x) = 1  ∑ wi tanh  ∑ v j ,i x j − vn1 +1,i  ≥ wn2 +1  , x ∈ R n1 , v ∈ R n1 +1 × R n2 , w ∈ R n2 +1   i =1      j =1     Esto es, el algoritmo de entrenamiento es un proceso de observación mediante el cual seleccionamos una de todas las posibles funciones que puede evaluar una red neuronal con la estructura propuesta. 17. Se corre un algoritmo de enrutamiento para encontrar una ruta adecuada entre una fuente y un destino conectados mediante una red IP: Para describir un posible espacio muestral para este experimento, consideremos que la red está compuesta por un conjunto de N>1 enrutadores, numerados de 1 a N, donde la fuente está conectada al enrutador 1, el destino está conectado al enrutador N y una matriz de adyacencias ANxN describe la existencia de enlaces entre los enrutadores, de manera que Ai,j = 1 si los nodos i y j están conectados por un enlace o Ai,j = 0 si no lo están. Ω = {(1 = n1 , n2 , n3 ..., nk = N ) : ( 2 ≤ k ≤ N ) , (1 < ni < N , i = 2,3,..., k − 1) , ( An ,n = 1, i = 1, 2,..., k − 1) , ( ni ≠ n j , i ≠ j )} i i +1 Esto es, la ejecución del algoritmo de enrutamiento es un proceso de observación mediante el cual se escoge una de todas las posibles secuencias de enrutadores adyacentes que empiezan con el enrutador 1 y terminan con el enrutador N, en las que no hay enrutadores repetidos. Nótese que, aunque cada experimento aleatorio puede tener solamente un espacio muestral, la ignorancia del modelador respecto a detalles particulares del experimento le puede llevar a considerar espacios muestrales más grandes, lo cual no está mal mientras el espacio muestral supuesto por el modelador, Ωm, contenga al espacio muestral verdadero, Ωv. En efecto, en ese caso, simplemente los “posibles resultados” pertenecientes a Ω m – Ωv nunca ocurrirán. Por ejemplo, en el experimento 7, un modelador con mayor conocimiento a priori podría saber que ese canal E1 hace parte de una red PCM para telefonía, en cuyo caso reduciría su espacio muestral a Ω = {0,1,2,…,30} si sabe que el canal 0 siempre está ocupado con bits de sincronización y el canal 16 siempre está ocupado con bits de señalización. Igualmente, en el experimento 5, algún modelador podría saber cuál es la mínima longitud de los paquetes, L bits, y la máxima capacidad de la ruta, C bps, con lo que podría reducir el espacio muestral a Ω = PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
  • 15. 200 Conceptos de Probabilidad, Variables Aleatorias y 7 Procesos Estocásticos en Redes de Comunicaciones {x∈R : x ≥ L/C}. Cabe anotar que, en muchas ocasiones, un modelador con una gran cantidad de conocimiento a priori que le permita encontrar un conjunto Ωm muy cercano a Ω v, puede decidir escoger un espacio muestral aún mayor a Ω m con el único propósito de simplificar el tratamiento analítico posterior. Por ejemplo, como el número de paquetes que llegan en una hora es un número entero, un modelador podría saber que en el experimento 4 un espacio muestral más cercano al verdadero está contenido en {m/n ∈ Q+ : n ≥ m, n ≤ 3600 C / L}, donde Q+ son los números racionales no negativos, L es el mínimo tamaño de los paquetes en bits y C es la suma de las capacidades de todos los enlaces en bps. Sin embargo, parece intuitivamente claro que podría ser más fácil considerar el espacio muestral propuesto anteriormente, el intervalo real [0,1]. La figura 3 muestra un diagrama de Venn que incluye el conjunto j compuesto por todos los posibles resultados de todos los posibles experimentos (¿cuán grande es este conjunto?) y, en él, algunos campos muestrales asignados a un experimento particular, Ωv ⊂ Ω1 ⊂ Ω2 ⊂ Ω3 y Ω 4. El verdadero espacio muestral, Ω v, puede ser un conjunto muy complejo. Ω 1 es el espacio muestral que podría seleccionar un modelador juicioso con una gran cantidad de conocimiento a priori. Ω2 es el espacio muestral que decidiría seleccionar este mismo modelador para facilitar el análisis posterior. Ω3 es el espacio muestral seleccionado por otro modelador igualmente juicioso pero que tiene muy poco conocimiento a priori. Por último, Ω 4 es el espacio muestral que seleccionaría un modelador poco juicioso y muy desafortunado, pues no podrá llegar a ningún destino útil por haber empezado parándose sobre arenas movedizas (a menos, claro está, que él sepa que su espacio muestral puede no incluir al verdadero y, en cada paso del análisis, mantenga presente los posibles efectos de este error. Esto es lo que hace el diseñador de una red neuronal, por ejemplo, cuando busca en el espacio de las funciones calculables por la red una que reproduzca el procedimiento que genera los datos de entrenamiento). j Ω3 Ω 2 Ω1 Ω v Ω4 Figura 3. Algunos espacios muestrales asignados a un mismo experimento 5. Evento Un evento es un subconjunto del espacio muestral de un experimento aleatorio. El evento A ⊂ Ω ocurre al realizar una instancia del experimento si el resultado obtenido pertenece a A, ω ∈ A. PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
  • 16. 200 Conceptos de Probabilidad, Variables Aleatorias y 8 Procesos Estocásticos en Redes de Comunicaciones Supongamos, por ejemplo, que medimos la fracción de paquetes perdidos en una videoconferencia, de manera que los posibles resultados son Ω = {x∈R : 0 ≤ x ≤ 1}. Si nos interesa satisfacer un requerimiento de calidad de servicio según el cual no se pueden perder más del 0.1% de los paquetes, deberíamos buscar que una fracción importante de las instancias del experimento correspondieran a elementos del subconjunto A = { x∈Ω : x ≤ 0.001}. De la misma manera, en cada uno de los experimentos propuesto en el punto 3 podemos definir algunos eventos apropiados: 1. Lanzar una moneda y ver qué lado queda hacia arriba: Los posibles eventos de interés incluyen a los subconjuntos unitarios de Ω , A={cara} y B={sello}. No sobra recordar que, mientras cara es un posible resultado del experimento, esto es, un elemento de Ω, {cara} es un subconjunto unitario de Ω. ¡Y es muy importante reconocer la diferencia! De otro lado, además de los eventos A y B mencionados antes hay otros dos posibles eventos : Ω (el evento cierto) y Φ, (vacío o el evento nulo), pues ellos dos siempre son subconjuntos de Ω. 2. Lanzar un dado y contar los puntos en la cara que queda hacia arriba: En el espacio muestral Ω = {1,2,3,4,5,6} están incluidos conjuntos como A = {hay más de tres puntos} = {4,5,6} y B = {hay un número par de puntos} = {2,4,6}. 3. Escoger una carta de la baraja de naipes: En el espacio muestral descrito antes están contenidos, por ejemplo, los eventos A = {Una figura de pinta roja} = {corazones, diamantes}×{J,Q,K} y B = {Un as negro} = {(picas, 1), (tréboles, 1)}. 4. Medir la fracción de paquetes perdidos durante una hora en una red IP: El espacio muestral es el intervalo [0,1] de la recta real, donde podemos definir un evento A que dispararía una alarma en el centro de gestión de la red, Α = {x∈[0,1] : 0.1 ≤ x }: ¡En la última hora se perdió más del 10% de los paquetes! 5. Medir el retardo experimentado por un paquete de voz mientras transita por una red IP dotada con mecanismos VoIP: En este caso, como un paquete que llegue con más de 100 ms (p.ej.) de retardo es descartado en el receptor, un evento de gran interés sería A = {x∈Ω : x > 0.1} = {El paquete no alcanza a ser reproducido en el receptor}. 6. Verificar el estado de ocupación de un canal de comunicaciones: Como en el ejemplo 1, los posibles eventos de interés son los subconjuntos unitarios {libre} y {ocupado}, que son diferentes a los elementos de Ω, libre y ocupado. 7. Se cuenta el número de canales libres en un enlace E1: Si una videoconferencia requiere 384 kbps, un evento de interés podría ser A = {Se puede establecer una videoconferencia} = {6,7,8,…,32}. 8. Se mira el estado de ocupación de cada uno de los canales en un enlace E1 : Ω = {Libre, Ocupado}32. Si definimos 33 eventos diferentes [Xi = {Hay i canales libres}, i=0,1,2,…,32], estaríamos “reconstruyendo” el experimento 7. Sin embargo, mientras “16 canales libres” es un elemento del espacio muestral del experimento 7, en el experimento 8 se trata de un evento (un subconjunto del espacio muestral) compuesto por ¡601’080.390 elementos! 9. Se determina si un bit, transmitido sobre un canal de comunicaciones, llega correctamente al otro lado: Ω = {si, no}. Como en el experimento 1, no tenemos muchos más eventos que los unitarios {si} y {no}, aunque siempre podemos escoger también el evento cierto y el evento Nulo. PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
  • 17. 200 Conceptos de Probabilidad, Variables Aleatorias y 9 Procesos Estocásticos en Redes de Comunicaciones 10. Se cuenta el número de transmisiones (a través de un canal ruidoso) que requiere un paquete de datos hasta llegar correctamente a su destino: Ω = {1,2,3,…}. El evento {No hay errores de transmisión} corresponde al subconjunto unitario {1}. 11. Se cuenta el número de bits con errores en una trama de L bits que se recibe de un canal ruidoso: Ω = {0,1,2,…,L}. El evento {Es necesario retransmitir el paquete} corresponde al subconjunto {1,2,3,…,L} = {0}C, donde el superíndice C indica complemento en Ω : Será necesario retransmitir el paquete si se daña al menos un bit. 12. Se mide durante una hora la fracción de tiempo que un enlace de comunicaciones permanece ocupado: Ω = {x∈R : 0 ≤ x ≤ 1}. Un posible criterio de gestión de la red podría llamar al evento {x∈Ω : x ≥ 0.8} como {Es necesario dispersar el tráfico que cursa sobre el enlace}. 13. Se cuenta el número de paquetes que llegan a un enrutador de una red de comunicaciones durante una hora: Ω = {0,1,2,…}. Si el enrutador es capaz de atender hasta µ paquetes por hora, un evento de sumo interés para el administrador de la red será A = {n∈Ω : n > µ}, pues la ocurrencia del evento A indica que el enrutador está experimentando congestión. 14. Se mide el tiempo que transcurre entre la llegada de dos paquetes consecutivos a un enlace de una red de comunicaciones: Ω = R+ = { x∈R : x > 0}. ¿Cuál sería el evento A={Cuando llega el segundo paquete, el primer paquete ya ha sido transmitido}? La respuesta puede no ser fácil porque depende del estado del enlace (cuántos paquetes había en espera de servicio) cuando llegó el primer paquete, cuya observación constituye otro experimento aleatorio. Sin embargo, si la longitud mínima de los paquetes es L bits y la capacidad del enlace es C bps, sabemos con seguridad que el evento que nos preguntan está contenido en otro evento mayor, A ⊆ B = {x∈Ω : x > L/C}. 15. Un transmisor envía una señal senoidal a través de un canal con ruido aditivo y en el receptor se toman N∈N muestras de la señal recibida, una cada Ts∈R segundos: Ω = { y ∈ ℝ N : yn = A sin ( 2π f ( nTs ) + φ ) + ε n , A ∈ ℝ, f ∈ ℝ,φ ∈ ℝ, ε ∈ ℝ N , n ∈ {0,1,..., N − 1}} La detección de la señal en el receptor se hace más difícil entre menor sea la relación N −1 entre la potencia de la señal, Ps = A2/2, y la potencia del ruido, PN = 1 ∑ε 2 n , por lo N n=0 que un evento de interés para el diseñador del receptor sería, por ejemplo, R = {y∈Ω : Ps>PN}. 16. Se entrena una red neuronal feed-forward con n1 entradas, n2 neuronas en la capa escondida y una neurona en la capa de salida para que detecte un ataque DoS (Denial of Service) a partir de n1 características obtenidas del tráfico dirigido a un servidor web durante la última media hora:    n2  n1     Ω = ( f : R n1 → {0,1}) : f ( x) = 1  ∑ wi tanh  ∑ v j ,i x j − vn1 +1,i  ≥ wn2 +1  , x ∈ R n1 , v ∈ R n1 +1 × R n2 , w ∈ R n2 +1   i =1      j =1     Si se tomaron N muestras {xi∈Rn1, i = 0, …, N-1}, unas bajo condiciones normales de operación, a las cuales asignamos yi=0, y otras bajo condiciones de ataque, a las cuales asignamos yi=1, podríamos querer obtener un resultado perteneciente al evento A = {La red se equivoca en menos del 10% de las muestras de prueba} o PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
  • 18. 200 Conceptos de Probabilidad, Variables Aleatorias y 10 Procesos Estocásticos en Redes de Comunicaciones N −1  1  A =  f ∈Ω :  N ∑ n=0 f ( xi ) − yi < 0.1  Si descubriésemos que este evento es el conjunto vacío, deberíamos modificar la estructura de la red o rebajar nuestra exigencia del 90% de aciertos. 17. Se corre un algoritmo de enrutamiento para encontrar una ruta adecuada entre una fuente y un destino conectados mediante una red IP. De acuerdo con la nomenclatura utilizada para este experimento en la definición anterior, el espacio muestral es: Ω = {(1 = n1 , n2 , n3 ..., nk = N ) : ( 2 ≤ k ≤ N ) , (1 < ni < N , i = 2,3,..., k − 1) , ( An ,n = 1, i = 1, 2,..., k − 1) , ( ni ≠ n j , i ≠ j )} i i +1 Como uno de los criterios típicos para los algoritmos de enrutamiento es que el número de saltos en la ruta sea lo más pequeño posible, un evento de interés sería el conjunto de rutas con menos de H saltos, A = {R ∈ Ω : |R| ≤ H}, pues entre los elementos de ese subconjunto podríamos buscar rutas con características adicionales en cuanto a mínimo ancho de banda, máxima latencia, etc. (obsérvese que |R| es el número de nodos en la ruta, de manera que |R| ≤ H implica que el número de saltos es estrictamente menor que H). 6. Conjunto Potencia de Ω, {0,1}Ω El Conjunto Potencia de Ω es el conjunto de todos los posibles eventos, esto es, la clase de conjuntos conformada por todos los subconjuntos contenidos en Ω, {0,1} Ω = {A : A⊆Ω }. En aquellos experimentos aleatorios en los que el espacio muestral tiene una cardinalidad finita, es legítimo pensar en enumerar todos los posibles eventos que pueden ocurrir, esto es, todos los posibles subconjuntos de Ω. Para construir esta clase de conjuntos basta con considerar todas las secuencias binarias de |Ω | bits, donde |Ω | es la cardinalidad de Ω, de manera que a cada posición en la secuencia le corresponde un elemento de Ω. Así, con cada secuencia construimos un subconjunto conformado por los elementos asociados con un uno en la posición correspondiente de la secuencia. Por ejemplo a la secuencia 0, compuesta por |Ω| ceros, le corresponde el conjunto vacío, que siempre es un subconjunto de cualquier conjunto; a la secuencia 2i-1, con i∈{1,2,…, |Ω|}, compuesta por |Ω |-1 ceros y un uno en la posición i, le corresponde el evento unitario {ωi}; a la secuencia 2i-1 + 2j-1, con i,j∈{1,2,…, |Ω|}, i≠j, compuesta por |Ω |-2 ceros y dos unos en las posiciones i y j, le corresponde el evento binario {ωi, ωj}; a la secuencia 2|Ω |-1, compuesta por |Ω| unos, le corresponde el espacio muestral mismo que, por definición, es un subconjunto de si mismo. Debido a esta metodología de construcción, es razonable que al conjunto potencia del espacio muestral Ω se le denote como {0,1}Ω. Más aún, como en {0,1}Ω hay un conjunto vacío, |Ω | conjuntos unitarios, (|Ω | 2) conjuntos binarios –donde (m k) es el número de combinaciones de k elementos escogidos entre m posibles–, (|Ω | 3) conjuntos Ω ternarios, etc., la cardinalidad de {0,1}Ω es {0,1}Ω = ∑  Ω  = 2 Ω .   n=0  n  PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
  • 19. 200 Conceptos de Probabilidad, Variables Aleatorias y 11 Procesos Estocásticos en Redes de Comunicaciones En el experimento 6 de la definición 4, por ejemplo, en el que verificamos el estado de ocupación de un canal de comunicaciones, solamente hay dos posibles resultados, por lo que tenemos solamente cuatro posibles eventos: Libre Ocupado Evento 0 0 Φ 0 1 {Ocupado} 1 0 {Libre} 1 1 Ω Pero si viéramos el estado de ocupación de dos canales, considerando cada uno individualmente, tendríamos 16 posibles eventos: (libre, (libre, (ocupado, (ocupado, Evento libre) ocupado) libre) ocupado) 0 0 0 0 Φ 0 0 0 1 {No hay canales libres} 0 0 1 0 {(ocupado, libre)} 0 0 1 1 {El primer canal esta ocupado} 0 1 0 0 {(libre, ocupado)} 0 1 0 1 {El segundo canal está ocupado} 0 1 1 0 {Sólo hay un enlace libre} 0 1 1 1 {Al menos un canal está ocupado} 1 0 0 0 {No hay canales ocupados} 1 0 0 1 {Ambos están libres o ambos están ocupados} 1 0 1 0 {El segundo canal está libre} 1 0 1 1 {El primero está ocupado o el segundo está libre} 1 1 0 0 {El primer canal está libre} 1 1 0 1 {El primero está libre o el segundo está ocupado} 1 1 1 0 {Al menos un canal está libre} 1 1 1 1 Ω Con tres canales tendríamos 256 posibles eventos y con cuatro canales deberíamos considerar 65536 eventos… En el experimento ocho, por ejemplo, en el que inocentemente queremos ver el estado de ocupación de cada canal en un enlace E1, tendríamos 24.294’967.296 posibles eventos, ¡más de 101.000’000.000 eventos! ¡Un uno seguido por mil millones de ceros! Para hacernos a una idea de la cardinalidad de este conjunto, consideremos el tamaño del universo: 4×1026 metros (la distancia que ha podido recorrer la luz desde el BigBang, que son 42 mil millones de años luz, algo más de los 14 mil millones de años que han transcurrido desde entonces debido a que la expansión cósmica ha triplicado las distancias). Si el radio del electrón es 2.8×10-15 m, podríamos empacar cerca de 1041 electrones en el universo, sin dejar ningún espacio entre ellos. Luego, si por cada posible evento en nuestro experimento sencillo nos regalaran un electrón, ¡necesitaríamos 10999’999.959 universos para almacenarlos! En ese número de universos es altamente probable encontrar uno idéntico al nuestro, ¡excepto porque nuestro amable lector tendría otro color de ojos! ¿Cómo nos pudimos meter en un problema tan grande si sólo queríamos monitorear un simple enlace E1? De hecho, aunque observar los 32 canales de un inofensivo enlace E1 puede generar un número mucho más que astronómicamente grande de posibles eventos, todavía se trata de un conjunto describible (tanto que podemos contar cada uno de sus elementos). Pero, ¿podría el lector imaginarse el conjunto potencia del experimento 14? ¡Es el conjunto de todos los subconjuntos que se pueden formar con los números reales no negativos! Si los famélicos 32 canales de un enlace E1 lograrán atemorizarnos de hoy en adelante cada vez que pasemos cerca de la pequeña PBX de la oficina, ¿qué podría hacer el conjunto de los PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
  • 20. 200 Conceptos de Probabilidad, Variables Aleatorias y 12 Procesos Estocásticos en Redes de Comunicaciones números reales? Grandes matemáticos como Bolzano, Cauchy, Weierstrass, Dedekind y Cantor han estudiado estos “monstruos matemáticos”, algunos de ellos con apreciables consecuencias en su salud mental. Como nos preocupa la salud mental de nuestros lectores, resulta conveniente definir el siguiente concepto, campo-σ de eventos. Esto es, en vez de pretender que se atemorice la próxima vez que vaya a revisar el PBX de la oficina, sólo queremos motivar al lector a seleccionar un conjunto pequeño de eventos de interés cada vez que decida modelar un experimento aleatorio. 7. Campo-σ de Eventos Un Campo de Eventos, Y , es una clase de subconjuntos de Ω que satisface los siguientes axiomas: (1) Y es no vacío, (2) si A∈ Y, AC∈ Y, (3) si A,B∈ Y, A∪B∈ Y. Un campo-σ de eventos es un campo contablemente aditivo, esto es, que satisface la condición adicional (3ª) si {An∈ Y, n=1,2,…}, ∪∞=1 An ∈ Y. n La idea es que más adelante vamos a definir la probabilidad como una función que le asigna una medida real a cada evento de interés. Pero una función no queda bien definida si no especificamos claramente su rango y su dominio. Y, como vimos en la definición 6, no podemos especificar como dominio el conjunto de todos los posibles eventos, pues en muchos casos ese conjunto puede ser monstruoso. Sólo cuando el espacio muestral tiene cardinalidad finita (¡y pequeña!), es posible considerar el conjunto de todos los eventos, el cual es un campo-σ, evidentemente. Pero tampoco podemos seleccionar algunos pocos eventos de interés e ignorar el resto si no le damos una estructura al dominio correspondiente, con el que evitemos llegar rápidamente a inconsistencias. Si nos interesa el evento A⊆Ω, ¿cómo no nos podría interesar el evento AC = {No sucede A}? O si nos interesan los eventos A y B ⊆ Ω, ¿cómo no nos podría interesar el evento A∪B = {sucede por lo menos uno de los dos eventos}? Al cerrar el campo de eventos sobre las uniones y los complementos, estamos incluyendo en él todos los eventos asociados con los eventos de interés definidos originalmente, con lo cual podemos asignar medidas de probabilidad a cada evento sin preocuparnos por inconsistencias, como veremos en la definición 10. Podemos deducir algunas propiedades adicionales de un campo-σ de eventos a partir de los axiomas que lo definen. Por ejemplo, (1) Ω ∈ Y. En efecto, como Y no es vacío, debe contener al menos un evento A y, por el segundo axioma, también debe contener a AC. El tercer axioma requiere que la unión de cualquier par de miembros de Y pertenezca a Y, por lo que A∪AC = Ω ∈ Y. (2) Φ∈ Y. Esta propiedad surge de aplicar el segundo axioma a la propiedad anterior. (3) Si A∈ Y y B∈ Y, A∩B∈ Y. En efecto, por el segundo axioma AC∈ Y y BC∈ Y, por lo que el segundo axioma asegura que AC∪BC∈ Y y, aplicando nuevamente el segundo axioma, (AC∪BC)C = A∩B∈ Y. (4) Similarmente, usando los axiomas 2 y 3ª, podemos decir que si {An∈ Y, n=1,2,…}, ∩∞=1 An ∈ Y. n Así pues, el campo-σ contiene todos los complementos, intersecciones numerables y uniones numerables de cada uno de los conjuntos que lo componen. La virtud de esta PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
  • 21. 200 Conceptos de Probabilidad, Variables Aleatorias y 13 Procesos Estocásticos en Redes de Comunicaciones construcción es que, con ella, podemos desarrollar todas las funciones lógicas Booleanas sobre los eventos de interés, lo cual nos da la coherencia que necesitamos para expresarnos de manera lógica respecto a los eventos sin salirnos de nuestro campo de eventos, pues estos constituyen un álgebra booleana cerrada para la negación, la conjunción y la disyunción. Antes de mostrar algunos ejemplos, es conveniente incluir una definición adicional. 8. Mínimo Campo-σ de Eventos Dada una clase de eventos V ⊆ {0,1}Ω, el mínimo campo-σ de eventos que contiene a V, σ(V), es el campo-σ de menor cardinalidad entre todos los campos-σ que lo contienen. Como sugeríamos al concluir la definición 6, una vez escogidos el experimento aleatorio y su espacio muestral Ω, lo siguiente por hacer es seleccionar una clase de eventos de interés, V, y, con esta clase, construir el mínimo campo-σ que contiene a todos los eventos en V. Este mínimo campo-σ se representa mediante σ(V) y se puede construir así: Si denotamos f como el conjunto de campos-σ que contienen a V, podemos saber que f no es vacío pues por lo menos {0,1}Ω es un campo-σ de subconjuntos de Ω que contiene a V. Definiendo σ(V) como la intersección de todos los campos-σ en f, sabremos que σ(V) es el mínimo campo-σ que contiene a V. En efecto, si Y 1 y Y 2 son dos campos-σ que contienen a V, Y 1∩ Y 2 = {A∈ Y 1 : A∈ Y 2} es una clase de eventos que también contiene a V (pues cada evento en V está tanto en Y 1 como en Y 2) y que forma un campo-σ porque no es vacío (al menos Ω y Φ pertenece a ambos), si el evento A pertenece a ambos campos, el evento AC también pertenece a ambos campos, y si los eventos A y B pertenecen a ambos campos, el evento A∪B también pertenece a ambos campos. Por supuesto, | Y 1∩ Y 2| ≤ min(|Y 1|, | Y 2|), por lo que la intersección de todos los campos en f nos da el mínimo campo-σ, σ(V). Siendo así, si { Y n , n=1,2,…} es el conjunto de todos los campos-σ que contienen a V, σ(V) se puede definir como ∞ σ (V ) = ∩ n =1Y n . (ojo: teoría de conjuntos, secuencias de conjuntos monótonamente crecientes o decrecientes, ínfimos y supremos, límites, etc… ¿Valdrá la pena mencionar estos conceptos? Después de todo van a ser muy útiles cuando hablemos de convergencia de secuencias de v.a. ¿Tal vez un apéndice?) Como ejemplo, consideremos algunos posibles campos-σ definidos en los 10 primeros experimentos propuestos anteriormente. 1. Lanzar una moneda y ver qué lado queda hacia arriba: La sencillez del espacio muestral sugiere que un campo sigma apropiado es el conjunto potencia. Después de todo, la cardinalidad de dicho campo-σ es solamente 4. 2. En el experimento de lanzar un dado y contar los puntos en la cara que queda hacia arriba incluimos los conjuntos A = {hay más de tres puntos} = {4,5,6} y B = {hay un PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
  • 22. 200 Conceptos de Probabilidad, Variables Aleatorias y 14 Procesos Estocásticos en Redes de Comunicaciones número par de puntos} = {2,4,6}, con los cuales se puede construir el siguiente campo-σ en Ω = {1,2,3,4,5,6}: Y = {Φ, {5}, {4,6}, {4,5,6}, {2}, {2,5}, {2,4,6}, {2,4,5,6}, {1,3}, {1,3,5}, {1,3,4,6}, {1,3,4,5,6}, {1,2,3}, {1,2,3,5}, {1,2,3,4,6}, Ω} La cardinalidad de este campo-σ es 16, menor a los 64 eventos del conjunto potencia. Obsérvese que otro campo-σ que también contiene a la clase de eventos V ={A,B} es el siguiente: Z = {Φ, {6}, {5}, {5,6}, {4}, {4,6}, {4,5}, {4,5,6}, {2}, {2,6}, {2,5}, {2,5,6}, {2,4}, {2,4,6}, {2,4,5}, {2,4,5,6}, {1,3}, {1,3,6}, {1,3,5}, {1,3,5,6}, {1,3,4}, {1,3,4,6}, {1,3,4,5}, {1,3,4,5,6}, {1,2,3}, {1,2,3,6}, {1,2,3,5}, {1,2,3,5,6}, {1,2,3,4}, {1,2,3,4,6}, {1,2,3,4,5}, Ω} Cuya cardinalidad, 32, sigue siendo menor a |{0,1}Ω|=64. Sin embargo Y = σ(V) es el mínimo campo-σ que incluye a los eventos de V. De hecho, nótese que Y = Y ∩ Z. Para construir un modelo probabilístico de este experimento en donde sólo interesen los eventos en V, es suficiente con asignar medidas de probabilidad a cada uno de los eventos de Y y no hace falta asignarle probabilidades a cada evento en Z ni, mucho menos, a cada evento en {0,1}Ω. 3. En el experimento de escoger una carta de la baraja de naipes definimos los eventos A = {Una figura de pinta roja} = {corazones, diamantes}×{J,Q,K} y B = {Un as negro} = {(picas,1), (tréboles,1)}. En este caso, como los eventos son excluyentes (no pueden suceder simultáneamente), el mínimo campo-σ de eventos que incluye a A y B es bastante pequeño: Y = {Φ, A, B, A∪B, AC, BC, (A∪B)C, Ω}. Por supuesto, el conjunto potencia tiene 252 eventos, ¡más de cuatro mil billones (cuatro mil millones de millones)! 4. En el experimento de medir la fracción de paquetes perdidos durante una hora en una red IP teníamos como espacio muestral el intervalo [0,1] de la recta real, donde resulta imposible definir el conjunto potencia. Si definimos una familia de eventos f compuesto por los intervalos cerrados {[0, x], x≤1}, podríamos considerar el mínimo campo-σ que contiene a f, σ(f). Este conjunto se llama el campo de Borel del intervalo [0,1], U([0,1] –ver enseguida la definición 9-), y, aunque es difícil de describir, sabemos que también contiene todos los intervalos abiertos, semiabiertos, cerrados, puntos aislados y uniones contables de dichos eventos… ¡Todo lo que nos pueda interesar! Claro, hay muchos subconjuntos de [0,1] que no están en U([0,1]) – ¡la mayoría!- pero son tan “raros” para nuestros propósitos de modelar la fracción de paquetes perdidos, que no nos interesa incluirlos en nuestro campo-σ de eventos (¡afortunadamente!). 5. Medir el retardo experimentado por un paquete de voz mientras transita por una red VoIP: Si sólo nos interesa el evento A = {x∈Ω : x > 0.1} = {El paquete no alcanza a ser reproducido en el receptor}, el campo-σ de eventos sería elemental: Y = {Φ, A, AC, Ω}, a pesar de que el espacio muestral está compuesto por los reales no negativos. 6. Verificar el estado de ocupación de un canal de comunicaciones: Como los posibles eventos de interés son los subconjuntos unitarios {libre} y {ocupado}, el conjunto PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
  • 23. 200 Conceptos de Probabilidad, Variables Aleatorias y 15 Procesos Estocásticos en Redes de Comunicaciones potencia resulta un perfecto campo-σ para trabajar: {0,1}Ω = {Φ, {libre}, {ocupado}, Ω} 7. Se cuenta el número de canales libres en un enlace E1. Definamos dos eventos de interés, A = {Se puede establecer una videoconferencia} = {6,7,8,…,32} y B = {Se puede transmitir video MPEG-4 a por lo menos 768 kbps} = {12,13,14,…, 32}. En este caso, como el evento A incluye al evento B, σ({ Α,Β}) = {Φ, A, B, AC, BC, AC∪B, A∩BC, Ω}. 8. Se mira el estado de ocupación de cada uno de los canales en un enlace E1. Si definimos 33 eventos [Xi = {Hay i canales libres}, i=0,1,2,…,32], como se trata de eventos mutuamente excluyentes, el mínimo campo- σ tendría sólo 233 eventos de interés. Los eventos de este mínimo campo-σ se podrían asociar en una correspondiencia uno-a-uno con los eventos del conjunto potencia del experimento anterior. 9. Se determina si un bit, transmitido sobre un canal de comunicaciones, llega correctamente al otro lado. En este experimento, como en los experimentos 1 y 6, el conjunto potencia es un campo-σ apropiado. 10. Se cuenta el número de transmisiones (a través de un canal ruidoso) que requiere un paquete de datos hasta llegar correctamente a su destino: Ω = {1,2,3,…}. Con Los eventos A={No hay errores de transmisión} = {1} y B={Mejor desistir de seguir intentándolo} = {16,17,18,…} se puede construir un pequeño campo-σ con sólo ocho eventos: Y = {Φ, A, B, A∪B, AC, BC, (A∪B)C, Ω }. 9. Campo-σ de Borel, U(R) R El campo-σ de Borel de los números reales, U(R), es el mínimo campo-σ que contiene a todos los intervalos semi-infinitos de la forma Ax = {ω∈R : -∞ < ω ≤ x}, x∈R. Los subconjuntos de R que pertenecen a U(R) se denominan “conjuntos de Borel”. En muchas ocasiones el espacio muestral de nuestros experimentos será el conjunto de los números reales, por lo que se hace muy importante definir un campo sigma de eventos “sencillo” que involucre todos los eventos “razonables” que nos puedan interesar. Como veremos enseguida, el campo de Borel de los números reales incluye a todos los intervalos cerrados, abiertos, semiabiertos, finitos ó semi-infinitos, incluyendo todos los puntos aislados. Cuando nos limitamos a uniones numerables de este tipo de eventos en R, podemos construir un espacio de probabilidad coherente sobre el cual podremos aplicar toda la lógica booleana sin llegar a inconsistencias. Veamos qué tipos de eventos se incluyen en U(R): (1) (-∞,x]∈ U(R) ∀x∈R, por definición (2) Aplicando el segundo axioma a los eventos anteriores, (x,∞) ∈ U(R) ∀x∈R (3) Como (-∞,b] y (a,∞) pertenecen a U(R), (-∞,b]∩(a,∞) = (a,b] ∈ U(R) ∀a∈R, b∈R, a<b. PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
  • 24. 200 Conceptos de Probabilidad, Variables Aleatorias y 16 Procesos Estocásticos en Redes de Comunicaciones (4) De acuerdo con el punto anterior, (a - 1/n, a] ∈ U(R) y, como un campo-σ es cerrado para las intersecciones contables, ∞  1  ∩  a − n , a  = [a] ∈ U(R) ∀a∈R n =1   (5) De los puntos (3) y (4), [a]∪ (a,b] = [a,b] ∈ U(R) ∀a∈R, b∈R, a<b. (6) [b]C∩ (a,b] = (a,b) ∈ U(R) ∀a∈R, b∈R, a<b. (7) [a]∪ (a,b) = [a,b) ∈ U(R) ∀a∈R, b∈R, a<b. Si todos los intervalos (abiertos, cerrados, semiabiertos, semi-infinitos) y todos los puntos aislados son conjuntos de Borel, al igual que las uniones e intersecciones numerables de dichos subconjuntos, ¿Puede haber algún subconjunto de R que no sea un conjunto de Borel? Sí, y no pocos. ¡De hecho, la mayoría de subconjuntos de R no pertenecen al campo de Borel de los reales! Sin embargo nuestra forma particular de pensamiento nos dificulta si quiera imaginarlos. Consideremos, por ejemplo, el conjunto de Cantor. Comenzando con el intervalo cerrado [0,1], extraemos de él el segmento central correspondiente al intervalo abierto (1/3, 2/3), dejando los dos intervalos cerrados [0,1/3] y [2/3,1]. A cada uno de estos intervalos le extraemos los respectivos segmentos centrales (1/9, 2/9) y (7/9, 8/9), dejando cuatro intervalos cerrados [0,1/9], [2/9, 3/9], [6/9, 7/9] y [8/9,1]. Así seguimos repitiendo el proceso de extracción con cada intervalo cerrado que nos vaya quedando, Ad Infinitum, como sugiere la figura 4. El conjunto que nos queda cuando repetimos la iteración un número infinito de veces es el conjunto de Cantor, V. 0 1/9 2/9 3/9 4/9 5/9 6/9 7/9 8/9 1 Figura 4. Primeras cuatro iteraciones en la construcción del conjunto de Cantor ¿Porqué V no es un conjunto de Borel? Después de todo, en cada iteración obtenemos un conjunto de intervalos cerrados numerables, de manera que después de cada iteración seguimos teniendo un conjunto de Borel; pero ¿Qué pasa después de un número infinito de iteraciones? ¡Que ya no existe ningún intervalo! En efecto, en la iteración n, para n = 1,2,3,…, estamos retirando 2n-1 intervalos, cada uno de longitud 3-n, de manera que la ∞ n longitud total de los intervalos que extraemos es 1 ∑  2   1 1  . El conjunto de  =   =1 3 3 n= 0   3  1 − 23  Cantor es una “nube de polvo” que no contiene ningún intervalo, sólo puntos aislados. Pero si cada punto individual de R es un conjunto de Borel, ¿porqué la unión de todos los puntos que pertenecen a V no habría de pertenecer a U(R)? Porqué la propiedad (3ª) de la definición 7 exige que los eventos sean numerables y no es posible numerar los puntos en el conjunto de Cantor. En efecto, nótese que si miramos con una lupa el conjunto de Cantor en el intervalo [0, 3-n], basta con la lupa aumente 3n veces para reconstruir el PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
  • 25. 200 Conceptos de Probabilidad, Variables Aleatorias y 17 Procesos Estocásticos en Redes de Comunicaciones conjunto de Cantor completo. Por eso el conjunto de Cantor constituye un objeto autosemejante (es idéntico a sí mismo en un número infinito de escalas) con dimensión fractal ln(2)/ln(3) ≈ 0.6, a pesar de tener una dimensión topológica 0. De hecho, ni siquiera se puede describir V como el conjunto de los puntos extremos de los intervalos cerrados que van quedando en cada iteración pues existe otra cantidad no numerable de puntos que, sin ser el extremo de ninguno de esos intervalos, jamás se eliminan del conjunto de Cantor, como se puede apreciar para el punto ¼ en la figura 5. 0 1/4 1/3 2/3 1 0 1/9 2/9 1/4 1/3 2/9 1/4 7/27 8/27 1/3 2/9 19/81 20/81 1/4 7/27 20/81 1/4 61/243 62/243 7/27 Figura 5. El punto [1/4] pertenece al conjunto de Cantor Para terminar, vale la pena mencionar que aunque el conjunto de Cantor parece ser una curiosidad matemática diseñada para mostrar extraños subconjuntos de R que no pertenecen a U(R), mediante procedimientos de construcción generalizados semejantes al algoritmo de Cantor, se han desarrollado importantísimos modelos de tráfico en redes de comunicaciones, tales como el modelo wavelet multifractal (MWM), que ha demostrado ser de gran utilidad en el modelamiento de redes modernas de comunicaciones. 10. Medida de Probabilidad Una medida de probabilidad P asociada a un experimento aleatorio (Ω ,Y ) es una función P:Y →R que asigna a cada evento en Y un número real que satisface los siguientes axiomas: (1) P(Ω) = 1, (2) Si A∈Y , P(A) ≥ 0, (3) Si A,B∈Y son mutuamente excluyentes (A∩B=Φ), P(A∪B) = P(A) + P(B). Si Y es un campo-σ infinitamente aditivo, también debe satisfacerse el siguiente axioma adicional: (3ª) Si {An∈Y , n=1,2,3,…} es una colección de eventos tal ∞  ∞ que Ai∩Aj = Φ para i≠j, entonces P  ∪ An  = ∑ P ( An ) .  n =1  n =1 Esta definición axiomática es, de muchas maneras, la “más correcta”, a pesar de que deja de lado el problema de darle un significado al número que se asigna a cada evento. Lo cierto es que si Kolmogorov estableció esta definición en 1933, en respuesta al reto lanzado por Hilbert en 1900 sobre determinar unas bases formales para la teoría de la PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
  • 26. 200 Conceptos de Probabilidad, Variables Aleatorias y 18 Procesos Estocásticos en Redes de Comunicaciones probabilidad, fue inspirado en propiedades fundamentales de los conceptos típicos de probabilidad que habían hasta entonces: (1) Que si repito un experimento un gran número de veces y mido la fracción de experimentos en que sucede el evento A (ver definiciones 2 y 10), la fracción obtenida tiende a la P(A) a medida que hago más y más repeticiones. (2) Que si logro describir el espacio muestral como un conjunto de cardinalidad finita en el que ninguno de los eventos unitarios ocurre preferencialmente sobre los otros, la probabilidad de un evento está dada por la cardinalidad del evento sobre la cardinalidad del espacio muestral. (3) Que si consulto a un experto sobre la ocurrencia de un evento en una hipotética realización de un experimento, la probabilidad del evento es el grado de certeza que el experto tiene en que dicho evento ocurra. (4) Que si he acumulado cierta evidencia a favor o en contra de una hipótesis, la probabilidad del evento en el que dicha hipótesis es cierta está dada por el grado de implicación lógica que existe de la evidencia a la hipótesis. (5) etc. Resulta muy afortunado saber que siempre es posible asociar los axiomas propuestos por Kolmogorov a propiedades particulares de la probabilidad en cada una de sus interpretaciones. Para nosotros, como ingenieros preocupados por problemas técnicos muy precisos, resulta muy cómodo escoger eclécticamente entre cada una de las interpretaciones la que más nos favorezca o la que mejor nos guíe en el proceso de desarrollar un modelo probabilístico para nuestro problema. Por ejemplo, no hemos sabido de ningún ingeniero de comunicaciones al que le quite el sueño el problema filosófico que implica utilizar un medidor de BER (Bit-Error-Rate) para estimar la probabilidad de que un bit se dañe durante su transmisión por un canal de comunicaciones (como en el experimento 9) y después utilizar esa medida como su nivel de confianza en que el próximo bit que transmita se dañe en el canal, aunque así esté mezclando las interpretaciones (1) y (3). Dada la facilidad que tenemos los ingenieros de comunicaciones para tomar mediciones, aún prevalece entre nosotros la interpretación frecuentista (1), a la luz de la cual podemos interpretar los axiomas de Kolmogorov, como se describe en el siguiente numeral. 11. Medida de Probabilidad Interpretada como el Límite de la Frecuencia Relativa Sea un experimento aleatorio (Ω ,Y ) y un evento A∈Y . Una forma de interpretar la probabilidad del evento A es mediante la relación P(A) = lim f N ( A) , donde fN(A) es la frecuencia relativa del evento A en N N →∞ repeticiones del experimento. Como mencionamos en la definición 2 sobre la regularidad estadística de un experimento aleatorio, si repetimos N veces un experimento con espacio muestral Ω y contamos en cuántas repeticiones ocurrió el evento A ⊂ Ω, NA, definimos la frecuencia relativa del evento A en esas N repeticiones como fN(A) = NA/N. Obsérvese que el proceso de observación de NA es, en sí mismo, otro experimento aleatorio, de manera que en diferentes conjuntos de N repeticiones podemos obtener diferentes valores de fN(A). Sin embargo, la regularidad estadística sugiere que, entre más repeticiones hagamos, el valor PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
  • 27. 200 Conceptos de Probabilidad, Variables Aleatorias y 19 Procesos Estocásticos en Redes de Comunicaciones de fN(A) tiende a un valor fijo, independientemente del conjunto particular de N repeticiones que seleccionemos. Por ejemplo, supongamos que deseamos saber cuál es la probabilidad del evento A = {a un enrutador llegan más de 1000 bytes en un período de 100 ms}. Para esto medimos la frecuencia relativa de dicho evento en 200 períodos consecutivos y la graficamos en función del número de períodos observados. Si hacemos mediciones durante un minuto, obtendremos tres conjuntos distintos, como muestra la figura 6, en cada uno de los cuales la frecuencia parece tender a un número cercano a 0.4. Si las condiciones del tráfico permanecen estables durante el minuto de observación y son iguales a las condiciones en el período de 100 ms por cuya probabilidad nos interesamos (que podría ser, por ejemplo, el siguiente período que aún no hemos observado), diríamos que la probabilidad de que lleguen más de 1000 bytes es “cercana” a 0.41. Pues bien, es fácil ver que los axiomas que definen la probabilidad como una medida de los subconjuntos de Ω contenidos en Y están inspirados en propiedades elementales de la frecuencia relativa. En efecto, Fraccion de periodos de 100 ms con mas de 80 kbps 1 Primera prueba 0.9 Segunda prueba Tercera prueba 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 2 4 6 8 10 12 14 16 18 20 Tiempo en segundos Figura 6. fN(A) vs N para tres conjuntos distintos de pruebas. (1) fN(Ω) = N / N = 1 (2) como NA ≥ 0, fN(A) ≥ 0 (3) Si A∩B = Φ, NA∪B = NA + NB, de manera que fN(A∪B) = fN(A) + fN(B). Permítaseme insistir, porque debemos ser cuidadosos con esto, que el límite de la frecuencia relativa es apenas una interpretación de la probabilidad que puede ser útil para los ingenieros de redes de comunicaciones ya que a nosotros nos es posible tomar muchas mediciones con facilidad y en tiempos razonables (medir el retardo de 10000 paquetes, 1 De hecho, en la definición 40 (cotas de Chernoff) veremos que, bajo ciertas condiciones, la frecuencia relativa se acerca a la probabilidad exponencialmente rápido a medida que hacemos más y más observaciones, en el sentido de que el evento B = {|fN(A) - P(A)| < ε} ocurre con probabilidad mayor o igual a 1 – δ, con δ = 2exp(-2Nε2). Si, por ejemplo, queremos encontrar un intervalo de longitud 0.05 (ε = 0.025) en el cual se encuentre P(A) con probabilidad mayor o igual a 0.95 (δ = 0.05), deberíamos hacer N = 2951 observaciones. PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
  • 28. 200 Conceptos de Probabilidad, Variables Aleatorias y 20 Procesos Estocásticos en Redes de Comunicaciones medir el número de errores en 10000 bits transmitidos, medir la condición de “spam” en 10000 mensajes de correo electrónico, etc.). Sin embargo, en muchos casos, el experimento mismo que queremos modelar ni siquiera es repetible, de manera que no tiene sentido considerar esta interpretación. J. M. Keynes, por ejemplo, era economista y cada uno de sus experimentos podía durar décadas; por esa razón, la interpretación frecuentista, que parece objetiva en cuanto a que muestra resultados verificables “a la larga”, lo conduce a expresar su famosa frase: “A la larga, todos estamos muertos”. En estas condiciones, lo mejor es considerar la probabilidad como expresión de simetría o como nivel de confianza. De todas maneras, desde un punto de vista puramente matemático, la interpretación misma pierde relevancia pues la definición es precisa e implacable: la probabilidad es una función que asigna a cada subconjunto de Ω en Y una medida en R que satisface tres axiomas básicos. Lo cierto es que, cuando uno está inmerso en un problema de modelamiento probabilístico, a veces resulta muy útil preguntarse “si yo pudiera repetir este experimento muchas veces, ¿qué esperaría que sucediera a la larga?”, pues la respuesta puede sugerirnos el siguiente paso en el proceso o puede explicarnos un resultado poco intuitivo. De hecho, en este libro echaremos mano de la interpretación frecuentista liberalmente para justificar muchas definiciones o para interpretar muchos resultados. 12. Espacio de Probabilidad Un espacio de probabilidad es la tripleta (Ω, Y , P) asociada con un experimento aleatorio, donde Ω es el espacio muestral o el conjunto de todos los posibles resultados del experimento, Y es un campo-σ de subconjuntos de Ω construido a partir de una clase de eventos de interés y P es una función de Y en R que satisface los axiomas en la definición 10. Como solamente se les puede asignar una medida de probabilidad a los subconjuntos de Ω que pertenecen a Y , a dichos subconjuntos se les denomina “subconjuntos medibles”. En cualquier caso en que queramos trabajar sobre modelos probabilísticos de una realidad particular, deberemos partir de la descripción explícita del espacio de probabilidad (Ω , Y, P) pues, de otra manera, estaremos perdidos: ni siquiera sabremos dónde estamos parados! En efecto, una vez descrito el problema en términos de un espacio de probabilidad, podremos movernos con confianza sobre todos los resultados de la teoría de las probabilidades sabiendo que, mientras seamos consecuentes y rigurosos con ellas, llegaremos a resultados significativos, pues es sobre los axiomas que definen a Y y P que se construye TODA la teoría de probabilidades. Hasta este punto, la teoría de probabilidades sería simplemente una rama de la “teoría de las mediciones”, que es el área de la matemáticas que estudia las funciones µ : X →R que asignan una medida real µ(E) a cada conjunto E de una colección de conjuntos X. En teoría de mediciones se estudia formalmente la conveniencia de que X forme un campo- PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
  • 29. 200 Conceptos de Probabilidad, Variables Aleatorias y 21 Procesos Estocásticos en Redes de Comunicaciones σ, en cuyo caso µ(⋅) es una medida aditivamente contable, como es el caso de las medidas de probabilidad asignadas a los subconjuntos medibles del espacio muestral de un experimento aleatorio. Sin embargo, la definición 17 (independencia) le dará a la teoría de probabilidades una identidad propia que le permitirá distinguirse de la teoría general de las mediciones. 13. Algunos Resultados Básicos Derivados de los Axiomas de la Probabilidad Sea (Ω,Y, P) un espacio de probabilidad en el que hay dos eventos medibles A y B ∈ Y. Entonces (1) P(AC) = 1 – P(A), (2) P(Φ) = 0, (3) P(A) ≤ 1, (4) P(A∪B) = P(A) + P(B) - P(A∩B), (5) Si A ⊂ B, P(A) ≤ P(B). Los anteriores cinco resultados son apenas una muestra mínima de todas las conclusiones que se pueden sacar de la definición 10 pues, como ya se dijo, de los tres axiomas se deriva TODA la teoría de las probabilidades. Sin embargo, como estos cinco resultados se usan cotidianamente cuando se estudian modelos probabilísticos de cualquier sistema, vale la pena tenerlos tan presentes como los mismos axiomas de los que se derivan: (1) P(AC) = 1 – P(A) En efecto, como A∩AC=Φ y A∪AC=Ω , los axiomas 1 y 3 conducen a P(Ω) = P(AC) + P(A) = 1. Restando P(A) a ambos lados obtenemos el resultado deseado. (2) P(Φ) = 0 En efecto, A=A∪Φ, que son eventos mutuamente excluyentes, por lo que podemos aplicar el tercer axioma: P(A) = P(A) + P(Φ). Restando P(A) a ambos lados obtenemos el resultado deseado. (3) P(A) ≤ 1 En efecto, como ya demostramos que P(A) = 1 – P(AC), basta con aplicar el segundo axioma en AC, P(AC)≥0, para obtener el resultado deseado. (4) P(A∪B) = P(A) + P(B) - P(A∩B) En efecto, podemos expresar A∪B como la unión de dos eventos mutuamente excluyentes, A∪B = A∪(B∩AC), de manera que P(A∪B) = P(A) + P(B∩AC). Por otro lado, B también se puede expresar como la unión de dos eventos mutuamente excluyentes, B = (A∩B)∪(B∩AC), de manera que P(B∪AC) = P(B) - P(A∩B). Remplazando esta expresión de P(B∪AC) en la primera expresión de P(A∪B) obtenemos el resultado deseado. Los diagramas de Venn de la figura 7 representan esta derivación. Ω Ω Ω A B A B∩AC B∩AC A∩B A∪B = A∪(B∩AC) B = (A∩B)∪(B∩AC) Figura 7. Construcciones para derivar la expresión P(A∪B) = P(A) + P(B) - P(A∩B) PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
  • 30. 200 Conceptos de Probabilidad, Variables Aleatorias y 22 Procesos Estocásticos en Redes de Comunicaciones (5) Si A ⊂ B, P(A) ≤ P(B) En efecto, podemos expresar B como la unión de dos eventos mutuamente excluyentes, B = A∪(B∩AC), de manera que P(B) = P(A) + P(B∩AC). Y, como P(B∩AC) ≥ 0, P(B) ≥ P(A). 14. Probabilidad condicional Sea (Ω,Y , P) un espacio de probabilidad en el que hay dos eventos A y B ∈ Y . La probabilidad condicional del evento A dado que se sabe de la ocurrencia del evento B es  0 P( B) = 0  P( A | B) =  P( A ∩ B)  P( B) P( B) > 0  Esta definición, como tan “sacada de la manga”, en realidad obedece a un concepto muy simple si se le mira desde la interpretación frecuentista de la probabilidad. Supongamos que repetimos N veces el experimento en cuestión y contamos cuántas veces sucedió el evento A, NA, cuántas veces el evento B, NB y cuántas veces sucedieron simultáneamente, NA∩B. Ahora nos fijamos solamente en aquellas NB repeticiones en las que ocurrió el evento B e ignoramos todas las demás. Si contamos entre las NB repeticiones en que ocurrió B en cuántas de ellas también ocurrió A, tendríamos la frecuencia relativa del evento A entre aquellas repeticiones del experimento en que ocurrió B: fN(A|B) = NA∩B / NB. Dividiendo el numerador y el denominador por N, obtenemos fN(A|B) = fN(A∩B)/ fN(B), que es una expresión MUY parecida a la definición de probabilidad condicional. De acuerdo con el anterior resultado, si pudiésemos definir la probabilidad de un evento como el límite de su frecuencia relativa cuando el número de repeticiones tiende a infinito, tendríamos que el condicionamiento sería simplemente una propiedad más de la probabilidad. Pero como la probabilidad es un concepto más abstracto (una función de Y en R que satisface 3 axiomas), este resultado frecuentista es apenas un motivo de inspiración para la definición propuesta. De todas formas, la definición no nos debe sorprender porque la teoría de probabilidades quiere modelar, precisamente, el comportamiento de ese límite sin obligarnos a gastar un tiempo infinito en hacer un número infinito de repeticiones del experimento. Por supuesto, volviendo a nuestra definición axiomática, es legítimo preguntarnos por un nuevo espacio de probabilidad en el que la probabilidad condicional sea una medida de probabilidad válida. Lo primero que notamos, por ejemplo, es que en el nuevo espacio de probabilidades el espacio muestral debe ser B, pues nos estamos limitando a estudiar los casos en que tenemos certeza absoluta de que el evento B ocurrió. Pero, ¿cuál sería un nuevo campo de eventos apropiado? Como todos los eventos de interés contenidos en Y se ven reducidos a su intersección con B, es razonable pensar en un campo de eventos como Z= {A∩B : A∈Y }. ¿Es éste un campo-σ de subconjuntos de B? Veamos (1) Z es no vacío porque por lo menos Φ∈ Y ⇒ Φ∩B=Φ∈ Z: Z es no vacío (2) Si A∈ Y, entonces AC=Ω-A∈ Y, de manera que A∩B∈ Y y AC∩B=B-(A∩B)∈ Y, donde B-(A∩B) es el complemento de A∩B en B: PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
  • 31. 200 Conceptos de Probabilidad, Variables Aleatorias y 23 Procesos Estocásticos en Redes de Comunicaciones Si X∈ Z, entonces XC=Β-X∈ Z (3) Si A1∈ Y, A2∈ Y, entonces A1∪B∈ Y, A2∪B∈ Y y, por consiguiente, A1∩B∈ Z, A2∩B ∈ Z, entonces A1∩B∈ Z, A2∩B∈ Z, (A1∪A2)∩B=(A1∩B)∪(A2∩B)∈ Z: Si X∈ Z, Y∈ Z, entonces X∪Y∈ Z (4) Lo mismo se puede verificar para la uniones contables ¿Y será la probabilidad condicional P(⋅|B) una medida válida en (B, Z)? Veamos: (1) P(B|B)=P(B)/P(B) = 1 (2) P(A|B)≥0 (3) Si (A1∩B) ∩ (A2∩B)=Φ, (en realidad no necesitamos que A1 y A2 sean excluyentes, pues basta con que no puedan ocurrir simultáneamente con B), entonces P((A1∪A2) | B) = P((A1∪A2) ∩B)/P(B) = P((A1∩B) ∪ (A2∩B))/P(B) = (P(A1∩B) + P(A2∩B))/P(B) = P(A1|B) + P(A2|B) (4) Lo mismo se puede verificar para uniones contables. En conclusión, dado el espacio de probabilidad (Ω,Y, P(⋅)), podemos construir un nuevo espacio de probabilidad (B, Z, P(⋅|B)) condicionando todos los eventos de Y a la ocurrencia del evento B, donde B ∈ Y y P(B)>0. Esto es, hemos reducido el espacio original a uno más pequeño. Considérese, por ejemplo, el experimento nueve, en el que transmitimos un bit y vemos si llegó correctamente a su destino en el otro extremo del canal binario. Si consideramos como parte del experimento observar el bit transmitido, nuestro nuevo espacio muestral será Ω = {(0,0), (0,1), (1,0), (1,1)}, donde el resultado (i, j) corresponde a la transmisión del bit i y la recepción del bit j. La probabilidad de que se produzca un error en ese canal es P({(0,1),(1,0)}), que es la probabilidad del evento ERROR = {se recibe un bit distinto al bit transmitido}. Condicionando en el bit transmitido, tenemos dos tipos de error con las siguientes probabilidades P({Recibir 0} | {se transmitió 1}) = P({(1,0}) / P({(1,0), (1,1)}) P({Recibir 1} | {se transmitió 0}) = P({(0,1}) / P({(0,0), (0,1)}) Dada la simetría que existe en las técnicas de modulación digital, es de esperar que los dos tipos de error tengan la misma probabilidad, en cuyo caso nos encontramos ante un espacio de probabilidad que modela un Canal Binario Simétrico (BSC, binary symmetric channel). Claramente, al utilizar un medidor de BER sobre un canal BSC, estamos tratando de estimar las probabilidades condicionales descritas anteriormente, por lo que el modelo se puede representar de la siguiente manera: 1 con prob. p 1 - BER BER BER 0 con prob. 1-p 1 - BER Figura 8. Modelo probabilístico de un canal binario simétrico PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
  • 32. 200 Conceptos de Probabilidad, Variables Aleatorias y 24 Procesos Estocásticos en Redes de Comunicaciones donde el espacio de probabilidad que modela el canal es (Ω = {(0,0), (0,1), (1,0), (1,1)}, Y = {0,1}Ω, P). El conocimiento inicial que tenemos sobre la medida de probabilidad P en este modelo probabilístico de un canal de comunicaciones es el siguiente: P[{(1,0),(1,1)}] = 1 – P[{(0,0),(0,1)}] = p P[{(0,0),(1,0)} | {(1,0),(1,1)}] = 1 - P[{(0,1),(1,1)} | {(1,0),(1,1)}] = … P[{(0,1),(1,1)} | {(0,0),(0,1)}] = 1 - P[{(0,0),(1,0)} | {(0,0),(0,1)}] = BER Obsérvese en este ejemplo cómo resulta de fácil “medir” la probabilidad condicional BER. En general, ésta es la gran utilidad de la probabilidad condicional: encontrar la probabilidad de un evento A puede ser muy difícil, pero una vez condicionamos el evento de interés a otro evento B (juiciosamente seleccionado), puede resultar muy fácil encontrar la probabilidad condicional de A dado B. Este truco se repite una y otra vez en el modelamiento probabilístico de redes de comunicaciones, como tendremos oportunidad de ver en breve. Pero, ¿de qué nos sirve la probabilidad condicional de A dado B si lo que queríamos encontrar era la probabilidad de A? El siguiente teorema explica dónde reside la utilidad del truco. 15. Teorema de la probabilidad total Sea (Ω,Y, P) un espacio de probabilidad en el que hay un evento A ∈ Y y una secuencia de eventos {Bk}, k=1,2,… que forman una partición de Ω (esto es, Ω = ∪ Bk y Bi ∩ B j = Φ, i ≠ j ), que también pertenecen a Y . Entonces k P( A) = ∑ P( Bk )P( A | Bk ) k Esto es más fácil de ver si consideramos la partición más pequeña, constituida por B y BC. En efecto, con ella podemos expresar el evento A como la unión de dos eventos mutuamente excluyentes, A = (A∩B)∪(A∩BC), de manera que P(A) = P(A∩B) + P(A∩BC). Pero, por la definición misma de la probabilidad condicional, P(A∩B) = P(B)P(A|B) y P(A∩BC)=P(BC)P(A|BC), de manera que P(A) = P(B)P(A|B) + P(BC)P(A|BC). La generalización a particiones más numerosas (incluyendo aquellas contablemente infinitas) es inmediata. En el modelo del canal simétrico binario de la figura 8, por ejemplo, ¿cuál será la probabilidad de recibir un cero? Podemos condicionar en el bit transmitido, ya que las probabilidades condicionadas en el bit transmitido son conocidas: P({Rx 0}) = P({Tx 0})P({Rx 0} | {Tx 0}) + P({Tx 1})P({Rx 0} | {Tx 1}) = (1 – p) (1 – BER) + p BER = 1 – BER – p + 2pBER Claro, la probabilidad de recibir un uno debe ser uno menos la probabilidad de recibir un cero, lo cual puede ser verificado mediante la probabilidad total: P({Rx 1}) = P({Tx 0})P({Rx 1} | {Tx 0}) + P({Tx 1})P({Rx 1} | {Tx 1}) = (1 – p) BER + p (1 – BER) = BER + p - 2pBER PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
  • 33. 200 Conceptos de Probabilidad, Variables Aleatorias y 25 Procesos Estocásticos en Redes de Comunicaciones Obsérvese que si BER=0 ó si BER=1, no existiría ninguna duda en el receptor sobre el bit transmitido, pues el bit recibido tendrá toda la información necesaria para identificar el primero sin equivocaciones. Cualquier otro valor de BER genera incertidumbre en el receptor, especialmente en el caso extremo en que BER = 0.5, pues en este caso obtenemos que P({Rx 1}) = P({Rx 0}) = 0.5, independientemente de p, de manera que podemos ahorrarnos el canal y hacer que en el receptor se lance una moneda equilibrada por cada bit transmitido. Una pregunta de mucho interés para el módem receptor es la siguiente: Dado que recibí cierto símbolo a la salida del canal, ¿cuáles son las probabilidades del respectivo símbolo a la entrada del canal? La siguiente regla es muy útil para este tipo de preguntas. 16. Regla de Bayes Sea (Ω,Y, P) un espacio de probabilidad en el que hay un evento A ∈ Y y una secuencia de eventos {Bk}, k=1,2,… que forman una partición de Ω y que también pertenece a Y. Entonces P ( Bk )P ( A | Bk ) P ( Bk | A) = ∑ P( B j )P( A | B j ) j Esta regla surge directamente de la definición de la probabilidad condicional, pues P(A∩Bk) = P(Bk) P(A | Bk) y P(A) = ∑ j P( B j )P( A | B j ) , de manera que la regla de bayes sólo es una forma de expresar la definición P(Bk | A) = P(A∩Bk) / P(A). Considérese nuevamente el canal binario simétrico (BSC) donde el transmisor se caracteriza por transmitir 1 con probabilidad p y transmitir 0 con probabilidad 1 – p y el canal se caracteriza por una tasa de error por bit BER, como muestra la figura 8. Si el destino recibe 0, ¿cuál es la probabilidad de que la fuente haya enviado 1? ( P ({Tx1}) P {Rx 0} {Tx1} ) ( P {Tx1} {Rx 0} = ) P ({Tx1}) P ({Rx 0} {Tx1} ) + P ({Tx 0}) P ({Rx0} {Tx 0}) p ⋅ BER = . p ⋅ BER + (1 − p )(1 − BER) 17. Independencia de eventos Sea (Ω,Y , P) un espacio de probabilidad en el que hay dos eventos A y B ∈ Y . A y B son independientes si y sólo si P(A∩B) = P(A)P(B) o, equivalentemente, si P(A|B) = P(A) y P(B|A) = P(B). Tres eventos medibles A, B y C son independientes si se cumplen las siguientes cuatro condiciones: (1) P(A∩B) = P(A)P(B), (2) P(A∩C) = P(A)P(C), (3) P(B∩C) = P(B)P(C), y (4) P(A∩B∩C) = P(A)P(B)P(C). PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com