Capítulo 2

Variables aleatorias

2.1.     Introducción
    En un espacio de probabilidades (Ω, A, P ) los elementos del espacio mues-
tral Ω no tienen por qué ser números. En la tirada de una moneda al aire, los
sucesos elementales, cara y cruz, no son valores numéricos. No obstante, siem-
pre podemos hacer corresponder el número 1 a la cara, y el 0 a la cruz. Esta
asignación de valores numéricos a los sucesos elementales de un espacio de prob-
abilidades es la base para definir el concepto de variable aleatoria. En efecto,
una variable aleatoria será una aplicación X definida sobre el espacio muestral Ω
tal que a cada suceso elemental ω le hace corresponder un valor numérico X(ω).
Este número puede ser real o complejo, e incluso un vector cuando las variables
aleatorias son n-dimensionales. No obstante, aquí sólo estudiaremos el caso real,
tratando con detalle las variables aleatorias unidimensionales y bidimensionales
y dejando al lector la generalización al caso n-dimensional.




   Sin embargo, para estudiar las variables aleatorias no sólo hay que conocer los
valores que puede tomar sino que también es necesario conocer la probabilidad
con que toma estos valores. Por ejemplo, si la variable aleatoria X fuera el

                                            49




                             © Els autors, 2002; © Edicions UPC, 2002
50                                        CAPÍTULO 2. VARIABLES ALEATORIAS

número de éxitos en n pruebas de Bernoulli, será preciso conocer la probabilidad
de que la variable aleatoria sea menor, igual o mayor que un determinado número
k; si la variable aleatoria X fuera la intensidad de corriente que pasa por un
circuito eléctrico, sabiendo que fluctúa entre 1 y 2 amperios, habrá que conocer
probabilidades tales como la de que la intensidad esté comprendida entre 1 y
1.2 amperios.
    Por definición de probabilidad, sólo los sucesos de la σ-álgebra A tienen asig-
nada probabilidad. Esto significa que para calcular la probabilidad de que una
variable aleatoria X tome valores de un cierto intervalo real [x1 , x2 ] habrá que
traducir esta información en términos de sucesos de A. Para ello, introducimos
la siguiente notación: designaremos por [x1 ≤ X ≤ x2 ] el suceso formado por
todos los ω ∈ Ω que hacen que X(ω) tome un valor real del intervalo [x1 , x2 ], es
decir,
                    [x1 ≤ X ≤ x2 ] = {ω ∈ Ω : x1 ≤ X(ω) ≤ x2 }
Del mismo modo, tenemos

                            [X = x] = {ω ∈ Ω : X(ω) = x}

                            [X ≤ x] = {ω ∈ Ω : X(ω) ≤ x}
y, en general, si M es un subconjunto de la recta real, entonces

                           [X ∈ M ] = {ω ∈ Ω : X(ω) ∈ M }

Para poder asignar probabilidades a todos estos sucesos debemos primero asegu-
rarnos de que son sucesos de la σ-álgebra A. Si el espacio muestral Ω es discreto
y A = P(Ω), entonces cualquier suceso es un suceso de la σ-álgebra y, por tan-
to, todos estos subconjuntos de Ω tendrán probabilidades bien asignadas. Sin
embargo, si el espacio muestral es continuo, no podemos asegurar que sucesos
tales como [X ∈ M ] sean sucesos de A, y, en consecuencia, no podemos asegurar
que tengan asignada una probabilidad. Sin embargo, se puede demostrar que si
imponemos la condición de que

                        [X ≤ x] = {ω ∈ Ω : X(ω) ≤ x} ∈ A                     (2.1)

para todo x ∈ R, entonces todos los sucesos de la forma [X ∈ M ] tienen prob-
abilidad bien asignada. Es evidente que la condición (5.1) hace que no toda
aplicación de Ω en R pueda considerarse automáticamente como una variable
aleatoria. No obstante, cuando Ω sea finito o numerable y se tome A = P(Ω),
entonces toda aplicación X : Ω → R cumplirá la condición (5.1). Por tanto,
es este caso particular, cualquier función real definida sobre Ω es una variable
aleatoria.

Observación 10 Dado un espacio de probabilidades (Ω, A, P ) y una variable
aleatoria X, ésta induce sobre el espacio probabilizable (R, B), formado por la
recta real y la σ-álgebra de Borel sobre R, una probabilidad PX mediante la




                © Els autors, 2002; © Edicions UPC, 2002
2.2. DEFINICIÓN DE VARIABLE ALEATORIA                                             51

cual (R, B, PX ) es un espacio de probabilidades. Entonces, se llama función de
distribución de la variable aleatoria X a la función FX : R → R definida por

                        FX (x) =       PX ((−∞, x])
                               =       P (X −1 (−∞, x])
                               =       P ({ω ∈ Ω : X(ω) ≤ x})
                               =       P ([X ≤ x])

De este modo, podríamos definir una variable aleatoria como una función real
X definida sobre Ω tal que para todo número real x está definida la probabilidad
P ([X ≤ x]) y, por tanto, su función de distribución. Es aquí cuando necesitamos
que [X ≤ x] ∈ A para todo x ∈ R, o sea la condición (5.1). Además, de las
propiedades de los borelianos sobre R se deduce el hecho de que esta condición
sea la única a imponer para que podamos calcular las probabilidades de otros
sucesos tales como [x1 ≤ X ≤ x2 ] , [X = x], o [X ∈ Q].


2.2.        Definición de variable aleatoria
      Sea (Ω, A, P ) un espacio de probabilidades, se dice que una aplicación

                                      X:Ω → R

es una variable aleatoria (real) si para todo x ∈ R se cumple

                              {ω ∈ Ω : X(ω) ≤ x} ∈ A

En tal caso, como ya hemos visto en la introducción, este suceso se escribe
abreviadamente como [X ≤ x]. Obsérvese que designamos por letras mayús-
culas X, Y, Z, ... las variables aleatorias, y por letras minúsculas x, y, z, ... sus
correspondientes valores.

Ejemplo 32 1. En el lanzamiento de una moneda al aire tenemos Ω =
    {c, +}, en donde hemos simbolizado cara por c y cruz por +, y tomamos
    A = P(Ω). Entonces la aplicación X "número de veces que sale cara"es
    una variable aleatoria. En efecto, es claro que X(c) = 1 y X(+) = 0, y
    además se cumple
                                            
                                             ∅∈A        si x < 0
          [X ≤ x] = {ω ∈ Ω : X(ω) ≤ x} =       {+} ∈ A si 0 ≤ x < 1
                                            
                                               Ω∈A       si x ≥ 1

 2.     El tipo más simple de variable aleatoria es el que sirve para indicar si se
        realizó un suceso. Sea (Ω, A, P ) un espacio de probabilidades y considere-
        mos un suceso A ∈ A, entonces la aplicación
                                          ½
                                             1 si ω ∈ A
                                IA (ω) =
                                             0 si ω ∈ A
                                                     /




                               © Els autors, 2002; © Edicions UPC, 2002
52                                         CAPÍTULO 2. VARIABLES ALEATORIAS

      es una variable aleatoria que se llama indicador del suceso A. En efecto,
      se cumple
                                               
                                                ∅ ∈ A si x < 0
             [X ≤ x] = {ω ∈ Ω : X(ω) ≤ x} =       A ∈ A si 0 ≤ x < 1
                                               
                                                  Ω ∈ A si x ≥ 1

 3.   Sea Ω el conjunto de resultados en la tirada de un dado y A = {∅, {2, 4, 6}, {1, 3, 5}, Ω}
      el álgebra de sucesos. Definimos sobre (Ω, A) las siguientes aplicaciones:
                    ½                                    ½
                      1 si i ∈ {1, 2, 3}                    1 si i es par
           X1 (i) =                          y X2 (i) =
                      2 si i ∈ {4, 5, 6}                    2 si i es impar

      Entonces, la aplicación X1 no es una variable aleatoria, pues
                                           
                                            ∅∈A              si x < 1
        [X1 ≤ x] = {ω ∈ Ω : X1 (ω) ≤ x} =      {1, 2, 3} ∈ A si 1 ≤ x < 2
                                                         /
                                           
                                               Ω∈A            si x ≥ 2

      mientras que X2 es una variable aleatoria, pues
                                            
                                             ∅∈A            si x < 1
         [X2 ≤ x] = {ω ∈ Ω : X2 (ω) ≤ x} =     {2, 4, 6} ∈ A si 1 ≤ x < 2
                                            
                                               Ω∈A           si x ≥ 2

Ejemplo 33 Consideremos el experimento aleatorio de lanzar dos dados al aire.
Expresar su espacio muestral. Definimos la aplicación X "suma de los puntos
obtenidos en los dos dados", ¿es X una variable aleatoria? ¿Cuáles son los
sucesos [X = 7], [X ≤ 1], [X > 12] y [2 < X ≤ 7]?
   Solución: Es claro que

               Ω = {(1, 1), (1, 2), ...(1, 6), ..., (6, 1), (6, 2), ..., (6, 6)}

Definimos
                                   X:         Ω     −→   R
                                            (i, j) 7−→ i + j
Si sobre Ω consideramos la σ-álgebra dada por A = P (Ω), es fácil comprobar
que para todo x ∈ R se cumple

                        {(i, j) ∈ Ω : X(i, j) = i + j ≤ x} ∈ A

Tenemos

              [X = 7] = {(i, j) ∈ Ω : i + j = 7}
                      = {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)}

                        [X ≤ 1] = {(i, j) ∈ Ω : i + j ≤ 1} = ∅
                      [X > 12] = {(i, j) ∈ Ω : i + j > 12} = Ω




                 © Els autors, 2002; © Edicions UPC, 2002
2.2. DEFINICIÓN DE VARIABLE ALEATORIA                                                        53

     [2 < X ≤ 7] = {(i, j) ∈ Ω : 2 < i + j ≤ 7}
                 = {(1, 2), (2, 1), (1, 3), (2, 2), (3, 1), (1, 4), (2, 3), (3, 2),
                   (4, 1), (1, 5), (2, 4), (3, 3), (4, 2), (5, 1), (1, 6), (2, 5),
                   (3, 4), (4, 3), (5, 2), (6, 1)}



Ejemplo 34 Consideremos el experimento que consiste en tirar dos monedas al
aire. Representamos los sucesos ”sale cara” y ”sale cruz” mediante c y x, respec-
tivamente. Expresar su espacio muestral. Definimos la aplicación X "número
de caras obtenidas en el lanzamiento", ¿es X una variable aleatoria? ¿Cuáles
son los sucesos [X = 1,5], [X ≤ 1], [X > 1] y [0,5 < X < 1,5]?
    Solución: Es claro que

                                 Ω = {cc, cx, xc, xx}

y que X(xx) = 0, X(cx) = X(xc) = 1 y X(cc) =                              2. Además, si tomamos
A = P(Ω), se cumple
                              
                               ∅∈A
                                                                         si   x<0
                              
                                {xx} ∈ A                                  si   0≤x<1
         {ω ∈ Ω : X(ω) ≤ x} =
                               {xx, cx, xc} ∈ A
                                                                         si   1≤x<2
                              
                                Ω∈A                                       si   x≥2

y, por tanto, X es una variable aleatoria. Entonces, tenemos

                     [X = 1,5] = {ω ∈ Ω : X(ω) = 1,5} = ∅

                  [X ≤ 1] = {ω ∈ Ω : X(ω) ≤ 1} = {xx, cx, xc}
                             [X > 1] = [X ≤ 1] = {cc}
           [0,5 < X < 1,5] = {ω ∈ Ω : 0,5 < X(ω) < 1,5} = {cx, xc}



2.2.1.    Operaciones con variables aleatorias
   El propósito de esta sección es definir las operaciones algebraicas entre vari-
ables aleatorias y demostrar que las nuevas aplicaciones formadas son también
variables aleatorias.

Suma de variables aleatorias
   La suma de dos variables aleatorias X, Y definidas sobre un mismo espacio
de probabilidades (Ω, A, P ) es otra aplicación, denotada por X + Y , que cumple

                            (X + Y )(ω) = X(ω) + Y (ω)

para cada ω ∈ Ω.




                               © Els autors, 2002; © Edicions UPC, 2002
54                                       CAPÍTULO 2. VARIABLES ALEATORIAS

Teorema 9 Si X, Y son variables aleatorias sobre un espacio de probabilidades
(Ω, A, P ), X + Y también lo es.
Demostración: Sea x ∈ R y consideremos el conjunto
                            [
                       A=        ([X ≤ r] ∩ [Y < x − r])
                                  r∈Q

Como Q es numerable, A ∈ A. Es claro que

                                      A ⊂ [X + Y < x]

Sea ω ∈ [X + Y < x], entonces

                                     X(ω) + Y (ω) < x

Consideremos cualquier número racional r0 tal que

                                 X(ω) < r0 < x − Y (ω)

Entonces
                           X(ω) < r0           y    Y (ω) < x − r0
y, por tanto, ω ∈ [X ≤ r0 ] ∩ [Y < x − r0 ] ⊂ A. Como consecuencia, tenemos

                                  A = [X + Y < x] ∈ A

para todo x ∈ R. De aquí,
                                ·           ¸
                                          1
                                 X +Y <x+ n ∈A
                                         2

y, en consecuencia,
                   ·
                    ∞
                                   1
                                     ¸
                       X + Y < x + n = [X + Y ≤ x] ∈ A
                   n=1
                                  2



Producto de un número real por una variable aleatoria
   El producto de un número real k por una variable aleatoria X definida
sobre un espacio de probabilidades (Ω, A, P ) es otra aplicación, denotada por
kX, que satisface
                             (kX)(ω) = k · X(ω)
para cada ω ∈ Ω.

Teorema 10 Si k ∈ R y X es una variable aleatoria sobre un espacio de prob-
abilidades (Ω, A, P ), kX también lo es.
Demostración: Consideremos tres casos:




               © Els autors, 2002; © Edicions UPC, 2002
2.2. DEFINICIÓN DE VARIABLE ALEATORIA                                       55

Caso 1 k = 0
  En este caso, evidentemente tenemos
                                   ½
                                     ∅ si x < 0
                        [kX ≤ x] =
                                     Ω si x ≥ 0
Caso 2 k > 0
  En este caso, para todo x ∈ R tenemos
                                    h   xi
                         [kX ≤ x] = X ≤    ∈A
                                        k
Caso 3 k < 0
   En este caso, para todo x ∈ R tenemos
                                h     xi h     xi
                    [kX ≤ x] = X ≥       = X<     ∈A
                                      k        k
ya que
                     h     xi     [·
                                   ∞
                                          x  1
                                               ¸
                       X<      =      X≤ − n ∈A
                           k      n=1
                                          k 2
pues,               ·        ¸
                        x  1
                     X ≤ − n ∈A                    (n = 1, 2, 3, ...)
                        k 2
    La demostración de estos tres casos completa la prueba del teorema.

Producto de variables aleatorias
   La producto de dos variables aleatorias X, Y definidas sobre un mismo
espacio de probabilidades (Ω, A, P ) es otra aplicación, denotada por XY , que
cumple
                           (XY )(ω) = X(ω) · Y (ω)
para cada ω ∈ Ω.
Teorema 11 Si X es una variable aleatoria sobre (Ω, A, P ), también lo es X 2 .
Demostración: Es claro que si x < 0, entonces
                          £ 2      ¤
                           X ≤x =∅∈A
Supongamos ahora que x ≥ 0, entonces tenemos
       £ 2    ¤ £ √             √ ¤ £       √ ¤ £ √ ¤
        X ≤x = − x≤X ≤ x = X ≤ x ∩ X ≥− x ∈A
pues
                       £    √ ¤ £   √ ¤
                        X ≥− x = X<− x ∈A
y
                   £   √ ¤  [·
                             ∞
                                    √   1
                                          ¸
                    X<− x =     X ≤− x− n ∈A
                            n=1
                                       2




                            © Els autors, 2002; © Edicions UPC, 2002
56                                         CAPÍTULO 2. VARIABLES ALEATORIAS

Teorema 12 Si X, Y son variables aleatorias sobre un espacio de probabili-
dades (Ω, A, P ), XY también lo es.
Demostración: Aplicando el teorema 1, deducimos que X − Y y X + Y son
variables aleatorias. Por el teorema 3, deducimos que (X + Y )2 y (X − Y )2
también lo son. Por último, por los teoremas 1 y 2

                             (X + Y )2 − (X − Y )2
                                                   = XY
                                       4
es también una variable aleatoria.

Cociente de variables aleatorias
    El cociente de dos variables aleatorias X, Y definidas sobre un mismo espa-
cio de probabilidades (Ω, A, P ) es otra aplicación, denotada por X , que satisface
                                                                  Y

                                           X        X(ω)
                                       (     )(ω) =
                                           Y        Y (ω)
                                                                 ¡X ¢
para todo ω ∈ Ω, supuesto que Y (ω) 6= 0; obsérvese que Dom       Y     = [Y 6= 0].

Teorema 13 Si X, Y son variables aleatorias sobre un espacio de probabili-
dades (Ω, A, P ) y [Y = 0] = ∅, entonces X también lo es.
                                         Y
Demostración: Podemos escribir
     ·       ¸        µ·       ¸         ¶ µ·          ¸          ¶
       X                 X                      X
         ≤x       =         ≤ x ∩ [Y < 0] ∪        ≤ x ∩ [Y > 0]
       Y                 Y                      Y
                  = ([X ≥ xY ] ∩ [Y < 0]) ∪ ([X ≤ xY ] ∩ [Y > 0])
                  = ([X − xY ≥ 0] ∩ [Y < 0]) ∪ ([X − xY ≤ 0] ∩ [Y > 0])

Cada una de estas cuatro últimas clases de sucesos son también sucesos como
puede comprobarse enseguida utilizando la técnica usada en las demostraciones
de los teoremas 1, 2 o 3.

Máximo y mínimo de variables aleatorias
    Dadas dos variables aleatorias X, Y definidas sobre un espacio de prob-
abilidades (Ω, A, P ), definimos la función máximo de X, Y , denotada por
m´x{X, Y }, mediante
  a

                        m´x{X, Y }(ω) = m´x{X(ω), Y (ω)}
                         a               a

para todo ω ∈ Ω. Del mismo modo, se define la función mínimo de X, Y ,
denotada por m´
              ın{X, Y }, mediante

                         m´
                          ın{X, Y }(ω) = m´
                                          ın{X(ω), Y (ω)}

para todo ω ∈ Ω.




                © Els autors, 2002; © Edicions UPC, 2002
2.2. DEFINICIÓN DE VARIABLE ALEATORIA                                         57

Teorema 14 Si X, Y son variables aleatorias sobre un espacio de probabili-
dades (Ω, A, P ), entonces m´x{X, Y } y m´
                            a            ın{X, Y } son también variables aleato-
rias.
Demostración: El teorema se sigue de los dos hechos siguientes

                  [m´x{X, Y } ≤ x] = [X ≤ x] ∩ [Y ≤ x] ∈ A
                    a

y
                   [m´
                     ın{X, Y } ≤ x] = [X ≤ x] ∪ [Y ≤ x] ∈ A
Puede también probarse que

                        m´
                         ın{X, Y } = − m´x{−X, −Y }
                                        a

y de aquí, demostrar que m´ es una variable aleatoria.
                          ın

2.2.2.    Funciones de distribución. Propiedades
    Si X es una variable aleatoria sobre un espacio de probabilidades (Ω, A, P ),
se llama función de distribución de X a la función real de variable real FX
definida por
                              FX (x) = P ([X ≤ x])
para todo x ∈ R.
    Esta función se introduce para conocer cómo se reparte la probabilidad de
los valores que toma la variable aleatoria. Obsérvese que si [X ≤ x] no fuera un
suceso de A, FX (x) no estaría definida (ver la observación 1). Escribiremos F
en lugar de FX cuando no haya confusión posible, y también P (X ≤ x) en lugar
de P ([X ≤ x]).

Observación 11 Es importante saber distinguir los conceptos de variable aleato-
ria y de función de distribución. Dada una variable aleatoria, tenemos los valores
reales asignados a cada uno de los elementos del espacio muestral, o como tam-
bién se dice a menudo, tenemos una variabilidad del espacio de probabilidades.
Mientras que, dada una función de distribución, tenemos únicamente cuáles
son estos valores reales y cómo se reparten, o sea, tenemos la distribución de
estos valores. Al pasar de una variable aleatoria a su distribución se pierde la
información relacionada con los objetos que dan lugar a estos valores reales y
que se recoge en el espacio de probabilidades. Es importante observar que dos
variables aleatorias distintas pueden tener la misma función de distribución. En
estos casos, decimos que las variables aleatorias son equivalentes (ver ejemplo
4, apartado 1).

Ejemplo 35 1. Dado un espacio de probabilidades (Ω, A, P ) de manera que
    Ω = {ω 1 , ω 2 }, A = P(Ω) y P viene dada por

                                                               1
                                   P (ω 1 ) = P (ω 2 ) =
                                                               2




                             © Els autors, 2002; © Edicions UPC, 2002
58                                        CAPÍTULO 2. VARIABLES ALEATORIAS

      Consideremos dos variables aleatorias X, Y definidas por
                    ½                               ½
                       0 si ω = ω 1                    1 si ω = ω 1
             X(ω) =                       y Y (ω) =
                       1 si ω = ω 2                    0 si ω = ω 2

      Es claro que X 6= Y , pues

                                              X(ω) 6= Y (ω)

      para todo ω ∈ Ω. Se      cumple
                                                                        
                  ∅            si x < 0                                  ∅      si y < 0
      [X ≤ x] =    {ω 1 }       si 0 ≤ x < 1               y   [Y ≤ y] =   {ω 2 } si 0 ≤ y < 1
                                                                        
                   Ω            si x ≥ 1                                   Ω      si y ≥ 1

      y, por tanto,
                                                           
                                                            0        si x < 0
                                                               1
                       FX (x) = P (X ≤ x) =                    2   si 0 ≤ x < 1
                                                           
                                                               1      si x ≥ 1
      y                                                    
                                                            0     si y < 0
                                                               1
                        FY (y) = P (Y ≤ y) =                   2   si 0 ≤ y < 1
                                                           
                                                               1   si y ≥ 1
      es decir, las dos variables aleatorias tienen la misma función distribución.

 2.   Consideremos el experimento que consiste en tirar tres veces una moneda
      al aire. En este caso, Ω consta de 8 sucesos elementales

                        Ω = {ccc, ccx, cxx, xxx, xxc, xcc, xcx, cxc}

      donde por ejemplo cxc significa "salir cara, cruz y cara en las tres tiradas".
      Indicamos por X "número de caras obtenidas en las tres tiradas". Es claro
      que X es una variable aleatoria cuando A = P(Ω) y se cumple

                               X(ccc) = 3
                               X(ccx) = X(xcc) = X(cxc) = 2
                               X(cxx) = X(xxc) = X(xcx) = 1
                               X(xxx) = 0

      y                    
                            ∅
                                                                      si   x<0
                           
                            {xxx}
                                                                      si   0≤x<1
                 [X ≤ x] =   {xxx, cxx, xxc, xcx}                      si   1≤x<2
                           
                            {xxx, cxx, ..., xcc, cxc}
                           
                                                                      si   2≤x<3
                           
                             Ω                                         si   3≤x




                © Els autors, 2002; © Edicions UPC, 2002
2.2. DEFINICIÓN DE VARIABLE ALEATORIA                                            59

      Entonces la función de distribución de X               viene dada por
                                         
                                          0
                                                              si   −∞<x<0
                                         
                                         
                                          1/8                 si   0≤x<1
                  FX (x) = P (X ≤ x) =      1/2                si   1≤x<2
                                         
                                          7/8
                                         
                                                              si   2≤x<3
                                         
                                            1                  si   3 ≤ x < +∞

      La gráfica de esta función aparece en la siguiente figura




Propiedades
    A continuación vamos a demostrar algunas propiedades de las funciones
distribución en general.

Teorema 15 Si F es la función distribución de una variable aleatoria X sobre
un espacio de probabilidades (Ω, A, P ), entonces se cumplen:

 1.   0 ≤ F (x) ≤ 1 para todo x ∈ R

 2.   F es monótona no decreciente:

                              x1 < x2       =⇒ F (x1 ) ≤ F (x2 )

      para todo x1 , x2 ∈ R

 3.   F (−∞) = 0 y F (+∞) = 1

 4.   P (a < X ≤ b) = F (b) − F (a) para todo a, b ∈ R con a ≤ b




                               © Els autors, 2002; © Edicions UPC, 2002
60                                         CAPÍTULO 2. VARIABLES ALEATORIAS

 5.     F es continua por la derecha en cada punto de R

Demostración: (1) Es evidente ya que F (x) = P (X ≤ x) y 0 ≤ P (X ≤ x) ≤ 1.
  (2) Si x1 < x2 , podemos escribir

                        [X ≤ x2 ] = [X ≤ x1 ] ∪ [x1 < X ≤ x2 ]

y entonces, tomando probabilidades en los dos miembros de la ecuación, obten-
emos
          P (X ≤ x2 ) = P (X ≤ x1 ) + P (x1 < X ≤ x2 ) ≥ P (X ≤ x1 )
y por definición, deducimos

                                         F (x2 ) ≥ F (x1 )

      (3) De la definición obtenemos

                                   F (+∞) = P (X ≤ +∞)

Ahora bien [X ≤ +∞] es el suceso seguro, ya que

                                           X(ω) < +∞

para todo ω ∈ Ω, y por tanto, F (+∞) = 1. Como se cumple x < +∞ para todo
x ∈ R, del apartado (2) deducimos

                                     F (x) ≤ F (+∞) = 1

Por otro lado, como que
                                           X(ω) > −∞
para todo ω ∈ Ω, se tiene que [X > −∞] es el suceso seguro. Por definición

                 F (−∞) = P (X ≤ −∞) = 1 − P (X > −∞) = 0

Finalmente, como se verifica −∞ < x para todo x ∈ R, del apartado (2) deduci-
mos
                            0 = F (−∞) ≤ F (x)
   (4) Si a = b, la fórmula es evidente. Supongamos que a < b, entonces
podemos escribir
                     [X ≤ b] = [X ≤ a] ∪ [a < X ≤ b]
y entonces, tomando probabilidades en los miembros de la ecuación, obtenemos

                      P (X ≤ b) = P (X ≤ a) + P (a < X ≤ b)

y, por definición, deducimos lo que queríamos

                              P (a < X ≤ b) = F (b) − F (a)




                 © Els autors, 2002; © Edicions UPC, 2002
2.2. DEFINICIÓN DE VARIABLE ALEATORIA                                        61

   (5) Sea a cualquier número real. Para ver que F es continua por la derecha
en a debemos demostrar que se cumple

                                 l´ F (x) = F (a)
                                  ım
                                x→a+

o de forma equivalente,
                                               1
                              l´ F (a +
                               ım                ) = F (a)
                             n→∞               n
Definimos los siguientes sucesos
                                ·              ¸
                                             1
                            An = a < X ≤ a +
                                             n

Es claro que (An ) es una sucesión decreciente de sucesos y su límite viene dado
por
                                 ·
                                 ∞
                                                   1
                                                     ¸
                      l´ An =
                       ım            a<X ≤a+           =∅
                     n→∞
                                n=1
                                                   n

Entonces, del apartado (4) deducimos

                                                   1
                           P (An ) = F (a +          ) − F (a)
                                                   n
y pasando al límite, obtenemos
                                                           1
                      l´ P (An ) = l´ F (a +
                       ım           ım                       ) − F (a)
                     n→∞                n→∞                n
y por la propiedad de continuidad de la probabilidad, tenemos

                             l´ P (An ) = P (∅) = 0
                              ım
                            n→∞

Como consecuencia, se tiene
                                               1
                              l´ F (a +
                               ım                ) = F (a)
                             n→∞               n


Observación 12 La función de distribución F puede ser discontinua por la
izquierda. En efecto, si fuera continua por la izquierda en a debería cumplirse
                                               1
                              l´ F (a −
                               ım                ) = F (a)
                             n→∞               n
Ahora bien, consideremos la siguiente sucesión de sucesos (Bn ) definida medi-
ante                             ·               ¸
                                      1
                          Bn = a − < X ≤ a
                                      n




                             © Els autors, 2002; © Edicions UPC, 2002
62                                          CAPÍTULO 2. VARIABLES ALEATORIAS

Es claro que es una sucesión decreciente y su límite viene dado por
                             ·
                             ∞
                                      1
                                                 ¸
                  l´ Bn =
                   ım             a − < X ≤ a = [X = a]
                 n→∞
                            n=1
                                      n

Entonces, del apartado (4) del teorema deducimos
                                                                   1
                                 P (Bn ) = F (a) − F (a −            )
                                                                   n
y pasando al límite, obtenemos
                                                        1
                          l´ P (Bn ) = F (a) − l´ F (a −
                           ım                   ım        )
                         n→∞                            n    n→∞

y por la propiedad de continuidad de la probabilidad, tenemos
                                    l´ P (Bn ) = P (X = a)
                                     ım
                                   n→∞

Por tanto, tenemos
                                                         1
                           F (a) − l´ F (a −
                                    ım                     ) = P (X = a)
                                      n→∞                n
y, como consecuencia, si
                                           P (X = a) 6= 0
entonces la función de distribución es discontinua por la derecha.

2.2.3.      Variables aleatorias y distribuciones discretas
    Se dice que una variable aleatoria X es discreta, y asimismo se llama disc-
reta a su función de distribución F , si el conjunto de valores que toma con
probabilidad no nula es finito o numerable. Esto significa que existe una suce-
sión de números reales x1 , x2 , ..., xn , ... tales que
           P (X = xi ) = pi 6= 0 y P (X 6= xi ) = 0                      (i = 1, 2, 3, ...)
      Para una variable aleatoria discreta la función de distribución viene dada
por                                              X
                                    F (x) =             P (X = xi )
                                                xi ≤x

en donde la suma se realiza sobre todos aquellos valores de i para los que xi ≤ x.
   Asociada a una variable aleatoria discreta, o a su correspondiente distribu-
ción discreta, aparece una función a la que se le llama función de densidad
de probabilidad, o simplemente función de densidad, que denotamos por fX
o por f cuando no haya confusión, y se define por
                   ½
                      P (X = xi ) si x = xi
           f (x) =
                      0            si x 6= xi para todo i = 1, 2, 3, ...
Como consecuencias inmediatas de la definición y de los axiomas de probabili-
dad, tenemos las siguientes propiedades de la función de densidad




                  © Els autors, 2002; © Edicions UPC, 2002
2.2. DEFINICIÓN DE VARIABLE ALEATORIA                                         63

 1. 0 ≤ f (x) ≤ 1

 2.
                                         ∞
                                         X
                                               f (xi ) = 1
                                         i=1

 3.                                               X
                                     F (x) =              f (xi )
                                                  xi ≤x


   Debe observarse que cualquier variable aleatoria discreta puede representarse
mediante indicadores. Si In es el indicador del suceso [X = xn ], entonces X
puede escribirse en la siguiente forma
                                       X
                                  X=     xn In
                                              n

En efecto, si ω ∈ [X = xk ] (k = 1, 2, 3, ...), entonces
                                     ½
                                         1 si n = k
                            In (ω) =
                                         0 si n 6= k

y, por tanto, obtenemos
                                         X
                            X(ω) =           xn In (ω) = xk
                                         n

que es lo que tenía que salir.

Ejemplo 36 1. Sea X la variable aleatoria que da el número de éxitos en n
    pruebas de Bernoulli. Es claro que X es una variable aleatoria discreta,
    pues sólo puede tomar los valores enteros que van de 0 a n. Además, se
    cumple                  µ ¶
                              n k
                P (X = k) =      p (1 − p)n−k (k = 0, 1, 2, ..., n)
                              k
      siendo p la probabilidad de éxito. Entonces, la función de distribución es
                                       X µn¶
                           F (x) =            pk (1 − p)n−k
                                            k
                                           k≤x

                                           X µn¶
                                           [x]
                                     =           pk (1 − p)n−k
                                               k
                                           k=0

      siendo [x] la parte entera del número real x (es decir, el mayor número
      entero menor que x). Esta distribución se llama distribución binomial
      de parámetros n y p.




                              © Els autors, 2002; © Edicions UPC, 2002
64                                        CAPÍTULO 2. VARIABLES ALEATORIAS

 2.   Sea X una variable aleatoria discreta que puede tomar cualquier valor
      entero no negativo. Entonces X tiene una distribución de Poisson de
      parámetro λ > 0 si



                                                λk −λ
                            P (X = k) =            e         (k = 0, 1, 2, ...)
                                                k!



      La función de distribución viene dada por



                                                      [x]
                                                      X λk
                                          F (x) =                e−λ
                                                            k!
                                                      k=0




 3.   Sea X una variable aleatoria discreta que sólo puede tomar un número
      finito de valores x1 , x2 , ..., xn . Entonces X tiene una distribución uni-
      forme (discreta) si



                                                     1
                              P (X = xk ) =                (k = 1, 2, ..., n)
                                                     n



      La distribución uniforme es



                                              X                        nx
                                 F (x) =             P (X = xk ) =
                                                                       n
                                             xk ≤x




      donde nx es el número de valores xk que son menores o iguales que x. En
      la siguiente figura se muestra la distribución uniforme para n = 6




                © Els autors, 2002; © Edicions UPC, 2002
2.2. DEFINICIÓN DE VARIABLE ALEATORIA                                     65




Ejemplo 37 Se sabe que X es una variable aleatoria discreta que puede tomar
cualquier valor entero no negativo. Además, se sabe que existe un número real
0 < α < 1 para el que se cumple
                       P (X = k) = α · P (X = k − 1)
(1) Encontrar la función de densidad de probabilidad de X. (2) Determinar la
probabilidad de que X tome valores impares.
   Solución: (1) Aplicando sucesivamente la relación dada entre las probabil-
idades, se tiene
                      P (X     =      k) = α · P (X = k − 1)
                               =      α2 · P (x = k − 2)
                               =      ···
                               =      αk · P (X = 0)
Sabemos que
                                ∞
                                X
                                      P (X = k) = 1
                                k=0




                             © Els autors, 2002; © Edicions UPC, 2002
66                                        CAPÍTULO 2. VARIABLES ALEATORIAS

luego,
                                            ∞
                                            X
                                1 =               αk · P (X = 0)
                                            k=0
                                                           ∞
                                                           X
                                     = P (X = 0) ·               αk
                                                           k=0
                                                             1
                                     = P (X = 0) ·
                                                            1−α
y, por tanto,
                                      P (X = 0) = 1 − α
y, como consecuencia,

                    P (X = k) = αk (1 − α)                 (k = 0, 1, 2, ...)

     (2) Sea
                A = [X = 1] ∪ [X = 3] ∪ · · · ∪ [X = 2n − 1] ∪ · · ·
entonces la probabilidad pedida es P (A). Tenemos
                                              ∞
                                              X
                            P (A) =                 P (X = 2n − 1)
                                              n=1
                                              X∞
                                        =           α2n−1 (1 − α)
                                              n=1
                                                     ∞
                                               1 − α X 2n
                                        =              α
                                                 α n=1
                                               1 − α α2
                                        =
                                                 α 1 − α2
                                                 α
                                        =
                                               1+α



2.2.4.     Variables aleatorias y distribuciones absolutamente
           continuas
    Una variable aleatoria se llama continua si su función de distribución no
tiene discontinuidades y, por tanto, el conjunto de valores que toma con prob-
abilidad no nula es no numerable. Entre ellas, las más fáciles de estudiar son
las absolutamente continuas. Una variable aleatoria se llama absolutamente
continua si existe una función no negativa e integrable f , denominada función
de densidad de probabilidad, tal que su función de distribución puede ponerse
en la forma                           Z x
                              F (x) =      f (t) dt                       (2.2)
                                                   −∞




                © Els autors, 2002; © Edicions UPC, 2002
2.2. DEFINICIÓN DE VARIABLE ALEATORIA                                         67

para todo x ∈ R. Como consecuencia, es claro que la función de densidad ha de
cumplir también la siguiente condición
                              Z +∞
                                    f (x) dx = 1
                                  −∞

Es importante observar que la continuidad de F no implica la existencia de una
representación de la forma (5.3).

Observación 13 La clasificación de las variables aleatorias en discretas y con-
tinuas no implica que toda distribución de probabilidad haya de ser discreta o
bien continua. Las distribuciones discretas y las distribuciones continuas son
dos pequeñas clases disjuntas de distribuciones; son las más fáciles de estudiar,
sobretodo si no se está familiarizado con la teoría de la medida y de la integral
de Lebesgue. Es importante observar que hay muchas funciones de distribución
que no son discretas ni tampoco son continuas.

Teorema 16 Si f es la función de densidad de una variable aleatoria absolu-
tamente continua X y F es su función de distribución
                                   Z x
                           F (x) =      f (t) dt
                                             −∞

entonces se cumplen

 1.   f (x) ≥ 0 para todo x ∈ R

 2.   F es continua

 3.   P (X = a) = 0 para todo a ∈ R

 4.   F 0 (a) = f (a), si f es continua en a ∈ R

 5.                                                   Z     b
                             P (a < X ≤ b) =                    f (x) dx
                                                        a

Demostración: (1) Por los apartados (3) y (4) del teorema 7, es inmediato
comprobar que f (x) ≥ 0 para todo x ∈ R.
   (2) Por el apartado (5) del teorema 7, F es continua por la derecha en cada
a ∈ R. Veamos ahora que F es continua por la izquierda. En efecto, sea > 0,
entonces
                                    Z a             Z a−
             F (a) − F (a − ) =          f (x) dx −      f (x) dx
                                     −∞              −∞
                                    Z a
                                =       f (x) dx
                                          a−
                                  =        f (θ)




                             © Els autors, 2002; © Edicions UPC, 2002
68                                        CAPÍTULO 2. VARIABLES ALEATORIAS

en donde θ ∈ [a − , a]. Luego

                         l´ [F (a) − F (a − )] = 0 · f (θ) = 0
                          ım
                        →0+

de donde se deduce que F es continua por la izquierda en a.
   (3) Es consecuencia de la continuidad de F . En efecto, en la observación 3
hemos obtenido
                                        1
                      F (a) − l´ F (a − ) = P (X = a)
                               ım
                             n→∞        n
Ahora bien, al ser F continua se cumple
                                                     1
                                    l´ F (a −
                                     ım                ) = F (a)
                                   n→∞               n
Por tanto,
                                         P (X = a) = 0
para todo a ∈ R.
   (4) Por el teorema fundamental del cálculo, para todo valor de x en el cual
f es continua, F es derivable y se cumple F 0 (x) = f (x).
   (5) Por el apartado (4) del teorema 7, tenemos

                           P (a < X ≤ b) = F (b) − F (a)
                                  Z b
                                =     f (x) dx
                                            a

ya que f tiene a lo sumo un número finito de discontinuidades evitables o de
salto finito. Obsérvese que por el apartado (3), se tiene
                          ·                          ¸
                            F (x + h) − F (x)
                      l´
                       ım                     − f (x) = 0
                      h→0           h

de donde,                     ·                            ¸
                                  P (x < X ≤ x + h)
                        l´
                         ım                         − f (x) = 0
                       h→0                h
y, en consecuencia,
                            P (x < X ≤ x + dx) = f (x) dx
es decir, f (x) dx se interpreta como la probabilidad infinitesimal de que la vari-
able X tome valores dentro del intervalo (x, x + dx].

Observación 14 1. Como consecuencia del apartado (4), la probabilidad es
    igual al área bajo la gráfica de la función densidad f en el intervalo [a, b].
    Además, como
                                 [a, b] = {a} ∪ (a, b]
     de los apartados (3) y (4) se deduce

             P (a ≤ X ≤ b) = P (X = a) + P (a < X ≤ b) = F (b) − F (a)




                © Els autors, 2002; © Edicions UPC, 2002
2.2. DEFINICIÓN DE VARIABLE ALEATORIA                                                             69

      Del mismo modo, tenemos
                   P (a ≤ X < b) = P (a < X < b) = F (b) − F (a)
      Este hecho es diferente a la situación encontrada en el caso de una dis-
      tribución discreta.
 2.   En general, si la variable aleatoria X no es continua (y por tanto F no
      es continua por la izquierda), no se cumplen (3), (4) y las consecuencias
      anteriores. En efecto, para estas variables se tiene
                             P (X = a) = F (a) − l´ − F (x)
                                                  ım
                                                               x→a

                  P (X < a) = P (X ≤ a) − P (X = a) = l´ − F (x)
                                                       ım
                                                                            x→a
                         P (a < X < b) = l´ − F (x) − F (a)
                                          ım
                                                  x→b
             P (a < X ≤ b) = P (a < X < b) + P (X = b) = F (b) − F (a)
       P (a ≤ X < b) = P (X = a) + P (a < X < b) = l´ − F (x) − l´ − F (x)
                                                    ım           ım
                                                                       x→b                  x→a
                         P (a ≤ X ≤ b) = F (b) − l´ − F (x)
                                                  ım
                                                                 x→a
      Obsérvese que todos los límites se toman por la izquierda.
Ejemplo 38 1. Una variable aleatoria absolutamente continua tiene una
    distribución uniforme en un intervalo [a, b] si su función de densidad
    viene dada por                ½ 1
                                     b−a   si x ∈ [a, b]
                          f (x) =
                                     0     si x ∈ [a, b]
                                                 /
    La función de distribución vendrá dada por
                                       Z x
                               F (x) =      f (t) dt
                                                  −∞

      Si x < a, entonces F (x) = 0 ya que f (x) = 0. Si a ≤ x < b, entonces
                                   Z x
                        F (x) =         f (t) dt
                                     −∞
                                   Z a             Z x
                               =        f (t) dt +     f (t) dt
                                     −∞             a
                                   Z x
                                         1          x−a
                               =              dt =
                                     a b−a          b−a
      Finalmente, si x ≥ b, entonces
                             Z x
                 F (x) =         f (t) dt
                                  −∞
                              Z    a                 Z     b                Z    x
                         =             f (t) dt +              f (t) dt +            f (t) dt
                               −∞                      a                     b
                              Z b
                                       1
                         =                dt = 1
                                  a   b−a




                              © Els autors, 2002; © Edicions UPC, 2002
70                                        CAPÍTULO 2. VARIABLES ALEATORIAS

      Por tanto,
                                             
                                              0           si x < a
                                                  x−a
                                F (x) =           b−a      si a ≤ x < b
                                             
                                                 1         si x ≥ b
      En la siguiente figura se muestra la distribución uniforme en el intervalo
      [2, 4]




 2.   Sea X una variable aleatoria absolutamente continua cuyo recorrido es
      toda la recta real. Se dice que X tiene una distribución exponencial de
      parámetro λ > 0 si su función de densidad viene dada por
                                       ½
                                         λe−λx si x ≥ 0
                               f (x) =
                                         0       si x < 0

      Si x < 0, la función de distribución F (x) = 0 ya que f (x) = 0. Si x ≥ 0,




                © Els autors, 2002; © Edicions UPC, 2002
2.2. DEFINICIÓN DE VARIABLE ALEATORIA                                             71

      entonces
                                      Z      x
                        F (x) =                   f (t) dt
                                       −∞
                                      Z 0                      Z   x
                                =                 f (t) dt +           f (t) dt
                                       −∞                      0
                                      Z x
                                =                λe−λt dt
                                         0
                                = 1 − e−λx
      Luego                          ½
                                             1 − e−λx        si x ≥ 0
                          F (x) =
                                             0               si x < 0
      En la figura siguiente se muestra la distribución exponencial de parámetro
      λ=2




 3.   Una variable aleatoria absolutamente continua tiene una distribución




                            © Els autors, 2002; © Edicions UPC, 2002
72                                           CAPÍTULO 2. VARIABLES ALEATORIAS

     normal o de Gauss si la función de densidad es
                                              1       2    2
                                     f (x) = √ e−(x−µ) /2σ
                                            σ 2π
     donde µ y σ > 0 son parámetros de la distribución. La gráfica de f es la
     conocida campana de Gauss con un máximo situado en el punto x = µ
     y dos inflexiones en los puntos x = µ ± σ. Para calcular su función de
     distribución procedemos de la siguiente manera:
                                       Z x
                                   1               2   2
                         F (x) = √          e−(t−µ) /2σ dt
                                σ 2π −∞
     haciendo el cambio siguiente
                                                            t−µ
                                                    u=
                                                             σ
     tenemos
                                     Z   0                              Z       x−µ
                        1                         −u2 /2          1              σ      2
               F (x) = √                      e             du + √                    e−u   /2
                                                                                                 du
                        2π             −∞                         2π        0

                                 2
     Ahora bien, al ser e−u /2 una función par, tenemos
                         Z 0                   Z +∞
                     1           2          1           2
                    √         e−u /2 du = √          e−u /2 du
                      2π −∞                 2π 0
     y sabemos que                   Z       +∞
                                                                  2   Γ(p)
                                                  u2p−1 e−au =
                                         0                            2ap
     siendo                                        Z       +∞
                                       Γ(p) =                   xp−1 e−x dx
                                                       0
     Luego
                                Z      +∞
                                                   2                  Γ(1/2)
                                             e−u       /2
                                                            du =       p
                                   0                                  2 1/2
                                                                      √
                                                                       2π
                                                                  =
                                                                       2
     Por tanto, tenemos
                                             √        Z x−µ
                                           1  2π    1    σ     2
                    F (x) =              √       +√         e−u /2 du
                                           2π 2     2π 0
                                              µ     ¶
                                         1      x−µ
                               =           +Φ
                                         2       σ




               © Els autors, 2002; © Edicions UPC, 2002
2.2. DEFINICIÓN DE VARIABLE ALEATORIA                                        73

     donde                                 Z x
                                       1          2
                             Φ(x) = √          e−t /2 dt
                                        2π 0
     se llama la integral de probabilidad. En la siguiente figura se muestra la
     distribución normal con parámetros µ = 0 y σ = 2




Ejemplo 39 Sea X una variable aleatoria absolutamente continua cuya función
de densidad es            ½
                             k(1 + x2 ) si x ∈ (0, 3)
                  f (x) =
                                 0       si x ∈ (0, 3)
                                              /
Se pide: (1) hallar la constante k y la función de distribución de X; (2) deter-
minar la probabilidad de que X esté comprendido entre 1 y 2; y (3) hallar la
probabilidad de que X sea menor que 1.
   Solución: (1) Al ser f una función de densidad de una variable absoluta-
mente continua debe cumplirse que
                               Z +∞
                                      f (x) dx = 1
                                 −∞




                            © Els autors, 2002; © Edicions UPC, 2002
74                                                 CAPÍTULO 2. VARIABLES ALEATORIAS

Luego,
         Z   +∞                       Z   0                       Z     3                    Z   +∞
                  f (x) dx =                      f (x) dx +                f (x) dx +                f (x) dx
          −∞                            −∞                          0                        3
                                        Z 3
                               = k                (1 + x2 ) dx
                                          0
                                  ·      ¸3
                                      x3
                               = k x+       = 12k
                                      3 0

Por tanto, k = 1/12. Para hallar la función de distribución sabemos que
                                     Z x
                            F (x) =       f (t) dt
                                                            −∞

Luego, si x < 0, entonces F (x) = 0 ya que f (x) = 0. Si 0 < x < 3, entonces
                              Z x
                   F (x) =         f (t) dt
                                              −∞
                                          Z    0                      Z       x
                                   =                   f (t) dt +                 f (t) dt
                                           −∞                             0
                                          Z x
                                              1 + t2
                                   =                  dt
                                           0    12
                                             ·        ¸x      µ      ¶
                                           1       t3       1     x3
                                   =          t+         =     x+
                                          12       3 0     12     3
Por tanto, obtenemos
                                      
                                       0 ³
                                                                ´ si x ≤ 0
                                               1            x3
                          F (x) =             12       x+   3      si 0 < x < 3
                                      
                                      
                                              1                    si x ≥ 3

     (2) Se pide la probabilidad del suceso [1 ≤ X ≤ 2]. Entonces,
                                               Z 2
                         P (1 ≤ X ≤ 2) =           f (x) dx
                                                                      1
                                                   Z   2
                                                        1
                                          =               (1 + x2 ) dx
                                                    1  12
                                                      ·        ¸2
                                                   1        x3        5
                                          =            x+          =
                                                   12        3 1 18

     (3) Se pide la probabilidad del suceso [X < 1]. Entonces
                                                                  1     1    1
                            P (X < 1) = F (1) =                     (1 + ) =
                                                                 12     3    9




                    © Els autors, 2002; © Edicions UPC, 2002
2.2. DEFINICIÓN DE VARIABLE ALEATORIA                                          75

2.2.5.    Transformación de variables aleatorias
    Sea X una variable aleatoria sobre un espacios probabilidades (Ω, A, P ) y
sea g una función de la variable real x. Entonces, Y = g(X) es una nueva función
real definida sobre Ω tal que

                                 Y (ω) = g(X(ω))

Si queremos que Y sea una variable aleatoria debemos imponer la condición de
que
                         {ω ∈ Ω : Y (ω) ≤ y} ∈ A                        (2.3)
para todo y ∈ R. En lo sucesivo haremos la suposición de que las funciones g
son tales que (2.3) se satisface.




En esta situación el problema que se nos plantea es el de encontrar las funciones
de densidad y de distribución de Y a partir de las de X. En el caso de vari-
ables aleatorias discretas la solución a este problema viene dada por el siguiente
teorema.

Teorema 17 Sea X una variable aleatoria discreta y Y una variable aleatoria
definida por
                              Y = g(X)
Entonces la función de distribución de Y viene dada por
                                     X
                          FY (y) =       P (X = x)
                                        g(x)≤y


Demostración: Observamos que Y es una variable aleatoria discreta, ya que
                                 X
                     P (Y = y) =     P (X = x)
                                           g(x)=y




                             © Els autors, 2002; © Edicions UPC, 2002
76                                         CAPÍTULO 2. VARIABLES ALEATORIAS

Por tanto,

                             FY (y) = P (Y ≤ y)
                                       X
                                    =       P (X = x)
                                                g(x)≤y




Ejemplo 40 Dada la variable aleatoria discreta X definida por la siguiente
tabla
                        xi 0      2     5    7
                        pi 0,3 0,2 0,4 0,1
Se pide determinar la distribución de la variable Y = 3X + 2.
   Solución: Observamos que

                                      xi    0 2 5 7
                                      yi    2 8 17 23

Entonces,
                                 yi      2   8  17 23
                                 pi     0,3 0,2 0,4 0,1
La función de distribución de Y viene dada por
                                   X
                          F (y) =        P (X = xi )
                                           3xi +2≤y

Por tanto                         
                                   0
                                                  si     x<2
                                  
                                  
                                   0,3            si     2≤y<8
                          F (y) =   0,5            si     8 ≤ y < 17
                                  
                                   0,9
                                  
                                                  si     17 ≤ y < 23
                                  
                                    1              si     y ≥ 23


    En el caso de que las variables sean absolutamente continuas, hay dos pro-
cedimientos. Uno consiste en calcular primero la función de distribución FY
de Y = g(X) a partir de la de X y, después, si FY es derivable, determinar
                                                 0
la función de densidad fY mediante fY (y) = FY (y). La justificación de este
procedimiento se encuentra en el teorema siguiente.

Teorema 18 Sea X una variable aleatoria absolutamente continua con función
de densidad fX y sea Y la variable aleatoria definida por Y = g(X). Entonces,
la función de distribución de Y es
                                      Z
                             FY (y) =    fX (x) dx
                                                  D

donde D es el subconjunto de la recta real definido por g(x) ≤ y.




               © Els autors, 2002; © Edicions UPC, 2002
2.2. DEFINICIÓN DE VARIABLE ALEATORIA                                    77

Demostración: Por definición, tenemos

                          FY (y) = P (Y ≤ y)
                                 = P (g(X) ≤ y)
                                 = P (X ∈ D)

ya que de la condición
                                     g(X(ω)) ≤ y
se deduce X(ω) ∈ D. Por tanto,
                                                Z
                          P (X ∈ D) =                 fX (x) dx
                                                  D

y, como consecuencia, tenemos
                                            Z
                              FY (y) =            fX (x) dx
                                              D

que es lo que queríamos demostrar.

Ejemplo 41 Dada la variable aleatoria absolutamente continua X cuya función
de densidad viene dada por
                                ½
                                  2x si x ∈ (0, 1)
                        f (x) =
                                   0 si x ∈ (0, 1)
                                           /

Consideramos las siguientes transformaciones: (1) Y = 3X + 5; (2) Y = X 2 ;
(3) Y = 2X 2 + 5. En cada una, calcular las funciones de distribución y de
densidad.
   Solución: La función de distribución de X es
                                
                                 0    si x < 0
                        F (x) =    x2 si 0 ≤ x < 1
                                
                                   1   si x ≥ 1

   (1) Consideremos la transformación Y = 3X + 5. Tenemos

                         FY (y) = P (Y ≤ y)
                                = P (3X + 5 ≤ y)
                                         y−5
                                = P (X ≤       )
                                            3
                                     y−5
                                = F(      )
                                       3
Ahora bien,
                              y−5
                         0<    3    < 1 ⇐⇒ 5 < y < 8




                              © Els autors, 2002; © Edicions UPC, 2002
78                                          CAPÍTULO 2. VARIABLES ALEATORIAS

Por tanto,                            
                                       0                   si y < 5
                                            1
                        FY (y) =            9 (y   − 5)2    si 5 ≤ y < 8
                                      
                                           1                si y ≥ 8
Es claro que FY es derivable en (5, 8) y, por tanto, la función de densidad de Y
viene dada por                ½ 2
                     fY (y) =     9 (y − 5) si y ∈ (5, 8)
                                 0            si y ∈ (5, 8)
                                                   /

     (2) Consideremos la transformación Y = X 2 . En este caso, tenemos

                            FY (y) =           P (Y ≤ y)
                                   =           P (X 2 ≤ y)
                                                   √         √
                                   =           P (− y ≤ X ≤ y)
                                                  √         √
                                   =           F ( y) − F (− y)
                                                  √
                                   =           F ( y)

Ahora bien
                                    √
                              0<     y < 1 ⇐⇒ 0 < y < 1
Por tanto,                             
                                        0             si y < 0
                              FY (y) =   y             si 0 ≤ y < 1
                                       
                                         1             si y ≥ 1
Es claro que FY es derivable en (0, 1) y, por tanto, la función de densidad de Y
viene dada por                    ½
                                      1 si y ∈ (0, 1)
                         fY (y) =
                                      0 si y ∈ (0, 1)
                                               /

     (3) Consideremos la transformación Y = 2X 2 + 5. Entonces

                  FY (y) = P (Y ≤ y)
                         = P (2X 2 + 5 ≤ y)
                             Ã r              r     !
                                   y−5          y−5
                         = P −            ≤X≤
                                      2          2
                             Ãr         !   Ã r     !
                                  y−5           y−5
                         = F              −F −
                                    2            2
                             Ãr         !
                                  y−5
                         = F
                                    2

Ahora bien,                       q
                                      y−5
                           0<          2    < 1 ⇐⇒ 5 < y < 7




                 © Els autors, 2002; © Edicions UPC, 2002
2.2. DEFINICIÓN DE VARIABLE ALEATORIA                                         79

Por tanto,                        
                                   0           si y < 5
                                       y−5
                       FY (y) =         2       si 5 ≤ y < 7
                                  
                                       1        si y ≥ 7
Es claro que FY es derivable en (5, 7) y, por tanto, la función de densidad de Y
viene dada por                    ½ 1
                                      2   si y ∈ (5, 7)
                         fY (y) =
                                      0 si y ∈ (5, 7)
                                               /


    Otro procedimiento consiste en determinar primero la función de densidad
fY de Y = g(X) a partir de la de X y, después, por integración, calcular la fun-
ción de distribución. Este procedimiento es más limitado que el anterior porque
se han de comprobar previamente algunas condiciones como, por ejemplo, que
la función g sea monótona y derivable. La justificación de este procedimiento se
halla en el siguiente teorema.
Teorema 19 Sea X una variable aleatoria absolutamente continua cuya fun-
ción de densidad es una función fX continua. Sea g : R → R una función
monótona y derivable, entonces Y = g(X) es una variable aleatoria del mismo
tipo cuya función de densidad viene dada por
                                                         1
                            fY (y) = fX (x) ·
                                                    |g 0 (x)|
para todo y ∈ R, siendo y = g(x). Además, la función de distribución de Y es
                                 FY (y) = FX (x)
si g es creciente, y
                              FY (y) = 1 − FX (x)
si g es decreciente.
Demostración: Supongamos que g es creciente y derivable. Por el teorema de
la inversa derivable, g es biyectiva sobre su recorrido, g −1 es derivable en su
dominio y se cumple
                                                1
                               (g −1 )0 (y) = 0
                                             g (x)
en donde g(x) = y. Entonces, puesto que
                                      £           ¤
                        [g(X) ≤ y] = X ≤ g −1 (y)
se tiene
                          FY (y) =         P (Y ≤ y)
                                 =         P (g(X) ≤ y)
                                 =         P (X ≤ g −1 (y))
                                 =         FX (g −1 (y))
                                 =         FX (x)




                            © Els autors, 2002; © Edicions UPC, 2002
80                                        CAPÍTULO 2. VARIABLES ALEATORIAS

ya que g(x) = y equivale a x = g −1 (y). Como fX es continua, según el apartado
(4) del teorema 8, se tiene
                                                   0
                              fX (x) =           FX (x)
                                     =           (FY ◦ g)0 (x)
                                     =           FY (g(x)) · g 0 (x)
                                                   0

                                     =           FY (y) · g 0 (x)
                                                   0


Al ser g una función creciente, se tiene

                                             g 0 (x) > 0

para todo x ∈ R. Por tanto,
                                         |g 0 (x)| = g 0 (x)
y, en consecuencia, obtenemos

                                   0                           1
                                  FY (y) = fX (x) ·
                                                           |g 0 (x)|

Por consiguiente, si la función de densidad de Y es continua, deducimos que
                                                               1
                                  fY (y) = fX (x) ·
                                                           |g 0 (x)|

     Supongamos ahora que g es decreciente, entonces
                         £            ¤
                          X ≥ g −1 (y) = [g(X) ≤ y]

y, por tanto,

                              FY (y) =           P (Y ≤ y)
                                     =           P (g(X) ≤ y)
                                     =           P (X ≥ g −1 (y))
                                     =           1 − P (X ≤ x)
                                     =           1 − FX (x)

Por otro lado, tenemos
                                                  0
                             fX (x) =           FX (x)
                                    =           (1 − FY ◦ g)0 (x)
                                    =           −FY (g(x)) · g 0 (x)
                                                    0

                                    =           −FY (y) · g 0 (x)
                                                    0


Ahora bien, como g es decreciente tenemos g 0 (x) < 0 para todo x ∈ R. Por
tanto,
                             |g 0 (x)| = −g 0 (x)




                © Els autors, 2002; © Edicions UPC, 2002
2.2. DEFINICIÓN DE VARIABLE ALEATORIA                                             81

y, en consecuencia, obtenemos

                             0                              1
                            FY (y) = fX (x) ·
                                                       |g 0 (x)|
Por consiguiente, si la función de densidad de Y es continua, deducimos que
                                                            1
                            fY (y) = fX (x) ·
                                                       |g 0 (x)|
En conclusión, si g es monótona, entonces
                                                            1
                            fY (y) = fX (x) ·
                                                       |g 0 (x)|


Ejemplo 42 Sea X una variable aleatoria absolutamente continua de la cual
sabemos que su densidad viene dada por la siguiente función
                              ½
                                1 − 1 x si x ∈ (0, 2)
                                    2
                      f (x) =
                                0        si x ∈ (0, 2)
                                              /

Se pide calcular las funciones de densidad y de distribución de las variables (1)
Y = eX y (2) Y = e−X .
   Solución: La función de distribución de X es
                                
                                 0        si x < 0
                                        2
                        F (x) =    x − x si 0 ≤ x < 2
                                      4
                                   1       si x ≥ 2

   (1) Consideremos la transformación Y = eX . En este caso g(x) = ex es una
función creciente y derivable. Por tanto, según el teorema 11, tenemos

                                  FY (y) = FX (x)

y
                                                           1
                             fY (y) = f (x) ·
                                                      |g 0 (x)|
De este modo, como x = ln y, obtenemos
                                  
                                   0                             si y < 1
                                                      ln2 y
             FY (y) = FX (ln y) =   ln y −                        si 1 ≤ y < e2
                                                       4
                                    1                             si x ≥ e2
y
                                           1
                                     1−    2   ln y       2 − ln y
                         fY (y) =                     =
                                           y                2y
si 1 < y < e2 .




                             © Els autors, 2002; © Edicions UPC, 2002
82                                        CAPÍTULO 2. VARIABLES ALEATORIAS

   (2) Consideremos la transformación Y = e−X . En este caso g(x) = e−x es
una función decreciente y derivable. Por tanto, según el teorema 11, tenemos
                                     FY (y) = 1 − FX (x)
y
                                                              1
                                   fY (y) = f (x) ·
                                                           |g 0 (x)|
De este modo, como x = − ln y, obtenemos
                                    
                                     0                  si y > 0
                                                  ln2 y
         FY (y) = 1 − Fx (− ln y) =    1 + ln y + 4      si 1 ≥ y > e−2
                                    
                                       1                 si y ≤ e−2
y
                                   1 + 1 ln y
                                       2        2 + ln y
                          fY (y) =            =
                                       y           2y
            −2
si 1 > y > e .


2.3.     Variables aleatorias bidimensionales
2.3.1.    Introducción
    Supongamos que tenemos dos variables aleatorias X, Y sobre el mismo es-
pacio de probabilidades (Ω, A, P ). De este modo, para cada suceso elemental
ω ∈ Ω tenemos dos números reales X(ω) y Y (ω). Entonces, hay dos posibles
interpretaciones: (1) Considerar los números X(ω) y Y (ω) de forma separada,
como se ha hecho al considerar las operaciones con variables aleatorias, o bien
(2) podemos considerar este par de números como las componentes de un vector
(X(ω), Y (ω)) de R2 (o las coordenadas de un punto del plano). Es esta segunda
interpretación la que conduce al concepto de variable aleatoria bidimension-
al y, por extensión, al de variable aleatoria n-dimensional.




                © Els autors, 2002; © Edicions UPC, 2002
2.3. VARIABLES ALEATORIAS BIDIMENSIONALES                                            83

   Al ser X, Y variables aleatorias, tenemos que

 [X ≤ x] = {ω ∈ Ω : X(ω) ≤ x} ∈ A y                  [Y ≤ y] = {ω ∈ Ω : Y (ω) ≤ y} ∈ A

para todo x, y ∈ R. Por tanto,

                               [X ≤ x] ∩ [Y ≤ y] ∈ A

y, como consecuencia, estos sucesos tienen asignadas probabilidades.




Así, podemos introducir la función F definida por

                         FX (x, y) = P ([X ≤ x] ∩ [Y ≤ y])

para todo (x, y) ∈ R2 ; F es una función real de dos variables que se llama
función de distribución conjunta o función de distribución de la variable
aleatoria bidimensional X = (X, Y ).
    En general, una variable aleatoria n-dimensional o vector aleatorio será un
n-tupla X = (X1 , X2 , ..., Xn ) formada por variables aleatorias Xi (i = 1, 2, ..., n)
sobre un mismo espacio de probabilidades (Ω, A, P ). El vector aleatorio X =
(X1 , X2 , ..., Xn ) definirá una aplicación de Ω en Rn que hace corresponder a
cada suceso elemental ω un vector (x1 , x2 , ..., xn ) de Rn , siendo xi = Xi (ω)
(i = 1, 2, ..., n). Para facilitar la escritura, en esta sección sólo trataremos el
caso n = 2. La generalización al caso n-dimensional de todos los resultados
que obtendremos no supone ninguna dificultad y podrá realizarla el lector como
ejercicio.

Observación 15 Para abreviar, en toda esta sección escribiremos [X ≤ x, Y ≤ y]
en lugar de [X ≤ x]∩[Y ≤ y], y también P (X ≤ x, Y ≤ y) en lugar de P ([X ≤ x] ∩ [Y ≤ y]).

2.3.2.     Definición de variable aleatoria bidimensional
  Una variable aleatoria bidimensional es cualquier par X = (X, Y ) for-
mada por variables aleatorias sobre el mismo espacio de probabilidades (Ω, A, P ).




                               © Els autors, 2002; © Edicions UPC, 2002
84                                          CAPÍTULO 2. VARIABLES ALEATORIAS

2.3.3.      Definición de función de distribución conjunta
    Dada una variable aleatoria bidimensional X = (X, Y ) sobre (Ω, A, P ), se
llama función de distribución conjunta a la función real de dos variables
definida por
                        FX (x, y) = P (X ≤ x, Y ≤ y)
en donde
                          [X ≤ x, Y ≤ y] = [X ≤ x] ∩ [Y ≤ y]

Propiedades
Teorema 20 La función de distribución conjunta FX de una variable aleatoria
bidimensional X = (X, Y ) satisface las siguientes propiedades:

 1.    0 ≤ FX (x, y) ≤ 1 para todo (x, y) ∈ R2

 2.    FX es monótona no decreciente para cada argumento

                             x1 < x2        =⇒ FX (x1 , y) ≤ FX (x2 , y)

                             y1 < y2        =⇒        FX (x, y1 ) ≤ FX (x, y2 )

 3.    FX (+∞, +∞) = 1 y FX (−∞, y) = FX (x, −∞) = 0

 4.    P (a < X ≤ b, c < Y ≤ d) = FX (b, d) − FX (a, d) − FX (b, c) + FX (a, c)

 5.    FX es continua por la derecha para cada argumento

Demostración: (1) Es evidente, ya que FX (x, y) = P (X ≤ x, Y ≤ y) y 0 ≤
P (X ≤ x, Y ≤ y) ≤ 1.
   (2) Si x1 < x2 , podemos escribir

                       [X ≤ x1 ] ∩ [Y ≤ y] ⊂ [X ≤ x2 ] ∩ [Y ≤ y]

y, por tanto,

     FX (x1 , y) = P ([X ≤ x1 ] ∩ [Y ≤ y]) ≤ P ([X ≤ x2 ] ∩ [Y ≤ y]) = FX (x2 , y)

Del mismo modo se prueba que FX es no decreciente respecto al segundo argu-
mento.
   (3) Observamos que

                [X ≤ +∞, Y ≤ +∞] = [X ≤ +∞] ∩ [Y ≤ +∞]
                                 = Ω∩Ω=Ω

Por tanto,

                FX (+∞, +∞) = P (X ≤ +∞, Y ≤ +∞) = P (Ω) = 1




                  © Els autors, 2002; © Edicions UPC, 2002
2.3. VARIABLES ALEATORIAS BIDIMENSIONALES                                  85

   Observamos también que

                [X ≤ −∞, Y ≤ y] = [X ≤ −∞] ∩ [Y ≤ y]
                                = ∅ ∩ [Y ≤ y]
                                = ∅

Por tanto,
               FX (−∞, y) = P (X ≤ −∞, Y ≤ y) = P (∅) = 0
Análogamente, se prueba que FX (x, −∞) = 0.
  (4) Definimos los siguientes sucesos

                         A = [a < X ≤ b, Y ≤ d]
                         B = [a < X ≤ b, Y ≤ c]
                         C = [a < X ≤ b, c < Y ≤ d]




Es claro que B y C son incompatibles y se cumple A = B ∪ C. Por tanto,

                            P (A) = P (B) + P (C)                        (2.4)

Además, es claro también que
                    A = [X ≤ b, Y ≤ d] − [X ≤ a, Y ≤ d]
                    B = [X ≤ b, Y ≤ c] − [X ≤ a, Y ≤ c]
luego
                         P (A) = FX (b, d) − FX (a, d)
                         P (B) = FX (b, c) − FX (a, c)
Sustituyendo estas dos expresiones en (5.2), obtenemos

             P (C) = P (a < X ≤ b, c < Y ≤ d)
                   = FX (b, d) − FX (a, d) − FX (b, c) + FX (a, c)

   (5) Definimos los siguientes sucesos
                             £            1
                                                  ¤
                       An = a < X ≤ a + n , Y ≤ y
                       B = [X ≤ a, Y ≤ y]
                             £                ¤
                                       1
                       Cn = X ≤ a + n , Y ≤ y




                            © Els autors, 2002; © Edicions UPC, 2002
86                                         CAPÍTULO 2. VARIABLES ALEATORIAS

entonces
                                          Cn = B ∪ An
siendo B y An dos sucesos incompatibles para todo n ∈ N. Por tanto,

                                  P (Cn ) = P (B) + P (An )                          (2.5)

Es claro que (An ) es una sucesión decreciente de sucesos y su límite viene dado
por
                               µ·
                              ∞
                                                  1
                                                    ¸          ¶
               l´ An =
                ım                  a<X ≤a+           ∩ [Y ≤ y]
              n→∞
                             n=1
                                                  n
                             Ã∞ ·                   ¸!
                                                 1
                         =          a<X ≤a+             ∩ [Y ≤ y]
                               n=1
                                                  n
                              = ∅ ∩ [Y ≤ y]
                              = ∅

Entonces, como
                                             1
                  P (Cn ) = FX (a +            , y)     y    P (B) = FX (a, y)
                                             n
de (5.4), obtenemos
                                       1
                           FX (a +       , y) = FX (a, y) + P (An )
                                       n
y pasando al límite, deducimos
                                       1
                    l´ FX (a +
                     ım                  , y) = FX (a, y) + l´ P (An )
                                                             ım
                   n→∞                 n                   n→∞

y por la propiedad de continuidad de la probabilidad, tenemos

                                   l´ P (An ) = P (∅) = 0
                                    ım
                                  n→∞

Como consecuencia,
                                                   1
                               l´ FX (a +
                                ım                   , y) = FX (a, y)
                              n→∞                  n
Del mismo modo, se demuestra que FX es continua por la derecha respecto al
segundo argumento.

Distribuciones marginales
Teorema 21 Sea FX la función de distribución conjunta de una variable aleato-
ria bidimensional X = (X, Y ). Entonces

            l´
             ım FX (x, y) = FX (x)                  y       l´
                                                             ım FX (x, y) = FY (y)
           y→+∞                                             x→+∞




                 © Els autors, 2002; © Edicions UPC, 2002
2.3. VARIABLES ALEATORIAS BIDIMENSIONALES                                         87

donde FX y FY son las funciones de distribución de las variables X e Y por
separado, respectivamente. A estas dos funciones se les llama entonces dis-
tribuciones marginales de X = (X, Y ).
Demostración: Puesto que

                  [X ≤ x, Y ≤ +∞] = [X ≤ x] ∩ [Y ≤ +∞]
                                  = [X ≤ x] ∩ Ω
                                  = [X ≤ x]

por definición, obtenemos

                                FX (x, +∞) = FX (x)

Análogamente se prueba FX (+∞, y) = FY (y).

2.3.4.     Variables aleatorias bidimensionales discretas
    Una variable aleatoria bidimensional X = (X, Y ) definida en el espacio de
probabilidades (Ω, A, P ) se llama discreta si X e Y son variables aleatorias
discretas. Supongamos que X e Y toman los valores xi e yj (i, j = 1, 2, 3, ...)
con probabilidades P (X = xi ) y P (Y = yj ), respectivamente. Definimos la
función de densidad de probabilidad conjunta de la variable aleatoria
bidimensional discreta X = (X, Y ) por
           ½
             P (X = xi , Y = yj ) si x = xi y y = yj
f (x, y) =
             0                    si x 6= xi o y 6= yj para todo i, j = 1, 2, 3, ...

en donde

         P (X = xi , Y = yj ) = P ([X = xi ] ∩ [Y = yj ]) (i, j = 1, 2, 3, ...)

y su función de distribución conjunta viene dada entonces por
                                         X X
          F (x, y) = P (X ≤ x, Y ≤ y) =          P (X = xi , Y = yj )
                                                  xi ≤x yj ≤y

Como consecuencias inmediatas de la definición y de los axiomas de probabili-
dad, tenemos las siguientes propiedades de la función de densidad conjunta

 1. 0 ≤ f (xi , yj ) ≤ 1, para todo i, j = 1, 2, 3, ...
 2.                                  XX
                                                 f (xi , yj ) = 1
                                       i    j

 3.                                             X X
                               F (x, y) =                     f (xi , yj )
                                                xi ≤x yj ≤y




                               © Els autors, 2002; © Edicions UPC, 2002
88                                         CAPÍTULO 2. VARIABLES ALEATORIAS

     Observamos que
                     X      X                                        XX
     l´ F (x, y) =
      ım                             P (X = xi , Y = yj ) =                     P (X = xi , Y = yj )
 y→+∞
                     xi ≤x yj ≤+∞                                    xi ≤x yj
                                                                          (2.6)
Ahora bien, por el teorema 13, sabemos que la distribución marginal viene dada
por
                                             X
                     l´
                      ım F (x, y) = FX (x) =     P (X = xi )              (2.7)
                      y→+∞
                                                             xi ≤x


Comparando (5.5) y (5.6), obtenemos la función de densidad de X
                                                     X
                  fX (x) = P (X = xi ) =                    P (X = xi , Y = yj )
                                                      yj


que no es más que la suma de la densidad conjunta para todos los valores que
toma la variable Y . Del mismo modo se obtiene
                                                     X
                     fY (y) = P (Y = yj ) =                 P (X = xi , Y = yj )
                                                      xi


Expresadas de este modo, las funciones fX y fY se llaman funciones de den-
sidad marginales de X = (X, Y ).


Ejemplo 43 Si tiran dos dados a la vez. Sea X la variable aleatoria "número
de puntos obtenidos por el primer dado", e Y la variable aleatoria "el número
mayor de los puntos obtenidos con los dos dados". Se pide la función de den-
sidad de la variable aleatoria bidimensional (X, Y ) y las funciones de densidad
marginales de (X, Y ).
    Solución: Se trata de una variable aleatoria bidimensional discreta. Si f es
la función de densidad conjunta, entonces

                          f (1, 1) = P (X = 1, Y = 1) = 1/36

Además,
                             f (k, 1) = P (X = k, Y = 1) = 0

con k > 1, pues [X = k] ∩ [Y = 1] es el suceso imposible. Tenemos también que

                          f (2, 2) = P (X = 2, Y = 2) = 2/36

ya que [X = 2] ∩ [Y = 2] = {(2, 1), (2, 2)}. Y así sucesivamente, los valores de
la función de densidad se encuentran en la tabla siguiente




                 © Els autors, 2002; © Edicions UPC, 2002
2.3. VARIABLES ALEATORIAS BIDIMENSIONALES                                89




    La función de densidad marginal de X se obtendrá sumando, para cada val-
or de X, los valores de la densidad conjunta; en otras palabras, sumando por
columnas las probabilidades de la tabla. Así, tenemos

                    xi      1   2   3   4   5   6
                  fX (xi ) 1/6 1/6 1/6 1/6 1/6 1/6

Análogamente, la función de densidad marginal para Y se obtendrá sumando
por filas las probabilidades de la tabla. Así, tenemos

                 yj       1   2    3    4    5    6
               fY (yj ) 1/36 1/12 5/36 7/36 1/4 11/36




2.3.5.   Variables aleatorias bidimensionales absolutamente
         continuas
   Se dice que una variable aleatoria bidimensional X = (X, Y ) es absolu-
tamente continua si existe una función real integrable de dos variables f ,
denominada función de densidad de probabilidad conjunta, tal que la
función de distribución conjunta de X puede expresarse en la forma siguiente
                                  Z x Z y
                       F (x, y) =         f (u, v) du dv
                                    −∞     −∞




                           © Els autors, 2002; © Edicions UPC, 2002
90                                          CAPÍTULO 2. VARIABLES ALEATORIAS

para todo (x, y) ∈ R2 . Como consecuencia, es claro que la función de densidad
conjunta ha de cumplir también la siguiente condición
                              Z   +∞   Z    +∞
                                                 f (x, y) dx dy = 1
                                  −∞       −∞

Teorema 22 Si f es la función de densidad conjunta de una variable aleatoria
absolutamente continua X = (X, Y ) y F es su función de distribución conjunta
                                Z x Z y
                     F (x, y) =          f (u, v) du dv
                                               −∞    −∞

entonces se cumplen

 1.   Si f es continua, entonces

                                           ∂ 2 F (x, y)
                                                        = f (x, y)
                                              ∂y∂x

 2.   f (x, y) ≥ 0 para todo (x, y) ∈ R2

 3.   La probabilidad de que X tome valores dentro de un recinto D del plano
      viene dada por
                                          Z Z
                        P ((X, Y ) ∈ D) =     f (x, y) dx dy
                                                             D

                                                             Z       b   Z       d
                    P (a < X ≤ b, c < Y ≤ d) =                                       f (x, y) dx dy
                                                                 a           c

Demostración: (1) Consideremos A = (−∞, x) y B = (−∞, y). Para cada
u ∈ A, definimos la función gu : B → R por

                                           gu (v) = f (u, v)

Puesto que f es continua, gu es continua y, por tanto, por el teorema funda-
mental del cálculo,            Z y
                                    gu (v) dv
                                               −∞

es derivable y se cumple
                                       Z   y
                                  ∂
                                               gu (v) dv = gu (y)
                                  ∂y     −∞

En particular,                                   Z   y
                                     h(u) =              gu (v) dv
                                                    −∞




                 © Els autors, 2002; © Edicions UPC, 2002
2.3. VARIABLES ALEATORIAS BIDIMENSIONALES                                                     91

es continua en A. De nuevo, por el teorema fundamental del cálculo
                                Z x
                                     h(u) du
                                                −∞

es derivable y se cumple
                       Z x                  Z y
                    ∂
                           h(u) du = h(x) =     gx (v) dv
                    ∂x −∞                    −∞

o sea                    Z   x    µZ    y                ¶            Z   y
                   ∂
                                            gu (v) dv         du =             gx (v) dv
                   ∂x        −∞    −∞                                     −∞

De aquí, derivando respecto de y, obtenemos
            µZ x µZ y               ¶   ¶     Z y
       ∂2                                   ∂
                         f (u, v) dv du =         gx (v) dv = f (x, y)
      ∂y∂x     −∞    −∞                     ∂y −∞

luego
                                         ∂ 2 F (x, y)
                                                      = f (x, y)                            (2.8)
                                            ∂y∂x
    (2) Vamos a interpretar (2.8). Esta ecuación puede escribirse de forma
equivalente como
       ·                                                                     ¸
         F (x + h, y + k) − F (x + h, y) − F (x, y + k) + F (x, y)
   l´
    ım                                                             − f (x, y) = 0
  h→0                              hk
  k→0

Ahora bien, según el apartado (4) del teorema 7, tenemos

P (x < X ≤ x+h, y < Y ≤ y+k) = F (x+h, y+k)−F (x+h, y)−F (x, y+k)+F (x, y)

Por tanto,
                   ·                                              ¸
                       P (x < X ≤ x + h, y < Y ≤ y + k)
             l´
              ım                                        − f (x, y) = 0                      (2.9)
             h→0                     hk
             k→0

de donde

             P (x < X ≤ x + dx, y < Y ≤ y + dy) = f (x, y) dx dy                           (2.10)

es decir, que f (x, y) dx dy se interpreta como la probabilidad infinitesimal de
que el punto (X, Y ) del plano se encuentre dentro del rectángulo

                                   (x, x + dx] × (y, y + dy]

Por otro parte, como

                         P (x < X ≤ x + h, y < Y ≤ y + k) ≥ 0




                                       © Els autors, 2002; © Edicions UPC, 2002
92                                         CAPÍTULO 2. VARIABLES ALEATORIAS

de la ecuación (2.9) se deduce que f es necesariamente una función no negativa

                                            f (x, y) ≥ 0

para todo (x, y) ∈ R2 .
   (3) Como

                   [(X, Y ) ∈ D] = {ω ∈ Ω : (X(ω), Y (ω)) ∈ D}

se tiene
                                  Z Z
           P ((X, Y ) ∈ D) =               P (x < X ≤ x + dx, y < Y ≤ y + dy)

y por (2.10), deducimos
                                                      Z Z
                        P ((X, Y ) ∈ D) =                        f (x, y) dx dy
                                                            D

En particular, si D = [a, b] × [c, d] y f es continua en D, se tiene
                                                             Z      b   Z    d
                 P (a < X ≤ b, c < Y ≤ d) =                                      f (x, y) dx dy
                                                                a        c




   Sabemos que X es una variable aleatoria absolutamente continua con función
de densidad fX . Esto quiere decir que la función de distribución de X es
                                      Z x
                            FX (x) =       fX (t) dt                      (2.11)
                                                      −∞

Por otro lado, según el teorema 13, las distribuciones marginales de X = (X, Y )
son
             l´ FX (x, y) = FX (x) y
              ım                               l´
                                                ım FX (x, y) = FY (y)
            y→+∞                                             x→+∞

En particular,
                                                  Z   x     µZ          +∞                     ¶
              FX (x) = FX (x, +∞) =                                              f (u, v) dv       du
                                                    −∞           −∞

Comparando esta ecuación con (2.11), obtenemos que la función de densidad de
X viene dada por                  Z                +∞
                                  fX (x) =                  f (x, y) dy
                                                 −∞

Del mismo modo, deducimos que la función de densidad de Y viene dada por
                                Z +∞
                       fY (y) =        f (x, y) dx
                                                 −∞




                 © Els autors, 2002; © Edicions UPC, 2002
2.3. VARIABLES ALEATORIAS BIDIMENSIONALES                                        93

Ejemplo 44 La función de densidad conjunta de dos variables aleatorias con
distribución absolutamente continua es
                          ½
                            k(x2 + y 2 ) si x ∈ (0, 1) e y ∈ (0, 1)
               f (x, y) =
                            0            en otro caso

(1) Determinar el valor de k. (2) Obtener la función de distribución conjunta.
(3) Calcular las funciones de densidad marginales.
   Solución: (1) Si f es una función de densidad conjunta de una distribución
absolutamente continua, entonces se ha de cumplir que
                         Z +∞ Z +∞
                                     f (x, y) dx dy = 1
                           −∞     −∞

Puesto que fuera de la región (0, 1) × (0, 1) se anula f , entonces
           Z +∞ Z +∞                           Z 1Z 1
                        f (x, y) dx dy = k            (x2 + y 2 ) dx dy
             −∞    −∞                                   0        0
                                                      Z     1   ·        ¸1
                                                                  2   y3
                                             = k                 x y+       dx
                                                        0             3 0
                                                      Z     1
                                                            1
                                             = k     (x2 + ) dx
                                                  0         3
                                                 · 3       ¸1
                                                  x      x      2k
                                             = k      +       =
                                                   3     3 0     3

Por tanto, k = 3/2.
    (2) Para obtener la función de distribución conjunta debemos distinguir las
siguientes regiones numeradas, siendo la parte rayada la única en la que no se
anula la función de densidad conjunta.




En la región 1, definida por x ≤ 0 e y ≥ 1, la función de distribución es cero,
pues la función de densidad se anula. Lo mismo ocurre en las regiones 2,3,6 y
9. En las cuatro restantes, la función de distribución no se anula.




                             © Els autors, 2002; © Edicions UPC, 2002
94                                           CAPÍTULO 2. VARIABLES ALEATORIAS

    En la región 4, definida por 0 < x ≤ 1 e y ≥ 1, sólo nos interesa la parte
en la que no se anula la función de densidad, es decir, la parte rayada de la
siguiente figura




Entonces, tenemos

               Z    x   Z   y
 F (x, y) =                     f (u, v) du dv
                   −∞     −∞
               Z    0   Z  0                    Z     x   Z       1                          Z   x   Z       y
                                                                      3 2
           =                    0 du dv +                               (u + v 2 ) du dv +                       0 du dv
                   −∞     −∞                      0           0       2                      0           1
                  Z ·           ¸1
                3 x 2        v3
           =          u v+         du
                2 0           3 0
                  Z xµ        ¶
                3           1
           =           u2 +      du
                2 0         3
                  · 3     ¸x
                3 u     u       x3 + x
           =          +      =
                2 3     3 0        2


     En la región 5, definida por 0 ≤ x ≤ 1 e 0 ≤ y ≤ 1,




                   © Els autors, 2002; © Edicions UPC, 2002
2.3. VARIABLES ALEATORIAS BIDIMENSIONALES                                                                             95

tenemos


                               Z   x   Z   y
          F (x, y) =                           f (u, v) du dv
                                −∞ −∞
                               Z 0 Z 0                              Z    x   Z   y
                                                                                     3 2
                       =                       0 du dv +                               (u + v 2 ) du dv
                                −∞ −∞                                0       0       2
                                 Z x·          ¸y
                               3      2     v3
                       =             u v+         du
                               2   0        3 0
                                 Z xµ          ¶
                               3            y3
                       =             u2 y +       du
                               2 0           3
                                 ·          ¸x
                               3 u3 y y 3 u       x3 y + y 3 x
                       =              +         =
                               2 3        3 0          2



  En la región 7, definida por x ≥ 1 e y ≥ 1,




tenemos


              Z    x   Z   y
F (x, y) =                     f (u, v) du dv
               −∞       −∞
              Z 0      Z 0                       Z     1   Z   1                                Z    x   Z   y
                                                                   3 2
          =                    0 du dv +                             (u + v 2 ) du dv +                          0 du dv
               −∞ −∞                               0       0       2                             1       1
              Z 1Z 1
                           3 2
          =                  (u + v 2 ) du dv = 1
               0       0   2



  Finalmente, en la región 8, definida por x ≥ 1 e 0 ≤ y < 1,




                                       © Els autors, 2002; © Edicions UPC, 2002
96                                            CAPÍTULO 2. VARIABLES ALEATORIAS




tenemos


               Z    x   Z   y
 F (x, y) =                     f (u, v) du dv
                −∞       −∞
               Z 0      Z 0                     Z     1   Z    y                          Z   x   Z   y
                                                                   3 2
           =                    0 du dv +                            (u + v 2 ) du dv +                   0 du dv
                −∞ −∞                             0        0       2                      1       0
                 Z ·           ¸y
               3 1 2        v3
           =         u v+         du
               2 0          3 0
                Z µ             ¶
               3 1          y3
           =         u2 y +       du
               2 0           3
                ·            ¸1
               3 u3 y y 3 u       y + y3
           =          +         =
               2 3        3 0        2



En resumen, la función de distribución conjunta viene dada por la siguiente
función


                                
                                 0
                                 3                   si      x≤0 e y≤0
                                 x y+y3 x
                                
                                
                                    2                si      0≤x<1y 0≤y<1
               F (x, y) =             x3 +x
                                                      si      0≤x<1e y≥1
                                
                                
                                        2
                                      y+y 3
                                
                                                     si      x≥1 y 0≤y<1
                                
                                       2
                                     1                si      x≥1 e y≥1




     (3) La función de densidad marginal de X es




                   © Els autors, 2002; © Edicions UPC, 2002
2.3. VARIABLES ALEATORIAS BIDIMENSIONALES                             97




                                       Z   +∞
                       fX (x) =                  f (x, y) dy
                                        −∞
                                       Z 1
                                            3 2
                                  =          (x + y 2 ) dy
                                         0 2
                                          ·          ¸1
                                        3 2       y3
                                  =        x y+
                                        2          3 0
                                          µ        ¶
                                        3        1
                                  =         x2 +
                                        2        3


Por tanto,


                              ½   3
                                    ¡ 2 1¢
                                  2  x +3  si x ∈ (0, 1)
                   fX (x) =
                                  0        si x ∈ (0, 1)
                                                /



Análogamente, para la función de densidad marginal de Y , tenemos




                           © Els autors, 2002; © Edicions UPC, 2002
98                                        CAPÍTULO 2. VARIABLES ALEATORIAS


                                                  Z   +∞
                             fY (y) =                      f (x, y) dx
                                                   −∞
                                                  Z 1
                                                      3 2
                                         =             (x + y 2 ) dx
                                                   0 2
                                                    ·         ¸1
                                                  3 x3
                                         =              + y2 x
                                                  2 3
                                                    µ        ¶ 0
                                                  3 1
                                         =              + y2
                                                  2 3
Por tanto,                          ½        ¡1          ¢
                                         3
                                         2    3   + y2       si y ∈ (0, 1)
                       fY (y) =
                                         0                   si y ∈ (0, 1)
                                                                  /



2.3.6.    Transformaciones de variables aleatorias bidimen-
          sionales
   Sea X = (X1 , X2 ) una variable aleatoria bidimensional sobre el espacio de
probabilidades (Ω, A, P ). Sea Y = (Y1 , Y2 ) la variable aleatoria bidimensional
definida por
                   Y1 = g1 (X1 , X2 ) y Y2 = g2 (X1 , X2 )
Las funciones g1 , g2 son tales que
{ω ∈ Ω : Y1 (ω) = g1 (X1 (ω), X2 (ω)) ≤ y1 }∩{ω ∈ Ω : Y2 (ω) = g2 (X1 (ω), X2 (ω)) ≤ y2 } ∈ A
En esta situación el problema que se nos plantea es el de encontrar la función de
distribución conjunta de Y a partir de la de X. En el caso de variables aleatorias
bidimensionales discretas la solución a este problema viene dada por el siguiente
teorema.
Teorema 23 Sea X = (X1 , X2 ) una variable aleatoria bidimensional discreta
y Y = (Y1 , Y2 ) una variable aleatoria bidimensional definida por
                                        Y1 = g1 (X1 , X2 )
                                        Y2 = g2 (X1 , X2 )
Entonces la función de distribución de Y viene dada por
                                  X
                 FY (y1 , y2 ) =         P (X = x1 , X = x2 )
                                      g1 (x1 ,x2 )≤y1
                                      g2 (x1 ,x2 )≤y2

Demostración: Observamos que Y es una variable aleatoria bidimensional
discreta, ya que
                                      X
             P (Y1 = y1 , Y2 = y2 ) =   P (X = x1 , X = x2 )
                                              g1 (x1 ,x2 )=y1
                                              g2 (x1 ,x2 )=y2




                © Els autors, 2002; © Edicions UPC, 2002
2.3. VARIABLES ALEATORIAS BIDIMENSIONALES                                               99

Por tanto,
                FY (y1 , y2 ) = P (Y1 ≤ y1 , Y2 ≤ y2 )
                                    X
                              =              P (X = x1 , X = x2 )
                                   g1 (x1 ,x2 )≤y1
                                   g2 (x1 ,x2 )≤y2




Ejemplo 45 Sean X e Y dos variables aleatorias discretas con la siguiente
función de probabilidad conjunta
                              XY         1   2   3
                               1         0,1 0,1 0,2
                               2         0,2 0,3 0,1
Se definen las variables U = X + Y y V = X − Y . Calcular: (1) la función de
probabilidad conjunta de (U, V ); (2) las funciones de probabilidad marginales de
U y V.
    Solución: Encontremos en primer lugar los recorridos de las nuevas vari-
ables. Es claro que U puede tomar los valores 2, 3, 4 y 5, mientras que V puede
tomar los valores −2, −1, 0 y 1
                  XY     1 2 3                                         XY   1 2   3
   U =X +Y :       1      1 3 4           y     V =X −Y :                1    0 −1 −2
                   2      3 4 5                                          2    1 0 −1
Para calcular las probabilidades conjuntas, hacemos lo siguiente:
                                      X
              P (U = 2, V = −2) =           P (X = x, Y = y) = 0
                                         x+y=2
                                        x−y=−2

ya que                            ½
                                      x+y =2
                                      x − y = −2
si x = 0 e y = 2, pero P (X = 0, Y = 2) = 0 ya que X no toma el valor 0.
Análogamente,
                                     X
               P (U = 2, V = 0) =        P (X = x, Y = y)
                                              x+y=2
                                              x−y=0
                        = P (X = 1, Y = 1) = 0,1
Y así sucesivamente, para obtener al final
                           U V       −2 −1 0   1
                             2         0  0 0,1 0
                             3         0 0,1 0 0,2
                             4        0,2 0 0,3 0
                             5         0 0,1 0  0




                             © Els autors, 2002; © Edicions UPC, 2002
100                                        CAPÍTULO 2. VARIABLES ALEATORIAS

   (2) De aquí obtenemos las funciones de probabilidad marginales de U y V ,
sumando filas y columnas, respectivamente. Así, tenemos

            ui    2   3   4   5                             vj   −2 −1 0      1
                                                    y
            pi   0,1 0,3 0,5 0,1                            pj   0,2 0,2 0,4 0,2



    En el caso de las variables aleatorias bidimensionales absolutamente con-
tinuas, hay dos procedimientos. Uno consiste en calcular primero la función de
distribución conjunta de Y a partir de la de X y, después, si FY es diferenciable,
calcular la función de densidad conjunta fY mediante

                                 ∂ 2 FY (y1 , y2 )
                                                   = fY (y1 , y2 )
                                     ∂y2 ∂y1

La justificación de este procedimiento se encuentra en el teorema siguiente.

Teorema 24 Sean X1 , X2 dos variables aleatorias absolutamente continuas con
función de densidad conjunta fX y sean Y1 , Y2 dos variables aleatorias definidas
por Yi = gi (X1 , X2 ) (i = 1, 2). Entonces, la función de distribución conjunta de
Y = (Y1 , Y2 ) es
                                       Z Z
                       FY (y1 , y2 ) =     fX (x1 , x2 ) dx1 dx2
                                                  D

donde D es el recinto plano de integración definido por gi (x1 , x2 ) ≤ yi (i = 1, 2).
Demostración: Por definición, tenemos

             FY (y1 , y2 ) = P (Y1 ≤ y1 , Y2 ≤ y2 )
                           = P (g1 (X1 , X2 ) ≤ y1 , g2 (X1 , X2 ) ≤ y2 )
                           = P ((X1 , X2 ) ∈ D)

ya que de la condición

                           gi (X1 (ω), X2 (ω)) ≤ yi (i = 1, 2)

se deduce (X1 (ω), X2 (ω)) ∈ D. Por tanto,
                                      Z Z
                 P ((X1 , X2 ) ∈ D) =      fX (x1 , x2 ) dx1 dx2
                                                        D

y, como consecuencia, tenemos
                                            Z Z
                       FY (y1 , y2 ) =                fX (x1 , x2 ) dx1 dx2
                                                  D

que es lo que queríamos demostrar.




                 © Els autors, 2002; © Edicions UPC, 2002
2.3. VARIABLES ALEATORIAS BIDIMENSIONALES                                                                    101

Ejemplo 46 Dada la siguiente función de densidad conjunta


                           ½
                               k(x + y) si 0 < x < 1 y 0 < y < 2 − 2x
              f (x, y) =
                               0        en otro caso


(1) Calcular el valor de k. (2) Definimos las variables U, V mediante U = X +Y
y V = X − Y . Calcular P (U > 0,5, V < −0,5).

    Solución: (1) Si f es una función de densidad conjunta de una variable
aleatoria bidimensional, entonces


                               Z   +∞ Z +∞
                                                     f (x, y) dx dy = 1
                                −∞       −∞




En nuestro caso, tenemos


Z   +∞ Z +∞                             Z   0        Z   0               Z     1   µZ       2−2x                 ¶
              f (x, y) dx dy       =                         0 dx dy +                             k(x + y) dy       dx
 −∞    −∞                                   −∞        −∞                  0             0
                                           ·Z    1   ¸2−2x
                                                  y2
                                   = k       xy +          dx
                                        0         2 0
                                       Z 1µ                        ¶
                                                         (2 − 2x)2
                                   = k       x(2 − 2x) +             dx
                                        0                    2
                                       Z 1
                                   = k     (2 − 2x) dx
                                             0
                                   = k


y, por tanto, k = 1.

    (2) El recinto R es la parte de la región D, definida por las desigualdades


                                            x + y > 0,5
                                            x − y < −0,5


en la que no se anula la función de densidad conjunta; la densidad conjunta no
se anula en la región limitada por las líneas rojas de la siguiente figura.




                                    © Els autors, 2002; © Edicions UPC, 2002
102                                          CAPÍTULO 2. VARIABLES ALEATORIAS




Es claro que

  P (U > 0,5, V < −0,5) = P (X + Y > 0,5, X − Y < −0,5) = P ((X, Y ) ∈ D)

Además,
                                                  Z    0,5   µZ   2−2x                ¶
               P ((X, Y )       ∈     D) =                               (x + y) dy       dx
                                                   0           0,5+x
                                      Z     0,5   ·            ¸
                                                              2 2−2x
                                                        y
                               =                   xy +                    dx
                                        0               2         0,5+x
                                      Z     0,5
                                             3    15
                               =       (−3x − x2 + ) dx
                                   0         2     8
                                 ·                 ¸0,5
                                     3 2 1 3 15           1
                               =  − x − x + x           =
                                     2     2     8 0      2


    Otro procedimiento consiste en determinar primero la función de densidad
fY de Y = g(X) a partir de la de X y, después, por integración doble, determinar
la función de distribución. Este procedimiento es más limitado que el anterior
porque se han de comprobar previamente que se cumplen las condiciones del
teorema del cambio de variables para integrales dobles. La justificación de este
procedimiento se halla en el siguiente teorema.

Teorema 25 Sea X = (X1 , X2 ) una variable aleatoria absolutamente continua
con función de densidad conjunta fX y sea Yi = gi (X1 , X2 ) (i = 1, 2), de manera
que g = (g1 , g2 ) sea una aplicación de R2 en sí mismo de clase C 1 e inyectiva
en el conjunto A en que fX no se anula. Entonces, sobre el recorrido g(A) está




                 © Els autors, 2002; © Edicions UPC, 2002
2.3. VARIABLES ALEATORIAS BIDIMENSIONALES                                               103

                                                     −1 −1                      −1
definida la transformación inversa g −1 = (g1 , g2 ) por Xi = gi (Y1 , Y2 ) (i =
                                     −1
1, 2). Supongamos también que g es continua y que su jacobiano Jg−1 no se
anula en g −1 (A). En estas condiciones, Y = (Y1 , Y2 ) es una variable aleatoria
absolutamente continua y
                                                                        ¯     ¯
                fY (y1 , y2 ) = fX (g −1 (y1 , y2 ), g −1 (y1 , y2 )) · ¯Jg−1 ¯
                                            1              2

Demostración: Tenemos
                                             ¯                   ¯
                                             ¯      ∂x1    ∂x1   ¯
                                             ¯      ∂y1    ∂y2   ¯
                                  Jg−1      =¯      ∂x2    ∂x2   ¯
                                             ¯      ∂y1    ∂y2   ¯

y las condiciones impuestas son suficientes para poder aplicar el teorema del
cambio de variables para integrales dobles. Entonces

    P ((Y1 , Y2 )   ∈ g −1 (A)) = P ((X1 , X2 ) ∈ A)
                      Z Z
                    =        fX (x1 , x2 ) dx1 dx2
                           A
                      Z Z
                                                                      ¯     ¯
                    =             fX (g1 (y1 , y2 ), g2 (y1 , y2 )) · ¯Jg−1 ¯ dy1 dy2
                                         −1           −1
                             g −1 (A)

de donde se deduce que la función de densidad conjunta de Y viene dada por
                                                                   ¯     ¯
               fY (y1 , y2 ) = fX (g1 (y1 , y2 ), g2 (y1 , y2 )) · ¯Jg−1 ¯
                                    −1             −1




Ejemplo 47 La función de densidad conjunta de dos variables aleatorias con
distribución absolutamente continua es
                                 ½
                                   2 si 0 < y < x < 1
                      f (x, y) =
                                   0 en otro caso

Calcular: (1) la función de densidad conjunta de las variables U, V , definidas
por U = X + Y y V = X − Y ; (2) P (U < 1,5, V < 0,75); (3) P (U < 1,5), y (4)
P (V < 0,75).
    Solución: Consideremos la siguiente transformación o cambio de variables
                                           ¾
                                 x+y =u
                                 x−y =v

La transformación inversa es
                                        ½
                                            x = 1 (u + v)
                                                2
                                            y = 1 (u − v)
                                                2

y su jacobiano es                    ¯                    ¯
                                     ¯          1    1    ¯
                                  J =¯          2    2    ¯ = −1
                                     ¯          1
                                                    −1    ¯    2
                                                2     2




                                 © Els autors, 2002; © Edicions UPC, 2002
104                                          CAPÍTULO 2. VARIABLES ALEATORIAS

luego |J| = 1/2 y, según el teorema 17, la función de densidad conjunta de
(U, V ) es
                                      u+v u−v 1
                        g(u, v) = f (     ,      )· =1
                                       2     2      2
en la imagen del recinto por la transformación. El recinto A, definido en el plano
xy por 0 < y < x < 1, se transforma en el recinto B en el plano uv.




Como consecuencia, tenemos que la función de densidad conjunta de U y V es
                          ½
                            1 si 0 < v < u y u + v < 2
                g(u, v) =
                            0 en otro caso
   (2) La región sombreada de la siguiente figura representa la parte del suceso
[U < 1,5, V < 0,75] en la que la función de densidad conjunta no se anula.




Por tanto,
                                        Z   0,75   µZ       u          ¶          Z   1,25   µZ   0,75          ¶
      P (U < 1,5, V < 0,75) =                                   1 dv       du +                          1 dv
                                        0               0                         0,75        0
                             Z    1,5   µZ       2−u            ¶
                         +                             1 dv         dv = 0,812 5
                                 1,25        0

  (3) Para calcular P (U < 1,5), antes determinaremos la función de densidad
marginal de U .




                © Els autors, 2002; © Edicions UPC, 2002
2.3. VARIABLES ALEATORIAS BIDIMENSIONALES                                                105




Por definición, si 0 < u < 1, entonces
                                     Z                u
                            gU (u) =                      1 dv = u
                                                  0

y si 1 ≤ u < 2, entonces
                                         Z       2−u
                           gU (u) =                    1 dv = 2 − u
                                             0

Por tanto,                     
                                u     si 0 < u < 1
                      gU (u) =   2 − u si 1 ≤ u < 2
                               
                                 0     en otro caso
Como consecuencia,
                              Z     1                  Z      1,5
              P (U < 1,5) =             u du +                      (2 − u) du = 0,875
                                0                         1

   (4) Del mismo modo, para calcular P (V < 0,75) necesitamos la función de
densidad marginal de V .




Por definición, si 0 < v < 1, entonces
                                  Z 2−v
                         gV (v) =       1 du = 2 − 2v
                                         v




                             © Els autors, 2002; © Edicions UPC, 2002
106                                        CAPÍTULO 2. VARIABLES ALEATORIAS

Por tanto,                             ½
                                            2 − 2v         si 0 < v < 1
                          gV (v) =
                                            0              en otro caso
Como consecuencia,
                                           Z     0,75
                   P (V < 0,75) =                       (2 − 2v) dv = 0,937 5
                                             0




2.3.7.    Independencia de variables aleatorias. Distribuciones
          condicionades
   Supongamos que A y B son dos subconjuntos arbitrarios de la recta real,
entonces decimos que las variables aleatorias absolutamente continuas X e Y
sobre el mismo espacio de probabilidades (Ω, A, P ) son independientes si los
sucesos
                       [X ∈ A] = {ω ∈ Ω : X(ω) ∈ A}
                       [Y ∈ B] = {ω ∈ Ω : Y (ω) ∈ B}
son independientes, o dicho de otro modo, si

                   P (X ∈ A, Y ∈ B) = P (X ∈ A) · P (Y ∈ B)                                   (2.12)

En particular, si tomamos A = (−∞, x] y B = (−∞, y], donde x, y son dos
números reales cualesquiera, entonces

                  [X ∈ A] = [X ≤ x]                 y      [Y ∈ B] = [Y ≤ y]

y la condición (2.12) se escribe en la forma siguiente

                                FX (x, y) = FX (x) · FY (y)                                   (2.13)

en donde FX es la función de distribución conjunta de X = (X, Y ) y FX , FY
son las distribuciones marginales de X e Y respectivamente. Recíprocamente,
si (2.13) se cumple también se satisface (2.12). En efecto, si se cumple

                                FX (x, y) = FX (x) · FY (y)

y las variables son absolutamente continuas, se tiene
            Z x Z y                    Z x             Z                  y
                      f (u, v) du dv =     fX (u) du ·                            fY (v) dv
             −∞   −∞                                −∞                 −∞

y, en consecuencia,
                                  f (x, y) = fX (x) · fY (y)
Ahora bien, sabemos que
                      Z                         Z
          P (X ∈ A) =   fX (x) dx y P (Y ∈ B) =   fY (y) dy
                              A                                               B




                © Els autors, 2002; © Edicions UPC, 2002
2.3. VARIABLES ALEATORIAS BIDIMENSIONALES                                  107

y, por tanto,
                                       Z Z
                P (X   ∈ A, Y ∈ B) =             f (x, y) dx dy
                                            A×B
                         Z Z
                       =          fX (x) · fY (y) dx dy
                         Z A×B        Z
                       =    fX (x) dx     fY (y) dy
                            A                   B
                       = P (X ∈ A) · P (Y ∈ B)
   El caso que acabamos de estudiar justifica la siguiente definición.

Independencia de variables aleatorias
Definición 5 Dos variables aleatorias X e Y son independientes si su función
de distribución conjunta factoriza en producto de funciones de distribución in-
dividuales
                           F (x, y) = FX (x) · FY (y)
Observación 16 Como hemos visto, la condición de independencia para dos
variables aleatorias X, Y absolutamente continuas es equivalente a
                            f (x, y) = fX (x) · fY (y)
y, si son discretas, es inmediato comprobar que la condición es equivalente a
                  P (X = x, Y = y) = P (X = x) · P (Y = y)
Ejemplo 48 La función de densidad conjunta de dos variables aleatorias X, Y
con distribución absolutamente continua es
                                 ½
                                   6x si 0 < x < y < 1
                      f (x, y) =
                                   0  en otro caso
Calcular: (1) las funciones de densidad marginales, y (2) averiguar si X e Y
son o no independientes.
   Solución: El recinto de definición viene dado por




A partir de él, determinaremos las funciones de densidad marginales.




                            © Els autors, 2002; © Edicions UPC, 2002
108                                       CAPÍTULO 2. VARIABLES ALEATORIAS

   (1) Si 0 < x < 1, tenemos




                                          Z   1
                            fX (x) =              6x dy = 6x(1 − x)
                                            x

y, por tanto,                        ½
                                         6x(1 − x) si 0 < x < 1
                       fX (x) =
                                         0         en otro caso
Por otro lado, si 0 < y < 1, tenemos




                                                Z     y
                                 fY (y) =                 6x dx = 3y 2
                                                  0

y, por tanto,                            ½
                                                3y 2       si 0 < y < 1
                            fY (y) =
                                                0          en otro caso

   (2) Puesto que,

                 fX (x) · fY (y) = 18xy 2 (1 − x) 6= 6x = f (x, y)

en 0 < x < y < 1, las variables aleatorias X e Y no son independientes.

Ejemplo 49 Consideremos las variables aleatorias discretas consideradas en el
ejercicio 12. Se trata de averiguar si son o no independientes.




                © Els autors, 2002; © Edicions UPC, 2002
2.3. VARIABLES ALEATORIAS BIDIMENSIONALES                                         109

    Solución: Para que las variables X e Y fueran independientes tendría que
verificarse
                  P (X = i, Y = j) = P (X = i) · P (Y = j)
para todo i, j = 1, 2, ..., 6. Sin embargo, ésto no sucede, ya que, por ejemplo
                                  1    1 1
            P (X = 1, Y = 2) =       6= ·   = P (X = 1) · P (Y = 2)
                                  36   6 12
Por lo tanto, las variables no son independientes.

   El siguiente teorema nos dice que las funciones de variables aleatorias inde-
pendientes son independientes. Así, si X e Y son independientes, entonces las
variables g(X) = X 2 y h(Y ) = sin Y también lo son.

Teorema 26 Si X e Y son dos variables aleatorias independientes sobre el
espacio de probabilidades (Ω, A, P ), entonces las variables aleatorias U = g(X)
y V = h(Y ) son también independientes.
Demostración: Por definición, tenemos

                    FU V (u, v) = P (U ≤ u, V ≤ v)
                                = P (g(X) ≤ u, h(Y ) ≤ v)

Consideremos los subconjuntos siguientes de la recta real

                             A = {x ∈ R : g(x) ≤ u}
                             B = {y ∈ R : h(y) ≤ v}

Entonces,
                    [g(X) ≤ u, h(Y ) ≤ v] = [X ∈ A, Y ∈ B]
Ahora bien, como X e Y son independientes, deducimos

                  FU V (u, v) =      P (X ∈ A, Y ∈ B)
                              =      P (X ∈ A) · P (Y ∈ B)
                              =      P (g(X) ≤ u) · P (h(Y ) ≤ v)
                              =      P (U ≤ u) · P (V ≤ v)
                              =      FU (u) · FV (v)



Distribuciones condicionadas
    Sea X una variable aleatoria definida sobre un espacio de probabilidades
(Ω, A, P ) y sea B ∈ A con P (B) > 0. Se llama función de distribución
condicionada de la variable X a B, denotada por F ( |B), a la función definida
por
                                            P (X ≤ x, B)
                   F (x|B) = P (X ≤ x|B) =
                                                P (B)




                             © Els autors, 2002; © Edicions UPC, 2002
110                                       CAPÍTULO 2. VARIABLES ALEATORIAS

Como la función de distribución condicionada se define en términos de la prob-
abilidad condicionada y sabemos que ésta es una probabilidad sobre (Ω, A) al
igual que P , dicha función posee las mismas propiedades que cualquier función
de distribución de una variable aleatoria sobre (Ω, A, P ) . Por consiguiente, se
cumple:

 1. 0 ≤ F (x|B) ≤ 1 para todo x ∈ R
 2. F ( |B) es monótona no decreciente:

                            x1 < x2         =⇒ F (x1 |B) ≤ F (x2 |B)

      para todo x1 , x2 ∈ R
 3. F (−∞|B) = 0 y F (+∞|B) = 1
 4. P (a < X ≤ b|B) = F (b|B) − F (a|B) para todo a, b ∈ R con a ≤ b
 5. F ( |B) es continua por la derecha en cada punto de R

   Por ejemplo, en el caso de que X sea una variable aleatoria absolutamente
continua, la función de densidad condicionada, denotada por f ( |B), se
define mediante                      Z x
                                 F (x|B) =                 f (t|B) dt
                                                   −∞

Esta función cumple propiedades análogas a las de las funciones de densidad de
variables aleatorias absolutamente continuas, es decir,

 1.                                     Z   +∞
                                                  f (x|B) dx = 1
                                          −∞

 2. f (x|B) ≥ 0 para todo x ∈ R
 3. Si f ( |B) es continua, entonces

                                          f (x|B) = F 0 (x|B)

 4.                                                          Z     b
                                  P (a < X ≤ b) =                      f (x) dx
                                                               a

    En la definición de distribución condicionada, B es un suceso arbitrario su-
jeto a la única condición de que P (B) > 0. Consideraremos ahora dos casos
importantes de condicionamiento: Sea X una variable aleatoria absolutamente
continua sobre (Ω, A, P ).

Caso 4 Y es una variable aleatoria absolutamente continua sobre el mismo
espacio de probabilidades que X y B = [Y ≤ y], con P (B) > 0




                © Els autors, 2002; © Edicions UPC, 2002
2.3. VARIABLES ALEATORIAS BIDIMENSIONALES                                              111

   Entonces, por definición, tenemos

                                                P (X ≤ x, Y ≤ y)
                      F (x|Y        ≤ y) =
                                                    P (Y ≤ y)
                                          F (x, y)
                                    =                (FY (y) > 0)
                                          FY (y)

Si, además, f es continua, entonces obtenemos que la función de densidad condi-
cionada viene dada por
                                            µ         ¶
                                           ∂ F (x, y)
                        f (x|Y ≤ y) =
                                          ∂x FY (y)
                                       1 ∂F (x, y)
                                =
                                     FY (y) ∂x

Caso 5 Y es una variable aleatoria absolutamente continua sobre el mismo
espacio de probabilidades que X y B = [Y = y]

   En este caso, al ser Y una variable aleatoria absolutamente continua, se
cumple
                          P (B) = P (Y = y) = 0
y no podemos aplicar la definición de función de distribución condicionada. En
su lugar, procederemos de la siguiente manera: consideremos el suceso

                                 Bh = [y < Y ≤ y + h]

con h ≥ 0. Es claro que P (Bh ) 6= 0 y

                l´ Bh = l´ + [y < Y ≤ y + h] = [Y = y] = B
                 ım      ım
               h→0+          h→0

De este modo, tenemos

                                            P (X ≤ x, y < Y ≤ y + h)
            F (x|y    < Y ≤ y + h) =
                                                P (y < Y ≤ y + h)
                            P (X ≤ x, Y ≤ y + h) − P (X ≤ x, Y ≤ y)
                      =
                                         P (y < Y ≤ y + h)
                            F (x, y + h) − F (x, y)
                      =
                             FY (y + h) − FY (y)

de donde, pasando al límite, obtenemos
                                                                   F (x,y+h)−F (x,y)
                                                                           h
              l´ + F (x|y
               ım            < Y ≤ y + h) = l´ +
                                             ım                    FY (y+h)−FY (y)
             h→0                                          h→0
                                                                           h
                                       1 ∂F (x, y)
                             =       0
                                    FY (y) ∂y




                                 © Els autors, 2002; © Edicions UPC, 2002
112                                       CAPÍTULO 2. VARIABLES ALEATORIAS

es decir,
                                                       1 ∂F (x, y)
                            F (x|Y = y) =            0
                                                    FY (y) ∂y
                                           0
Si fY es continua y fY (y) > 0, entonces FY (y) = fY (y), y, como consecuencia,
obtenemos
                                          1 ∂F (x, y)
                         F (x|Y = y) =                                   (2.14)
                                       fY (y)    ∂y
Si f ( |Y = y) es también continua, entonces

                                                        ∂F (x|Y = y)
                              f (x|Y = y) =
                                                             ∂x
y, por tanto, derivando (2.14) respecto a x, obtenemos

                                                      1 ∂ 2 F (x, y)
                          f (x|Y      = y) =
                                                   fY (y) ∂x∂y
                                             f (x, y)
                                      =
                                             fY (y)

ya que si f es continua, entonces

                                     ∂ 2 F (x, y)
                                                  = f (x, y)
                                        ∂y∂x

Del mismo modo, se obtiene

                                                           f (x, y)
                                   f (y|X = x) =
                                                           fX (x)

En resumen, las funciones de densidad condicionadas son
                                 (
                                    f (x,y)
                                    fY (y)  si fY (y) > 0
                   f (x|Y = y) =
                                    0       en otro caso

y                                           (
                                                 f (x,y)
                                                 fX (x)      si fX (x) > 0
                     f (y|X = x) =
                                                0            en otro caso
Finalmente, si X e Y son independientes, entonces

                                  f (x, y) = fX (x) · fY (y)

y, como consecuencia, obtenemos que

               f (x|Y = y) = fX (x)                 y      f (y|X = x) = fY (y)

es decir, todas las densidades condicionadas coinciden con las marginales.




                © Els autors, 2002; © Edicions UPC, 2002
2.3. VARIABLES ALEATORIAS BIDIMENSIONALES                                     113

Observación 17 En el caso discreto, se deducen fórmulas análogas. Así, por
ejemplo, tenemos

                                                    p(X = xi , Y = yj )
                       P (X = xi |Y = yj ) =
                                                       p(Y = yj )

siendo                                 X
                       P (Y = yj ) =         P (X = xi , Y = yj ) 6= 0
                                        xi


Ejemplo 50 Se considera la siguiente función de probabilidad conjunta de una
variable aleatoria bidimensional discreta (X, Y )

                                    xi yj         1   2
                                       1          0,1 0,2
                                       2          0,2 0,3
                                       3          0,1 0,1

Calcular: (1) las funciones de probabilidad marginales; (2) las funciones de prob-
abilidad condicionadas de X a Y ; y (3) las funciones de probabilidad condi-
cionadas de Y a X.
    Solución: (1) Las funciones de probabilidad marginales se definen, para X,
como                                 X
                       P (X = xi ) =     P (X = xi , Y = yj )
                                             yj

y para Y , como
                                          X
                         P (Y = yj ) =            P (X = xi , Y = yj )
                                             xi

Por tanto, tenemos

                  xi                   P (X = xi )
                  1     P (X = 1, Y = 1) + P (X = 1, Y = 2) = 0,3
                  2     P (X = 2, Y = 1) + P (X = 2, Y = 2) = 0,5
                  3     P (X = 3, Y = 1) + P (X = 3, Y = 2) = 0,2

y

      yj                           P (Y = yj )
      1    P (X = 1, Y = 1) + P (X = 2, Y = 1) + P (X = 3, Y = 1) = 0,4
      2    P (X = 1, Y = 2) + P (X = 2, Y = 2) + P (X = 3, Y = 2) = 0,6

    (2) Las probabilidades condicionadas de X a Y se definen como

                                                    P (X = xi , Y = yj )
                       P (X = xi |Y = yj ) =
                                                        P (Y = yj )




                                © Els autors, 2002; © Edicions UPC, 2002
114                                       CAPÍTULO 2. VARIABLES ALEATORIAS

Por tanto, tenemos

           X|Y = 1 P (X|Y = 1)                             X|Y = 2 P (X|Y = 2)
              1        1/4                                    1        2/6
                                                   y
              2        2/4                                    2        3/6
              3        1/4                                    3        1/6

   (3) Las probabilidades condicionadas de Y a X se definen como

                                                       P (X = xi , Y = yj )
                    P (Y = yj |X = xi ) =
                                                           P (Y = xi )

Por tanto, tenemos

 Y |X = 1 P (Y |X = 1)                    Y |X = 2 P (Y |X = 2)                   Y |X = 3 P (Y |X = 3)
     1         1/3                y           1         2/5                   y       1         1/2
     2         2/3                            2         3/5                           2         1/2




Ejemplo 51 Una variable aleatoria bidimensional (X, Y ) tiene una distribu-
ción uniforme en el recinto definido por las rectas y = x, y = −x y x = 1.
Calcular (1) las funciones de densidad marginales; (2) las funciones de densi-
dad condicionadas; y (3) P (Y > 1/4|X = 1/2) y P (X < 3/4|Y = 1/2).
   Solución: Si (X, Y ) tiene una función de distribución uniforme quiere decir
que f (x, y) = k sobre el recinto de definición.




Entonces se ha de cumplir que
                             Z   +∞   Z   +∞
                                                f (x, y) dx dy = 1
                                 −∞     −∞




                © Els autors, 2002; © Edicions UPC, 2002
2.3. VARIABLES ALEATORIAS BIDIMENSIONALES                                                         115

Por tanto,
             Z   +∞ Z +∞                                    Z    1   µZ       x          ¶
                           f (x, y) dx dy               =                         k dy       dx
              −∞    −∞                                       0               −x
                                                                 Z       1
                                                        = 2k                 x dx
                                                                     0
                                                                 ·           ¸1
                                                                     x2
                                                        = 2k                      =k
                                                                     2        0

luego, k = 1.
    (1) La función de densidad marginal de X para 0 < x < 1 es




                                            Z       x
                             fX (x) =                   1 dy = 2x
                                                −x

Luego,                              ½
                                         2x si 0 < x < 1
                       fX (x) =
                                         0  en otro caso
Por otro lado, la función de densidad marginal de Y para −1 < y < 0 es
                                        Z   1
                           fY (y) =                 1 dx = 1 + y
                                         −y

y para 0 ≤ y < 1,
                                        Z       1
                            fY (y) =                1 dx = 1 − y
                                            y

Luego,                        
                               1+y                     si − 1 < y < 0
                     fY (y) =   1−y                     si 0 ≤ y < 1
                              
                                0                       en otro caso




                             © Els autors, 2002; © Edicions UPC, 2002
116                                      CAPÍTULO 2. VARIABLES ALEATORIAS




                                          Figura 2.1:


   (2) La función de densidad condicionada de X a Y se define como
                                          f (x, y)
                           f (x|y) =                      (fY (y) 6= 0)
                                          fY (y)
y la de Y a X, como
                                          f (x, y)
                           f (y|x) =                      (fX (x) 6= 0)
                                          fX (x)
Por tanto, para −1 < y < 0 tenemos −y < x < 1 y
                                                       1
                                       f (x|y) =
                                                      1+y
y, para 0 ≤ y < 1 tenemos y < x < 1 y
                                                       1
                                       f (x|y) =
                                                      1−y
Por tanto, la función de densidad condicionada de X a Y viene dada por
                                 1
                                 1+y si − y < x < 1
                                    1
                      f (x|y) =         si y ≤ x < 1
                                 1−y
                                  0     en otro caso

Interpretamos este resultado como sigue: por ejemplo, si Y = −1/2, entonces
observamos que en el recinto de definición la variable X toma valores entre 1/2
y 1. En consecuencia,
                                                             1
                           f (x|Y = −1/2) =                       =2
                                                          1 − 1/2




               © Els autors, 2002; © Edicions UPC, 2002
2.3. VARIABLES ALEATORIAS BIDIMENSIONALES                                      117

es decir, X|Y = −1/2 tiene una distribución uniforme en el intervalo (1/2, 1).
Del mismo modo, para 0 < x < 1 tenemos −x < y < x y
                                                    1
                                    f (y|x) =
                                                   2x
Por ejemplo, si tomamos x = 1/2, se observa que Y toma los valores en
(−1/2, 1/2) y para este campo de valores la función de densidad condiciona-
da de Y a X = 1/2 viene dada por
                                                      1
                           f (y|X = 1/2) =                =1
                                                  2 · 1/2

es decir, Y |X = 1/2 tiene una distribución uniforme en el intervalo (−1/2, 1/2).
    (3) Hemos visto que Y |X = 1/2 tiene distribución uniforme en el intervalo
(−1/2, 1/2) y
                               f (y|X = 1/2) = 1
Luego
                                                     Z    1/2
                                                                         1
                     P (Y > 1/4|X = 1/2) =                      1 dy =
                                                        1/4              4
Análogamente, para Y = 1/2, tenemos que X toma valores en (1/2, 1) y
                                                    1
                          f (x|Y = 1/2) =                =2
                                                 1 − 1/2
y, por tanto,                                         Z   1
                                                                         1
                     P (X < 3/4|Y = 1/2) =                     2 dx =
                                                         3/4             2



Fórmulas de la probabilidad total y de Bayes
    Sabemos que las fórmulas de la probabilidad total y de Bayes son consecuen-
cia inmediata de la definición de probabilidad condicionada. El siguiente teore-
ma da las fórmulas equivalentes para el caso de distribuciones condicionadas de
variables aleatorias absolutamente continuas.

Teorema 27 Sea X e Y dos variables aleatorias absolutamente continuas sobre
(Ω, A, P ) con densidades fX y fY y con densidades condicionadas f ( |y) y f ( |x),
respectivamente. Entonces, se cumple la fórmula de la probabilidad total
                                 Z +∞
                        fX (x) =       f (x|y) · fY (y) dy
                                     −∞

y la fórmula de Bayes
                                          f (x|y) · fY (y)
                             f (y|x) =
                                              fX (x)




                             © Els autors, 2002; © Edicions UPC, 2002
118                                              CAPÍTULO 2. VARIABLES ALEATORIAS

en donde hemos abreviado f (x|Y = y) por f (x|y).
Demostración: Sabemos que

                                         f (x, y) = f (x|y) · fY (y)                          (2.15)
y                                                     Z    +∞
                                       fX (x) =                   f (x, y) dy
                                                       −∞
Como consecuencia, resulta la fórmula de la probabilidad total
                                Z +∞
                      fX (x) =       f (x|y) · fY (y) dy
                                                  −∞

         Sabemos que
                                        f (x, y) = f (y|x) · fX (x)                           (2.16)
Entonces, de (2.15) y (2.16), deducimos
                                   f (x|y) · fY (y) = f (y|x) · fX (x)

y, de aquí se obtiene la fórmula de Bayes para variables aleatorias
                                                          f (x|y) · fY (y)
                                         f (y|x) =
                                                              fX (x)


Observación 18 1. En el caso discreto, tenemos fórmulas análogas. Así,
    por ejemplo, tenemos
                              X
                P (X = xi ) =   P (X = xi |Y = yj ) · P (Y = yj )
                                                 yj

           y
                                                          P (X = xi |Y = yj ) · P (Y = yj )
                       P (Y = yj |X = xi ) =
                                                                    P (X = xi )
    2.     Estas dos fórmulas pueden generalizarse de la siguiente manera:
                                       Z +∞
                               P (A) =       f (A|x) · fX (x) dx
                                                      −∞

           y
                                                             f (A|x) · fX (x)
                                            f (x|A) =
                                                                  P (A)
           en donde A es un suceso cualquiera, X es una variable aleatoria absolu-
           tamente continua con densidad fX y
                                                            P (A, x < X ≤ x + h)
                                  f (A|x) = l´ +
                                             ım
                                                  h→0        P (x < X ≤ x + h)
           siempre que el límite exista.




                       © Els autors, 2002; © Edicions UPC, 2002
2.3. VARIABLES ALEATORIAS BIDIMENSIONALES                                            119

Ejemplo 52 El número de productos defectuosos fabricados al día por una em-
presa es una variable aleatoria X con función de densidad de probabilidad
                                             3x
                      P (X = x) = e−3               (x = 0, 1, 2, ...)
                                             x!
Si un día se obtienen x productos defectuosos, el número de minutos que se
tarda en revisarlos y recomponerlos a no defectuosos es una variable aleatoria
Y de forma que
                                               (x + 1)y
             P (Y = y|X = x) = e−x−1                            (y = 0, 1, 2, ...)
                                                  y!
Se pide: (1) obtener la función de densidad conjunta de (X, Y ); (2) ¿son X e
Y independientes?, y (3) calcular la expresión de la probabilidad de que X se
concrete en 2 defectuosos, supuesto que se tardó 3 minutos en convertirlos en
no defectuosos.
   Solución: (1) Por la definición de probabilidad condicionada se deduce

             P (X     = x, Y = y) = P (Y = y|X = x) · P (X = x)
                              3x (x + 1)y
                      = e−x−4             (x, y = 0, 1, 2, ...)
                                  x!y!
   (2) Es evidente que X e Y no son independientes, ya que P (Y = y|X = x)
depende de x y, como consecuencia, se tendrá

                           P (Y = y|X = x) 6= P (Y = y)

    (3) Según la fórmula de Bayes, tenemos
                                        P (Y = 3|X = 2) · P (X = 2)
               P (X = 2|Y = 3) =
                                                 P (Y = 3)
Ahora bien, sabemos por el enunciado que
                                                     9 −3
                                 P (X = 2) =           e
                                                     2
y
                                               27 −3
                            P (Y = 3|X = 2) =     e
                                                6
y, además, por la fórmula de la probabilidad total, obtenemos
                                  ∞
                                  X
               P (Y    = 3) =           P (Y = 3|X = x) · P (X = x)
                                  X=0
                            ∞
                            X            3x (x + 1)3
                       =        e−x−4
                            x=0
                                             x!3!
                              ∞
                              X
                            1           3x (x + 1)3
                                  e−x−4
                            6 x=0            x!




                              © Els autors, 2002; © Edicions UPC, 2002
120                                         CAPÍTULO 2. VARIABLES ALEATORIAS

Por tanto,
                                             81 −6
                                             4 e                    1           1
       P (X = 2|Y = 3) =              ∞                         =     ∞
                                      X              x (x+1)3       2X              x−5 (x+1)3
                                  1
                                  6         e−x−4 3     x!                 e−x+2 3     x!
                                      x=0                            x=0




2.4.      Valores esperados, momentos y funciones
          características
2.4.1.     Concepto de esperanza matemática
   Dada una variable aleatoria X definida sobre un espacio muestral Ω numer-
able, su esperanza matemática es el número E(X) dado por la fórmula
                                  X
                         E(X) =       X(ω) · p({ω})                   (2.17)
                                              ω∈Ω

siempre y cuando esta serie sea absolutamente convergente, es decir, siempre
que                          X
                                |X(ω)| · P ({ω})                       (2.18)
                                      ω∈Ω
sea convergente. Se dice entonces que existe la esperanza matemática de la
variable X.
    Cuando se habla de "esperanza matemática"es corriente omitir el adjetivo. Se
utilizan también otros términos, como "valor esperado", "media.o "valor medio".
En cualquier caso, no se espera encontrar el valor de E(X) al ir observando los
valores de X. Por ejemplo, si se lanza una moneda insesgada, y se gana 1 C          =
cuando sale cara y nada cuando sale cruz, nunca se obtendrá el valor esperado
de 0.5 C . Sin embargo, lanzando la moneda un gran número n de veces, sí se
        =
puede esperar conseguir alrededor de n/2 C con buena probabilidad. Así se
                                                    =
deduce de la ley de los grandes números, que se estudiará en otra sección.
    Evidentemente, cuando Ω sea un espacio finito la condición (2.18) se cumple
automáticamente, pero cuando Ω sea infinito numerable la condición es esencial,
porque permite calcular la esperanza por cualquier procedimiento de reorde-
nación y asociación de sumandos de la serie (2.17) sin temor a que se obtengan
resultados contradictorios. Dicho de otra forma, las series absolutamente con-
vergentes tienen una suma definida de manera única, que para nada depende de
como se vayan eligiendo y sumando sus términos.
    La esperanza matemática es una generalización del concepto de media arit-
mética. Dada una muestra de valores observados x1 , x2 , ..., xn de una variable X
con sus respectivas frecuencias f1 , f2 , ..., fn . Sabemos que la media de la muestra
es                                 n                  n
                               1 X                   X        fi
                          x=           xi · fi =         xi ·
                              N i=1                  i=1
                                                              N




                 © Els autors, 2002; © Edicions UPC, 2002
2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS121

en donde
                                              n
                                              X
                                      N=             fi
                                               i=1

Las frecuencias relativas fi /N se pueden considerar como las probabilidades que
tienen los valores xi de presentarse en la muestra total de tamaño N . Poniendo
entonces
                                       fi
                         P (X = xi ) =     (i = 1, 2, ..., n)
                                       N
tenemos
                                    n
                                    X
                              x=          xi · P (X = xi )
                                    i=1

o sea, resulta (2.17) en el caso de que Ω sea un espacio muestral finito.

Observación 19 Al pensar que el concepto de esperanza está estrechamente
vinculado a los juegos de azar y, por tanto, con la misma definición de proba-
bilidad, quizá sorprenda al lector que suprimiendo la condición de convergencia
absoluta (2.18) puedan producirse sorpresas. El siguiente ejemplo pone de man-
ifiesto este hecho.
    Supongamos que queremos jugar al siguiente juego: lanzamos una moneda
al aire hasta que sale cara. Si sale cara en la primera tirada, la banca paga al
jugador 2 C . Si sale cara en la segunda tirada el jugador recibe 22 C . Si sale
           =                                                               =
cara por primera vez en la tirada n-ésima el jugador gana 2n C . Es claro que
                                                                      =
la cantidad de euros que el jugador puede ganar en este juego es una variable
aleatoria X. ¿Cuál es el valor esperado de X? ¿Estaríamos dispuestos a pagar
este valor por avanzado para participar en este juego?
    Los valores que puede tomar X son x1 , x2 , ..., xn , ... , con xn = 2n . Además,
la probabilidad del valor xn correspondiente a la probabilidad del suceso de que
en n tiradas independientes salga cara por primera vez en el último lanzamiento
es                                           µ ¶n
                                               1
                               P (X = xn ) =
                                               2
Por tanto, la esperanza de X viene dada por
                                    ∞
                                    X
                      E(X) =              xn · P (X = xn )
                                    n=1
                                    X∞
                                                  1
                              =           2n ·
                                    n=1
                                                 2n
                              = 1 + 1 + ··· + 1 + ··· = ∞

De este modo hemos encontrado una variable aleatoria para la que no existe la
esperanza matemática o que su valor esperado es infinito.




                              © Els autors, 2002; © Edicions UPC, 2002
122                                       CAPÍTULO 2. VARIABLES ALEATORIAS

2.4.2.    Valores esperados de variables aleatorias discretas
   Si X es una variable aleatoria discreta de función de densidad f (xi ) =
P (X = xi ), se define la esperanza o valor esperado de X por
                                    X
                             E(X) =     xi · f (xi )
                                                   i

Si la suma es una serie numérica, se exige que sea absolutamente convergente.

Ejemplo 53 En el juego de la ruleta se hace girar una bola encima de una
rueda circular dividida en 37 arcos de la misma longitud, numerados del 0 al 36.
Suponemos que la probabilidad de que ocurra un arco es la misma para todos y,
por tanto, la bola puede caer en cualquier número del 0 al 36 con una probabilidad
de 1/37. Supongamos ahora que jugamos a números impares y que la apuesta
se hace a dos por uno, es decir, si apostamos 1 C y sale impar, recibimos 2 C
                                                  =                             =
(incluida la apuesta), y no cobramos nada si sale par. ¿Qué esperamos a ganar
si apostamos continuamente a números impares?
    Solución: Sea X la variable aleatoria que indica la cantidad que uno puede
ganar o perder al apostar 1 C a un número impar. Es claro que X puede tomar
                              =
dos valores: X = 1 si sale impar, y X = −1 si sale par o cero (hay que recordar
que la banca se queda con la apuesta si sale cero). Además,
                                        18                                19
                    P (X = 1) =                   y        P (X = −1) =
                                        37                                37
Como consecuencia, tenemos
                                                                          1
         E(X) = 1 · P (X = 1) + (−1) · P (X = −1) = −                        = −0,027
                                                                          37
La esperanza de X representa en este caso la ganancia o pérdida media por
apuesta. Si hacemos n apuestas de 1 C a número impar, la ganancia o pérdida
                                     =
media será
                             X1 + X2 + · · · + Xn
                                      n
y el valor esperado de X será este valor cuando n tienda al infinito (Veremos
más adelante que la ley de los grandes números asegura este hecho). Así, al
apostar 1 C a un número impar en la ruleta es un juego injusto para el jugador,
          =
ya que por cada 1000 apuestas se espera que el judador pierda 27 C .
                                                                 =

Ejemplo 54 Calcular la esperanza del indicador IA de un suceso A de un es-
pacio de probabilidades (Ω, A, P ).
    Solución: Sabemos que IA es una variable aleatoria discreta, definida como
sigue                                 ½
                                        1 ω∈A
                             IA (ω) =
                                        0 ω∈A
                                            /
Además, se tiene
                            P (IA = 1) = P (ω ∈ A) = P (A)




                © Els autors, 2002; © Edicions UPC, 2002
2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS123

y
                   P (IA = 0) = P (ω ∈ A) = P (A) = 1 − P (A)
                                     /
Por tanto,

               E(IA ) = 1 · P (IA = 1) + (−1) · P (IA = 0) = P (A)

Como consecuencia, la probabilidad de un suceso es el valor esperado de su
indicador.

Valores esperados de las funciones de variables aleatorias discretas
    Sea g una función real de variable real y sea X una variable aleatoria sobre
(Ω, A, P ). No vamos a suponer que g sea una función arbitraria, sino que se
supondrá que g(X) es, a su vez, una variable aleatoria. Recordemos que g(X) es
una función definida sobre Ω que asigna a cada ω ∈ Ω el número real g(X(ω)),
y la condición de que g(X) sea una variable aleatoria significa que para todo
número real r, el conjunto

                    [g(X) ≤ r] = {ω ∈ Ω : g(X(ω)) ≤ r} ∈ A

Teorema 28 Si X es una variable aleatoria discreta que toma los valores x1 , x2 , ..., xn , ...
con función de densidad f (xi ) = P (X = xi ) (i = 1, 2, ...) y g es una función
real de variable real tal que g(X) es una variable aleatoria, entonces
                                           X
                           E(g(X)) =              g(xn ) · f (xn )
                                              n

siempre y cuando la serie converga absolutamente.
Demostración: Como X es discreta también lo será g(X). Consideremos el
conjunto T de todos los números reales de la forma g(xn ). Es claro que T será
un conjunto finito o infinito numerable. Entonces, por definición de esperanza
tenemos
                                  X          X
                   E(g(X)) =          t·            f (xn )
                                        t∈T       {xn :g(xn )=t}
                                              X
                                  =                       t · f (xn )
                                             t∈T
                                        {xn :g(xn )=t}
                                        X
                                  =           g(xn ) · f (xn )
                                          n




Observación 20 Este teorema puede generalizarse al caso de una función de
n-varias variables aleatorias discretas. Por ejemplo, si X, Y son dos variables
aleatorias discretas sobre (Ω, A, P ) con función de densidad conjunta f y g es




                              © Els autors, 2002; © Edicions UPC, 2002
124                                        CAPÍTULO 2. VARIABLES ALEATORIAS

una función real de dos argumentos reales tal que g(X, Y ) sea una variable
aleatoria sobre (Ω, A, P ), es decir,
                [g(X, Y ) ≤ r] = {ω ∈ Ω : g (X(ω), Y (ω)) ≤ r} ∈ A
para todo número real r. Entonces, se cumple que
                                 XX
                  E (g(X, Y )) =        g(xi , yj ) · f (xi , yj )
                                               i    j

siempre y cuando la serie doble sea absolutamente convergente.
Ejemplo 55 Sea X una variable aleatoria con distribución de Poisson de parámetro
λ, es decir, tal que
                                       ∞
                                      X λn
                       P (X = n) =           e−λ
                                      n=0
                                          n!
Calcular la esperanza de Y = e−X .
   Solución: Tenemos
                             E(Y ) = E(e−X )
                                     ∞
                                     X
                                   =    e−n · P (X = n)
                                               n=0
                                                      ∞
                                                     X (λ/e)n
                                         = e−λ
                                                     n=0
                                                         n!
                                                            1
                                         = e−λ(1− e )
ya que
                                        ∞
                                       X (λ/e)n
                                                = eλ/e
                                       n=0
                                           n!


Ejemplo 56 Una variable aleatoria bidimensional discreta tiene la seguiente
distribución de probabilidad conjunta
                             Y X          1    2    3    4
                               1         0,10 0,10 0,20 0,10
                               2         0,05 0,05 0,05 0,03
                               3         0,07 0,03 0,10 0,12
Calcular E(3X 2 − 7Y 3 + 5).
   Solución: Consideremos la función g(X, Y ) = 3X 2 − 7Y 3 + 5, entonces
según la observación 11 tenemos
                                           4
                                           XX3
                   2         3
            E(3X − 7Y + 5) =                            h(xi , yj ) f (xi , yj ) = −44,79
                                           i=1 j=1




                 © Els autors, 2002; © Edicions UPC, 2002
2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS125

Propiedades de la esperanza de variables aleatorias discretas
Teorema 29 Sean X, Y dos variables aleatorias discretas para las que existen
E(X), E(Y ), entonces se cumplen las siguientes propiedades:

 1.     E(1) = 1, siendo 1 la variable aleatoria discreta constante igual a 1
 2.     E(aX) = aE(X) , para todo a ∈ R
 3.     |E(X)| ≤ E(|X|)
 4.     E(X + Y ) = E(X) + E(Y )
 5.     Si Y ≤ X, entonces E(Y ) ≤ E(X); en particular, si X ≥ 0, entonces
        E(X) ≥ 0
 6.     Si X, Y son variables aleatorias independientes, entonces E(X · Y ) =
        E(X) · E(Y )

Demostración: (1) Es evidente a partir de la definición de esperanza.
  (2) Sea g(X) = aX, entonces por el teorema 20 tenemos
                                X
                   E(aX) =          axn · P (X = xn )
                                                n
                                                X
                                        = a             xn · P (X = xn )
                                                    n
                                        = aE(X)

      (3) Por definición tenemos
                                   ¯                    ¯
                                   ¯X                   ¯
                                   ¯                    ¯
                          |E(X)| = ¯    xn · P (X = xn )¯
                                   ¯ n                  ¯
                                   X
                                 ≤     |xn · P (X = xn )|
                                               n
                                              X
                                       =            |xn | · P (X = xn )
                                               n
                                       = E(|X|)

  (4) Sea g(X, Y ) = X + Y , entonces por la observación 11 tenemos
               X
E(X + Y ) =        (xn + ym ) · P (X = xn , Y = ym )
                   n,m
                   X          X                                     X         X
               =         xn       P (X = xn , Y = ym ) +                 ym       P (X = xn , Y = ym )
                    n         m                                      m        n

pero                     X
                              P (X = xn , Y = ym ) = P (X = xn )
                         m




                                   © Els autors, 2002; © Edicions UPC, 2002
126                                        CAPÍTULO 2. VARIABLES ALEATORIAS

y                     X
                            P (X = xn , Y = ym ) = P (Y = ym )
                        n

son las densidades marginales de X, Y respectivamente. Por tanto, obtenemos
                            X                    X
            E(X + Y ) =         xn P (X = xn ) +   ym P (Y = ym )
                                     n                          m
                             = E(X) + E(Y )

    (5) Sea g(X, Y ) = X − Y , entonces por la observación 11 tenemos
                            X
               E(X − Y ) =      (xn − ym ) · P (X = xn , Y = ym )
                                   n,m

pero si Y ≤ X, entonces ym ≤ xn para todos los n, m y, por tanto,

                                         E(X − Y ) ≥ 0

Por otra parte, los apartados (2) y (4) permiten escribir

                            E(X − Y ) = E (X + (−Y ))
                                      = E(X) + E(−Y )
                                      = E(X) − E(Y )

y, en consecuencia, obtenemos

                                       E(X) − E(Y ) ≥ 0

es decir, E(X) ≥ E(Y ). En particular, si Y = 0, entonces E(Y ) = 0 y, por
tanto, X ≥ 0 implica E(X) ≥ 0.
   (6) Sea g(X, Y ) = X · Y . Entonces, por la observación 11 tenemos
                              X
                E(X · Y ) =      xn · ym · P (X = xn , Y = ym )
                                    n,m

pero, al ser X, Y independientes, se cumple

                P (X = xn , Y = ym ) = P (X = xn ) · P (Y = ym )

para todos los n, m. En consecuencia, tenemos
                           X
             E(X · Y ) =       xn · ym · P (X = xn ) · P (Y = ym )
                                  n,m
                                  X                         X
                            =            xn · P (X = xn )       ym · P (Y = ym )
                                   n                        m
                            = E(X) · E(Y )




                © Els autors, 2002; © Edicions UPC, 2002
2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS127

Observación 21 La afirmación recíproca de la propiedad (6) no es cierta: si
E(X · Y ) = E(X) · E(Y ), entonces no necesariamente X, Y son independientes.
El ejemplo 26 demuestra este hecho.

Ejemplo 57 Sea X una variable aleatoria con tres valores −1, 0, 1 y
                                                                        1
                  P (X = −1) = P (X = 0) = P (X = 1) =
                                                                        3
Sea Y la variable aleatoria definida por
                                  ½
                                    0 si X = 0
                             Y =
                                    1 si X 6= 0

Probar que X, Y no son independientes y se cumple E(X · Y ) = E(X) · E(Y ).
   Solución: Es claro que
                                                                1
                          P (Y = 0) = P (X = 0) =
                                                                3
y
                                                                        2
                  P (Y = 1) = P (X = −1) + P (X = 1) =
                                                                        3
Por tanto, tenemos

        E(X) = (−1) · P (X = −1) + 0 · P (X = 0) + 1 · P (X = 1) = 0
y
                                                                        2
                   E(Y ) = 0 · P (Y = 0) + 1 · P (Y = 1) =
                                                                        3
Además, tenemos
                         P (X = 0, Y = 1) = P (∅) = 0
y
                                                   2
                           P (X = 0) · P (Y = 1) =
                                                   9
y, como consecuencia, X, Y no son independientes.
    Es inmediato comprobar las probabilidades de la siguiente tabla correspondi-
ente a la función de densidad conjunta
                             Y X       −1  0  1
                               0         0 1/3 0
                               1        1/3 0 1/3
Por tanto,
                                             1    1   1
                     E(X · Y ) = (−1) ·        +0· +1· =0
                                             3    3   3
y, en consecuencia, se cumple

                           E(X · Y ) = E(X) · E(Y )




                             © Els autors, 2002; © Edicions UPC, 2002
128                                       CAPÍTULO 2. VARIABLES ALEATORIAS

Ejemplo 58 El número total de puntos obtenidos en n tiradas de un dado se
designa por X. Hallar E(X).
    Solución: Podríamos resolver este problema hallando la función de densidad
de la variable aleatoria X, pero es más sencillo tener en cuenta que X es suma
de n variables aleatorias

                                X = X1 + X2 + · · · + Xn

siendo Xi el número de puntos obtenidos en la i-ésima tirada del dado. Es claro
que
                                     6
                                  1X         21    7
                         E(Xi ) =       n=       =
                                  6 n=1       6    2

Puesto que
                     E(X) = E(X1 ) + E(X2 ) + · · · + E(Xn )

entonces
                                                           7n
                                           E(X) =
                                                            2



2.4.3.     Valores esperados de variables aleatorias absoluta-
           mente continuas
    Si X es una variable aleatoria absolutamente continua con función de den-
sidad f , se define la esperanza o valor esperado de X por
                                               Z   +∞
                                E(X) =                  x · f (x) dx
                                                −∞

siempre y cuando la integral impropia sea absolutamente convergente, es decir,
                                      Z   +∞
                                               |x| · f (x) dx
                                          −∞

sea convergente.

Observación 22 1. Como en el caso discreto (ver observación 10), también
    existen variables aleatorias absolutamente continuas para las que no existe
    su esperanza. Supongamos que X es una variable aleatoria con distribu-
    ción de Cauchy, es decir, tal que su función de densidad viene dada
    por
                                              1
                                  f (x) =
                                          π(1 + x2 )




                © Els autors, 2002; © Edicions UPC, 2002
2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS129

      Entonces,
                                         Z    +∞
                                                 x
                        E(X) =                          dx
                                            π(1 + x2 )
                                           −∞
                                             Z l
                                                      x
                                   =  l´
                                       ım                   dx
                                     k→+∞ −k π(1 + x2 )
                                     l→+∞
                                                   µ        ¶
                                      1              1 + l2
                                   =       ım ln
                                          l´
                                     2π k→+∞         1 + k2
                                               l→+∞

      y el valor de E(X) depende de la forma en que k y l tienden a +∞. Si
      primero k tiende a +∞ y luego l tiende a +∞, entonces E(X) tiende a
      −∞, mientras que si el límite se toma en orden inverso, entonces E(X)
      tiende a +∞. En el caso de que k = l, E(X) = 0. Vemos, pues, que la
      distribución de Cauchy no tiene un valor esperado.
 2.   En general, dada una variable aleatoria X con función de distribución F ,
      la esperanza de X se define utilizando la integral de Riemann-Stieljes:
                                        Z +∞
                              E(X) =          x dF (x)
                                                −∞

      Esta definición coincide con la dada para el caso discreto y absolutamente
      continuo. Para una variable aleatoria con distribución mixta tal que
                              Z +∞                      X
                    F (x) = α       f1 (t) dt + (1 − α)     f2 (x)
                                 −∞                                     xi ≤x

      la esperanza se define como sigue
                             Z +∞                      X
                  E(X) = α        xf1 (x) dx + (1 − α)   xi f2 (xi )
                               −∞                                         i

Ejemplo 59 Sea X una variable aleatoria absolutamente continua que se dis-
tribuye uniformemente en el intervalo (a, b). Calcular la esperanza de X.
    Solución: Al tratarse de una distribución uniforme en (a, b) se tiene
                                ½ 1
                                  b−a    si x ∈ (a, b)
                        f (x) =
                                  0      si x ∈ (a, b)
                                              /
Entonces, por definición tenemos
                                          Z   +∞
                         E(X) =                    x · f (x) dx
                                              −∞
                                                Z b
                                             1
                                    =               x dx
                                          b−a a
                                          1
                                    =       (a + b)
                                          2




                             © Els autors, 2002; © Edicions UPC, 2002
130                                       CAPÍTULO 2. VARIABLES ALEATORIAS

Valores esperados de las funciones de variables aleatorias absoluta-
mente continuas
Teorema 30 Si X es una variable aleatoria absolutamente continua y g es una
función derivable, entonces
                                   Z +∞
                        E (g(X)) =      g(x) · f (x) dx
                                                −∞

siempre que la integral sea absolutamente convergente.
Demostración: Para no complicar excesivamente las cosas, haremos la demostración
para funciones crecientes, aunque el teorema es válido también para funciones
decrecientes y, en general, para funciones no monótonas.
   Por definición, tenemos
                                    Z +∞
                           E(Y ) =       y · fY (y) dy
                                               −∞

mediante el cambio y = g(x), obtenemos
                             Z +∞
                 E (g(X)) =        g(x) · fY (g(x)) · g 0 (x) dx
                                       −∞

Según el teorema 11, se cumple
                                                               1
                                    fY (y) = f (x) ·
                                                           g 0 (x)
Entonces, obtenemos
                                              Z   +∞
                           E (g(X)) =                  g(x) · f (x) dx
                                                −∞



Observación 23 1. En general, dada una variable aleatoria X con función
    de distribución F , la esperanza de una función g de X se define utilizando
    la integral de Riemann-Stieljes:
                                        Z +∞
                            E (g(X)) =        g(x) dF (x)
                                                      −∞

      Esta definición coincide con la dada para el caso discreto y absolutamente
      continuo. Para una variable aleatoria con distribución mixta tal que
                              Z +∞                      X
                    F (x) = α       f1 (t) dt + (1 − α)     f2 (x)
                                        −∞                           xi ≤x

      la esperanza se define como sigue
                         Z +∞                             X
             E(g(X)) = α       g(x) · f1 (x) dx + (1 − α)   g(xi ) · f2 (xi )
                                −∞                                       i




                © Els autors, 2002; © Edicions UPC, 2002
2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS131

 2.   Este teorema puede generalizarse al caso de una función de n-varias vari-
      ables aleatorias absolutamente continuas. Por ejemplo, si X, Y son dos
      variables aleatorias absolutamente continuas con función de densidad con-
      junta f , entonces se cumple que
                                   Z +∞ Z +∞
                    E (g(X, Y )) =            g(x, y) · f (x, y) dx dy
                                             −∞   −∞

      siempre y cuando la integral doble sea absolutamente convergente.
Ejemplo 60 Una variable aleatoria X tiene como función de densidad
                             ½ 2
                     f (x) =    3 x si x ∈ (1, 2)
                                0    en otro caso
Calcular el valor esperado de g(X) = 3X + X 2 .
   Solución: Aplicando el teorema 22, tenemos
                                   Z 2
                                                   2x
                      E (g(X)) =        (3x + x2 )    dx
                                     1              3
                                   Z 2µ               ¶
                                                 2
                                =         2x2 + x3 dx
                                     1           3
                                   · 3         ¸
                                              4 2
                                     2x      x        43
                                =         +         =
                                       3     6 1       6


Ejemplo 61 La función de densidad conjunta de dos variables X, Y con dis-
tribución absolutamente continua es
                                ½
                                  x + y si x, y ∈ (0, 1)
                     f (x, y) =
                                  0     en otro caso
Calcular la esperanza de Z = XY 2 + 2X.
    Solución: Consideremos la función g(X, Y ) = X ·Y 2 +2X. Entonces, según
la observación 14, tenemos
                            Z 1Z 1
          ¡           ¢
        E XY 2 + 2X      =         (xy 2 + 2x)(x + y) dx dy
                             0   0
                            Z 1 µZ 1                               ¶
                         =           (x2 y 2 + 2x2 + xy 3 + 2xy) dx dy
                                 0           0
                             Z       1   ·                             ¸1
                               x 2 2x3 x2 3  3
                         =         y +    + y + x2 y                        dy
                            0   3       3  2                            0
                           Z 1µ               ¶
                                1 2 2 1 3
                         =        y + + y + y dy
                            0   3      3 2
                           101
                         =
                            72




                            © Els autors, 2002; © Edicions UPC, 2002
132                                          CAPÍTULO 2. VARIABLES ALEATORIAS

Propiedades de la esperanza de variables aleatorias absolutamente
continuas
Teorema 31 Sean X, Y dos variables aleatorias absolutamente continuas para
las que existen E(X), E(Y ), entonces se cumplen las siguientes propiedades:

 1.     E(1) = 1, siendo 1 la variable aleatoria absolutamente continua constante
        igual a 1

 2.     Linealidad:

                        E (ag(X) + bh(X)) = aE (g(X)) + bE (h(X))

        siendo a, b números reales arbitrarios y g, h funciones reales de variable
        real

 3.     Si X tiene una función de densidad simétrica respecto de un punto c,
        entonces E(X) = c

 4.     |E (g(X))| ≤ E (|g(X)|)

 5.     Si 0 ≤ g(x) ≤ h(x) para todo x ∈ R, entonces 0 ≤ E (g(X)) ≤ E (h(X))

 6.     Si m ≤ g(x) ≤ M para todo x ∈ R, entonces m ≤ E (g(X)) ≤ M

 7.     Si X, Y son independientes, entonces E (X · Y ) = E(X) · E(Y )

Demostración: (1) Por definición tenemos
                                             Z   +∞
                                 E(1) =               1 · f (x) dx = 1
                                               −∞


      (2) Sea k(X) = ag(X) + bh(X), entonces
                                Z   +∞
           E (k(X)) =                    k(x) · f (x) dx
                                 −∞
                                Z +∞
                         =               [ag(x) + bh(x)] · f (x) dx
                                  −∞
                                  Z +∞                           Z   +∞
                         = a               g(x) · f (x) dx + b            h(x) · f (x) dx
                                    −∞                               −∞
                         = aE (g(X)) + bE (h(X))

      (3) Si f es simétrica respecto de un punto c = 0, es decir, f es par, se cumple

                                            f (x) = f (−x)




                   © Els autors, 2002; © Edicions UPC, 2002
2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS133

Entonces
                              Z   +∞
              E(X) =                    x · f (x) dx
                               −∞
                              Z 0                           Z    +∞
                         =             x · f (x) dx +                    x · f (x) dx
                                −∞                           0
                                 Z −∞                            Z       +∞
                         = −                x · f (x) dx +                    x · f (x) dx
                                   0                                 0
                                  Z    +∞                        Z       +∞
                         = −                x · f (x) dx +                    x · f (x) dx
                                   0                              0
                         = 0

Ahora bien, si f es simétrica respecto del punto c, entonces

                                      f (c − x) = f (c + x)

y, en consecuencia, la variable aleatoria X − c será simétrica respecto de cero
y, por tanto,
                          0 = E(X − c) = E(X) − c
luego,
                                            E(X) = c
   (4) Tenemos
                                  ¯Z +∞                 ¯
                                  ¯                     ¯
                                  ¯
                     |E (g(X))| = ¯     g(x) · f (x) dx¯¯
                                    −∞
                                  Z +∞
                                ≤      |g(x)| · f (x) dx
                                                 −∞
                                         = E (|g(X)|)

   (5) Puesto que f (x) ≥ 0, entonces

                              0 ≤ g(x) · f (x) ≤ h(x) · f (x)

y, como consecuencia, tenemos
                     Z   +∞                             Z   +∞
                0≤            g(x) · f (x) dx ≤                   h(x) · f (x) dx
                         −∞                               −∞

es decir,
                               0 ≤ E (g(X)) ≤ E (h(X))
   (6) Puesto que f (x) ≥ 0, entonces

                         m · f (x) ≤ g(x) · f (x) ≤ M · f (x)




                                  © Els autors, 2002; © Edicions UPC, 2002
134                                       CAPÍTULO 2. VARIABLES ALEATORIAS

para todo x ∈ R. Puesto que
                               0 ≤ g(x) · f (x) − m · f (x)
entonces
                           Z   +∞
               0 ≤                  (g(x) · f (x) − m · f (x)) dx
                            −∞
                           Z +∞                                   Z   +∞
                    =               g(x) · f (x) dx − m                    f (x) dx
                            −∞                                    −∞
                           Z +∞
                    =               g(x) · f (x) dx − m · 1
                             −∞

luego
                                         m ≤ E (g(X))
Análogamente, se deduce
                                         E (g(X)) ≤ M
   (7) Sea g(X, Y ) = X · Y , entonces por la observación 14 tenemos
                               Z +∞ Z +∞
            E (g(X, Y )) =                 xy · f (x, y) dx dy
                                         −∞        −∞
                                     Z    +∞   Z    +∞
                               =                          xy · fX (x) · fY (y) dx dy
                                      −∞           −∞
                                     Z +∞                         Z   +∞
                               =               x · fX (x) dx               y · fY (y) dy
                                         −∞                           −∞
                               = E(X) · E(Y )


Ejemplo 62 Si X, Y son dos variables aleatorias con función de densidad con-
junta                     ½
                            kx2 ye−x−y si x ≥ 0 e y ≥ 0
               f (x, y) =
                            0            en otro caso
(1) Averiguar si X e Y son o no independientes y (2) calcular E(3XY ).
   Solución: Al tratarse de una función de densidad, se cumple
                       Z +∞ Z +∞
                                   f (x, y) dx dy = 1
                               −∞        −∞

Por tanto,
                                   Z     +∞ Z +∞
                     1 = k               x2 ye−x−y dx dy
                                     0         0
                              Z +∞           Z +∞
                                    2 −x
                          = k      x e dx         ye−y dy
                                     0                        0
                          = k·2·1
                          = 2k




               © Els autors, 2002; © Edicions UPC, 2002
2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS135

de donde k = 1/2.
   (1) Calculemos ahora las funciones de densidad marginales. Tenemos, por
un lado
                                 Z +∞
                    fX (x) =          f (x, y) dy
                                           −∞
                                          Z +∞
                                                1 2 −x−y
                                  =               x ye    dy
                                           0    2
                                                  Z
                                          1 2 −x +∞ −y
                                  =         x e        ye dy
                                          2        0
                                          1 2 −x
                                  =         x e
                                          2
y, por tanto,                     ½    1 2 −x
                       fX (x) =        2x e             si x ≥ 0
                                      0                 en otro caso
y, por otro, tenemos
                                       Z      +∞
                       fY (x) =                    f (x, y) dx
                                        −∞
                                       Z +∞
                                         1 2 −x−y
                                  =        x ye      dx
                                     0   2
                                          Z +∞
                                    1 −y
                                  =   ye        x2 e−x dx
                                    2      0
                                  = ye−y

y, por tanto,                      ½
                                          ye−y         si y ≥ 0
                        fY (y) =
                                          0            en otro caso
Observamos que
                            f (x, y) = fX (x) · fY (y)
y, en consecuencia, X e Y son independientes.
    (2) Al ser X e Y independientes, se cumple

                       E(3XY ) = 3E(XY ) = 3E(X)E(Y )

Por tanto, calcularemos E(X) y E(Y ). Tenemos
                                              Z   +∞
                         E(X) =                        x fX (x) dx
                                              −∞
                                               Z +∞
                                        1
                                      =                  x3 e−x dx
                                        2          0
                                      = 3




                             © Els autors, 2002; © Edicions UPC, 2002
136                                       CAPÍTULO 2. VARIABLES ALEATORIAS

y
                                                Z       +∞
                              E(Y ) =                        y fY (y) dy
                                                 −∞
                                                Z +∞
                                         =                   y 2 e−y dy
                                                    0
                                         = 2

y, en consecuencia,
                                 E(3XY ) = 3 · 3 · 2 = 18



2.4.4.    Concepto de esperanza condicionada
    La distribución condicionada de Y |X = x describe las probabilidades asoci-
adas a los posibles valores de Y cuando la variable aleatoria X ha tomado un
cierto valor x. Por tanto, es natural preguntarse por la esperanza o valor medio
condicionado de Y |X = x. En el caso discreto, definimos
                                       X
                       E (Y |X = x) =      yj · f (yj |X = x)
                                                    j

y en el caso absolutamente continuo, definimos
                                   Z +∞
                    E (Y |X = x) =       y · f (y|X = x) dy
                                                −∞

y, en general, tenemos
                                                  X
                    E (g(Y )|X = x) =                       g(yj ) · f (yj |X = x)
                                                    j

en el caso discreto, y
                                              Z   +∞
                 E (g(Y )|X = x) =                          g(y) · f (y|X = x) dy
                                                −∞

Análogamente se define el valor medio de X condicionado por Y = y.

Observación 24 Obsérvese que también podemos calcular la esperanza condi-
cionada por las siguientes fórmulas:
                                                  X             f (x, yj )
                    E (Y |X = x) =                          yj ·
                                                        j
                                                                 fX (x)
                                                      1         X
                                           =                       yj · f (x, yj )
                                                    fX (x)         j




                © Els autors, 2002; © Edicions UPC, 2002
2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS137

en el caso discreto, y
                                               Z   +∞
                                                               f (x, y)
                 E (Y |X = x) =                          y·             dy
                                                 −∞            fX (x)
                                                          Z    +∞
                                                 1
                                         =                          y · f (x, y) dy
                                               fX (x)       −∞

en el caso continuo.

La esperanza condicionada como variable aleatoria
    Al variar el valor de x puede variar f (Y |X = x) y, por tanto, E(Y |X = x)
puede tomar diferentes valores y, en consecuencia, es una función de x. Entonces,
mediante la función h(x) = E(Y |X = x) podemos construir una nueva variable
aleatoria que designamos por E(Y |X)
                          X                    E(Y |X)
                   Ω −→   R                       −→                R
                   ω 7−→ X(ω)                    7−→          E(Y |X = X(ω)
Como E(Y |X) es una variable aleatoria podemos plantearnos calcular el valor
de su esperanza. Así tenemos
                       Z +∞
    E (E(Y |X)) =           E(Y |X = x) · fX (x) dx
                              −∞
                          Z    +∞   µ              Z   +∞                     ¶
                                          1
                   =                                        y · f (x, y) dy       fX (x) dx
                           −∞           fX (x)      −∞
                          Z +∞      Z   +∞
                   =                         y · f (x, y) dx dy
                              −∞      −∞
                          Z    +∞          Z   +∞
                   =                y dy               f (x, y) dx
                           −∞                −∞
                          Z +∞                                                Z   +∞
                   =                y · fy (y) dy (ya que fy (y) =                     f (x, y) dx)
                              −∞                                                  −∞
                   = E(Y )
Del mismo modo se demuestra que E (E(X|Y )) = E(X).
Observación 25 Una de las aplicaciones más importantes de la esparanza
condicionada es la regresión. Más adelante trataremos este punto.
Ejemplo 63 Consideremos la variable aleatoria discreta con la siguiente dis-
tribución de probabilidad conjunta
                         Y X       10        11         12       13       14
                           1       0,02      0,03       0,07     0,02     0,04
                           2       0,01      0,02       0,08     0,15     0,04
                           3       0,05      0,04       0,09     0,10     0,03
                           4       0,08      0,06       0,01     0,05     0,01




                                   © Els autors, 2002; © Edicions UPC, 2002
138                                            CAPÍTULO 2. VARIABLES ALEATORIAS

Calcular: (1) E(X) y E(Y ); (2) E(Y |X = 15); (3) E(X|Y < 3) y (4) E(Y 2 |11 <
X ≤ 13).
    Solución: (1) Para calcular E(X) y E(Y ), primero necesitamos las dis-
tribuciones de probabilidad marginales de X e Y . Así, tenemos
                            xi       10   11   12   13   14
                        P (X = xi ) 0,16 0,15 0,25 0,32 0,12
y
                                 yj        1   2     3    4
                             P (Y = yj ) 0,18 0,30 0,31 0,21
Por tanto,
                                             5
                                             X
                               E(X) =              xi P (X = xi ) = 12,09
                                             i=1
y
                                             4
                                             X
                                E(Y ) =            yj P (Y = yj ) = 2,55
                                             j=1

      (2) Por definición, tenemos
                                       4
                                       X
          E (Y |X = 15) =                    yj · P (Y = yj |X = 15)
                                       j=1

                                                   X       4
                                            1
                                 =                     yj · P (X = 15, Y = yj )
                                        P (X = 15) j=1
                                         1
                                 =           (1 · 0,03 + 2 · 0,02 + 3 · 0,04 + 4 · 0,06)
                                        0,15
                                        0,43
                                 =           = 2,87
                                        0,15
      (3) Por definición, tenemos
                                            5
                                            X
                  E (X|Y < 3) =                    xi · P (X = xi |Y < 3)
                                            i=1
                                                       X        5
                                                 1
                                      =                    xi · P (X = xi , Y < 3)
                                             P (Y < 3) i=1
pero,
                        P (Y < 3) = P (Y = 1) + P (Y = 2) = 0,48
y
5
X                                            5
                                             X
      xi · P (X    = xi , Y < 3) =                 xi · [P (X = xi , Y = 1) + P (X = xi , Y = 2)]
i=1                                          i=1
                   = 10 · 0,03 + 11 · 0,05 + 12 · 0,15 + 13 · 0,17 + 14 · 0,08 = 5,98




                     © Els autors, 2002; © Edicions UPC, 2002
2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS139

Por tanto,
                                                     5,98
                               E (X|Y < 3) =              = 12,458
                                                     0,48
      (4) Por definición, tenemos
                                           4
                                           X
            E(Y 2 |11 < X ≤ 13) =                 2
                                                 yj · P (Y = yj |11 < X ≤ 13)
                                           j=1

                                             X       4
                                    1
                        =                       y 2 · P (Y = yj , 11 < X ≤ 13)
                             P (11 < X ≤ 13) j=1 j

pero
                    P (11 < X ≤ 13) = P (X = 12) + P (X = 13) = 0,57
y
4
X                                                4
                                                 X
       2                                                  2
      yj   · P (Y   = yj , 11 < X ≤ 13) =                yj · [P (Y = yj , X = 12) + P (Y = yj , X = 13)]
j=1                                              j=1
                    = 1 · 0,09 + 4 · 0,23 + 9 · 0,19 + 16 · 0,06 = 3,68

Por tanto,
                                                           3,68
                            E(Y 2 |11 < X ≤ 13) =               = 6,4561
                                                           0,57


Ejemplo 64 Dadas dos variables aleatorias absolutamente continuas X, Y con
función de densidad conjunta
                               ½
                                 12 si 0 < 2x ≤ 3y < 1
                    f (x, y) =
                                 0 en otro caso

Calcular las esperanzas condicionadas.
   Solución: Primero calcularemos las funciones de densidad marginales. Así,
para 0 < x < 1/2 tenemos
                                                 Z   +∞
                                fX (x) =                  f (x, y) dy
                                                  −∞
                                                     Z   1/3
                                           = 12                dy
                                                       2x/3
                                           = 4 − 8x

y, por tanto,                          ½
                                           4 − 8x si 0 < x < 1/2
                            fX (x) =
                                           0      en otro caso




                                  © Els autors, 2002; © Edicions UPC, 2002
140                                       CAPÍTULO 2. VARIABLES ALEATORIAS

Por otro lado, para 0 < y < 1/3 tenemos

                                                  Z   +∞
                              fY (y) =                      f (x, y) dx
                                                      −∞
                                                      Z    3y/2
                                            = 12                  dx
                                                       0
                                            = 18y

y, por tanto,
                                        ½
                                            18y       si 0 < y < 1/3
                          fY (y) =
                                            0         en otro caso

En segundo lugar, calcularemos las funciones de densidad condicionadas. Así,
para 0 < x < 1/2 tenemos

                                                           f (x, y)
                             f (y|X       = x) =
                                                           fX (x)
                                                    12        3
                                          =              =
                                                  4 − 8x   1 − 2x

siempre que 2x/3 ≤ y < 1/3; en cualquier otro caso, la función se anula. Por
otro lado, para 0 < y < 1/3 tenemos

                                                          f (x, y)
                                 f (x|Y       = y) =
                                                           fY (y)
                                                       12     2
                                              =           =
                                                      18y    3y

siempre que 0 < x < 3y/2; en cualquier otro caso, la función se anula. Final-
mente, podemos ahora calcular las esperanzas condicionadas. Así, tenemos

                                                  Z   +∞
                   E (Y |X = x) =                          y · f (y|X = x) dy
                                                   −∞
                                                  Z 1/3
                                                            3
                                          =                y·    dy
                                                   2x/3  1 − 2x
                                                        · 2 ¸1/3
                                                     3   y
                                          =
                                                  1 − 2x 2 2x/3
                                                  1 + 2x
                                          =
                                                     6




                © Els autors, 2002; © Edicions UPC, 2002
2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS141

y
                                            Z   +∞
                   E(X|Y     = y) =                   x · f (x|Y = y) dx
                                                −∞
                                   Z     3y/2
                                                      2
                             =                  x·      dx
                                     0               3y
                                      · ¸3y/2
                                    2 x2
                             =
                                   3y 2 0
                                   3y
                             =
                                    4



2.4.5.    Momentos de variables aleatorias
   Bajo ciertas condiciones, los momentos caracterizan la distribución de una
variable aleatoria, en el sentido de que si existen todos, existe una sola distribu-
ción con tales momentos.

Momentos simples
    Dada una variable aleatoria X, se llama momento de orden k (respecto
al origen) al valor medio, si existe, de la variable X k

                                     mk = E(X k )

y, £en general, se llama momento de orden k respecto a un punto c al valor
            ¤
E (X − c)k . Los momentos respecto al valor medio se llaman momentos cen-
trales de orden k                 h             i
                                              k
                           µk = E (X − E(X))

En ambos casos, k puede ser cualquier número real no necesariamente entero.
En particular, si X es una variable aleatoria discreta, entonces
            X                               X                k
     mk =       xk · P (X = xi ) y µk =
                  i                             (xi − E(X)) · P (X = xi )
              i                                        i

y, si X es una variable aleatoria absolutamente continua, entonces
              Z +∞                         Z +∞
                                                             k
        mk =        xk · f (x) dx y µk =         (x − E(X)) · f (x) dx
                  −∞                                   −∞

Observación 26 De los momentos hay dos que merecen especial atención. El
momento de orden 1, m1 = E(X) = µ, media de la distribución, describe
donde está centrada la distribución de probabilidad de la variable aleatoria X
y, por tanto, es un valor que caracteriza a dicha distribución de probabilidad.
                                                             £         ¤
El otro momento es el momento central de orden 2, µ2 = E (X − µ)2 = σ 2 ,




                              © Els autors, 2002; © Edicions UPC, 2002
142                                        CAPÍTULO 2. VARIABLES ALEATORIAS

varianza de la distribución, describe la forma de la distribución, es decir, la
forma en que se dispersan los valores de la variable aleatoria X respecto del valor
esperado µ = E(X); es también un valor que caracteriza a dicha distribución.
    Además de la media y la varianza, como medidas de centralización y dis-
persión, el conocimiento de momentos de orden superior proporcionan mayor
información sobre la forma de la distribución de la variable aleatoria. Cono-
ciendo los momentos centrales de orden 3 y de orden 4 se puede obtener el
coeficiente de asimetría
                                                  µ3           µ3
                                       γ1 =                =
                                                 3/2
                                                µ2             σ3

y el coeficiente de curtosis o apuntamiento
                                                  µ4  µ
                                           γ2 =      = 4
                                                  µ2
                                                   2  σ4

Estos coeficientes se interpretan de la siguiente manera. Si la distribución es
simétrica, entonces γ 1 = 0 y, además, si la distribución es asimétrica por la
derecha (izquierda), entonces γ 1 > 0 (γ 1 < 0). El coeficiente de curtosis toma
como referencia la función de densidad de una distribución normal de parámet-
ros µ y σ para la que γ 2 = 3. Entonces, si γ 2 > 3, la distribución es más
apuntada que la normal, y si γ 2 < 3, la distribución es menos apuntada.

Momentos mixtos
    Las definiciones de los momentos simples se generalizan para variables aleato-
rias n-dimensionales. Sin embargo, para facilitar la escritura aquí sólo consid-
eraremos el caso de variables aleatorias bidimensionales. Dadas dos variables
aleatorias X, Y se llama momento mixto de orden k + h (respecto al origen)
al valor medio, si existe, de la variable X k Y h

                                       mkh = E(X k Y h )

y se llama momento mixto central de orden k + h al valor
                        h                         i
                                    k           h
                 µkh = E (X − E(X)) (Y − E(Y ))

De nuevo, en ambos casos, k y h son números reales cualesquiera no necesaria-
mente enteros. En particular, si (X, Y ) es una variable aleatoria bidimensional
discreta, entonces
                         XX
                   mr =           xk yj · P (X = xi , Y = yj )
                                   i
                                      h

                                 i     j

y               XX                          k                       h
         µr =            (xi − E(X)) (yj − E(Y )) · P (X = xi , Y = yj )
                i    j




                © Els autors, 2002; © Edicions UPC, 2002
2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS143

y, si (X, Y ) es una variable aleatoria bidimensional absolutamente continua,
entonces                      Z +∞
                        mr =        xk y h · f (x, y) dx dy
                                     −∞
y                    Z   +∞
                                             k                   h
             µr =             (x − E(X)) (y − E(Y )) · f (x, y) dx dy
                     −∞

Observación 27 Es claro que los momentos mixtos de orden 1 son las medias
de X y de Y
              m10 = E(X) = µX y m01 = E(Y ) = µY
Si k = 2 y h = 0 se obtiene la varianza de X
                                   £         ¤
                          µ20 = E (X − µX )2 = σ 2
                                                 X

por lo que se denomina varianza marginal de X. Análogamente,
                                £          ¤
                         µ02 = E (Y − µY )2 = σ 2
                                                Y

se llama varianza marginal de Y . Es claro que los momentos mixtos centrales
de orden 1 son nulos. Es especialmente importante el momento mixto central de
orden 1 + 1, que recibe el nombre de covarianza de X, Y

                         µ11 = E [(X − µX ) (Y − µY )] = σ XY

La covarianza nos permitirá dar una medida de la dependencia lineal entre las
variables aleatorias X e Y .

    Es inmediato comprobar que

                                 µ20 = m20 − m2
                                              10
                                 µ02 = m02 − m2
                                              01
                                 µ11 = m11 − m10 m01

En efecto, tenemos
                       £           ¤   ¡                   ¢
            µ20     = E (X − m10 )2 = E X 2 − 2m10 X + m2
                                                        10
                    = E(X 2 ) − 2m10 E(X) + m2
                                             10
                    = m20 − m2 10

La segunda fórmula se obtiene del mismo modo y, la última, se obtiene como
sigue

            µ11     =     E [(X − m10 ) (Y − m01 )]
                    =     E(XY − m01 X − m10 Y + m10 m01 )
                    =     E(XY ) − m01 E(X) − m10 E(Y ) + m10 m01
                    =     m11 − m10 m01




                                 © Els autors, 2002; © Edicions UPC, 2002
144                                         CAPÍTULO 2. VARIABLES ALEATORIAS

2.4.6.     Concepto de varianza y sus propiedades
   La esperanza o valor esperado de una variable aleatoria describe donde está
centrada su distribución de probabilidad y, por tanto, es un valor que caracteriza
a dicha distribución de probabilidad. Sin embargo, la esperanza por sí sola no
da una descripción adecuada de la forma de la distribución, es necesario saber
cómo se dispersan los valores de la variable aleatoria respecto del valor esperado.
La medida de dispersión más utilizada en Estadística es la varianza, y ahora se
generaliza para variables aleatorias.
   Dada una muestra de valores observados x1 , x2 , ..., xn de una variable X con
sus respectivas frecuencias f1 , f2 , ..., fn , la dispersión de un valor xi respecto a
la media x se puede medir por

                                                (xi − x)2

y la media de esta dispersión viene dada por

                                            Xn
                                                            fi
                                    s2 =        (xi − x)2 ·
                                            i=1
                                                            N

en donde
                                                    n
                                                    X
                                            N=              fi
                                                     i=1

Las frecuencias relativas fi /N se pueden considerar como las probabilidades que
tienen los valores xi de presentarse en la muestra total de tamaño N . Poniendo
entonces
                                        fi
                         P (X = xi ) =     (i = 1, 2, ..., n)
                                        N
tenemos
                               X n
                            2
                          s =      (xi − x)2 · P (X = xi )                (2.19)
                                      i=1

que se llama varianza de la muestra. Vamos a extender esta idea al caso de una
variable aleatoria.
    Se llama varianza de una variable aleatoria X y se denota por σ 2 o V ar(X),
                                                                    X
o simplemente σ 2 cuando no hay confución posible, al valor del momento central
de orden 2                               h                i
                                                        2
                      σ 2 = V ar(X) = E (X − E(X))

si existe. Así, tenemos                    X
                                 σ2 =            (xi − µ)2 · f (xi )
                                            i

en el caso discreto (obsérvese la analogía entre esta fórmula y (2.19)), y
                                       Z   +∞
                                                            2
                              σ2 =               (x − µ) · f (x) dx
                                         −∞




                 © Els autors, 2002; © Edicions UPC, 2002
2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS145

en el caso absolutamente continuo, siendo µ = E(X).
    Como ya hemos dicho, la varianza de una variable aleatoria X será una
medida de dispersión de X respecto de su valor medio µ, en el sentido de
que si X toma valores muy alejados de µ, entonces |X − µ| será una variable
aleatoria que muy¤ probablemente tomará valores grandes y, en consecuencia,
         £
σ 2 = E (X − µ)2 será grande, mientras que si X toma valores cercanos a µ,
entonces la variable aleatoria |X − µ| tomará muy probablemente valores pe-
queños y, por tanto, σ 2 será pequeña.
    Se llama desviación típica o estándar a la raíz cuadrada positiva de la
varianza. Es una medida de dispersión de la misma dimensión física que la
variable aleatoria y se indica por σ
                                             r h             i
                         p                                 2
                      σ = V ar(X) =           E (X − E(X))


Propiedades de la varianza

Teorema 32 Sean X, Y dos variables aleatorias que tienen una distribución
conjunta discreta o absolutamente continua y ambas tienen momento de segundo
orden finito, entonces

 1.     V ar(X) = E(X 2 ) − (E(X))2

 2.     V ar(a) = 0, con a ∈ R

 3.     V ar(aX) = a2 V ar(X), con a ∈ R

 4.     V ar(aX + b) = a2 V ar(X)

 5.     Si X, Y son independientes, entonces V ar(X + Y ) = V ar(X) + V ar(Y )

Demostración: (1) Es inmediato, pues, tenemos
                             h            i
                  V ar(X) = E (X − E(X))2
                             h                       i
                                                   2
                          = E X 2 − 2XE(X) + (E(X))
                            = E(X 2 ) − 2 (E(X))2 + (E(X))2
                                                            2
                            = E(X 2 ) − (E(X))

      (2) Es también inmediato, pues,
                                     h            i
                          V ar(a) = E (a − E(a))2
                                      = E(0) = 0




                              © Els autors, 2002; © Edicions UPC, 2002
146                                       CAPÍTULO 2. VARIABLES ALEATORIAS

   (3) Aplicando el apartado (1), tenemos

                      V ar(aX) = E(a2 X 2 ) − (E(aX))2
                                        = a2 E(X 2 ) − a2 (E(X))2
                                             h                  i
                                        = a2 E(X 2 ) − (E(X))2
                                        = a2 V ar(X)

   (4) Aplicando de nuevo el apartado (1), tenemos
                      £          ¤              2
 V ar(aX + b) = E (aX + b)2 − (E(aX + b))
                 = E(a2 X 2 + 2abX + b2 ) − (aE(X) + b)2
                                                                       2
                 = a2 E(X 2 ) + 2abE(X) + b2 − a2 (E(X)) − 2abE(X) − b2
                      h                  i
                                       2
                 = a2 E(X 2 ) − (E(X))
                 = a2 V ar(X)

   (5) Si X, Y son independientes, entonces E(XY ) = E(X) · E(Y ). Aplicando
ahora el apartado (1), tenemos
                     £         ¤              2
V ar(X + Y ) = E (X + Y )2 − (E(X + Y ))
               = E(X 2 + 2XY + Y 2 ) − (E(X) + E(Y ))2
                                                                       2            2
               = E(X 2 ) + 2E(X)E(Y ) + E(Y 2 ) − (E(X)) − 2E(X)E(Y ) − (E(Y ))
               = V ar(X) + V ar(Y )



Ejemplo 65 Calcular la varianza del número de puntos obtenidos en la tirada
de un dado ordinario.
   Solución: La variable aleatoria X "número de puntos en la tirada de un
dado"es discreta y toma los valores 1, 2, ..., 6 con probabilidad 1/6. Por tanto,
                                     1                       21   7
                       E(X) =          (1 + 2 + · · · + 6) =    =
                                     6                        6   2
y, además, se cumple
                                       1 2                        91
                       E(X 2 ) =         (1 + 22 + · · · + 62 ) =
                                       6                           6
Entonces,

                          V ar(X) = E(X 2 ) − (E(X))2
                                         µ ¶2
                                    91      7     35
                                  =    −        =
                                    6       2     12




                © Els autors, 2002; © Edicions UPC, 2002
2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS147

Ejemplo 66 Calcular la varianza de la variable aleatoria absolutamente con-
tinua con función de densidad
                                ½ 1
                                   √
                                  2 x
                                      si x ∈ (0, 1)
                        f (x) =
                                 0    en otro caso
   Solución: Tenemos
                                          Z   +∞
                         E(X) =                    x f (x) dx
                                           −∞
                                          Z 1
                                               x
                                   =           √ dx
                                           0  2 x
                                            ·    ¸1
                                          1 x3/2      1
                                   =                =
                                          2 3/2 0 3
y también
                                          Z   +∞
                        E(X 2 ) =                  x2 f (x) dx
                                           −∞
                                          Z 1
                                              x2
                                   =          √ dx
                                           0 2 x
                                            ·    ¸1
                                          1 x5/2      1
                                   =                =
                                          2 5/2 0 5
Como consecuencia, obtenemos
                                                                       2
                       V ar(X) = E(X 2 ) − (E(X))
                                     µ ¶2
                                 1      1      4
                               =   −        =
                                 5      3     45


Ejemplo 67 Sean X e Y variables aleatorias independientes con varianzas fini-
                                                     £          ¤
tas tales que E(X) = E(Y ). (1) Demostrar que E (X − Y )2 = V ar(X) +
V ar(Y ); (2) Si V ar(X) = V ar(Y ) = 3, determinar los valores de V ar(X − Y )
y V ar(2X − 3Y + 1).
    Solución: (1) Tenemos
             £         ¤
           E (X − Y )2 = E(X 2 − 2XY + Y 2 )
                          = E(X 2 ) − 2E(X)E(Y ) + E(Y 2 )
                          = E(X 2 ) − (E(X))2 − (E(Y ))2 + E(Y 2 )
                          = V ar(X) + V ar(Y )
   (2) Al ser X, Y independientes, también lo son X e −Y . Entonces tenemos
                 V ar(X − Y ) = V ar(X) + V ar(−Y )
                              = V ar(X) + (−1)2 V ar(Y )
                              = V ar(X) + V ar(Y ) = 6




                            © Els autors, 2002; © Edicions UPC, 2002
148                                              CAPÍTULO 2. VARIABLES ALEATORIAS

Del mismo modo, 2X y −3Y + 1 son independientes y, por tanto, tenemos

                  V ar(2X − 3Y + 1) = V ar(2X) + V ar(−3Y + 1)
                                    = 4V ar(X) + 9V ar(Y )
                                    = 12 + 27 = 39



2.4.7.        Teoremas de Markov y Tchebychev
   Los siguientes resultados establecen cotas para las probabilidades en térmi-
nos de los momentos de una variable aleatoria X.

Teorema 33 (Teorema de Tchebychev) Sea X una variable aleatoria (disc-
reta o absolutamente continua) tal que, para un cierto k > 0 (no necesariamente
entero), el momento de orden k de |X| existe, entonces para cada > 0 se cumple
                                             ³      ´
                                                  k
                                           E |X|
                           P (|X| ≥ ) ≤         k

Demostración: Haremos la demostración para el caso en que la variable aleato-
ria X sea absolutamente continua, con función de densidad f . Por definición
tenemos
                        ³      ´ Z +∞
                             k             k
                      E |X| =           |x| f (x) dx
                                                       −∞

Dado     > 0, entonces podemos escribir
       ³     ´ Z −                    Z                                               Z    +∞
      E |X|k =        |x|k f (x) dx +                          |x|k f (x) dx +                  |x|k f (x) dx
                            −∞                             −

Ahora bien,                  Z                                 Z
                                     |x|k f (x) dx =                  |x|k f (x) dx
                                 −                             |x|<
y         Z                               Z                                 Z
              −                                +∞
                        k                              k
                  |x|       f (x) dx +               |x|       f (x) dx =                 |x|k f (x) dx
            −∞                                                                 |x|≥

Por tanto,
                   ³     ´ Z                                           Z
                       k                         k                                    k
                  E |X| =                      |x|    f (x) dx +                |x|       f (x) dx
                                       |x|<                             |x|≥

Puesto que f es una función no negativa, las dos integrales anteriores son pos-
itivas y, por tanto, podemos escribir
                  ³      ´ Z                      Z
                       k            k
                E |X| ≥          |x| f (x) dx ≥ k        f (x) dx
                                        |x|≥                                   |x|≥




                    © Els autors, 2002; © Edicions UPC, 2002
2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS149

Ahora bien,              Z
                                  f (x) dx = P (|x| ≥ )
                          |x|≥

y, en consecuencia, obtenemos
                           ³     ´
                               k               k
                          E |X| ≥                  · P (|x| ≥ )

es decir,                                           ³     ´
                                                   E |X|k
                             P (|x| ≥ ) ≤               k



Observación 28 Este resultado nos dice que es improbable que una variable
aleatoria (con al menos algún momento finito) tome valores excesivamente grandes,
pues, si es grande 1/ k , con k > 0, será pequeño y la probabilidad de que
|X| ≤ será también pequeña.
    De este teorema se deducen dos desigualdades importantes en términos de
los momentos. Para k = 1, tenemos la desigualdad de Markov
                                                    E (|X|)
                             P (|X| ≥ ) ≤

y, para k = 2, tenemos la desigualdad de Tchebychev
                                          ¡ ¢
                                         E X2
                            P (|X| ≥ ) ≤   2

Teorema 34 (Teorema de Markov) Sea X una variable aleatoria (discreta
o absolutamente continua), g una función de la variable real x, no negativa y
tal que E (g(X)) existe, entonces para cada > 0 se cumple
                                                    E (g(X))
                          P (g(X) ≥ ) ≤

Demostración: Haremos la demostración para el caso en que la variable aleato-
ria X sea absolutamente continua, con función de densidad f . Dada > 0,
consideremos el conjunto
                         A = {ω ∈ Ω : g (X(ω)) ≥ }
Entonces, se cumple
                                           Z   +∞
                      E (g(X)) =             g(x) f (x) dx
                                       Z−∞
                                     ≥    g(x) f (x) dx
                                        A
                                        Z
                                     ≥     f (x) dx
                                                A
                                     =         · P (g(X) ≥ )




                             © Els autors, 2002; © Edicions UPC, 2002
150                                       CAPÍTULO 2. VARIABLES ALEATORIAS

luego,
                                                           E (g(X))
                                P (g(X) ≥ ) ≤


Corolario 1 (Desigualdad de Tchebychev) Sea X una variable aleatoria
(discreta o absolutamente continua) con valor medio µ = E(X) y varianza σ 2
finitas. Entonces para cada k > 0 se cumple
                                                                1
                                  P (|X − µ| ≥ kσ) ≤
                                                                k2
Demostración: Tomando en el teorema de Markov g(x) = (x−µ)2 y = k 2 σ 2 ,
deducimos
                                   £        ¤
            ¡      2    2 2
                             ¢ E (X − µ)2        σ2     1
          P (X − µ) ≥ k σ ≤            2 σ2
                                              = 2 2 = 2
                                     k          k σ     k
Ahora bien, se cumple
                    ¡                ¢
                  P (X − µ)2 ≥ k 2 σ2 = P (|X − µ| ≥ kσ)

y, por tanto, obtenemos
                                                                1
                                  P (|X − µ| ≥ kσ) ≤
                                                                k2


Observación 29 Otra expresión de esta desigualdad es
                                                                      1
                        P (µ − kσ < X < µ + kσ) ≥ 1 −
                                                                      k2
y se obtiene calculando la probabilidad del suceso contrario en la desigualdad de
Tchebychev. En efecto, tenemos
                                                                 1
                               1 − P (|X − µ| < kσ) ≤
                                                                 k2
es decir,
                                                                 1
                               P (|X − µ| < kσ) ≥ 1 −
                                                                 k2
luego,
                                                         1
                        P (µ − kσ < X < µ + kσ) ≥ 1 −
                                                         k2
Esta desigualdad se interpreta diciendo que la probabilidad de que una variable
aleatoria X tome un valor que dista del valor medio en menos de k veces su
desviación típica es por lo menos 1 − 1/k 2 . Se pone así de manifiesto la impor-
tancia del valor medio y de la desviación típica como medidas fundamentales
para caracterizar la distribución de una variable aleatoria.




                © Els autors, 2002; © Edicions UPC, 2002
2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS151

Ejemplo 68 El número de pasajeros que en un día toman el tren entre dos
ciudades es una variable aleatoria X con valor medio 200 y varianza 100. Si
cada vagón de pasajeros tiene una capacidad para 40 viajeros, calcular el número
de vagones necesarios para asegurar con una probabilidad de al menos 0.95 que
se cubra en ese día la demanda de los pasajeros entre ambas ciudades.
    Solución: Aplicando la desigualdad de Tchebychev en la forma dada en la
observación 20, tenemos
                                                                   1
                        P (|X − 200| < k · 10) ≥ 1 −
                                                                   k2
Haciendo
                       1
                  1−   k2   = 0,95 y k > 0 ⇐⇒ k = 4. 472 1
tenemos
            P (X − 200 < 44,721) ≥ P (|X − 200| < 44,721) ≥ 0,95
es decir,
                             P (X < 244,721) ≥ 0,95
Este último resultado significa que como máximo pueden viajar 244 pasajeros
con una probabilidad de al menos 0.95. Como los vagones tienen 40 plazas,
necesitamos 7 vagones ya que
                                  244
                                      = 6,1
                                   40

Ejemplo 69 Una máquina produce ejes cuyo diámetro medio es de 22 mm con
una desviación típica de 0.3 mm. Se aceptan como buenos los ejes que tienen
un diámetro comprendido entre 20 y 24 mm. Obtener una cota del porcentaje
de ejes defectuosos que fabrica la máquina.
   Solución: Indicamos por X la variable aleatoria "diámetro de los ejes que
produce la máquina". El suceso ün eje no es defectuoso"es [20 ≤ X ≤ 24] y, por
tanto, el suceso contrario ün eje defectuoso"es
                        [20 > X > 24] = [|X − 22| > 2]
Mediante la desigualdad de Tchebychev
                                           1
                       P (|X − µ| ≥ kσ) ≤        (k > 0)
                                          k2
podemos obtener una cota superior de la probabilidad de que un eje sea defectu-
oso. En efecto, haciendo
                                                                   2    20
                  k · σ = k · 0,3 = 2           =⇒        k=          =
                                                                  0,3    3
tenemos                                     µ
                                            ¶2
                                          3        9
                  P (|X − 22| ≥ 2) ≤            =     = 0,0225
                                         20       400
luego, el porcentaje de ejes defectuosos fabricados por la máquina es menor que
2.25 %.




                              © Els autors, 2002; © Edicions UPC, 2002
152                                       CAPÍTULO 2. VARIABLES ALEATORIAS

2.4.8.    Otras medidas de posición y dispersión
   Aunque el valor medio es la medida de posición más utilizada, en algunos
casos no existe y en otros puede ser afectada por valores extremos de la variable.
   Se llama mediana de una variable aleatoria X con función de distribución
F a cualquier valor x de X tal que
                                          1                     1
                             F (x) ≤            y 1 − F (x) <
                                          2                     2
es decir, la mediana es un punto que divide la "masa"de probabilidad en dos
partes iguales. Para las distribuciones absolutamente continuas la mediana es
única.
   La moda se define solamente en el caso discreto o absolutamente continuo.
En el primer caso, se define como cualquier valor xi de X tal que

                       f (xi−1 ) ≤ f (xi ) y f (xi ) ≥ f (xi+1 )

En el segundo caso, se define como cualquier valor x de X que se corresponda
con un máximo relativo de la función de densidad. Una distribución se llama
unimodal, bimodal, etc., según que tenga una sola moda, dos modas, etc.
   Se llama desviación media de una variable aleatoria X al primer momento
respecto de una mediana xm en valor absoluto

                                          E(|X − xm |)

Es fácil demostrar que E(|X − c|) es mínima cuando c = xm . De este modo,
la desviación media constituye una buena medida de dispersión de la variable
aleatoria respecto de la mediana.

Ejemplo 70 La función de densidad de una variable aleatoria X con distribu-
ción absolutamente continua es
                              ½      2
                                2xe−x si x > 0
                      f (x) =
                                0      en otro caso

Encontrar la moda, la mediana y la desviación media.
    Solución: Sabemos que la moda es un máximo relativo de f . Por tanto,
                                         2              √
                  f 0 (x) = (2 − 4x2 )e−x = 0 ⇐⇒ x = ±1/ 2
                    √                    √              √
Puesto que f 00 (1/ 2) > 0 y f 00 (−1/ 2) < 0, en x = 1/ 2 hay un máximo
relativo y, por tanto, hay una única moda
                                             √
                                       x = 1/ 2

y la distribución de X es unimodal. Es claro que la función de distribución de
X es                           Z x
                                        2             2
                       F (x) =     2te−t dt = 1 − e−x
                                         0




                © Els autors, 2002; © Edicions UPC, 2002
2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS153

si x > 0. Como la mediana es el valor xm de X para el cual F (xm ) = 1/2,
tenemos                                        √
                          2
                   1 − e−xm = 1/2 ⇐⇒ xm = ln 2
Por último, la desviación media es por definición
                      ¯     √ ¯
                      ¯         ¯
E(|X − xm |) = E(¯X − ln 2¯)
                   Z +∞ ¯    √ ¯
                         ¯         ¯       2
               =         ¯x − ln 2¯ · 2xe−x dx
                              0
                          Z       √                                       Z +∞
                                   ln 2                √                         √
                                                                     2                         2
                     =                     (−x +        ln 2) · 2xe−x dx + √ (x − ln 2) · 2xe−x dx
                              0                                                                               ln 2
                              Z        √                                                   Z   √
                                        ln 2
                                                               2        √             2
                                                                                                ln 2
                     = −                       2x2 e−x dx +              ln 2    2xe−x dx
                                   0                                          0
                              Z        +∞                              √    Z +∞
                                            2                                       2
                          +    √     2x2 e−x                       dx − ln 2 √ 2xe−x dx
                                ln 2                                                           ln 2
                              Z √ln 2                                         Z     +∞
                                         2 −x2                                                            2
                     = −                       2x e                dx +            √       2x2 e−x dx
                                   0                                                ln 2

Ahora bien, integrando por partes, obtenemos
                    Z                         Z
                         2 −x2           −x2      2
                       2x e     dx = −xe     + e−x dx

y, por tanto,
                  Z                          √                                      Z
  ¯   √ ¯                                     ln 2                                       +∞
  ¯        ¯                                                        2                                           2
E(¯X − ln 2¯) = −                                    2x2 e−x dx +                    √          2x2 e−x dx
                                         0                                            ln 2
                                                                   Z       √                          Z +∞
                                  h            i√ln 2                       ln 2           h      i
                                                                                                 2 +∞
                                         −x2                                          2                    2
                         =            xe                   −                       e−x dx + −xe−x √ + √ e−x dx
                                                 0                     0                                                    ln 2   ln 2
                                                                   Z                              Z       √
                            √                                           +∞                                 ln 2
                                                                                     2                                  2
                         = 2 ln 2e− ln 2 +                          √          e−x dx −                              e−x dx
                                                                     ln 2                             0

El valor numérico de las dos integrales se puede calcular teniendo en cuenta la
tabla de la distribución normal de parámetros µ = 0 y σ = 1 cuya función de
distribución viene dada por
                                              Z z
                                           1           2
                    FZ (z) = P (Z ≤ z) = √         e−t /2 dt
                                           2π −∞
                                     √
En efecto, haciendo el cambio x = t/ 2, tenemos
     √                                 √
Z                             Z
      ln 2
             −x2        1               2 ln 2
                                                      2                      √ ³    √                ´ √
             e     dx = √                        e−t      /2
                                                               dt =           π FZ ( 2 ln 2) − FZ (0) = π(0,8790−0,5)
 0                       2         0




                                               © Els autors, 2002; © Edicions UPC, 2002
154                                                        CAPÍTULO 2. VARIABLES ALEATORIAS

y
Z                                    Z
    +∞
          2     1                        +∞
                                                      2               √ ³              √       ´ √
 √     e−x dx = √                     √         e−z       /2
                                                               dz =    π FZ (+∞) − FZ ( 2 ln 2) = π(1−0,8790)
  ln 2           2                     2 ln 2

Por tanto, obtenemos
                                     √
    Z    +∞                      Z    ln 2
                    −x2                          2             √
        √       e         dx −               e−x dx =           π(1 − 0,8790 − 0,8790 + 0,5) = −0,45729
         ln 2                    0

Finalmente, obtenemos la desviación media
                ¯   √ ¯         √
                ¯         ¯
             E(¯X − ln 2¯) = 2 ln 2e− ln 2 − 0,45729 = 0,37526



2.4.9.               Concepto de covarianza y sus propiedades
    La medida del grado de interdependencia lineal entre dos variables estadís-
ticas es la covarianza. Dada una muestra de n pares de observaciones de dos
variables estadísticas X, Y

                                              (x1 , y1 ), (x2 , y2 ), ..., (xn , yn )

entonces la covarianza de la muestra viene dada por
                                                                n
                                                           1X
                                             sXY =               (xi − x)(yi − y)
                                                           n i=1

siendo                                                    n                    n
                                                     1X                        X
                                             x=            xi         y   y=         yi
                                                     n i=1                     i=1

Ahora queremos generalizar este concepto al caso de variables aleatorias.
   Se llama covarianza de dos variables aleatorias X, Y y se denota por σXY
o Cov(X, Y ), al valor del momento mixto central de orden 1 + 1

                            σ XY = Cov(X, Y ) = E [(X − E(X)) (Y − E(Y ))]

si existe.

Propiedades de la covarianza
Teorema 35 Si X, Y son variables aleatorias (discretas o absolutamente con-
tinuas), entonces

    1.     Cov(X, Y ) = E(XY ) − E(X)E(Y )
    2.     Cov(X, X) = V ar(X)




                             © Els autors, 2002; © Edicions UPC, 2002
2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS155

 3.     Cov(X, Y ) = Cov(X, Y )
 4.     Cov(aX, bY ) = abCov(X, Y ), con a, b ∈ R
 5.     Cov(X + Y, Z) = Cov(X, Z) + Cov(Y, Z)
 6.     V ar(X ± Y ) = V ar(X) + V ar(Y ) ± 2Cov(X, Y )
 7.     Si X, Y son independientes, entonces Cov(X, Y ) = 0

Demostración: (1) Por definición tenemos

        Cov(X, Y ) =     E [(X − E(X)) (Y − E(Y ))]
                   =     E (XY − XE(Y ) − Y E(X) + E(X)E(Y ))
                   =     E(XY ) − E(Y )E(X) − E(X)E(Y ) + E(X)E(Y )
                   =     E(XY ) − E(X)E(Y )

      (2) Por el apartado (1), tenemos
                                                             2
                    Cov(X, X) = E(X 2 ) − (E(X)) = V ar(X)

      (3) Es inmediato al ser R un cuerpo conmutativo.
      (4) Por el apartado (1), tenemos

                  Cov(aX, bY ) = E(aX · bY ) − E(aX)E(bY )
                               = abE(XY ) − abE(X)E(Y )
                               = abCov(X, Y )

      (5) Por el apartado (1), tenemos

        Cov(X + Y, Z) = E ((X + Y )Z) − E(X + Y )E(Z)
                      = E(XZ) + E(Y Z) − E(X)E(Z) − E(Y )E(Z)
                      = Cov(X, Z) + Cov(Y, Z)

   (6) Por el apartado (1) del teorema , tenemos
                     £          ¤             2
V ar(X + Y ) = E (X + Y )2 − (E(X + Y ))
                                                                         2
                 = E(X 2 + 2XY + Y 2 ) − (E(X) + E(Y ))
                 = E(X 2 ) + 2E(XY ) + E(Y 2 ) − (E(X))2 − 2E(X)E(Y ) − (E(Y ))2
                 = E(X 2 ) − (E(X))2 + E(Y 2 ) − (E(Y ))2 + 2 [E(XY ) − E(X)E(Y )]
                 = V ar(X) + V ar(Y ) + 2Cov(X, Y )

Análogamente se comprueba la otra fórmula.
   (7) Si X, Y son independientes, entonces E(XY ) = E(X)E(Y ) y, por tanto,
obtenemos
                    Cov(X, Y ) = E(XY ) − E(X)E(Y ) = 0




                              © Els autors, 2002; © Edicions UPC, 2002
156                                          CAPÍTULO 2. VARIABLES ALEATORIAS

El recíproco de esta propiedad es falso, pues existen pares de variables aleatorias
dependientes que tienen covarianza cero, lo cual nos indica que no podemos
utilizar la covarianza como un test para la independencia. No obstante, es claro
que si Cov(X, Y ) 6= 0, entonces X, Y son dependientes.

Ejemplo 71 Se lanza un dado al aire. Sea X la variable aleatoria "número de
puntos obtenidos"e Y la variable aleatoria que vale 0 si sale 1,2 o 3, y vale 1 si
sale 4,5 o 6. Calcular la covarianza de X e Y .
    Solución: La distribución de probabilidad conjunta viene dada por la sigu-
iente tabla
                    Y X     1     2    3    4      5     6
                      0     1/6 1/6 1/6 0           0     0
                      1      0     0    0 1/6 1/6 1/6
Entonces, es inmediato comprobar que E(X) = 7/2 y E(Y ) = 1/2. Además se
cumple
                   6
                   XX2
                                                                  4 5 6  15   5
        E(XY ) =               xi yj · P (X = xi , Y = yj ) =      + + =    =
                    i=1 j=1
                                                                  6 6 6  6    2

Luego, obtenemos que

                         Cov(X, Y ) = E(XY ) − E(X)E(Y )
                                      5 7     3
                                    =  − =
                                      2 4     4


Ejemplo 72 La función de densidad conjunta de dos variables aleatorias abso-
lutamente continuas X, Y es
                             ½ 3 2     2
                  f (x, y) =   2 (x + y ) si x, y ∈ (0, 1)
                               0          en otro caso

Calcular la covarianza de X e Y .
   Solución: Primero debemos calcular las funciones de densidad marginales.
Así, tenemos
                                  Z +∞
                        fX (x) =        f (x, y) dy
                                                     −∞
                                                      Z 1
                                                   3
                                            =          (x2 + y 2 ) dy
                                                   2 0
                                                     µ       ¶
                                                   3       1
                                            =         x2 +
                                                   2       3
luego                                  ½      ¡ 2 1¢
                                            3
                                            2  x +3  si x ∈ (0, 1)
                          fX (x) =
                                            0        si x ∈ (0, 1)
                                                          /




                   © Els autors, 2002; © Edicions UPC, 2002
2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS157

Análogamente,
                                             Z   +∞
                          fY (y) =                     f (x, y) dx
                                                −∞
                                                 Z 1
                                             3
                                    =            (x2 + y 2 ) dx
                                             2 0
                                               µ       ¶
                                             3 1
                                    =             + y2
                                             2 3

luego                           ½       ¡1             ¢
                                    3
                                    2    3      + y2        si y ∈ (0, 1)
                     fY (y) =
                                    0                       si y ∈ (0, 1)
                                                                 /
De aquí, obtenemos
                                         Z       +∞
                       E(X) =                          x · fX (x) dx
                                          −∞
                                         Z 1µ                    ¶
                                                      3x3 x
                                    =                    +           dx
                                             0         2   2
                                            5
                                    =
                                            8
y
                                         Z       +∞
                          E(Y ) =                      y · fY (y) dy
                                          −∞
                                         Z 1µ                    ¶
                                                      y 3y 3
                                    =                   +            dy
                                             0        2   2
                                            5
                                    =
                                            8
Por otra parte, tenemos
                                    Z   +∞ Z +∞
                 E(XY ) =                                  xy · f (x, y) dx dy
                                    −∞           −∞
                                     Z 1        Z 1
                                    3
                            =                        (x3 y + xy 3 ) dx dy
                                    2   0        0
                                    3
                            =
                                    8
Por consiguiente, obtenemos

                     Cov(X, Y ) = E(XY ) − E(X)E(Y )
                                  3 25       1
                                =  −     =−
                                  8 64      64




                             © Els autors, 2002; © Edicions UPC, 2002
158                                         CAPÍTULO 2. VARIABLES ALEATORIAS

2.4.10.     Regresión lineal
Regresión y correlación lineal entre dos variables estadísticas
    Nuestro objetivo es generalizar el concepto de regresión lineal al caso de vari-
ables aleatorias. Sin embargo, antes daremos un breve repaso de este concepto
al caso de muestras de variables estadísticas. Consideremos el caso de n pares
de valores observados
                                 (x1 , y1 ), (x2 , y2 ), ..., (xn , yn )
correspondientes a dos variables estadísticas X, Y . Se llama regresión lineal
al problema de encontrar una recta
                                              y = ax + b
                                 b
de manera que los valores de yi = axi + b se ajusten del mejor modo posible
a los yi . Utilizando el criterio de los mínimos cuadrados, es decir, que la
                                     b
suma de todos los errores ei = yi − yi elevados al cuadrado sea mínima
                     n
                     X             n
                                   X               n
                                                   X
                           e2 =
                            i        (yi − yi )2 =
                                           b         (yi − axi − b)2
                     i=1           i=1                       i=1

esta expresión es una función G de a y b,
                                                n
                                                X
                                G(a, b) =         (yi − axi − b)2            (2.20)
                                                i=1

y para minimizarla se tiene en cuenta la condición necesaria de mínimo, es decir,
las ecuaciones
                       ∂G(a, b)              ∂G(a, b)
                                =0      y             =0
                          ∂a                    ∂b
de donde se obtienen
                               sXY
                           b= 2
                           a           y b = y − bx
                                           b        a
                                sX
siendo x, y, las medias marginales, s2 , la varianza marginal y sXY , la covarianza
                                     X
de la muestra. A la recta
                                    y = bx + b
                                         a     b
se la llama recta de regresión de Y sobre X y se acostumbra a expresar en
la forma
                                   sXY
                            y − y = 2 (x − x)
                                    sX
y al coeficiente
                                                        sXY
                                            βY X =
                                                         s2
                                                          X
se le llama coeficiente de regresión de Y sobre X. Análogamente se encuen-
tra la recta de regresión de X sobre Y
                                                       b
                                              x = by + d
                                                  c




                  © Els autors, 2002; © Edicions UPC, 2002
2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS159

que se expresa en la forma siguiente
                                          sXY
                             x−x =            (y − y)
                                           s2
                                            Y

y al coeficiente
                                               sXY
                                   β XY =
                                                s2
                                                 Y
se le llama coeficiente de regresión de X sobre Y . La recta de regresión de
Y sobre X sirve para predecir y conocido x; la recta de regresión de X sobre Y
sirve para predecir x conocido y.
    De (2.20) se obtiene la siguiente identidad fundamental
                Xn                      µ       2
                                                    ¶
          b = 1
    G(b, b)
        a                 a     b = s2 1 − sXY
                    (yi − bxi − b)                    = s2 (1 − r2 ) ≥ 0 (2.21)
                                      Y                  Y
              n i=1                           s2 s2
                                               X Y

que expresa el error mínimo cuadrático medio de estimación de Y por la
recta y = ax + b, siendo
                                   s2
                           r2 =     XY
                                        = β Y X · β XY
                                  s2 s2
                                   X Y

que se llama coeficiente de determinación, y satisface 0 ≤ r2 ≤ 1. Por
definición, el coeficiente de correlación lineal es
                                             sXY
                                     r=
                                            sX sY
Es un coeficiente de gran importancia en Estadística que da una medida del
grado del buen ajuste de Y como función lineal de X. Algunas de sus propiedades
son:

 1. De (2.21) se obtiene 1 − r2 ≥ 0 y, por tanto, −1 ≤ r ≤ 1, además de tener
    el mismo signo que sXY y los coeficientes de regresión β Y X y β XY .
 2. Si r2 = 1, es decir, r = ±1, según (2.21), el error mínimo cuadrático medio
    es cero, lo que implica

                            yi = bxi + b
                                 a     b           (i = 1, 2, ...n)

     es decir, una variable es exactamente combinación lineal de la otra. En
     este caso se dice que hay correlación total.
 3. Si r2 = 0, o sea, r = 0, según (2.21), tenemos que el error mínimo cuadráti-
    co medio es s2 . Entonces yi difiere mucho de la predicción bxi + b En este
                  Y                                              a    b.
    caso se dice que las variables X, Y están incorrelacionadas (condición
    que cumplen las variables independientes).
 4. Si 0 < r < 1, se dice que la correlación es positiva y, en tal caso, si crece
    (resp. decrece) X cabe esperar que Y crezca (resp. decrezca).




                            © Els autors, 2002; © Edicions UPC, 2002
160                                       CAPÍTULO 2. VARIABLES ALEATORIAS

 5. Si −1 < r < 0, se dice que la correlación es negativa y, en tal caso, si
    crece (resp. decrece) X cabe esperar que Y decrezca (resp. crezca).

    Por lo tanto, el coeficiente de correlación r es una medida del grado de
interdependencia lineal entre dos variables estadísticas.
    Si restamos a la variable Y la parte debida a X según la regresión lineal

                                           b         b
                                           ei = yi − yi

se obtienen los residuos de la aproximación. La varianza de estos residuos s2 ,
                                                                            rY
llamada varianza residual, es

                                       s2 = s2 (1 − r2 )
                                        rY   Y                                    (2.22)

y puede interpretarse como la variabilidad propia de Y una vez eliminada la
influencia que sobre Y tiene la variable X. De (2.22), obtenemos

                                       s2 = s2 + r2 s2
                                        Y    rY      Y

es decir, la varianza de Y se descompone en dos partes: s2 , la varianza residual,
                                                           rY
y r2 s2 , la varianza explicada o parte de la varianza que es debida a la influencia
      Y
sobre ella de la variable X. De este modo, el coeficiente de determinación r2
puede interpretarse como la parte de la variabilidad de Y (en tanto por uno)
debida a la variable X. Al valor
                                           p
                                 srY = sY 1 − r2

se le llama error típico y no es más que la desviación típica de una predicción
y = bx + b
b a       b.

Regresión entre dos variables aleatorias
   Antes de ver la regresión lineal entre dos variables aleatorias, trataremos
un caso más sencillo de regresión. Supongamos que queremos aproximar una
variable aleatoria X a un número real constante no aleatorio α. Una manera de
hacerlo consiste en encontrar α mediante el criterio de que el error cuadrático
medio                                £          ¤
                                 = E (X − α)2
sea mínimo. Es claro que el error            dependerá de α y, por tanto, será mínimo si
                                              d
                                                 =0
                                              dα
Ahora bien, se cumple que
                      d          d £           ¤
                              =    E (X − α)2
                      dα        dα
                                 d ¡                      ¢
                              =     E(X 2 ) − 2αE(X) + α2
                                dα
                              = −2E(X) + 2α




                © Els autors, 2002; © Edicions UPC, 2002
2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS161

Por tanto,   será mínimo si
                                       α = E(X)
Hemos visto, pues, que la mejor manera de aproximar una variable aleatoria X
por una constante es mediante su valor medio. En este caso, el error mínimo
cometido es la varianza de X
                               h             i
                           = E (X − E(X))2 = σ 2

Como consecuencia, la aproximación de X por su valor medio sólo será una
buena aproximación si la varianza de X es pequeña. Si no lo es, la sustitución de
X por E(X) no es efeciente y en tales casos hay que buscar otras aproximaciones
mejores. Una de estas, consiste en aproximar X mediante una función lineal de
una variable aleatoria Y
                                    aY + b
de forma que el error cuadrático medio
                               h               i
                             E (X − (aY + b))2

sea mínimo.
    En general, la regresión consiste básicamente en aproximar una variable
aleatoria X que tiene una distribución de probabilidad desconocida o muy com-
pleja mediante una función de una cierta variable aleatoria Y con distribución
conocida o más sencilla que la distribución de X. Si la función de Y es lineal
tenemos la regresión lineal (simple o múltiple), mientras que si la función de
Y es arbitraria, tenemos la regresión no lineal.
    Dada una variable aleatoria X, la regresión lineal simple consiste en aprox-
imar X mediante aY + b, siendo Y otra variable aleatoria, de manera que el
error cuadrático medio
                                    h                 i
                          (a, b) = E (X − (aY + b))2

sea mínimo. Los resultados que se obtienen a partir de esta condición son una
generalización del caso muestral y, por este motivo, no haremos sus demostra-
ciones.
   Recta de regresión de X sobre Y :
                                        Cov(X, Y )
                      x − E(X) =                   (y − E(Y ))
                                         V ar(Y )
Recta de regresión de Y sobre X:
                                       Cov(X, Y )
                      y − E(Y ) =                 (x − E(X))
                                        V ar(X)
Coeficientes de regresión:
                          Cov(X, Y )                             Cov(X, Y )
                 β XY =                       y     βY X =
                           V ar(Y )                               V ar(X)




                              © Els autors, 2002; © Edicions UPC, 2002
162                                       CAPÍTULO 2. VARIABLES ALEATORIAS

Error mínimo cuadrático medio de Y sobre X:

                                m´ = V ar(Y ) · (1 − ρ2 )
                                 ın

Coeficiente de determinación:

                                 0 ≤ ρ2 = β Y X · β XY ≤ 1

Coeficiente de correlación lineal (poblacional):

                                     Cov(X, Y )
                        −1 ≤ ρ = p       p         ≤1
                                  V ar(X) V ar(Y )

                     e
Varianza residual de Y = Y − β Y X X − β 0 , con β 0 = E(X) − β XY E(Y )

                                    e
                               V ar(Y ) = V ar(Y )(1 − ρ2 )

Error típico:                             p
                                 σY =
                                  e        V ar(Y )(1 − ρ2 )
Es importante no confundir r con ρ, pues ρ es constante, mientras que r varía
con la muestra. En todo caso, puede considerarse r como una estimación de ρ.
Las propiedades de ρ son análogas a las de r:

 1. −1 ≤ ρ ≤ 1
 2. Si ρ = ±1, una variable es exactamente función lineal de la otra, o sea,
    Y = βY X X + β0.
 3. Si ρ = 0, se dice que las variables aleatorias están incorrelacionadas. En
    particular, si son independientes, Cov(X, Y ) = 0 y, por tanto, ρ = 0. El
    recíproco en general es falso.
 4. ρ es invariante por transformaciones lineales de las variables aleatorias, es
    decir,
                           ρ(X, Y ) = ρ(aX + b, cX + d)

    Por lo tanto, el coeficiente de correlación ρ es una medida estándar del gra-
do de interdependencia lineal entre dos variables aleatorias, que tiene la ventaja
sobre la covarianza de no depender de la dimensión física de las variables aleato-
rias.

Ejemplo 73 La función de densidad conjunta de dos variables aleatorias abso-
lutamente continuas X, Y es
                             ½ 3 2     2
                  f (x, y) =   2 (x + y ) si x, y ∈ (0, 1)
                               0          en otro caso

(1) Calcular el coeficiente de correlación; (2) determinar las rectas de regresión,
y (3) ¿qué porcentaje de la variabilidad de X es debida a Y ?




                © Els autors, 2002; © Edicions UPC, 2002
2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS163

   Solución: Sabemos por el ejemplo 41 que
                  5                    5                         3                        1
         E(X) =         E(Y ) =                   E(XY ) =              Cov(X, Y ) = −
                  8                    8                         8                       64
Vamos ahora a calcular las varianzas marginales. Tenemos,
                                  Z +∞
                          2
                     E(X ) =            x2 fX (x) dx
                                                −∞
                                                Z µ         ¶
                                              3 1        x2
                                       =            x4 +      dx
                                              2 0        3
                                              7
                                       =
                                              15
luego,
                                                                           2
                        V ar(X) = E(X 2 ) − (E(X))
                                       µ ¶2
                                  7       5     73
                                =    −        =
                                  15      8     960
Además, tenemos
                                              Z    +∞
                               2
                        E(Y ) =                          y 2 fY (y) dy
                                                  −∞
                                                   Z 1   µ             ¶
                                              3              y2
                                       =                        + y4       dy
                                              2     0        3
                                               7
                                       =
                                              15
luego,
                                                                           2
                         V ar(Y ) = E(Y 2 ) − (E(Y ))
                                          µ ¶2
                                     7      5       73
                                  =    −        =
                                    15      8      960
   (1) Por tanto, el coeficiente de correlación es
                 Cov(X, Y )         −1/64
          ρ= p       p         =p      p       = −0,2055
              V ar(X) V ar(Y )   73/960 73/960
que nos dice que la dependencia es negativa y débil; obsérvese que las dos vari-
ables no son independientes, pues

                               f (x, y) 6= fX (x) · fY (y)

   (2) Los coeficientes de regresión son:
                               Cov(X, Y )   −1/64
                      β XY =              =        = −15/73
                                V ar(Y )    73/960




                                   © Els autors, 2002; © Edicions UPC, 2002
164                                       CAPÍTULO 2. VARIABLES ALEATORIAS

y
                                 Cov(X, Y )   −1/64
                     βY X =                 =        = −15/73
                                  V ar(X)     73/960
y, por tanto, la recta de regresión de Y sobre X es
                                           µ      ¶
                                  5     15      5
                              y− =−          x−
                                  8     73      8
y la recta de regresión de X sobre Y es
                                                       µ     ¶
                                    5   15                 5
                                  x− =−                 y−
                                    8   73                 8
    (3) El coeficiente de determinación es
                                       µ     ¶2
                      2                   15
                     ρ = β Y X · β XY = −       = 0,0422
                                          73
es decir, hay un 4.22 % de la variabilidad de X que es debida a la de Y , lo que
nos indica que el ajuste por rectas de regresión no es aceptable.

   A veces la aproximación lineal simple de una variable aleatoria X es poco
adecuada. Se puede entonces ensayar una función polinómica, exponencial, etc.
Pero lo más interesante es determinar una función g de una variable aleatoria
Y de modo que entre todas las curvas posibles se cumpla que
                                h              i
                                             2
                               E (X − g(Y ))

sea mínimo. El siguiente teorema soluciona este problema, afirmando que la
esperanza condicionada es la función que hace que la aproximación sea la mejor
posible.

Teorema 36 Si queremos aproximar una variable aleatoria X mediante una
función g de la variable aleatoria Y , entonces la esperanza condicionada E(X|Y )
tiene el error cuadrático medio más pequeño entre todas las posibles aproxima-
ciones de X, es decir,
                       h                  i     h             i
                    E (X − E(X|Y ))2 ≤ E (X − g(Y ))2
                                                                 h             i
para cualquier función g de la variable aleatoria Y tal que E (X − g(Y ))2
exista. Entonces a la función g(y) = E(X|Y = y) se la llama función de
regresión de X sobre Y y a su representación gráfica, curva de regresión
de X sobre Y .
Demostración: Haremos la demostración suponiendo que X, Y son dos vari-
ables aleatorias absolutamente continuas con función de densidad conjunta f .
Sea g una función de la variable aleatoria Y tal que el error cuadrático medio
                                   h             i
                              = E (X − g(Y ))2




                © Els autors, 2002; © Edicions UPC, 2002
2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS165

exista. Puesto que
                                 f (x, y) = f (x|y) fY (y)
entonces tenemos
                        h             i
                                    2
                    = E (X − g(Y ))
                      Z +∞ Z +∞
                    =           [x − g(y)]2 f (x, y) dx dy
                          −∞        −∞
                         Z +∞                    Z   +∞
                                                                      2
                    =            fY (y) dy                [x − g(y)] f (x|y) dx
                          −∞                      −∞

Sea                                     Z   +∞
                                                             2
                        h (g(y)) =               [x − g(y)] f (x|y) dx
                                         −∞
entonces podemos escribir
                                    Z   +∞
                                =            fY (y) h (g(y)) dy
                                        −∞

Al ser fY una función no negativa, será mínimo si h (g(y)) es mínimo. Ahora
bien, tenemos
           Z +∞                    Z +∞                       Z +∞
                 2                                          2
h (g(y)) =      x f (x|y) dx−2g(y)      x f (x|y) dx+(g(y))        f (x|y) dx
              −∞                                 −∞                                  −∞

pero                                Z   +∞
                                             f (x|y) dx = 1
                                        −∞
y                   Z   +∞
                             xn f (x|y) dx = E(X n |Y )             (n = 1, 2)
                     −∞

Por tanto, obtenemos una funcional h de g(y)
                                                                                 2
                   h (g(y)) = E(X 2 |Y ) − 2g(y)E(X|Y ) + (g(y))

Mediante el cálculo variacional se puede demostrar que una condición necesaria
para que h (g(y)) sea mínimo es que su variación δh = 0, es decir,
            ∂
       δh =   h [g(y) + αδy]α=0
           ∂α
            ∂ h                                                    2
                                                                     i
         =      E(X 2 |Y ) − 2 (g(y) + αδy) E(X|Y ) + (g(y) + αδy)
           ∂α                                                         α=0
         = [−2δyE(X|Y ) + 2(g(y) + αδy)δy]α=0
         = [−2E(X|Y ) + 2g(y)] δy

Por tanto,
                        δh = 0 ⇐⇒ −2E(X|Y ) + 2g(y) = 0




                                 © Els autors, 2002; © Edicions UPC, 2002
166                                       CAPÍTULO 2. VARIABLES ALEATORIAS

es decir,
                                        g(y) = E(X|Y )



Observación 30        1.    Análogamente se obtiene la curva de regresión de Y
    sobre X
                                                 y = h(x)
      siendo h(x) = E(Y |X = x).

 2.   Es claro que si E(Y |X = x) coincide con la recta de regresión de Y sobre
      X, entonces se dice que Y tiene regresión lineal respecto de X. En gener-
      al, si sustituimos las curvas de regresión E(X|Y ) y E(Y |X) por las rectas
      de regresión podemos cometer graves errores al intentar obtener mediante
      ellas los valores de las esperanzas condicionadas si el coeficiente de deter-
      minación ρ2 es muy cercano a cero, mientras que si ρ2 es próximo a 1, el
      ajuste por rectas de regresión es aceptable.

 3.   En general, para medir el grado de ajuste entre la distribución conjunta
      y la curva de regresión de Y sobre X se utiliza la llamada razón de
      correlación de Y sobre X que se define por
                                     £                 ¤
                             2     E (h(X) − E(Y ))2
                            ηY X =
                                         V ar(Y )

      Se verifica: (1) 0 ≤ η 2 X ≤ 1; (2) η2 X ≥ ρ2 ; (3) si η 2 X = 0, entonces la
                            Y             Y                   Y
      curva de regresión se reduce a la recta y = E(Y ), y una variable difiere
      mucho de ser función de la otra; (4) si η 2 X = 1, entonces toda la dis-
                                                 Y
      tribución conjunta está concentrada en la curva de regresión de Y sobre
      X, es decir, se cumple la relación funcional

                                                Y = h(X)

      y, cuando y = h(x) es una recta, se dice que Y tiene regresión lineal
      respecto de X.

Ejemplo 74 Hallar la curva de regresión de Y sobre X, sabiendo que la función
de densidad conjunta es
                              ½ 1
                   f (x, y) =   8 (x + y) si x, y ∈ (0, 2)
                                0         en otro caso

¿La regresión entre X e Y es lineal? Calcular también la razón de correlación
de Y sobre X.
   Solución: La curva de regresión de Y sobre X viene dada por

                                 y = h(x) = E(Y |X = x)




                © Els autors, 2002; © Edicions UPC, 2002
2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS167

siendo
                                                    Z   +∞
                                   1
                   E(Y |X = x) =                              y · f (x, y) dy
                                 fX (x)              −∞

pero, para 0 < x < 2, tenemos
                                            Z    +∞
                           fX (x) =                     f (x, y) dy
                                                −∞
                                                 Z 2
                                            1
                                     =            (x + y) dy
                                            8 0
                                            1
                                     =        (x + 1)
                                            4

y se anula en otro caso. Por tanto, para 0 < x < 2 tenemos
                                          Z 2
                                      4       1
                  E(Y |X     = x) =             (xy + y 2 ) dy
                                     x+1 0 8
                                         µ         ¶
                                   1             8
                             =          · 2x +
                               2(x + 1)          3
                               3x + 4
                             =
                               3x + 3

y la curva de regresión es

                                        3x + 4
                       y = h(x) =                           (0 < x < 2)
                                        3x + 3

Es claro que la regresión no es lineal. La razón de correlación es
                                     £                ¤
                                    E (h(X) − E(Y ))2
                           η2 X
                            Y     =
                                         V ar(Y )

Se comprueba enseguida que

                                    7                              11
                         E(Y ) =            y       V ar(Y ) =
                                    6                              36

y se cumple
                                                        µ          ¶2
                                        2                 3x + 4 7
                    (h(X) − E(Y ))              =               −
                                                          3x + 3 6
                                                           µ     ¶2
                                                         1 1−x
                                                =
                                                        36 1 + x




                             © Els autors, 2002; © Edicions UPC, 2002
168                                          CAPÍTULO 2. VARIABLES ALEATORIAS

luego,
                                             Z        "       µ         ¶2            #
          £                        ¤              2
                               2                       1          1−x         1
         E (h(X) − E(Y ))                =                                   · (x + 1) dx
                                              0        36         1+x         4
                                                      Z 2
                                              1               (1 − x)2
                                         =                             dx
                                             144          0    1+x
                                                Z 2                 Z 2
                                            1                     1      4
                                         =          (x − 3) dx +             dx
                                           144 0                 144 0 x + 1
                                              1      1
                                         = − +         ln 3
                                             36 36
Por consiguiente, obtenemos
                                              £                ¤
                                           E (h(X) − E(Y ))2
                            η2 X
                             Y           =
                                                 V ar(Y )
                                               µ              ¶
                                           36     1    1
                                         =      − +       ln 3
                                           11    36 36
                                         = 0,009
Obsérvese que X, Y son dependientes, pues η 2 X 6= 0, pero la dependencia es
                                            Y
muy débil.

2.4.11.       Función característica y función generatriz de mo-
              mentos
    Disponemos ya de dos funciones que nos ayudan a entender una variable
aleatoria: la función de distribución y la función de densidad. En este apartado
introduciremos dos nuevas funciones que podremos utilizar para describir las
variables aleatorias desde una perspectiva diferente. Nos estamos refiriendo a la
función característica y a la función generatriz de momentos. Ambas funciones
son equivalentes en muchos sentidos. La diferencia esencial entre ellas reside en
que la primera siempre está definida para una variable aleatoria, mientras que
la segunda puede no estarlo.
    Hasta ahora sólo hemos tratado con variables aleatorias reales. No obstante,
la definición de esperanza puede extenderse sin dificultades al caso de una vari-
able aleatoria compleja Z = X +iY , donde X e Y son variables aleatorias reales.
En efecto, si los valores esperados de X e Y existen, entonces el valor esperado
de Z se define por
                              E(Z) = E(X) + iE(Y )
Un caso en que trataremos con variable aleatorias complejas es el de la función
característica de una variable aleatoria real X. Esta función es la esperanza de
la variable aleatoria compleja
                                       eitX = cos tX + i sin tX
que depende del parámetro real t.




                 © Els autors, 2002; © Edicions UPC, 2002
2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS169

Definiciones de función característica y de función generatriz de mo-
mentos
   Se llama función característica de la variable aleatoria real X a la función
ϕ definida por
                             ϕ(t) = E(eitX )

Para una variable aleatoria discreta X, tenemos
                                   X
                         ϕ(t) =         eitxn P (X = xn )
                                    n

y para una variable aleatoria absolutamente continua X con función de densidad
f , tenemos
                                   Z +∞
                            ϕ(t) =      eitx f (x) dx
                                        −∞

Se llama función generatriz de momentos de la variable aleatoria X a la
función definida por
                             g(t) = E(etX )

siempre que E(etX ) sea finito. Para una variable aleatoria discreta X, tenemos
                                   X
                          g(t) =        etxn P (X = xn )
                                    n

y para una variable aleatoria absolutamente continua X con función de densidad
f , tenemos
                                   Z +∞
                            g(t) =      etx f (x) dx
                                        −∞


Observación 31 1. La función característica de una variable aleatoria X
    es una función de variable real que toma valores complejos. Además, es
    una función que siempre existe aunque no exista la esperanza de X. En
    efecto, por definición tenemos

                     ϕ(t) = E(eitX ) = E(cos tX) + iE(sin tX)

     Entonces, ϕ(t) existirá si E(cos tX) y E(t sin X) son finitos, pero

                       |E(cos tX)| ≤ E(|cos tX|) ≤ E(1) = 1

     y, por tanto, E(cos tX) es finito; lo mismo ocurre con E(sin tX). En el
     apartado 1 de la observación 13 hemos visto que para la distribución de
     Cauchy
                                            1
                                f (x) =
                                        π(1 + x2 )




                            © Els autors, 2002; © Edicions UPC, 2002
170                                       CAPÍTULO 2. VARIABLES ALEATORIAS

      la esperanza no es finita. Sin embargo, mediante el cálculo de residuos se
      puede demostrar que
                                     Z +∞
                                                   1
                          ϕ(t) =          eitx            dx
                                      −∞       π(1 + x2 )
                                       Z
                                     1 +∞ eitx
                                =                    dx
                                     π −∞ 1 + x2
                                        = e−|t|
      y ϕ(t) existe para todo t ∈ R.
 2.   La función generatriz de momentos de una variable aleatoria es una fun-
      ción real de variable real. Evidentemente, para que exista la función gen-
      eratriz de momentos tendrá que existir el correspondiente valor esperado.
Ejemplo 75 Calcular la función característica y la función generatriz de mo-
mentos de (1) la distribución de Poisson de parámetro λ y (2) la distribución
normal de parámetros µ = 0 y σ = 1.
   Solución: (1) Para una variable aleatoria X con distribución de Poisson
de parámetro λ > 0 se tiene
                                            λn −λ
                       P (X = n) =             e               (n = 0, 1, 2, ...)
                                            n!
Por tanto,
                                              ∞
                                              X
                             ϕ(t) =                 eitn P (X = n)
                                              n=0
                                                     ∞
                                                    X (λeit )n
                                       = e−λ
                                                    n=0
                                                        n!
                                                           it
                                       = e−λ eλe
                                             £          ¤
                                       = exp λ(eit − 1)
Además, se tiene
                                              ∞
                                              X
                              g(t) =                etn P (X = n)
                                              n=0
                                                     ∞
                                                    X (λet )n
                                        = e−λ
                                                    n=0
                                                        n!
                                                           t
                                        = e−λ eλe
                                              £        ¤
                                        = exp λ(et − 1)
   (2) Para una variable aleatoria X con distribución normal de parámetros
µ = 0 y σ = 1 se tiene
                                     1     2
                            f (x) = √ e−x /2
                                     2π




                © Els autors, 2002; © Edicions UPC, 2002
2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS171

Por tanto,
                                  Z     +∞
                                              1      2
                   ϕ(t) =               eitx √ e−x /2 dx
                                    −∞        2π
                                        Z +∞
                                    1              2
                              =    √         eitx−x /2 dx
                                     2π −∞
                                             Z
                                    1 −t2 /2 +∞ −(x−it)2 /2
                              =    √ e             e        dx
                                     2π       −∞
                                        2
                              = e−t         /2


Además, se tiene
                                    Z   +∞
                                                1      2
                   g(t) =                 etx √ e−x /2 dx
                                     −∞          2π
                                         Z +∞
                                     1               2
                              =     √           etx−x /2 dx
                                      2π −∞
                                              Z
                                     1 t2 /2 +∞ −(x−t)2 /2
                              =     √ e             e       dx
                                      2π       −∞
                                        2
                              = et          /2




Ejemplo 76 Calcular la función característica de la variable aleatoria con la
siguiente distribución mixta
              P (X = 1) = 0,1, P (X = 2) = 0,2, P (X = 3) = 0,3
y
                                            f (x) = 0,04x
para 4 ≤ x ≤ 6, y cero en cualquier otro caso.
   Solución: Por definición, tenemos
             ϕ(t) = E(eitX )
                    X3                  Z                            6
                  =    eitx P (X = n) +                                  eitx · 0,04x dx
                            n=1                                  4
                                                                                       Z       6
                   = 0,1eit + 0,2e2it + 0,3e3it + 0,04                                             xeitx dx
                                                                                           4
pero
                   Z    6                        ·          ¸6           Z       6
                                                     eitx                            eitx
                            xeitx dx =                           −                        dx
                    4                                 it  4                  4        it
                                                 ·       ¸
                                                      itx 6
                                                     e                     1 £ itx ¤6
                                            =                    −             e 4
                                                      it     4           (it)2
                                                 e6it − e4it   e6it − e4it
                                            =                +
                                                      it            t2




                                  © Els autors, 2002; © Edicions UPC, 2002
172                                          CAPÍTULO 2. VARIABLES ALEATORIAS

luego,
                                                              µ                               ¶
                                                                  e6it − e4it   e6it − e4it
          ϕ(t) = 0,1eit + 0,2e2it + 0,3e3it + 0,04                            +
                                                                       it            t2



Propiedades de las funciones características
   Las propiedades más importantes de las funciones características se recogen
en el siguiente teorema.

Teorema 37 La función característica ϕX de una variable aleatoria X (disc-
reta o absolutamente continua) satisface las siguientes propiedades:

 1.      ϕX (0) = 1 y |ϕX (t)| ≤ 1, para todo t ∈ R

 2.      ϕX (−t) = ϕX (t), en donde la barra denota el complejo conjugado de ϕX (t)

 3.      Si Y = aX + b, entonces ϕY (t) = eitb ϕX (at), para todo a, b ∈ R

 4.      Si X, Y son variables aleatorias independientes, entonces

                                         ϕX+Y (t) = ϕX (t)ϕY (t)

Demostración: (1) Es evidente ϕX (0) = 1 ya que ϕX (0) = E(e0 ) = E(1) = 1.
Por otra parte,
                                      ¯        ¯
                         |ϕX (t)| = ¯E(eitX )¯
                                         ¯   ¯
                                  ≤ E(¯eitx ¯)
                                                   = E(1)
                                                   = 1

ya que
                               ¯ itx ¯ p
                               ¯e ¯ = cos2 tx + sin2 tx = 1

      (2) Puesto que
                              ϕX (t) = E(cos tX) + iE(sin tX)
tenemos,

                          ϕX (−t) =             E(e−itX )
                                  =             E(cos tX − i sin tX)
                                  =             E(cos tX) − iE(sin tX)
                                  =             ϕX (t)




                   © Els autors, 2002; © Edicions UPC, 2002
2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS173

   (3) Tenemos


                             ϕY (t) =         E(eitY )
                                    =         E(eit(aX+b) )
                                    =         E(eitaX eitb )
                                    =         eitb E(eitaX )
                                    =         eitb ϕX (aX)


   (4) Tenemos


                          ϕX+Y (t) = E(eit(X+Y ) )
                                        = E(eitX eitY )
                                        = E(eitX )E(eitY )
                                        = ϕX (t)ϕY (t)




Ejemplo 77 Dadas n variables aleatorias X1 , X2 , ..., Xn , independientes y con
funciones características ϕ1 , ϕ2 , ..., ϕn , se define una nueva variable aleatoria Y
por

                                       n
                                       X
                                Y =          (ai Xi + bi )
                                       i=1



Calcular la función característica ϕ de Y .
   Solución: Por definición, tenemos


                     ϕ(t) = E(eitY )
                             "      Ã            n
                                                                         !#
                                                 X
                           = E exp it                   (ai Xi + bi )
                                                  i=1
                                   "   n
                                                                     #
                                       Y
                           = E             exp it (ai Xi + bi )
                                     i=1



Al ser las variables aleatorias Xi independientes, las variables exp it (ai Xi + bi )




                              © Els autors, 2002; © Edicions UPC, 2002
174                                       CAPÍTULO 2. VARIABLES ALEATORIAS

también lo son, y, por tanto,
                                           "   n
                                                                                  #
                                               Y
                       ϕ(t) = E                    exp it (ai Xi + bi )
                                             i=1
                                       n
                                       Y
                                 =           E [exp it (ai Xi + bi )]
                                       i=1
                                       Yn
                                              £                 ¤
                                 =           E eitai Xi · eitbi
                                       i=1
                                       Yn
                                             ¡ itbi    ¡         ¢¢
                                 =            e     · E eitai Xi
                                       i=1
                                       Yn
                                             ¡ itbi            ¢
                                 =            e     · ϕi (ai t)
                                       i=1
                                       Yn              n
                                                       Y
                                 =           eitbi ·        ϕi (ai t)
                                       i=1         i=1
                                               Ã   n
                                                                !       n
                                                   X                    Y
                                 = exp it                  bi       ·         ϕi (ai t)
                                                    i=1                 i=1




Propiedades de la función generatriz de momentos
Teorema 38 La función generatriz de momentos g de una variable aleatoria
X (discreta o absolutamente continua) satisface las siguientes propiedades:

 1.   Si Y = aX + b, entonces gY (t) = etb gX (at), para todo a, b ∈ R

 2.   Si X, Y son variables aleatorias independientes, entonces

                                       gX+Y (t) = gX (t)gY (t)

Demostración: Es análoga a los correspondientes apartados del teorema 29.


Cálculo de los momentos mediante la función característica
    La utilidad práctica de la función característica se pone de manifiesto en el
siguiente teorema.

Teorema 39 Si una variable aleatoria X (discreta o absolutamente continua)
tiene todos sus momentos de orden n ∈ N finitos, entonces
                                              1 (n)
                  mn = E(X n ) =                ϕ (0)               (n = 1, 2, 3, ...)
                                             in




                © Els autors, 2002; © Edicions UPC, 2002
2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS175

Demostración: Para una variable aleatoria discreta X tenemos
                                "                       #
                (n)         dn X itxk
               ϕ (t) =                e     P (X = xk )
                            dtn
                                   k
                            X dn ¡        ¢
                        =            eitxk P (X = xk )
                                dtn
                                     k

Ahora bien, tenemos
                              dn ¡ itxk ¢
                                  e       = in xn eitxk
                                                k
                              dtn
Por tanto,                             X
                       ϕ(n) (t) = in         xn eitxk P (X = xk )
                                              k
                                         k
Finalmente, en el punto t = 0, tenemos
                                     X
                     ϕ(n) (0) = in     xn P (X = xk )
                                        k
                                               k
                                   = in E(X n )
                                   = in mn
Del mismo modo, para una variable aleatoria absolutamente continua, tenemos
                                   ·Z +∞                 ¸
                               dn
                  ϕ(n) (t) =               eitx f (x) dx
                               dtn −∞
                                 Z +∞
                               n
                           = i          xn eitx f (x) dx
                                             −∞

tomando t = 0, obtenemos
                                              Z    +∞
                        ϕ(n) (0) = in                   xn f (x) dx
                                                −∞
                                    = in E(X n )
                                    = in mn
Obsérvese que si X tiene todos los momentos finitos, entonces la función carac-
terística puede desarrollarse en serie de Taylor en un entorno del punto x = 0
                Z +∞
    ϕX (t) =          eitx f (x) dx
                  −∞
                 Z +∞ µ                                            ¶
                            it     (it)2 2          (it)n n
             =           1+    x+       x + ··· +         x + · · · f (x) dx
                −∞          1!       2!               n!
               Z +∞                 Z +∞                      Z
                                 it                      (it)2 +∞ 2
             =      f (x) dx +             x f (x) dx +              x f (x) dx
                −∞               1! −∞                     2! −∞
                             Z
                       (it)n +∞ n
               +··· +               x f (x) dx + · · ·
                         n! −∞
                     it      (it)2              (it)n
             = 1+       m1 +       m2 + · · · +       mn + · · ·
                     1!        2!                 n!




                              © Els autors, 2002; © Edicions UPC, 2002
176                                         CAPÍTULO 2. VARIABLES ALEATORIAS



Ejemplo 78 Hallar los dos primeros momentos de la distribución binomial de
parámetros n y p.
    Solución: Recordemos que una variable aleatoria con distribución binomi-
al de parámetros n y p es la suma de n variables aleatorias de Bernoulli de
parámetro p independientes. Una variable aleatoria X sigue una distribución de
Bernoulli de parámetro p si X toma sólo dos valores 1 (éxito) y 0 (fracaso) con
la siguiente distribución de probabilidad
                                ½
                                   p si x = 1
                    P (X = x) =                  (p + q = 1)
                                   q si x = 0
luego, su función característica es
                       ϕX (t) = E(eitX ) = peit + qe0 = peit + q
Por consiguiente, si Y es una variable aleatoria con distribución binomial de
parámetros n y p
                                     Xn
                                Y =      Xi
                                                     i=1
siendo cada Xi una variable aleatoria de Bernoulli de parámetro p. Entonces,
al ser las Xi independientes, tenemos que la función característica de Y es
                                           n
                                           Y
                           ϕ(t) =                ϕXi (t)
                                           i=1
                                           ¡ it    ¢n
                                    =       pe + q            (p + q = 1)
Podemos pasar a calcular ahora los momentos pedidos. Se cumple
                                       1 (n)
                            mn =         ϕ (0)           (k = 1, 2, 3, ...)
                                      in
luego, tenemos
                                    1 0
                          m1      =   ϕ (0)
                                    i
                                    ·                        ¸
                                      n(peit + q)n−1 · ipeit
                                  =
                                                i             t=0
                                  = np
y
             1 00
      m2   =    ϕ (0)
             i2
             ·                                                               ¸
               n(n − 1)(peit + q)n−2 · i2 p2 e2it + n(peit + q)n−1 · i2 peit
           =
                                           i2                                 t=0
           = n(n − 1)p2 + np




                  © Els autors, 2002; © Edicions UPC, 2002
2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS177

Ejemplo 79 Estudiar la distribución de una variable aleatoria X que tiene
todos sus momentos finitos e iguales a un número real a. ¿Qué condición ha de
cumplir a?
   Solución: Como todos los momentos existen y

                   E(X) = E(X 2 ) = · · · = E(X n ) = · · · = a

la función característica de X puede desarrollarse en serie de Taylor en un
entorno del punto x = 0

                       it      (it)2               (it)n
            ϕX (t) = 1 +  m1 +        m2 + · · · +       mn + · · ·
                       1!        2!                  n!
                       ita (it)2 a             (it)n a
                  = 1+     +          + ··· +          + ···
                        1! µ 2!                  n!                  ¶
                                              2
                                    it (it)              (it)n
                  = 1−a+a 1+ +                  + ··· +        + ···
                                   1!      2!              n!
                  = 1 − a + aeit

es decir,
                              ϕX (t) = 1 − a + aeit
pero debe cumplirse que
                                     |ϕX (t)| ≤ 1
es decir,               ¯             ¯
                        ¯1 − a + aeit ¯ ≤ |1 − a| + |a| ≤ 1

luego
                                      0≤a≤1
Poniendo ahora p = a y q = 1 − a, obtenemos

                                   ϕX = q + peit

que es la función característica de la distribución de Bernoulli (ver ejemplo 47).
En resumen, se ha de cumplir que 0 ≤ a ≤ 1 y la distribución de X es una
Bernoulli de parámetro a.

Cálculo de los momentos mediante la función generatriz de momentos
   La utilidad práctica de la función generatriz de momentos, si existe, se pone
de manifiesto en el siguiente teorema.

Teorema 40 Si una variable aleatoria X (discreta o absolutamente continua)
tiene todos sus momentos de orden n ∈ N finitos para la que existe la función
generatriz de momentos, entonces

                    mn = E(X n ) = g (n) (0)          (k = 1, 2, 3, ...)




                             © Els autors, 2002; © Edicions UPC, 2002
178                                                 CAPÍTULO 2. VARIABLES ALEATORIAS

Demostración: Consideremos el desarrollo en serie de Taylor de h(x) = etx
en x = 0, se tiene

                                               t     t2           tn
                                 etx = 1 +        x + x2 + · · · + xn + · · ·
                                               1!    2!           n!
de donde
                             Z   +∞
             g(t) =                   etx f (x) dx
                              −∞
                             Z +∞ µ                                                      ¶
                                               t     t2           tn
                      =                  1+       x + x2 + · · · + xn + · · ·                 f (x) dx
                               −∞              1!    2!           n!

derivando sucesivamente respecto de t en t = 0, resulta
          Z +∞ µ                                     ¶                                                         Z   +∞
                                     tn−1 n
g 0 (t) =        x + tx2 + · · · +          x + · · · f (x) dx                           =⇒       g 0 (0) =             x f (x) dx = m1
           −∞                      (n − 1)!                                                                        −∞
             Z   +∞   µ                                              ¶                                    Z   +∞
                                            tn−2 n
g 00 (t) =             x2 + · · · +                x + ···               f (x) dx   =⇒       g 00 (0) =            x2 f (x) dx = m2
                 −∞                       (n − 2)!                                                            −∞

reiterando este proceso se concluye que

                                                    g (n) (0) = mn

La demostración para el caso de variable aleatoria discreta es análogo.

Teoremas de unicidad y de inversión
    La función característica de una variable aleatoria proporciona información
sobre ella en el sentido de que permite conocer fácilmente todos sus momen-
tos de orden n ∈ N. De hecho podemos afirmar aún más: conocer la función
característica equivale a conocer la distribución de probabilidad de la variable
aleatoria. Los dos teoremas siguientes, que damos sin demostración, justifican
esta última afirmación.
    El primero nos dice que cualquier función de distribución F (x) = P (X ≤ x)
está unívocamente determinada por su función característica. Como consecuen-
cia, la función característica caracteriza la variable aleatoria, en el sentido de
que dos variables aleatorias con la misma función característica tienen la misma
función de distribución.

Teorema 41 (Teorema de unicidad) Sean F1 y F2 dos funciones de dis-
tribución con la misma función característica, entonces F1 = F2 .

    Es claro que si conocemos la función de densidad de una variable aleatoria
la misma definición de función característica determina ϕ(t) de forma unívoca.
El problema ahora es conocer la función de densidad a partir del conocimiento
de la función característica. El segundo teorema resuelve este último problema.




                          © Els autors, 2002; © Edicions UPC, 2002
2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS179

Teorema 42 (Teorema de inversión) Sean ϕ y F la función característica
y la función de distribución de una varfiable aleatoria X. Entonces, para parejas
arbitrarias de puntos a y b (a < b) donde F es continua, se cumple la siguiente
fórmula
                                        Z c −ita
                                      1      e     − e−itb
                F (b) − F (a) = l´
                                 ım                        ϕ(t) dt
                               c→+∞ 2π −c          it
que suele llamarse fórmula de inversión.

    Para el caso de una variable aleatoria absolutamente continua X con función
de distribución F diferenciable y tal que F 0 (x) = f (x) sea la función de densidad,
la fórmula de inversión puede escribirse de un modo más sencillo, como lo indica
el siguiente corolario.

Corolario 2 Si la función de distribución de una variable aleatoria absoluta-
mente continua F es diferenciable y F 0 (x) = f (x), entonces se cumple
                                         Z   +∞
                                   1
                          f (x) =                 e−itx ϕ(t) dt
                                  2π       −∞

siempre que |ϕ(t)| sea integrable en toda la recta real; dicho en otras palabras,
la función característica y la función de densidad son transformadas de Fourier
la una de la otra.

Observación 32 La función de densidad es una integral en el plano complejo
que puede resolverse, salvo casos sencillos, por el método de los residuos.

   Para variables aleatorias discretas, el siguiente teorema proporciona la fór-
mula de inversión.

Teorema 43 Sea X una variable aleatoria discreta que toma los valores x1 , x2 , ..., xn , ...
con probabilidad no nula, y sea ϕ su función característica. Entonces, la función
de densidad de X viene dada por la siguiente fórmula
                              "    Z T               #
                                1
        P (X = xn ) = l´ım             e−itxn ϕ(t) dt     (n = 1, 2, 3, ...)
                      T →+∞ 2T −T


Ejemplo 80 Una variable aleatoria X se dice que es simétrica si su función de
densidad es par, es decir, f (x) = f (−x) para todo x ∈ R. (1) ¿Qué debe verificar
la función característica para que la variable sea simétrica? (2) Averiguar si la
variable aleatoria X de función de función característica
                                   ½
                                       1 − |t| si |t| ≤ 1
                         ϕX (x) =
                                       0       si |t| > 1

(3) ¿Tiene momentos esta variable aleatoria? (4) Hallar la función de densidad
de la variable aleatoria X del apartado (2).




                              © Els autors, 2002; © Edicions UPC, 2002
180                                       CAPÍTULO 2. VARIABLES ALEATORIAS

   Solución: (1) Si X es simétrica, entonces X y −X se distribuyen de la
misma manera. Por tanto, X y −X tienen la misma función característica y,
por tanto,

                        ϕX (t) = ϕ−X (t) = ϕX (−t) = ϕX (t)


para todo t ∈ R. La condición ϕX (t) = ϕX (t) es equivalente a decir que ϕX (t)
es un número real y, en consecuencia, ϕX ha de ser una función real de variable
real par.
   (2) Es claro que ϕX es una función real par, luego

                                  ϕX (t) = ϕX (−t) = ϕ−X (t)

y, por tanto, según el teorema de unicidad, X y −X tienen la misma distribución
y, como consecuencia, X es simétrica.
    (3) Esta variable aleatoria no tiene momentos porque la función caracterís-
tica no es derivable en x = 0.
   (4) Aplicando la fórmula de inversión, tenemos

                                            Z   +∞
                                        1
                           f (x) =                    e−itx ϕX (t) dt
                                       2π       −∞


y observando la gráfica de ϕX




podemos escribir

                          Z   0                                 Z   1
                      1                                     1
           f (x) =                e−itx (1 + t) dt +                    e−itx (1 − t) dt
                     2π     −1                             2π   0




                © Els autors, 2002; © Edicions UPC, 2002
2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS181

pero
        Z   0                               ·      ¸0         Z 0
                −itx                 e−itx                  1
                e      (1 + t) dt =        (1 + t)     −          e−itx dt
          −1                          −ix           −1    −ix −1
                                               ·       ¸0
                                       1    1 e−itx
                                  = − +
                                      ix ix −ix −1
                                       1      1
                                  = − −          (1 − eix )
                                      ix (ix)2
y del mismo modo se obtiene
                Z 1
                                        1   1
                    e−itx (1 − t) dt =    +     (e−ix − 1)
                 0                     ix (ix)2
Por lo tanto, tenemos
                      ·                       ¸   ·                    ¸
                  1       1      1         ix    1 1    1     −ix
     f (x) =           − −          (1 − e ) +       +      (e    − 1)
                 2π      ix (ix)2               2π ix (ix)2
                    1
            =           (2 − eix − e−ix )
                 2πx2µ                   ¶
                   1         eix + e−ix
            =            1−
                 πx2              2
                 1 − cos x
            =
                     πx2


Funciones características bidimensionales
    De manera análoga al caso unidimensional se define la función característica
y la función generatriz de momentos de variables aleatorias n-dimensionales.
Como hemos hecho en otros casos, aquí sólo trataremos el caso bidimensional,
dejando la generalización para el lector. Trataremos sólo las funciones carac-
terísticas y dejaremos también al lector el trabajo de reescribir la definición
y propiedades de la función generatriz de momentos para variables aleatorias
bidimensionales.
    Se llama función característica de una variable aleatoria bidimensional (X, Y )
a la función
                         ϕ(u, v) = E [exp (i(uX + vY ))]
Es una función en las variables reales u, v que toma valores complejos. En el
caso discreto, tenemos
                      XX
            ϕ(u, v) =       exp [i(uxh + vyk )] P (X = xh , Y = yk )
                           h    k

y, en el caso absolutamente continuo,
                         Z +∞ Z +∞
               ϕ(u, v) =           exp [i(ux + vy)] f (x, y) dx dy
                               −∞      −∞




                                    © Els autors, 2002; © Edicions UPC, 2002
182                                         CAPÍTULO 2. VARIABLES ALEATORIAS

Del mismo modo que en el caso unidimensional, se puede demostrar que la
función característica caracteriza totalmente a la función de distribución con-
junta. Las propiedades de las funciones características para variables aleatorias
bidimensionales se recogen en el siguiente teorema.
Teorema 44 La función característica ϕXY de una variable aleatoria bidi-
mensional (X, Y ) (discreta o absolutamente continua) satisface las siguientes
propiedades:
 1.     ϕXY (0, 0) = 1 y |ϕXY (u, v)| ≤ 1, para todo (u, v) ∈ R2
 2.     ϕX (t) = ϕXY (t, 0) y ϕY (t) = ϕXY (0, t)
 3.     El momento mixto de orden k + h, si existe, es
                                                                                    ¸
                                                      1          ∂ k+h ϕXY (u, v)
                    mkh = E(X k Y h ) =                      ·
                                                   ik+h              ∂uk ∂v h       u=v=0

 4.     Si Z = X + Y , entonces
                                            ϕZ (t) = ϕXY (t, t)

 5.     Dos variables aleatorias X, Y son independientes si y sólo si
                                     ϕXY (u, v) = ϕX (u) · ϕY (v)

 6.     Si Z = X + Y y X, Y son independientes, entonces
                                         ϕZ (t) = ϕX (t) · ϕY (t)

Demostración: (1) Se hace del mismo modo que en el caso unidimensional
(ver teorema 29).
   (2) Es claro que
              ϕXY (t, 0) = E [exp (i(tX + 0 · Y ))] = E(eitX ) = ϕX (t)
y del mismo modo se hace la otra relación.
    (3) De la definición, mediante derivación parcial, es fácil deducir esta fór-
mula; se deja al lector su comprobación. Además, se puede demostrar que bajo
ciertas condiciones ϕXY admite un desarrollo en serie expresado en términos
de los momentos mixtos (al igual que ocurría en el caso unidimensional).
    (4) En efecto,
  ϕZ (t) = E(eitZ ) = E(exp(it(X + Y ))) = E(exp(i(tX + tY ))) = ϕXY (t, t)
      (5) En efecto, si X, Y son independientes, entonces
                         ϕXY (u, v) =             E [exp (i(uX + vY ))]
                                    =             E(eiuX · eivY )
                                    =             E(eiuX ) · E(eivY )
                                    =             ϕX (u) · ϕY (v)




                  © Els autors, 2002; © Edicions UPC, 2002
2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS183

No demostraremos el recíproco de esta afirmación por exigir la aplicación del
teorema de inversión.
    (6) Es evidente a partir de (4) y (5).

Ejemplo 81 Dada la variable bidimensional discreta (X, Y ) con distribución
de probabilidad conjunta
                            Y X 1      2
                              1    0,1 0,2
                              2    0,1 0,6

Calcular la función característica de (X, Y ) y encontrar el momento mixto de
orden 1 + 1 respecto al origen.
   Solución: Por definición tenemos
                     2
                     XX2
  ϕXY (u, v) =                 exp [i(uh + vk)] P (X = h, Y = k)
                     h=1 k=1
                      i(u+v)
                 = e           · 0,1 + ei(u+2v) · 0,1 + ei(2u+v) · 0,2 + ei(2u+2v) · 0,6

y si el momento pedido existe, se puede calcular mediante
                                                               ¸
                                     1 ∂ 2 ϕXY (u, v)
                          m11 =         ·
                                     i2     ∂u∂v                 u=v=0

Para ello, calculamos primero

       ∂ϕXY (u, v)
                   = 0,1iei(u+v) + 0,1iei(u+2v) + 0,4iei(2u+v) + 1,2iei(2u+2v)
          ∂u
Entonces

  ∂ 2 ϕXY (u, v)
                 = 0,1i2 ei(u+v) + 0,2i2 ei(u+2v) + 0,4i2 ei(2u+v) + 2,4i2 ei(2u+2v)
       ∂u∂v
y, por tanto,
                                                                                 ¸
           0,1i2 ei(u+v) + 0,2i2 ei(u+2v) + 0,4i2 ei(2u+v) + 2,4i2 ei(2u+2v)
 m11     =
                                           i2                                     u=v=0
         = 3,1



Ejemplo 82 Hallar la función característica de (X, Y ), sabiendo que la función
de densidad conjunta es
                                ½
                                  x + y si x, y ∈ (0, 1)
                     f (x, y) =
                                  0     en otro caso




                                 © Els autors, 2002; © Edicions UPC, 2002
184                                                               CAPÍTULO 2. VARIABLES ALEATORIAS

   Solución: Por definición tenemos
                                           Z    +∞       Z   +∞
        ϕ(u, v) =                                                 exp [i(ux + vy)] f (x, y) dx dy
                                            −∞    −∞
                                           Z 1Z 1
                                                   i(ux+vy)
                                 =                           e             (x + y) dx dy
                                            0        0
                                           Z    1Z       1                             Z       1   Z   1
                                                             ivy iux
                                 =                           e   e     x dx dy +                           eiux eivy y dx dy
                                            0        0                                     0       0

Calculando cada una de estas integrales, tenemos
         Z    1   Z          1                                          Z    1         ·        ¸1
                                 ivy iux                                        xeiux
                                                                                 ivy      eiux
                                 e     e        x dx dy              =     e          −            dy
          0              0                                              0         iu     (iu)2 0
                                                                       µ iu             ¶Z 1
                                                                         e    eiu     1
                                                                     =       + 2 − 2           eivy dy
                                                                          iu  u      u      0
                                                                       µ iu             ¶ · ivy ¸1
                                                                         e    eiu     1     e
                                                                     =       + 2 − 2
                                                                          iu  u      u        iv
                                                                       µ iu     iu
                                                                                        ¶ µ iv 0 ¶
                                                                         e    e       1      e       1
                                                                     =       + 2 − 2             −
                                                                          iu  u      u        iv    iv

y del mismo modo se obtiene
             Z       1   Z       1                                     µ               ¶µ                              ¶
                                                                           eiu    1                eiv  eiv  1
                                     eiux eivy y dx dy =                       −                       + 2 − 2
                 0           0                                             iu    iu                iv   v   v

Por consiguiente, obtenemos que
           µ iu             ¶ µ iv      ¶ µ iu      ¶ µ iv         ¶
             e      eiu  1      e     1    e      1    e    eiv  1
 ϕ(u, v) =       + 2 − 2           −     +     −           + 2 − 2
              iu    u    u      iv   iv     iu   iu     iv  v   v




2.5.     Convergencia de sucesiones de variables aleato-
         rias
    En las secciones anteriores nos hemos ocupado del concepto de variable
aleatoria tanto unidimensional como bidimensinal, estudiando sus aspectos fun-
damentales a través de su función de densidad, su función de distribución, de sus
momentos y de su función característica. Pero en muchas situaciones tendremos
que analizar el comportamiento límite de una sucesión de variables aleatorias
definidas sobre un mismo espacio de probabilidades y no necesariamente inde-
pendientes. En esta sección nos ocuparemos de la convergencia de sucesiones de
variables aleatorias.




                             © Els autors, 2002; © Edicions UPC, 2002
2.5. CONVERGENCIA DE SUCESIONES DE VARIABLES ALEATORIAS185

2.5.1.     Tipos de convergencia
    Sea (Xn ) una sucesión de variables aleatorias (reales) definidas sobre un mis-
mo espacio de probabilidades (Ω, A, P ). Para cada ω ∈ Ω, la sucesión (Xn (ω))
es una sucesión de números reales que puede ser convergente o divergente según
sea ω. En otras palabras, la existencia o no del límite de la sucesión
                                        l´ Xn
                                         ım
                                       n→∞

dependerá de los sucesos elementales. Esta dependencia origina tres maneras
distintas de definir la convergencia de variables aleatorias: la convergencia casi
segura, la convergencia en probabilidad y la convergencia en media cuadrática.
Por otra parte, si (Fi ) es la sucesión de funciones de distribución asociada a la
sucesión de variables aleatorias (Xi ), estudiaremos también la convergencia de
(Fi ) que nos llevará a la convergencia en distribución.

Convergencia segura y casi segura
    El concepto más fuerte de convergencia de sucesiones de variables aleatorias
es el de convergencia segura. Una sucesión de variables aleatorias (Xn ) se dice
que converge seguro a la variable aleatoria X si para todo ω ∈ Ω la sucesión
(Xn (ω)) converge a X(ω), es decir,
                               l´ Xn (ω) = X(ω)
                                ım                                         (2.23)
                              n→∞

para todo ω ∈ Ω.
   Este tipo de convergencia se da en muy pocos casos y, en general, lo que
ocurre es que (2.23) se cumple sólo para un cierto subconjunto C de Ω, es decir,
un suceso de A; obsérvese que en el caso de convergencia segura C = Ω.
   Un criterio de convergencia un poco menos fuerte es el de convergencia casi
segura o en probabilidad 1. Una sucesión de variables aleatorias (Xn ) se dice
que converge casi seguro a la variable aleatoria X si (2.23) se cumple sólo
para un suceso de probabilidad 1, es decir, si
                           n                            o
                      C = ω ∈ Ω : l´ Xn (ω) = X(ω)
                                      ım
                                        n→∞

entonces
                                      P (C) = 1
Obsérvese que en el caso de convergencia casi segura P (C) = 0, siendo
                       n                             o
                  C = ω ∈ Ω : l´ Xn (ω) 6= X(ω) 6= ∅
                                  ım
                                    n→∞

Evidentemente, si C = Ω, la convergencia es segura.
   La convergencia casi segura se indica por
                                            c.s.
                                   Xn       −→ X
y viene a significar que (Xn ) converge a X en el sentido ordinario del análisis
matemático, salvo en conjuntos de probabilidad nula.




                             © Els autors, 2002; © Edicions UPC, 2002
186                                       CAPÍTULO 2. VARIABLES ALEATORIAS

Observación 33 Teniendo en cuenta que para cada ω ∈ C la condición

                                      l´ Xn (ω) = X(ω)
                                       ım
                                    n→∞

significa que para todo         > 0 existe un número natural m tal que para todo
n ≥ m se cumple
                                    |Xn (ω) − X(ω)| <
entonces el conjunto
                           n                         o
                        C = ω ∈ Ω : l´ Xn (ω) = X(ω)
                                     ım
                                              n→∞

puede también expresarse en la siguiente forma

                       [  ½
                      ∞ ∞    ∞
                                                          1
                                                            ¾
              C=                ω ∈ Ω : |Xn (ω) − X(ω)| <
                        m=1 n=m
                                                          k
                     k=1

y, en consecuencia, también tenemos que

                 [  [ ½
                 ∞ ∞    ∞
                                                     1
                                                       ¾
              C=           ω ∈ Ω : |Xn (ω) − X(ω)| ≥
                   m=1 n=m
                                                     k
                     k=1


Convergencia en probabilidad
    Una sucesión de variables aleatorias (Xn ) se dice que converge en proba-
bilidad a la variable aleatoria X si para todo > 0 se cumple

                   l´ P ({ω ∈ Ω : |Xn (ω) − X(ω)| ≥ }) = 0
                    ım                                                    (2.24)
                  n→∞

o de forma equivalente

                   l´ P ({ω ∈ Ω : |Xn (ω) − X(ω)| < }) = 1
                    ım
                  n→∞

El concepto de convergencia en probabilidad es esencialmente distinto de la con-
vergencia determinista, pues (2.24) sólo afirma que dado > 0, la probabilidad
de que Xn difiera de X en más de es menor que una cantidad tan pequeña
como se quiera, a partir de un n suficientemente grande. En particular, (Xn )
converge en probabilidad a la constante a si

                       l´ P ({ω ∈ Ω : |Xn (ω) − a| ≥ }) = 0
                        ım
                     n→∞

Esta convergencia en probabilidad se llama también convergencia estocásti-
ca y se dice que (Xn ) converge estocásticamente a X. Abreviadamente lo
indicaremos por
                                       P
                                Xn −→ X




                © Els autors, 2002; © Edicions UPC, 2002
2.5. CONVERGENCIA DE SUCESIONES DE VARIABLES ALEATORIAS187

Observación 34 1. La convergencia en probabilidad significa que la difer-
    encia entre Xn y X es muy probable que sea muy pequeña si n es grande,
    pero esto no implica que sea pequeña para todo ω de un cierto subconjunto
    C de Ω aunque n sea muy grande. En consecuencia, la convergencia en
    probabilidad es un concepto más débil que la convergencia casi segura (ver
    teorema 37).

 2.   Indicamos a continuación las principales propiedades de la convergencia
      en probabilidad:

                   P                                     P
      a)   Si Xn −→ X, entonces Xn − X −→ 0
                   P                                                   P
      b)   Si Xn −→ X y g es una función continua, entonces g(Xn ) −→ g(X)
                    P                P
      c)   Si Xn −→ X y Yn −→ Y , y g es una función real continua de
                                                     P
           las variables x, y, entonces g(Xn , Yn ) −→ g(X, Y ). En particular,
           se cumplen
                                                     P
                                   Xn ± Yn         −→ X ± Y

                                                     P
                                     Xn · Yn       −→ X · Y

                            Xn      P       X                  P
                            Yn     −→       Y         (Yn −→ Y 6= 0)

           Con todo esto vemos que las sumas, productos y cocientes de suce-
           siones de variables aleatorias convergen en probabilidad a las corre-
           spondientes sumas, productos y cocientes de los límites en probabili-
           dad (si existen) de aquellas variables aleatorias.


Convergencia en media cuadrática

   Una sucesión de variables aleatorias (Xn ) se dice que converge en media
cuadrática a la variable aleatoria X si E(Xn ) y E(X 2 ) son finitos y
                                             2

                                £         ¤
                            l´ E (Xn − X)2 = 0
                             ım
                           n→∞


Abreviadamente lo indicaremos por
                                           m.c.
                                  Xn       −→ X

En general, se dice que (Xn ) converge en media de orden r (r > 0) a X si
E(|Xn |r ) y E(|X|r ) son finitos y

                            l´ E [(Xn − X)r ] = 0
                             ım
                            n→∞




                            © Els autors, 2002; © Edicions UPC, 2002
188                                        CAPÍTULO 2. VARIABLES ALEATORIAS

Convergencia en distribución
     Una sucesión de variables aleatorias X1 , X2 , ... con funciones de distribución
F1 , F2 , ... se dice que converge en distribución o en ley a la variable aleatoria
X con función de distribución F si

                                       l´ Fn (x) = F (x)
                                        ım
                                      n→∞

en todos los puntos x donde F es continua. Abreviadamente lo indicaremos por
                                                    D
                                          Xn       −→ X

2.5.2.     Relación entre los distintos tipos de convergencia
    En este apartado demostraremos que existe una cierta relación entre los
diferentes tipos de convergencia y que podemos resumir en el siguiente diagrama

          casi segura                                           en media cuadrática
                          &                                 .
                                 en probabilidad
                                        ↓
                                 en distribución

Lema 1 La sucesión de variables aleatorias (Xn ) converge casi seguro a la vari-
able aleatoria X si y sólo si
                 µ         ½                            ¾¶
                                                      1
               P l´ sup ω ∈ Ω : |Xn (ω) − X(ω)| ≥
                    ım                                      =0
                                                      k
para todo k = 1, 2, 3, ....
Demostración: Supongamos que
                  µ         ½                      ¾¶
                                                 1
              P l´ sup ω ∈ Ω : |Xn (ω) − X(ω)| ≥
                     ım                               =0                              (2.25)
                                                 k
para todo k = 1, 2, 3, .... Consideremos los conjuntos
                ½                                ¾
                                               1
         Ank = ω ∈ Ω : |Xn (ω) − X(ω)| ≥               (k, n = 1, 2, 3, ...)
                                               k
Por la observación 24 podemos escribir
          [  [ ½
          ∞ ∞     ∞
                                                 1
                                                   ¾ [  [
                                                      ∞ ∞    ∞
     C=                ω ∈ Ω : |Xn (ω) − X(ω)| ≥    =           Ank
             m=1 n=m
                                                 k      m=1 n=m
          k=1                                                          k=1

De la desigualdad de Boole, obtenemos
                                 ∞
                                     Ã ∞ ∞     !
                                X       [
                       P (C) ≤     P       Ank
                                          k=1         m=1 n=m




                 © Els autors, 2002; © Edicions UPC, 2002
2.5. CONVERGENCIA DE SUCESIONES DE VARIABLES ALEATORIAS189

Ahora bien, por la definición de límite superior de una sucesión de sucesos,
tenemos                  ∞   ∞
                          [
                                 Ank = l´ sup Ank
                                        ım
                              m=1 n=m
y, por tanto,
                                        ∞
                                        X
                              P (C) ≤         P (l´ sup Ank )
                                                  ım
                                        k=1
y por (2.25), obtenemos
                                         P (C) = 0
o lo que es equivalente,
                                         P (C) = 1
Por tanto, la sucesión (Xn ) converge casi seguro a X.
   Recíprocamente, supongamos que (Xn ) converge casi seguro a X. Observa-
mos en primer lugar que
                                ∞ ∞
                                 [                     ∞ ∞ ∞
                                                        [  [
                l´ sup Ank =
                 ım                          Ank ⊂                         Ank = C
                                m=1 n=m                 k=1 m=1 n=m

y, por tanto,
                               P (C) ≥ P (l´ sup Ank )
                                           ım
Ahora bien, puesto que (Xn ) converge casi seguro a X, entonces P (C) = 0 y,
como consecuencia, obtenemos
                         µ        ½                             ¾¶
                                                              1
     P (l´ sup Ank ) = P l´ sup ω ∈ Ω : |Xn (ω) − X(ω)| ≥
         ım                ım                                      =0
                                                              k
para todo k = 1, 2, 3, ....
Observación 35 Si (Xn ) es una sucesión de variables mutuamente independi-
entes, entonces se puede demostrar que la condición
                 µ        ½                           ¾¶
                                                    1
               P l´ sup ω ∈ Ω : |Xn (ω) − X(ω)| ≥
                    ım                                   =0
                                                    k
para todo k = 1, 2, 3, ..., es equivalente a la siguiente condición
                X µ½
                 ∞
                                                          1
                                                            ¾¶
                     P       ω ∈ Ω : |Xn (ω) − X(ω)| ≥         <∞
                n=1
                                                          k

y, como consecuencia, tenemos el siguiente criterio de convergencia casi segura:
si (Xn ) es una sucesión de variables mutuamente independientes, entonces (Xn )
converge casi seguro a X si y sólo si
                    ∞
                    X
                          P ({ω ∈ Ω : |Xn (ω) − X(ω)| ≥ }) < ∞
                    n=1

para cualquier    > 0 dado.




                                © Els autors, 2002; © Edicions UPC, 2002
190                                        CAPÍTULO 2. VARIABLES ALEATORIAS

Teorema 45 La convergencia casi segura implica la convergencia en probabili-
dad.
Demostración: Supongamos que la sucesión de variables aleatorias (Xn ) con-
verge casi seguro a la variable aleatoria X. Según el lema 1, entonces se cumple
                                      P (l´ sup Ank ) = 0
                                          ım                                     (2.26)
para todo k = 1, 2, 3, ..., siendo
                               ½                       ¾
                                                     1
                     Ank = ω ∈ Ω : |Xn (ω) − X(ω)| ≥
                                                     k
De la definición de límite superior de una sucesión de sucesos, tenemos
                                                       ∞ ∞
                                                        [
                                l´ sup Ank =
                                 ım                               Ank
                                                      m=1 n=m

pero la sucesión B1k , B2k , ... definida por
                                                     ∞
                                                     [
                                        Bmk =               Ank
                                                    m=n

es decreciente y, por tanto,
                                  ∞
                                                   ∞ ∞
                                                     [
               l´ Bmk =
                ım                     Bmk =                  Ank = l´ sup Ank
                                                                     ım
              m→∞
                                 m=1               m=1 n=m

De la propiedad de continuidad de la probabilidad, deducimos
                                  ³           ´
              P (l´ sup Ank ) = P l´ Bmk = l´ P (Bmk )
                  ım                 ım              ım                          (2.27)
                                                m→∞                m→∞

De la definición de Bmk , vemos que
                                Bmk = Amk ∪ Am+1k ∪ · · ·
y, por tanto, se cumple
                                           Amk ⊂ Bmk
luego,
                                      P (Amk ) ≤ P (Bmk )
Entonces, de (2.26) y (2.27), deducimos
              0 = P (l´ sup Ank ) = l´ P (Bmk ) ≥ l´ P (Amk )
                      ım             ım            ım
                                               m→∞                  m→∞

es decir,
                                         l´ P (Amk ) ≤ 0
                                          ım
                                       m→∞
pero como las probabilidades no son negativas, obtenemos
                               µ½                              ¾¶
                                                             1
        l´ P (Amk ) = l´ P
         ım              ım        ω ∈ Ω : |Xm (ω) − X(ω)| ≥      =0
       m→∞              m→∞                                  k
para todo k = 1, 2, 3, .... Por consiguiente, la sucesión (Xn ) converge en proba-
bilidad a X.




                 © Els autors, 2002; © Edicions UPC, 2002
2.5. CONVERGENCIA DE SUCESIONES DE VARIABLES ALEATORIAS191

Observación 36 El recíproco, en general, no es cierto (ver ejemplo 52).

Ejemplo 83 Sea (Xn ) una sucesión de variables aleatorias mutuamente inde-
pendientes tales que
                          ½                         1
                            0 con probabilidad 1 − n+1
                     Xn =                        1
                            1 con probabilidad n+1

Probar que (Xn ) no converge casi seguramente a X = 0 y, en cambio, (Xn )
converge en probabilidad a 0.
   Solución: Según la observación 26, como que para todo > 0 se cumple
                  ∞
                  X                                              ∞
                                                                 X   1
                        P ({ω ∈ Ω : |Xn (ω)| ≥ }) =
                  n=1                                           n=1
                                                                    n+1

es divergente, al tratarse de la serie armónica, (Xn ) no converge casi segura-
mente a X = 0. En cambio, para todo > 0 se cumple

                                                                          1
                l´ P ({ω ∈ Ω : |Xn (ω)| ≥ }) = l´
                 ım                             ım                           =0
                n→∞                                          n→∞         n+1

y, por tanto, (Xn ) converge en probabilidad a X = 0.

    A continuación demostraremos que la convergencia en media cuadrática (si
existe) es también un concepto más fuerte que el de convergencia en probabili-
dad.

Teorema 46 La convergencia en media cuadrática (si existe) implica la con-
vergencia en probabilidad.
Demostración: Supongamos que la sucesión de variables aleatorias (Xn ) con-
verge en media cuadrática a la variable aleatoria X. Entonces, por la desigualdad
de Tchebychev aplicada a la variable Xn − X, tenemos
                                              ³          ´
                                            E |Xn − X|2
                      P (|Xn − X| ≥ ) ≤            2


pero, por hipótesis, se cumple
                                 £         ¤
                             l´ E (Xn − X)2 = 0
                              ım
                            n→∞

y, por tanto,
                            l´ P (|Xn − X| ≥ ) = 0
                             ım
                            n→∞

es decir, (Xn ) converge en probabilidad a X.

Observación 37 El recíproco, en general, no es cierto (ver ejemplo 53).




                              © Els autors, 2002; © Edicions UPC, 2002
192                                        CAPÍTULO 2. VARIABLES ALEATORIAS

Ejemplo 84 Sea (Xn ) una sucesión de variables aleatorias mutuamente inde-
pendientes tales que
                          ½                         1
                            0 con probabilidad 1 − n
                     Xn =                       1
                            1 con probabilidad n

Probar que: (1) (Xn ) converge en probabilidad a 0; (2) (Xn ) no converge casi
seguramente a 0; (3) (Xn ) converge en media cuadrática a 0.
   Solución: (1) En efecto, es evidente que para todo > 0 se cumple
                                                                1
                             P (|Xn | ≥ ) = P (Xn = 1) =
                                                                n
y, por tanto,
                                                  1
                             l´ P (|Xn | ≥ ) = l´
                              ım                ım   =0
                       n→∞                  n→∞ n

y, en consecuencia, (Xn ) converge en probabilidad a 0.
    (2) En efecto,
                           X∞                  ∞
                                               X1
                               P (|Xn | ≥ ) =
                           n=1                n=1
                                                   n
no es convergente, pues es la serie armónica y, por tanto, (Xn ) no converge casi
seguramente a 0.
   (3) En efecto,
                                     µ      ¶
                      ¡      ¢            1          1     1
                    E Xn 2 = 02 · 1 −         + 12 · =
                                          n          n    n
y, por tanto,                               ¡    ¢
                                        l´ E Xn 2 = 0
                                         ım
                                       n→∞

es decir, (Xn ) converge en media cuadrática a 0.
    Obsérvese que con este ejemplo también hemos demostrado que la conver-
gencia en media cuadrática no implica la convergencia casi segura. También
se puede ver que la convergencia en media cuadrática no es implicada por la
convergencia casi segura. En efecto, la sucesión (Xn ) de variables aleatorias
mutuamente independientes definida por
                           ½                          1
                              0 con probabilidad 1 − n2
                     Xn =                         1
                              n con probabilidad n2
es convergente casi seguro a X = 0, pues para               > 0 dado se cumple
                ∞
                X                           ∞
                                            X        ∞
                                                    X 1
                    P (|Xn | ≥ ) =     P (Xn = n) =        <∞
                n=1                n=1              n=1
                                                        n2

y, en cambio, no converge en media cuadrática, pues
                                 µ        ¶
                     ¡    ¢            1            1
                   E Xn 2 = 02 · 1 − 2 + n2 · 2 = 1
                                       n           n




                 © Els autors, 2002; © Edicions UPC, 2002
2.5. CONVERGENCIA DE SUCESIONES DE VARIABLES ALEATORIAS193

y, por tanto,                        ¡    ¢
                                 l´ E Xn 2 = 1 6= 0
                                  ım
                                n→∞



   A continuación demostraremos que la convergencia en distribución es un
concepto más débil que el de convergencia en probabilidad.

Teorema 47 La convergencia en probabilidad implica la convergencia en dis-
tribución.
Demostración: Supongamos que la sucesión de variables aleatorias (Xn ) con-
verge en probabilidad a la variable aleatoria X. Sean Fn (n = 1, 2, ...) y F las
funciones de distribución de Xn (n = 1, 2, ...) y X. Tenemos

                 [Xn ≤ x] = [Xn ≤ x, X ≤ y] ∪ [Xn ≤ x, X > y]
                          ⊂ [X ≤ y] ∪ [Xn ≤ x, X > y]

luego,
                   P (Xn ≤ x) = P (X ≤ y) + P (Xn ≤ x, X > y)
es decir,
                        Fn (x) = F (y) + P (Xn ≤ x, X > y)                 (2.28)
Si y > x, entonces

                       [Xn ≤ x, X > y] ⊂ [|Xn − X| ≥ y − x]

y, por tanto,
                    P (Xn ≤ x, X > y) ≤ P (|Xn − X| ≥ y − x)
De aquí y de (2.28), obtenemos

         Fn (x) = F (y) + P (Xn ≤ x, X > y) ≤ F (y) + P (|Xn − X| ≥ y − x)
                           P
pero, por hipótesis, Xn −→ X, entonces

                               l´ P (|Xn − X| ≥ ) = 0
                                ım
                             n→∞

para todo     > 0. Tomando      = y − x > 0, obtenemos

                                l´ Fn (x) ≤ F (x + )
                                 ım                                        (2.29)
                               n→∞

Por el mismo razonamiento, pero cambiando X por Xn , tenemos

                 [X ≤ y] = [Xn ≤ x, X ≤ y] ∪ [Xn > x, X ≤ y]
                         ⊂ [Xn ≤ x] ∪ [Xn > x, X ≤ y]

luego,
                   P (X ≤ y) = P (Xn ≤ x) + P (Xn > x, X ≤ y)




                                © Els autors, 2002; © Edicions UPC, 2002
194                                       CAPÍTULO 2. VARIABLES ALEATORIAS

es decir,
                         F (y) = Fn (x) + P (Xn > x, X ≤ y)            (2.30)
Si y < x, entonces

                      [Xn > x, X ≤ y] ⊂ [|Xn − X| ≥ x − y]

y, por tanto,
                  P (Xn > x, X ≤ y) ≤ P (|Xn − X| ≥ x − y)
De aquí y de (2.30), obtenemos

      F (y) = Fn (x) + P (Xn > x, X ≤ y) ≤ Fn (x) + P (|Xn − X| ≥ x − y)
                              P
pero, por hipótesis, Xn −→ X, entonces

                                  l´ P (|Xn − X| ≥ ) = 0
                                   ım
                               n→∞

para todo   > 0. Tomando           = x − y > 0, obtenemos

                                  F (x − ) ≤ l´ Fn (x)
                                              ım                       (2.31)
                                                    n→∞

Por consiguiente, de (2.29) y (2.31), obtenemos

                         F (x − ) ≤ l´ Fn (x) ≤ F (x + )
                                     ım
                                           n→∞

Ahora bien, si x es un punto de continuidad de F , entonces

                              F (x − ) = F (x + ) = F (x)

y, por tanto, deducimos
                                      l´ Fn (x) = F (x)
                                       ım
                                     n→∞

que es lo que queríamos demostrar.

Observación 38 El recíproco, en general, no es cierto (ver ejemplo 54).

Ejemplo 85 Sea Y una variable aleatoria definida por
                      ½
                         1    con P (Y = 1) = 1/2
                 Y =
                         −1 con P (Y = −1) = 1/2

Definimos la sucesión (Xn ) mediante
                             ½
                                Y                   si n es par
                       Xn =
                                −Y                  si n es impar

Probar que (Xn ) converge en distribución a Y y, en cambio, no converge en
probabilidad a Y .




                © Els autors, 2002; © Edicions UPC, 2002
2.5. CONVERGENCIA DE SUCESIONES DE VARIABLES ALEATORIAS195

   Solución: Es claro que Xn = ±1 con probabilidad 1/2 en ambos casos. Por
tanto, las variables Xn e Y tienen la misma función de distribución y, como
consecuencia,
                        l´ Fn (x) = l´ F (x) = F (x)
                         ım           ım
                          n→∞                  n→∞

es decir, (Xn ) converge en distribución a Y . Ahora bien, es claro que
                                  ½
                                     0      si n es par
                       Xn − Y =
                                     −2Y si n es impar
y se cumple
                                                                           1 1
         P (|X2n−1 − Y | ≥ 1) = P (2 |Y | ≥ 1) = P (|Y | ≥ 1/2) =           + =1
                                                                           2 2
para todo n = 1, 2, 3, ..., y, por tanto,

                          l´ P (|X2n−1 − Y | ≥ 1) = 1 6= 0
                           ım
                         n→∞

y, en consecuencia, (Xn ) no converge en probabilidad a Y .

   No obstante, si una sucesión de variables aleatorias converge en distribución
a una constante no aleatoria, entonces el siguiente teorema prueba que la con-
vergencia en distribución implica la convergencia en probabilidad a la constante.

Teorema 48 Sea (Xn ) una sucesión de variables aleatorias que converge en
distribución a una constante c no aleatoria. Entonces, (Xn ) también converge
en probabilidad a c.
Demostración: Si (Xn ) converge en distribución a c, entonces

                                l´ Fn (x) = F (x) = c
                                 ım
                               n→∞

y, por tanto,                              ½
                                               0 si x ≤ c
                               F (x) =
                                               1 si x > c
De este modo, para      > 0 tenemos

              P (|Xn − c| > ) = P (Xn < c − ) + P (Xn > c + )
                              = Fn (c − ) + 1 − Fn (c + )

luego,

           l´ P (|Xn − c| > ) = F (c − ) + 1 − F (c + ) = 0 + 1 − 1 = 0
            ım
          n→∞

y, por tanto, (Xn ) también converge en probabilidad a c.

    En la mayor parte de las aplicaciones, el criterio de convergencia en dis-
tribución no se utiliza en términos de las funciones de distribución Fn , sino a
través de las funciones características. Enunciamos sin demostración el teorema
de Glivenko que permite hacer esto.




                                © Els autors, 2002; © Edicions UPC, 2002
196                                        CAPÍTULO 2. VARIABLES ALEATORIAS

Teorema 49 (Teorema de Glivenko) Sea X1 , X2 , ... una sucesión de vari-
ables aleatorias con funciones características ϕ1 , ϕ2 , ..., entonces (Xn ) converge
en distribución a la variable aleatoria X si y sólo si
                                        l´ ϕn (t) = ϕ(t)
                                         ım
                                       n→∞

para todo t ∈ R, siendo ϕ la función característica de X.
Observación 39 El siguiente resultado, debido a Lévy-Cramer, nos permite
estudiar la convergencia en probabilidad utilizando las funciones características:
sea (Xn ) una sucesión de variables aleatorias con funciones de distribución Fn
y característica ϕn , entonces (Xn ) converge a X en probabilidad si y sólo si
                                        l´ ϕn (t) = ϕ(t)
                                         ım
                                       n→∞

y ϕ es continua en t = 0, siendo ϕ la función característica de X.

2.5.3.     Las leyes de los grandes números
   Sea (Xn ) una sucesión de variables aleatorias definidas sobre un mismo es-
pacio de probabilidades (Ω, A, P ). Consideremos la sucesión de sumas parciales
(Sn ) definida por
                                       X n
                                  Sn =     Xk
                                                    k=1
El nombre genérico de "leyes de los grandes números"hace referencia a un con-
junto de teoremas que tratan sobre el comportamiento asintótico de (Sn ) cuando
n tiende a infinito. El problema general consiste en encontrar las condiciones
que aseguren la existencia de límites de la forma
                                     µ         ¶
                                       Sn − an
                                 l´
                                  ım
                                n→∞       bn
siendo (an ) y (bn ) sucesiones (no aleatorias) de números reales.

Ley débil de los grandes números
   Se dice que una sucesión (Xn ) de variables aleatorias satisface una ley débil
de los grandes números si existen sucesiones numéricas (an ) y (bn ) tales que
                                         Sn −an         P
                                           bn         −→ 0
Una condición suficiente para que una sucesión satisfaga la ley débil de los
grandes números viene dada por el siguiente teorema.
Teorema 50 (Ley débil de los grandes números de Tchebychev) Sea
(Xn ) una sucesión de variables aleatorias mutuamente independientes que tienen
varianzas finitas y acotadas por una misma constante α
                                  h              i
                         σ 2 = E (Xn − E(Xn ))2 ≤ α
                           n




                 © Els autors, 2002; © Edicions UPC, 2002
2.5. CONVERGENCIA DE SUCESIONES DE VARIABLES ALEATORIAS197

para todo n ∈ N, entonces
                                 Sn −E(Sn )       P
                                     n            −→ 0
                                                                          Sn −E(Sn )
Demostración: Por la desigualdad de Tchebichev aplicada a                     n        obten-
emos                                    ³               ´
                 ¯             ¯      E |Sn − E(Sn )|
                                                      2
                 ¯ Sn − E(Sn ) ¯
              P (¯
                 ¯
                               ¯≥ )≤
                               ¯
                       n                     n2 2
para todo > 0. Ahora bien, como las variables aleatorias Xn (n = 1, 2, 3, ...)
son mutuamente independientes, se cumple
                   ³                ´
                                  2
                 E (Sn − E(Sn ))      = V ar(Sn )
                                              Ã n      !
                                                X
                                      = V ar        Xk
                                                               k=1
                                                      n
                                                      X
                                              =             V ar(Xk )
                                                      k=1
                                              ≤ nα

Por tanto,
                                       ³               ´
                  ¯             ¯     E |Sn − E(Sn )|
                                                     2
                  ¯ Sn − E(Sn ) ¯                          α
               P (¯
                  ¯
                                ¯≥ )≤
                                ¯                        ≤ 2
                        n                   n2 2          n
y, en consecuencia,            ¯             ¯
                               ¯ Sn − E(Sn ) ¯
                         l´ P (¯
                          ım   ¯
                                             ¯≥ )=0
                                             ¯
                        n→∞          n
para todo    > 0.

Corolario 3 (Ley clásica de los grandes números de Bernoulli) Sea
(Xn ) una sucesión de variables aleatorias mutuamente independientes que tienen
la misma esperanza
                         E(Xn ) = µ (n = 1, 2, 3, ...)
y varianzas finitas y acotadas por una misma constante

                                         σ2 ≤ α
                                          n

para todo n ∈ N. Entonces
                            X1 +X2 +···+Xn             P
                                  n                   −→ µ
Demostración: Es claro que
                                 Ã n          !       n
                                  X                   X
                    E(Sn ) = E           Xk       =         E(Xk ) = nµ
                                   k=1                k=1




                            © Els autors, 2002; © Edicions UPC, 2002
198                                         CAPÍTULO 2. VARIABLES ALEATORIAS

Entonces, por el teorema 42, la sucesión
                          Sn − nµ   X1 + X2 + · · · + Xn
                                  =                      −µ
                             n              n
converge en probabilidad a 0. Por tanto,
                                      X1 + X2 + · · · + Xn
                                              n
converge en probabilidad a µ.

Observación 40 1. El significado empírico de esta ley es el siguiente: dadas
    n observaciones independientes x1 , x2 , ..., xn de una variable aleatoria X,
    la media de esta muestra
                                            n
                                       1X
                                 x=             xk
                                       n
                                                             k=1

        se aproxima al valor medio de X a medida que crece n.

 2.     De la ley clásica de los grandes números se deduce la llamada primera
        ley empírica del azar: dado un suceso de probabilidad p, en una serie de
        pruebas de un experimento aleatorio, la frecuencia relativa se aproxima a
        p. En efecto, sea Nn el número de veces que sale un determinado resultado
        A en n pruebas independientes de un experimento aleatorio. La frecuencia
        relativa de A en las n pruebas es
                                                               Nn
                                                fn (A) =
                                                               n
        Ahora bien, podemos escribir Nn en la forma

                                      Nn = X1 + X2 + · · · + Xn

        donde las Xk son variables aleatorias independientes que sólo pueden tomar
        los valores 1 o 0 según ocurra o no ocurra A. Si además suponemos que la
        probabilidad de que ocurra A es la misma en todas las pruebas, tenemos
                                 ½
                                    1 con P (Xk = 1) = p
                            Xk =
                                    0 con P (Xk = 0) = 1 − p

        siendo p = P (A). Por tanto, en este caso tenemos

                               µ = E(Xk ) = 1 · p + 0 · (1 − p) = p

        y entonces, aplicando la ley clásica de los grandes números, obtenemos
                                                      P
                                        fn (A) −→ p = P (A)

      A continuación enunciamos el teorema de Khintchine sin hacer la demostración.




                  © Els autors, 2002; © Edicions UPC, 2002
2.5. CONVERGENCIA DE SUCESIONES DE VARIABLES ALEATORIAS199

Teorema 51 (Ley débil de los grandes números de Khintchine) Si (Xn )
es una sucesión de variables aleatorias mutuamente independientes, idéntica-
mente distribuidas y con esperanza finita. Entonces
                             X1 +X2 +···+Xn            P
                                   n                   −→ µ

siendo µ = E(Xn ).

Observación 41 Son consecuencias de la ley débil de los grandes números de
Khintchine, en el caso de que los momentos correspondientes existan

 1.
                                      n
                                 1X k P       k
                                      X −→ E(Xn )
                                 n i=1 i

 2.
                            n
                         1X                    P
                               (Xi − E(Xi ))2 −→ V ar(Xn )
                         n i=1

   En general, cualquier parámetro que sea función de los momentos (coefi-
ciente de correlación, covarianza, asimetría, curtosis) puede aproximarse por el
correspondiente parámetro muestral si el número de observaciones n es grande.

Ley fuerte de los grandes números
   Se dice que una sucesión (Xn ) de variables aleatorias satisface una ley fuerte
de los grandes números si existen sucesiones numéricas (an ) y (bn ) tales que
                                  Sn −an        c.s.
                                    bn         −→ 0

Únicamente enunciaremos sin demostración los teoremas de Borel y de Kol-
mogorov que dan condiciones suficientes para que una sucesión (Xn ) satisfaga
la ley fuerte de los grandes números.

Teorema 52 (Ley fuerte de los grandes números de Borel) Sea (Xn )
una sucesión de variables aleatorias mutuamente independientes que tienen la
misma esperanza
                        E(Xn ) = µ (n = 1, 2, 3, ...)
y momentos centrales finitos y acotados hasta el orden cuatro

                       E (|Xn − µ|r ) ≤ αr              (0 < r ≤ 4)

para todo n ∈ N. Entonces
                             X1 +X2 +···+Xn            c.s.
                                   n                   −→ µ




                             © Els autors, 2002; © Edicions UPC, 2002
200                                        CAPÍTULO 2. VARIABLES ALEATORIAS

Observación 42 En la observación 30 hemos visto la ley clásica de los grandes
números según la cual dado un suceso de probabilidad p, en una serie de pruebas
de un experimento aleatorio, la frecuencia relativa se aproxima a p. Ahora, según
la ley fuerte de los grandes números de Borel, la frecuencia relativa de un suceso
de probabilidad p converge casi seguro a p. Por tanto, la convergencia es más
fuerte que la que se desprende de la ley más débil.

Teorema 53 (Ley fuerte de los grandes números de Kolgomorov) Sea
(Xn ) una sucesión de variables aleatorias mutuamente independientes con vari-
anzas σ2 finitas, y sea (bn ) una sucesión divergente de números reales positivos
        n
tales que
                                   ∞
                                  X σ2
                                        n
                                          <∞
                                  n=1
                                      b2n

entonces la sucesión (Xn ) sigue la ley fuerte de los grandes números
                                       Sn −E(Sn )           c.s.
                                           bn           −→ 0

En particular, si
                                            ∞
                                           X σ2
                                                n
                                                  <∞
                                           n=1
                                               n2
entonces
                                       Sn −E(Sn )           c.s.
                                           n            −→ 0

Teorema 54 (Teorema de Kolgomorov) La condición necesaria y suficiente
para que una sucesión (Xn ) de variables aleatorias independientes e idéntica-
mente distribuidas cumpla la siguiente ley fuerte
                                   X1 +X2 +···+Xn              c.s.
                                         n                    −→ µ

siendo µ = E(Xn ) (n = 1, 2, 3, ...), es que

                                          E(|Xn |) < ∞

Observación 43 Si las variables aleatorias Xn son idénticamente distribuidas,
es decir, todas tienen la misma función de distribución, entonces desaparece la
restricción de que las varianzas sean finitas.

Ejemplo 86 Sea (Xn ) una sucesión de variables aleatorias absolutamente con-
tinuas, independientes e idénticamente distribuidas. Comprobar si la sucesión
satisface la ley fuerte de los grandes números en los casos siguientes: (1) la
función de densidad de Xn es

                            fn (x) = e−|x|             (n = 1, 2, 3, ...)

para todo x ∈ R, y (2) la función de densidad de Xn es
                                                             e
                                         fn (x) =
                                                      x2     ln x




                 © Els autors, 2002; © Edicions UPC, 2002
2.5. CONVERGENCIA DE SUCESIONES DE VARIABLES ALEATORIAS201

para todo x ∈ (e, +∞) y se anula en cualquier otro caso.
   Solución: Según el teorema de Kolgomorov, en ambos casos hemos de com-
probar que                      Z        +∞
                      E(|Xn |) =                     |x| · fn (x) dx < ∞
                                       −∞

para que la sucesión satisfaga la ley fuerte de los grandes números.
   (1) En este caso tenemos
                          Z   +∞                                  Z   +∞
                                          −|x|
             E(|Xn |) =            |x| · e               dx = 2            xe−x dx = 2
                              −∞                                  0

y, por tanto, la sucesión satisface la ley fuerte de los grandes números. Además,
como                                   Z +∞
                       µ = E(Xn ) =           x · e−|x| dx = 0
                                                 −∞

entonces
                        X1 + X2 + · · · + Xn c.s.
                                             −→ 0
                                n
   (2) En este caso tenemos
                                             Z       +∞
                                                                     e
                     E(|Xn |) =                           |x| ·           dx
                                                 e                x2 ln x
                                                 Z       +∞
                                                                 1
                                    = e                               dx = ∞
                                                     e        x ln x

y, por tanto, la sucesión no satisface la ley fuerte de los grandes números.

2.5.4.     Aplicaciones al análisis matemático. El método Monte
           Carlo
Aplicaciones al análisis matemático
Teorema 55 Sea (Xn ) una sucesión de variables aleatorias, independientes e
idénticamente distribuidas, con esperanza µ = E(Xn ) que satisface una ley de
los grandes números
                            X1 +X2 +···+Xn
                                  n        −→ µ
y sea f cualquier función continua y acotada en R, entonces
                     · µ                       ¶¸
                          X1 + X2 + · · · + Xn
                   E f                            −→ f (µ)
                                   n

Demostración: Sea Sn = X1 + X2 + · · · + Xn , entonces por ser f una función
continua y acotada, tenemos
                              µ ¶       µ          ¶
                               Sn               Sn
                         l´ f
                          ım      = f l´   ım
                        n→∞    n          n→∞ n




                               © Els autors, 2002; © Edicions UPC, 2002
202                                          CAPÍTULO 2. VARIABLES ALEATORIAS

pero, por hipótesis,
                                             Sn
                                                −→ µ
                                             n
luego,                                   µ        ¶
                                             Sn
                                     f                −→ f (µ)
                                             n
y, por tanto,                      · µ ¶¸
                                      Sn
                                  E f     −→ f (µ)
                                      n


   Mediante este teorema de naturaleza totalmente probabilística puede demostrarse
algunos resultados clásicos del análisis matemático. A continuación, a modo de
ejemplo, damos uno de estos resultados.

Ejemplo 87 (Teorema de aproximación de Weierstrass) Cualquier fun-
ción continua y acotada f en el intervalo [0, 1] puede aproximarse uniforme-
mente en dicho intervalo por una sucesión de funciones polinómicas.
   Solución: Consideremos una sucesión de variables aleatorias (Xn ), inde-
pendientes y con distribución de Bernoulli, es decir, tales que
                            ½
                               1 con probabilidad p
                      Xn =
                               0 con probabilidad 1 − p

para todo n ∈ N. Por tanto,

                           µ = E(Xn ) = p               (n = 1, 2, 3, ...)

En este caso, la función de distribución de
                                                      n
                                                      X
                                             Sn =           Xi
                                                      i=1

es del tipo binomial de parámetros n y p, es decir,
                            µ ¶
                             n k
               P (Sn = k) =     p (1 − p)n−k (k = 0, 1, 2, ..., n)
                             k

Por tanto, obtenemos
          · µ                      ¶¸ X µ ¶ µ ¶
                                       n
              X1 + X2 + · · · + Xn         k   n k
         E f                         =   f   ·   p (1 − p)n−k
                      n                    n   k
                                                       k=0

pero si f es continua y acotada en [0, 1], por el teorema 47, deducimos
                      · µ                        ¶¸
                           X1 + X2 + · · · + Xn
                l´ E f
                 ım                                  = f (µ) = f (p)
               n→∞                  n




                 © Els autors, 2002; © Edicions UPC, 2002
2.5. CONVERGENCIA DE SUCESIONES DE VARIABLES ALEATORIAS203

Si hacemos p = x y tenemos en cuenta que 0 ≤ p ≤ 1, entonces
                     " n µ ¶ µ ¶                  #
                      X     k     n k
                l´
                 ım      f      ·     x (1 − x)n−k = f (x)
               n→∞          n      k
                       k=0

para todo x ∈ [0, 1]. Observemos que las funciones

                               X µ k ¶ µn¶
                               n
                    Pn (x) =     f    ·    xk (1 − x)n−k
                                   n    k
                               k=0

son polinomios de grado n. Por lo tanto, obtenemos

                                   l´ Pn (x) = f (x)
                                    ım
                                 n→∞

en el intervalo [0, 1]. Ahora se puede demostrar que la convergencia es uniforme.


     Otra aplicación de las leyes de los grandes números consiste en una técnica
de gran utilidad en el cálculo numérico de integrales definidas en el intervalo
[0, 1]. Esta técnica es conocida como el método Monte Carlo.

El método Monte Carlo
    Sea f : [0, 1] → [0, 1] una función continua. Consideremos dos sucesiones
de variables aleatorias (Xn ) y (Yn ) absolutamente continuas e independientes,
distribuidas uniformemente sobre el intervalo [0, 1], es decir, con función de
densidad
                   ½                                  ½
                     1 si x ∈ [0, 1]                    1 si y ∈ [0, 1]
        fXn (x) =                        y fYn (y) =
                     0 si x ∈ [0, 1]
                             /                          0 si y ∈ [0, 1]
                                                                /

Definimos otra sucesión (Zn ) mediante
                     ½
                        1 si f (Xn ) > Yn
               Zn =                                         (n = 1, 2, 3, ...)
                        0 si f (Xn ) < Yn

Es claro que

                  E(Zn ) = 1 · P (Zn = 1) + 0 · P (Zn = 0)
                         = P (Zn = 1)
                         = P (f (Xn ) > Yn )

pero, al ser Xn e Yn independientes y distribuidas uniformente sobre [0, 1], la
función de densidad conjunta es
                                                 ½
                                                   1 si x, y ∈ [0, 1]
             fXn Yn (x, y) = fXn (x) · fYn (y) =
                                                   0 si x, y ∈ [0, 1]
                                                             /




                               © Els autors, 2002; © Edicions UPC, 2002
204                                          CAPÍTULO 2. VARIABLES ALEATORIAS

Por tanto,
                                             Z    1   Z   f (x)                     Z    1
               P (f (Xn ) > Yn ) =                                1 dx dy =                  f (x) dx
                                              0       0                              0

Entonces, por la ley fuerte de los grandes números, obtenemos
                            n                                          Z
                       1X    c.s.
                                                                               1
                          Zk −→ µ = E(Zn ) =                                       f (x) dx
                       n                                                   0
                          k=1

es decir,                                                         Ã                 !
                             Z                                         n
                                    1
                                                                      1X
                                        f (x) dx = l´
                                                    ım                   Zk
                                0                         n→∞         n
                                                                       k=1


2.5.5.       El teorema del límite central
    Las leyes de los grandes números son resultados sobre convergencia en prob-
abilidad y convergencia casi segura de sucesiones del tipo
                                                  Sn − an
                                                                                                        (2.32)
                                                    bn
hacia cero, con
                                                          n
                                                          X
                                             Sn =                 Xk
                                                          k=1

La pregunta que se plantea de forma inmediata es en qué condiciones (2.32)
coverge en distribución hacia una variable aleatoria. La respuesta a esta cuestión
se conoce genéricamente como el teorema del límite central. Como veremos en
este apartado el teorema de límite central no es más que un conjunto de teoremas
que responden al problema planteado.
    En general, aquí diremos que una sucesión de variables aleatorias (Xn ) in-
dependientes satisface el teorema central del límite si existen dos sucesiones
de números reales (no aleatorios) tales que la variable aleatoria suma Sn cumple

                                            Sn − an D
                                                    −→ Z
                                              bn
siendo Z una variable aleatoria con distribución normal estándar, es decir, la de
parámetros µ = 0 y σ = 1; desde ahora escribiremos Z ∼ N (0, 1) para indicar
que Z tiene una distribución normal estándar.

Teorema 56 (Teorema de Lévy-Lindeberg) Sea (Xn ) una sucesión de vari-
ables aleatorias independientes e idénticamente distribuidas, con esperanza µ y
varianza σ 2 finita. Entonces
                                    Sn − nµ D
                                       √    −→ Z ∼ N (0, 1)
                                     σ n




                  © Els autors, 2002; © Edicions UPC, 2002
2.5. CONVERGENCIA DE SUCESIONES DE VARIABLES ALEATORIAS205

Demostración: Sea Yn = Xn − µ (n = 1, 2, 3, ...). Es claro que las Yn son
variables aleatorias independientes con

                E(Yn ) = 0   y     E(Yn ) = σ 2
                                      2
                                                              (n = 1, 2, 3, ...)

Consideremos ahora las variables aleatorias
                                           n
                              1 X         Sn − nµ
                         Zn = √      Yi =    √
                             σ n i=1       σ n

Primero vamos a demostrar que la función característica de Zn tiende a la
función característica de la distribución normal estándar
                                                     2
                                   ϕ(t) = e−t            /2


En efecto, si ϕn es la función característica de Zn , entonces por definición
tenemos

                      ϕn (t) = E(eitZn )
                                "     Ã                        n
                                                                    !#
                                                      it X
                              = E exp                 √      Yi
                                                     σ n i=1

Ahora bien, de la independencia de las variables Yn , obtenemos
                                  Y ·
                                   n         µ
                                                itYi
                                                     ¶¸
                       ϕn (t) =       E exp      √
                                  i=1
                                                σ n
                                  Yn      µ      ¶
                                              t
                              =       ϕYi    √
                                  i=1
                                            σ n

Ahora bien, las variables Yn están idénticamente distribuidas y, por tanto, todas
ellas tienen la misma función característica ϕ. Así, tenemos
                                      · µ      ¶¸n
                                            t
                             ϕn (t) = ϕ     √                              (2.33)
                                           σ n
Desarrollando ahora ϕ en serie de Taylor en t = 0, obtenemos
            µ     ¶                                       µ      ¶
               t                t            t2              1
          ϕ    √    = ϕ(0) + √ ϕ0 (0) + 2 ϕ00 (0) + O
              σ n             σ n          2σ n             n3/2
en donde el símbolo                       µ          ¶
                                               1
                                      O
                                              n3/2
indica que el resto de los términos de la serie son infinitésimos de orden igual o
superior a 1/n3/2 cuando n tiende a infinito. De las propiedades de la función
característica (ver los teoremas 29 y 31), obtenemos

            ϕ(0) = 1, ϕ0 (0) = iE(Yn ) = 0, ϕ00 (0) = i2 E(Yn ) = −σ2
                                                            2




                             © Els autors, 2002; © Edicions UPC, 2002
206                                         CAPÍTULO 2. VARIABLES ALEATORIAS

Así, tenemos
                              µ         ¶                        µ          ¶
                                   t            t2                    1
                          ϕ        √        =1−    +O
                                  σ n           2n                   n3/2

Por tanto, de (2.33), tenemos

                                  · µ       ¶¸n
                                         t
                  l´ ϕn (t) = l´
                   ım          ım ϕ     √
                 n→∞          n→∞     σ n
                                  ·           µ      ¶¸n
                                       t2        1
                               ım 1 −
                            = l´           +O
                              n→∞     2n        n3/2
                                  ·     2
                                           ¸n
                                       t
                            = l´
                               ım 1 −
                              n→∞     2n
                                               2
                                    = e−t          /2



es decir, la función característica de

                                                    Sn − nµ
                                        Zn =           √
                                                     σ n

tiende a la función característica de la distribución normal estándar y, en conse-
cuencia, por el teorema de Glivenko (ver teorema 41), obtenemos que la función
de distribución de Zn también tenderá a la función de distribución normal es-
tándar.


Observación 44 En la práctica, podemos hacer la aproximación

                                                        √
                    Sn = X1 + X2 + · · · + Xn ≈ N (nµ, σ n)

es decir, la distribución de la variable suma √n se puede aproximar por una
                                              S
normal de parámetros µ = nE(Xn ) y σ = σ Xn n, siempre que las variables Xn
sean independientes, idénticamente distribuidas y n sea suficientemente grande.


Ejemplo 88 Sea (Xn ) una sucesión de variables aleatorias de Poisson de parámetro
λ = 2 e independientes. Definimos las variables aleatorias

                                     n
                                     X
                              Yn =          Xn          (n = 1, 2, 3, ...)
                                     k=1


Calcular P (90 < Y50 < 110).




                © Els autors, 2002; © Edicions UPC, 2002
2.5. CONVERGENCIA DE SUCESIONES DE VARIABLES ALEATORIAS207

   Solución: Observamos primero que

                            µ = E(Xn )
                                ∞
                                X
                              =    n · P (Xn = n)
                                       n=0
                                       X∞
                                                       2n
                                =            n · e−2
                                       n=0
                                                       n!
                                             ∞
                                             X      2n
                                = e−2
                                             n=1
                                                 (n − 1)!
                                                ∞
                                               X 2n−1
                                = 2e−2
                                               n=1
                                                   (n − 1)!
                                = 2e−2 · e2 = 2

y como
                            ∞
                            X
                 2
              E(Xn ) =            n2 · P (Xn = n)
                            n=0
                            X∞
                                             2n
                        =         n2 · e−2
                            n=0
                                             n!
                                  ∞
                                  X     n2n
                        = e−2
                                  n=1
                                      (n − 1)!
                                ∞
                               X n2n−1
                        = 2e−2
                               n=1
                                   (n − 1)!
                                ∞ µ
                               X (n − 1)2n−1               ¶
                                                   2n−1
                        = 2e−2                  +
                               n=1
                                       (n − 1)!   (n − 1)!
                                      ∞
                                     X 2n−2               ∞
                                                         X 2n−1
                        = 22 e−2                  + 2e−2
                                     n=2
                                         (n − 2)!        n=1
                                                             (n − 1)!
                        = 4e−2 · e2 + 2e−2 · e2 = 6

tenemos
                                 2                          2
                  V ar(Xn ) = E(Xn ) − (E(Xn )) = 6 − 4 = 2
Aplicando el teorema de Lévy-Lindeberg, obtenemos
                            Yn − 2n D
                             √      −→ Z ∼ N (0, 1)
                               2n
y, por tanto, la variable aleatoria
                                   Y50 − 100
                            Z=               ∼ N (0, 1)
                                       10




                              © Els autors, 2002; © Edicions UPC, 2002
208                                       CAPÍTULO 2. VARIABLES ALEATORIAS

se distribuye aproximadamente como una normal estándar. Como consecuencia,
obtenemos
                                µ                                  ¶
                                  90 − 100   Y50 − 100   110 − 100
       P (90 < Y50 < 110) = P              <           <
                                     10          10         10
              = P (−1 < Z < 1)
              = 0,8413 − 0,1587
              = 0,6826



Corolario 4 (Teorema de De Moivre-Laplace) Sea (Xn ) una sucesión de
variables aleatorias independientes e identicamente distribuidas, con distribu-
ción de Bernouilli de parámetro p. Entonces
                    Sn − np D
                     √      −→ Z ∼ N (0, 1)                     (q = 1 − p)
                       npq

Demostración: Tenemos
               ½
                 1 con probabilidad p
         Xn =                                                     (n = 1, 2, 3, ...)
                 0 con probabilidad 1 − p

Entonces,
                                       p           p        p          √
      µ = E(Xn ) = p     y      σ=      V ar(Xn ) = p − p2 = p(1 − p) = pq

siendo q = 1 − p. Por el teorema de Lévy-Lindeberg,
                               Sn − np D
                                √      −→ Z ∼ N (0, 1)
                                  npq



Observación 45 Si las Xn son independientes e idénticamente distribuidas,
con distribución de Bernouilli de parámetro p, entonces
                                                   n
                                                   X
                                          Sn =             Xk
                                                   k=1

se distribuye como una binomial de parámetros n y p, el teorema de De Moivre-
Laplace también establece que
                                                     √
                   Sn = X1 + X2 + · · · + Xn ≈ N (np, npq)

es decir, podemos aproximar la distribución binomial de parámetros n y p por
                                          √
una normal de parámetros µ = np y σ = npq, siempre que n sea suficiente-
mente grande.




                © Els autors, 2002; © Edicions UPC, 2002
2.5. CONVERGENCIA DE SUCESIONES DE VARIABLES ALEATORIAS209

Ejemplo 89 Se lanza 1000 veces una moneda perfecta. Si sale cara en la prueba
k-ésima hacemos Xk = 1 y si sale cruz, Xk = 0. Calcular
                          Ã        1000
                                                !
                                   X
                        P 500 <         Xk < 550
                                            k=1

   Solución: Al tratarse de variables aleatorias de Bernoulli de parámetro p =
1/2 e independientes, podemos aplicar el teorema de De Moivre-Laplace
                   Sn − np D
                    √      −→ Z ∼ N (0, 1)                     (q = 1 − p)
                      npq
siendo                                         n
                                               X
                                      Sn =            Xk
                                               k=1
y, por tanto, la variable aleatoria
                                   S1000 − 500
                           Z=         √        ∼ N (0, 1)
                                        250
se distribuye aproximadamente como una normal estándar. Como consecuencia,
obtenemos
          Ã       1000
                               !
                  X
       P 500 <         Xk < 550  = P (500 < S1000 < 550)
                 k=1
                                                  µ                          ¶
                                              500 − 500    550 − 500
                                        = P     √       <Z< √
                                                  250          250
                                        = P (0 < Z < 3,16)
                                        = 0,4992



    El teorema 48 es una versión del teorema del límite central. Otra versión,
menos restrictiva, viene dada por el teorema de Liapunov. En concreto, este teo-
rema no exige que las variables aleatorias de la sucesión dada sean idénticamente
distribuidas. Enunciaremos este teorema sin hacer la demostración.

Teorema 57 (Teorema de Liapunov) Sea (Xn ) una sucesión de variables  £            ¤
aleatorias independientes con esperanzas µ = E(Xn ) y varianzas σ2 = E (Xn − µn )2
                                                                 n
finitas para todo n = 1, 2, 3, .... Si se cumple

                             1 X h               i
                                 n
                                               3
                         l´
                          ım       E |Xk − µk | = 0
                        n→∞ σ 3
                              Sn      k=1

siendo                                         n
                                               X
                                      Sn =            Xk
                                               k=1




                               © Els autors, 2002; © Edicions UPC, 2002
210                                       CAPÍTULO 2. VARIABLES ALEATORIAS

y
                                                    n
                                                    X
                                          σ2 n =
                                           S               σ2
                                                            k
                                                    k=1

entonces
                            Sn − E(Sn ) D
                            p           −→ Z ∼ N (0, 1)
                              V ar(Sn )

Observación 46 Este resultado es fundamental para la gran mayoría de apli-
caciones prácticas. Por ejemplo, gracias a este resultado podemos suponer que
muchas variables aleatorias como pesos, alturas, etc. siguen una distribución
normal, porque cada una de ellas es suma de un gran número de variables aleato-
rias independientes. Así la altura de una persona es suma de muchos factores:
hereditario, alimentación, tipo de vida, etc. Los errores, llamados aleatorios, que
se presentan en observaciones astronómicas, pesadas de una balanza, etc. y, en
general, en la mayoría de las medidas con algún aparato, son la suma de un
número elevado de errores elementales independientes: corrientes de aire, vibra-
ciones, error de apreciación, etc. Por tal motivo los errores aleatorios siguen
también una distribución normal.

Rapidez en la convergencia. Teorema de Poisson
   Consideremos una sucesión de variables aleatorias (Xn ) que satisface el teo-
rema del límite central, es decir, se dan las condiciones suficientes para que

                            Sn − E(Sn ) D
                            p           −→ Z ∼ N (0, 1)
                              V ar(Sn )

Una cuestión que se plantea de forma natural es la de saber con qué rapidez la
función de distribución Fn de la variable aleatoria
                                           Sn − E(Sn )
                                           p
                                             V ar(Sn )

tiende a la función de distribución normal estándar
                                       Z x
                                     1         2
                           Φ(x) = √         e−t /2 dt
                                     2π −∞
La respuesta a esta pregunta tiene implicaciones muy importantes en la práctica,
pues, si la convergencia es rápida, entonces podremos aproximar Fn por Φ para
valores de n relativamente pequeños, mientras que si la convergencia es lenta,
la aproximación de Fn por Φ sólo se podrá hacer para valores grandes o muy
grandes de n. En muchos casos la situación es de este modo como se pone de
manifiesto en el siguiente teorema que damos sin demostración.

Teorema 58 (Teorema de Berry-Essen) Sea (Xn ) una sucesión de vari-
ables aleatorias independientes con esperanzas µ = E(Xn ) y varianzas σ 2 =
                                                                        n




                © Els autors, 2002; © Edicions UPC, 2002
2.5. CONVERGENCIA DE SUCESIONES DE VARIABLES ALEATORIAS211
  £             ¤
E (Xn − µn )2 finitas para todo n = 1, 2, 3, ..., que satisface el teorema del
límite central. Sea Fn la función de distribución de la variable aleatoria
                                    Sn − E(Sn )
                                    p
                                      V ar(Sn )

y sea Φ la función de distribución normal estándar
                                       Z x
                                    1          2
                          Φ(x) = √          e−t /2 dt
                                    2π −∞
Entonces, se cumple
                                                        cγ n
                            |Fn (x) − Φ(x)| ≤                             (2.34)
                                                        σ3 n
                                                         S

para todo x ∈ R y n ∈ N, siendo c es una constante tal que
                                          1
                                      c≥ √
                                          2π
                                             n
                                             X
                                   σ2 n =
                                    S              σ2
                                                    k
                                             k=1
y
                                   n
                                   X      h            i
                           γn =          E |Xk − µk |3
                                   k=1

Observación 47 Si las variables aleatorias Xn están idénticamente distribuidas,
entonces
                        σ 2 n = nσ 2 y γ n = nγ
                          S

y, como consecuencia, la condición (2.34) se escribe ahora como sigue
                                                cγ
                           |Fn (x) − Φ(x)| ≤     √
                                               σ3 n
                                               √
De aquí, al ser muy lenta la convergencia de 1/ n a cero, vemos que, en general,
Fn converge lentamente a Φ. Además, si σ es pequeña, la convergencia es aún
más lenta.
   Por ejemplo, para variables aleatorias de Bernoulli con
                   ½
                      1 con probabilidad p
             Xn =                                   (n = 1, 2, 3, ...)
                      0 con probabilidad 1 − p

tenemos
                      µ=p     σ 2 = pq         γ = pq(p2 + q 2 )
siendo q = 1 − p. En este caso (2.34) se expresa como sigue

                                                   c(p2 + q 2 )
                         |Fn (x) − Φ(x)| ≤           √
                                                       npq




                            © Els autors, 2002; © Edicions UPC, 2002
212                                       CAPÍTULO 2. VARIABLES ALEATORIAS

Por tanto, la aproximación de Fn por Φ es bastante pobre para valores de p
próximos a 0 o 1, incluso si n es grande. Sin embargo, el problema de la conver-
gencia a la distribución normal estándar para sumas de variables de Bernoulli
queda resuelto por el teorema de Poisson, cuando p está próximo a 0 o 1.

   El siguiente teorema probará que la distribución de Poisson puede obetenerse
como límite de una distribución binomial.

Teorema 59 (Teorema de Poisson) Supongamos que para cada n ≥ 1 ten-
emos una sucesión de variables aleatorias de Bernoulli Xn1 , Xn2 , ..., Xnn con
                 ½
                    1 con probabilidad pn
          Xnk =                                     (k = 1, 2, ...n)
                    0 con probabilidad 1 − pn

Dicho de otro modo, tenemos una sucesión bidimensional de variable aleatorias
de Bernoulli
                          X11
                          X21 , X22
                          X31 , X32 , X33
                          ···
                          Xn1 , Xn2 , Xn3 , ..., Xnn
                          ···
Sea
                                                  n
                                                  X
                                         Sn =              Xnk
                                                  k=1

Si
                                            l´ pn = 0
                                             ım
                                           n→∞

de manera que
                                       l´ npn = λ > 0
                                        ım
                                      n→∞

entonces
                                      e−λ λk
                    l´ P (Sn = k) =
                     ım                       (k = 0, 1, 2, ...)
                    n→∞                 k!
es decir, la distribución de la variable suma Sn tiende a una distribución de
Poisson.
Demostración: Al ser las variables aleatorias Xnk independientes, la función
característica ϕn de Sn se escribe como sigue
                                                n
                                                Y     ¡       ¢
                                  ϕn (t) =           E eitXnk
                                               k=1

Ahora bien, es claro que
 ¡       ¢
E eitXnk = e0 P (Xnk = 0) + eit P (Xnk = 1) = 1 − pn + eit pn = 1 + pn (eit − 1)




                © Els autors, 2002; © Edicions UPC, 2002
2.5. CONVERGENCIA DE SUCESIONES DE VARIABLES ALEATORIAS213

para k = 1, 2, ..., n. Por tanto, obtenemos
                                      £                ¤n
                             ϕn (t) = 1 + pn (eit − 1)                         (2.35)
Si
                                       l´ pn = 0
                                        ım
                                      n→∞
de manera que
                                  l´ npn = λ > 0
                                   ım
                                 n→∞
entonces podemos escribir
                                                    µ        ¶
                                     λ                  1
                                 pn = + O
                                     n                  n2
luego, de (2.35), obtenemos
                              ·                  µ ¶¸n
                                  λ               1
                      ϕn (t) = 1 + (eit − 1) + O
                                  n               n2
y, en consecuencia,                        £          ¤
                            l´ ϕn (t) = exp λ(eit − 1)
                             ım
                           n→∞
que es la función característica de la distribución de Poisson de parámetro λ.
De este modo, por el teorema de Glivenko (ver teorema 41), deducimos

                                           e−λ λk
                    l´ P (Sn = k) =
                     ım                                  (k = 0, 1, 2, ...)
                   n→∞                       k!
que es lo que queríamos demostrar.
Observación 48 Para sumas
                                              n
                                              X
                                     Sn =           Xk
                                              k=1

de variables aleatorias de Bernoulli, independientes y con P (Xn = 1) = p (n =
1, 2, 3, ...), es decir, para una distribución binomial de parámetros n y p, son
posibles dos distribuciones límite. Por un lado, según el teorema de De Moivre-
Laplace, tenemos la distribución normal estándar
                    Sn − np D
                     √      −→ Z ∼ N (0, 1)                      (q = 1 − p)
                       npq
aproximación que funciona bien cuando p no está próximo a 0 o 1 y n es sufi-
cientemente grande. Por otro lado, según este teorema, tenemos la distribución
de Poisson
                                     e−λ λk
                  l´ P (Sn = k) =
                   ım                         (k = 0, 1, 2, ...)
                 n→∞                   k!
aproximación que funciona bien cuando p está próximo a 0 o 1 aunque sea n
grande. No obstante, si λ es suficientemente grande, la distribución de Poisson
puede aproximarse a la distribución normal estándar (ver teorema 52).




                              © Els autors, 2002; © Edicions UPC, 2002
214                                         CAPÍTULO 2. VARIABLES ALEATORIAS

Teorema 60 Sea X una variable aleatoria de Poisson con parámetro λ y con-
sideremos la siguiente variable aleatoria
                                                     X −λ
                                            Yλ =      √
                                                       λ
Entonces, cuando λ tiende a infinito, la distribución de Yλ tiende a la distribu-
ción normal estándar.
Demostración: Por las propiedades de la función característica, obtenemos la
función característica de Yλ
                                                   µ     ¶
                               ¡ itY ¢       √
                                          −it λ       t
                     ϕλ (t) = E e   λ
                                       =e       ϕX √
                                                       λ
donde ϕX es la función característica de X, es decir,
                                        £         ¤
                          ϕX (t) = exp λ(eit − 1)

Por tanto,
                           √
                                      µ         ¶        h √            √      i
                        −it λ              t
             ϕλ (t) = e          ϕX       √         = exp −it λ + λ(eit/ λ − 1)
                                            λ
                                                             √                                   √
Si λ tiende a infinito, podemos desarrollar eit/               λ
                                                                      en serie de potencias de 1/ λ
                                                                      µ      ¶
                               √        it  t2                            1
                          eit/  λ
                                    =1+ √ −    +O
                                         λ 2λ                          λ3/2
y, por tanto, obtenemos
                   h √            √      i     · 2    µ      ¶¸
                                                 t       1
       ϕλ (t) = exp −it λ + λ(eit/ λ − 1) = exp − + O
                                                 2      λ1/2
y, en consecuencia, tenemos
                                                             2
                                        l´ ϕλ (t) = e−t
                                         ım                      /2
                                       n→∞

que es la función característica de la distribución normal estándar. De este
modo, por el teorema de Glivenko (ver teorema 41), deducimos que cuando λ
tiende a infinito, la distribución de Yλ tiende a la distribución normal estándar.


Corrección de continuidad
    En las aplicaciones prácticas, para aproximar una distribución discreta, como
lo son la binomial y la de Poisson, a una distribución normal estándar que es
absolutamente continua, hay que utilizar la corrección de continuidad.
    Como consecuencia del teorema de De Moivre-Laplace, para n grande, la
distribución binomial de parámetros n y p puede considerarse aproximadamente




                  © Els autors, 2002; © Edicions UPC, 2002
2.5. CONVERGENCIA DE SUCESIONES DE VARIABLES ALEATORIAS215
                                                       p
una distribución normal de parámetros µ = np y σ = np(1 − p). Así, si X es
un variable aleatoria binomial de parámetros n y p, cuya función de distribución
es
                                  X µn¶
                                  [x]
                          F (x) =        pk (1 − p)n−k
                                      k
                                             k=0

Entonces, la fórmula de la aproximación con corrección de continuidad de la
binomial a la normal estándar es

                              X µn¶
                              b
    P (a ≤ X ≤ b) =                pk (1 − p)n−k = P (a − 0,5 ≤ X ≤ b + 0,5)
                                 k
                              k=a
                     Z   b0
                1                  2
          '    √              e−t      /2
                                            dt = Φ(b0 ) − Φ(a0 )
                2π    a0

para cualquier pareja de enteros no negativos a y b (b > a), siendo

                         a − np − 0,5                          b − np + 0,5
                    a0 = p                              y b0 = p
                           np(1 − p)                              np(1 − p)

En general, la aproximación es suficiente si n ≥ 30 y 0,1 < p < 0,9. Si 0,1 ≥
p ≥ 0,9 o n < 30, la aproximación es aceptable si np > 5. Si p ' 0,5, la
proximación sigue siendo válida si np > 3, incluso para valores muy moderados
de n. Si n ≥ 30, 0,1 ≥ p ≥ 0,9 y np ≤ 5, la binomial puede aproximarse a
una distribución de Poisson de parámetro λ = np por el teorema de Poisson.
Finalmente, si n < 30 y np ≤ 5, la binomial debe calcularse directamente como
una binomial, utilizando las tablas.
    En el teorema 52 hemos demostrado que la distribución de Poisson √  puede
aproximarse por la distribución normal de parámetros µ = λ y σ = λ, si
el parámetro λ es suficientemente grande. En la práctica, la aproximación se
considera aceptable si λ > 5, mejorando a medida que aumenta λ. La fórmula
de la aproximación con corrección de continuidad es
                                            b
                                            X          λk
         P (a ≤ X ≤ b) =                         e−λ      = P (a − 0,5 ≤ X ≤ b + 0,5)
                                                       k!
                                         k=a
                               Z    b0
                      1                      2
                '    √                   e−t     /2
                                                      dt = Φ(b0 ) − Φ(a0 )
                      2π        a0

para cualquier pareja de enteros no negativos a y b (b > a), siendo

                               a − λ − 0,5                          b − λ + 0,5
                     a0 =          √                    y b0 =          √
                                     λ                                    λ
Ejemplo 90 Se sabe que el 1 % de los artículos importados de un determinado
país tiene algún defecto. Si tomamos una muestra de 30 artículos, determinar
la probabilidad de que tres o más de ellos tengan algún defecto.




                                       © Els autors, 2002; © Edicions UPC, 2002
216                                       CAPÍTULO 2. VARIABLES ALEATORIAS

   Solución: Es claro que el número X de artículos con algún defecto de la
muestra sigue una distribución binomial de parámetros n = 30 y p = 0,01.
Luego, la probabilidad que nos piden es P (X ≥ 3). Para calcularla, podemos
hacer una aproximación a la distribución de Poisson, pues p ≤ 0,1, n ≥ 30 y
np ≤ 5. En este caso, el parámetro de la distribución de Poisson es λ = np = 0,3.
Por tanto,
      P (X ≥ 3) = 1 − P (X < 3) = 1 − P (X ≤ 2) ' 1 − 0,9964 = 0,0036
en donde hemos utilizado las tablas de la distribución de Poisson.
Ejemplo 91 Calcular las siguientes probabilidades, directamente y por aprox-
imación a la distribución normal estándar: (1) P (3 ≤ X ≤ 6), siendo X una
variable aleatoria binomial de parámetros n = 20 y p = 0,26, y (2) P (2 ≤ X ≤
10), donde X es una variablea aleatoria de Poisson de parámetro λ = 6.
    Solución: (1) Utilizando las tablas de la distribución binomial, obtenemos
directamente
                              X µ20¶
                               6
             P (3 ≤ X ≤ 6) =            · 0,26k · 0,7420−k = 0,67697
                                    k
                              k=3
                                               p               √
Puesto que µ = np = 20 · 0,26 = 5,2 y σ = np(1 − p) = 20 · 0,26 · 0,74 =
1,96, por aproximación a la distribución normal estándar, tenemos
               P (3 ≤ X ≤ 6) = P (3 − 0,5 ≤ X ≤ 6 + 0,5)
                    = P (2,5 ≤ X ≤ 6,5)
                        µ                                 ¶
                          2,5 − 5,2   X − 5,2   6,5 − 5,2
                    ' P             ≤         ≤
                             1,96       1,96      1,96
                    = P (−1,378 ≤ Z ≤ 0,663)
                    = 0,66225
donde Z ∼ N (0, 1). Observamos que la aproximación es aceptable.
   (2) Utilizando las tablas de la distribución de Poisson, obtenemos directa-
mente
                                       X10
                                               6k
                    P (2 ≤ X ≤ 10) =       e−6    = 0,94003
                                               k!
                                       k=2
                                 √
Puesto que µ = λ = 6 y σ = 6, por aproximación a la normal estándar,
tenemos
               P (2 ≤ X ≤ 10) = P (2 − 0,5 ≤ X ≤ 10 + 0,5)
                    = P (1,5 ≤ X ≤ 10,5)
                        µ                             ¶
                          1,5 − 6   X −6     10,5 − 6
                    ' P      √    ≤ √      ≤ √
                              6        6          6
                    = P (−1,837 ≤ Z ≤ 1,837)
                    = 0,93375
donde Z ∼ N (0, 1). Observamos que la aproximación también es aceptable.




                © Els autors, 2002; © Edicions UPC, 2002

Demostraciones probabilidad

  • 1.
    Capítulo 2 Variables aleatorias 2.1. Introducción En un espacio de probabilidades (Ω, A, P ) los elementos del espacio mues- tral Ω no tienen por qué ser números. En la tirada de una moneda al aire, los sucesos elementales, cara y cruz, no son valores numéricos. No obstante, siem- pre podemos hacer corresponder el número 1 a la cara, y el 0 a la cruz. Esta asignación de valores numéricos a los sucesos elementales de un espacio de prob- abilidades es la base para definir el concepto de variable aleatoria. En efecto, una variable aleatoria será una aplicación X definida sobre el espacio muestral Ω tal que a cada suceso elemental ω le hace corresponder un valor numérico X(ω). Este número puede ser real o complejo, e incluso un vector cuando las variables aleatorias son n-dimensionales. No obstante, aquí sólo estudiaremos el caso real, tratando con detalle las variables aleatorias unidimensionales y bidimensionales y dejando al lector la generalización al caso n-dimensional. Sin embargo, para estudiar las variables aleatorias no sólo hay que conocer los valores que puede tomar sino que también es necesario conocer la probabilidad con que toma estos valores. Por ejemplo, si la variable aleatoria X fuera el 49 © Els autors, 2002; © Edicions UPC, 2002
  • 2.
    50 CAPÍTULO 2. VARIABLES ALEATORIAS número de éxitos en n pruebas de Bernoulli, será preciso conocer la probabilidad de que la variable aleatoria sea menor, igual o mayor que un determinado número k; si la variable aleatoria X fuera la intensidad de corriente que pasa por un circuito eléctrico, sabiendo que fluctúa entre 1 y 2 amperios, habrá que conocer probabilidades tales como la de que la intensidad esté comprendida entre 1 y 1.2 amperios. Por definición de probabilidad, sólo los sucesos de la σ-álgebra A tienen asig- nada probabilidad. Esto significa que para calcular la probabilidad de que una variable aleatoria X tome valores de un cierto intervalo real [x1 , x2 ] habrá que traducir esta información en términos de sucesos de A. Para ello, introducimos la siguiente notación: designaremos por [x1 ≤ X ≤ x2 ] el suceso formado por todos los ω ∈ Ω que hacen que X(ω) tome un valor real del intervalo [x1 , x2 ], es decir, [x1 ≤ X ≤ x2 ] = {ω ∈ Ω : x1 ≤ X(ω) ≤ x2 } Del mismo modo, tenemos [X = x] = {ω ∈ Ω : X(ω) = x} [X ≤ x] = {ω ∈ Ω : X(ω) ≤ x} y, en general, si M es un subconjunto de la recta real, entonces [X ∈ M ] = {ω ∈ Ω : X(ω) ∈ M } Para poder asignar probabilidades a todos estos sucesos debemos primero asegu- rarnos de que son sucesos de la σ-álgebra A. Si el espacio muestral Ω es discreto y A = P(Ω), entonces cualquier suceso es un suceso de la σ-álgebra y, por tan- to, todos estos subconjuntos de Ω tendrán probabilidades bien asignadas. Sin embargo, si el espacio muestral es continuo, no podemos asegurar que sucesos tales como [X ∈ M ] sean sucesos de A, y, en consecuencia, no podemos asegurar que tengan asignada una probabilidad. Sin embargo, se puede demostrar que si imponemos la condición de que [X ≤ x] = {ω ∈ Ω : X(ω) ≤ x} ∈ A (2.1) para todo x ∈ R, entonces todos los sucesos de la forma [X ∈ M ] tienen prob- abilidad bien asignada. Es evidente que la condición (5.1) hace que no toda aplicación de Ω en R pueda considerarse automáticamente como una variable aleatoria. No obstante, cuando Ω sea finito o numerable y se tome A = P(Ω), entonces toda aplicación X : Ω → R cumplirá la condición (5.1). Por tanto, es este caso particular, cualquier función real definida sobre Ω es una variable aleatoria. Observación 10 Dado un espacio de probabilidades (Ω, A, P ) y una variable aleatoria X, ésta induce sobre el espacio probabilizable (R, B), formado por la recta real y la σ-álgebra de Borel sobre R, una probabilidad PX mediante la © Els autors, 2002; © Edicions UPC, 2002
  • 3.
    2.2. DEFINICIÓN DEVARIABLE ALEATORIA 51 cual (R, B, PX ) es un espacio de probabilidades. Entonces, se llama función de distribución de la variable aleatoria X a la función FX : R → R definida por FX (x) = PX ((−∞, x]) = P (X −1 (−∞, x]) = P ({ω ∈ Ω : X(ω) ≤ x}) = P ([X ≤ x]) De este modo, podríamos definir una variable aleatoria como una función real X definida sobre Ω tal que para todo número real x está definida la probabilidad P ([X ≤ x]) y, por tanto, su función de distribución. Es aquí cuando necesitamos que [X ≤ x] ∈ A para todo x ∈ R, o sea la condición (5.1). Además, de las propiedades de los borelianos sobre R se deduce el hecho de que esta condición sea la única a imponer para que podamos calcular las probabilidades de otros sucesos tales como [x1 ≤ X ≤ x2 ] , [X = x], o [X ∈ Q]. 2.2. Definición de variable aleatoria Sea (Ω, A, P ) un espacio de probabilidades, se dice que una aplicación X:Ω → R es una variable aleatoria (real) si para todo x ∈ R se cumple {ω ∈ Ω : X(ω) ≤ x} ∈ A En tal caso, como ya hemos visto en la introducción, este suceso se escribe abreviadamente como [X ≤ x]. Obsérvese que designamos por letras mayús- culas X, Y, Z, ... las variables aleatorias, y por letras minúsculas x, y, z, ... sus correspondientes valores. Ejemplo 32 1. En el lanzamiento de una moneda al aire tenemos Ω = {c, +}, en donde hemos simbolizado cara por c y cruz por +, y tomamos A = P(Ω). Entonces la aplicación X "número de veces que sale cara"es una variable aleatoria. En efecto, es claro que X(c) = 1 y X(+) = 0, y además se cumple   ∅∈A si x < 0 [X ≤ x] = {ω ∈ Ω : X(ω) ≤ x} = {+} ∈ A si 0 ≤ x < 1  Ω∈A si x ≥ 1 2. El tipo más simple de variable aleatoria es el que sirve para indicar si se realizó un suceso. Sea (Ω, A, P ) un espacio de probabilidades y considere- mos un suceso A ∈ A, entonces la aplicación ½ 1 si ω ∈ A IA (ω) = 0 si ω ∈ A / © Els autors, 2002; © Edicions UPC, 2002
  • 4.
    52 CAPÍTULO 2. VARIABLES ALEATORIAS es una variable aleatoria que se llama indicador del suceso A. En efecto, se cumple   ∅ ∈ A si x < 0 [X ≤ x] = {ω ∈ Ω : X(ω) ≤ x} = A ∈ A si 0 ≤ x < 1  Ω ∈ A si x ≥ 1 3. Sea Ω el conjunto de resultados en la tirada de un dado y A = {∅, {2, 4, 6}, {1, 3, 5}, Ω} el álgebra de sucesos. Definimos sobre (Ω, A) las siguientes aplicaciones: ½ ½ 1 si i ∈ {1, 2, 3} 1 si i es par X1 (i) = y X2 (i) = 2 si i ∈ {4, 5, 6} 2 si i es impar Entonces, la aplicación X1 no es una variable aleatoria, pues   ∅∈A si x < 1 [X1 ≤ x] = {ω ∈ Ω : X1 (ω) ≤ x} = {1, 2, 3} ∈ A si 1 ≤ x < 2 /  Ω∈A si x ≥ 2 mientras que X2 es una variable aleatoria, pues   ∅∈A si x < 1 [X2 ≤ x] = {ω ∈ Ω : X2 (ω) ≤ x} = {2, 4, 6} ∈ A si 1 ≤ x < 2  Ω∈A si x ≥ 2 Ejemplo 33 Consideremos el experimento aleatorio de lanzar dos dados al aire. Expresar su espacio muestral. Definimos la aplicación X "suma de los puntos obtenidos en los dos dados", ¿es X una variable aleatoria? ¿Cuáles son los sucesos [X = 7], [X ≤ 1], [X > 12] y [2 < X ≤ 7]? Solución: Es claro que Ω = {(1, 1), (1, 2), ...(1, 6), ..., (6, 1), (6, 2), ..., (6, 6)} Definimos X: Ω −→ R (i, j) 7−→ i + j Si sobre Ω consideramos la σ-álgebra dada por A = P (Ω), es fácil comprobar que para todo x ∈ R se cumple {(i, j) ∈ Ω : X(i, j) = i + j ≤ x} ∈ A Tenemos [X = 7] = {(i, j) ∈ Ω : i + j = 7} = {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)} [X ≤ 1] = {(i, j) ∈ Ω : i + j ≤ 1} = ∅ [X > 12] = {(i, j) ∈ Ω : i + j > 12} = Ω © Els autors, 2002; © Edicions UPC, 2002
  • 5.
    2.2. DEFINICIÓN DEVARIABLE ALEATORIA 53 [2 < X ≤ 7] = {(i, j) ∈ Ω : 2 < i + j ≤ 7} = {(1, 2), (2, 1), (1, 3), (2, 2), (3, 1), (1, 4), (2, 3), (3, 2), (4, 1), (1, 5), (2, 4), (3, 3), (4, 2), (5, 1), (1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)} Ejemplo 34 Consideremos el experimento que consiste en tirar dos monedas al aire. Representamos los sucesos ”sale cara” y ”sale cruz” mediante c y x, respec- tivamente. Expresar su espacio muestral. Definimos la aplicación X "número de caras obtenidas en el lanzamiento", ¿es X una variable aleatoria? ¿Cuáles son los sucesos [X = 1,5], [X ≤ 1], [X > 1] y [0,5 < X < 1,5]? Solución: Es claro que Ω = {cc, cx, xc, xx} y que X(xx) = 0, X(cx) = X(xc) = 1 y X(cc) = 2. Además, si tomamos A = P(Ω), se cumple   ∅∈A  si x<0  {xx} ∈ A si 0≤x<1 {ω ∈ Ω : X(ω) ≤ x} =  {xx, cx, xc} ∈ A  si 1≤x<2  Ω∈A si x≥2 y, por tanto, X es una variable aleatoria. Entonces, tenemos [X = 1,5] = {ω ∈ Ω : X(ω) = 1,5} = ∅ [X ≤ 1] = {ω ∈ Ω : X(ω) ≤ 1} = {xx, cx, xc} [X > 1] = [X ≤ 1] = {cc} [0,5 < X < 1,5] = {ω ∈ Ω : 0,5 < X(ω) < 1,5} = {cx, xc} 2.2.1. Operaciones con variables aleatorias El propósito de esta sección es definir las operaciones algebraicas entre vari- ables aleatorias y demostrar que las nuevas aplicaciones formadas son también variables aleatorias. Suma de variables aleatorias La suma de dos variables aleatorias X, Y definidas sobre un mismo espacio de probabilidades (Ω, A, P ) es otra aplicación, denotada por X + Y , que cumple (X + Y )(ω) = X(ω) + Y (ω) para cada ω ∈ Ω. © Els autors, 2002; © Edicions UPC, 2002
  • 6.
    54 CAPÍTULO 2. VARIABLES ALEATORIAS Teorema 9 Si X, Y son variables aleatorias sobre un espacio de probabilidades (Ω, A, P ), X + Y también lo es. Demostración: Sea x ∈ R y consideremos el conjunto [ A= ([X ≤ r] ∩ [Y < x − r]) r∈Q Como Q es numerable, A ∈ A. Es claro que A ⊂ [X + Y < x] Sea ω ∈ [X + Y < x], entonces X(ω) + Y (ω) < x Consideremos cualquier número racional r0 tal que X(ω) < r0 < x − Y (ω) Entonces X(ω) < r0 y Y (ω) < x − r0 y, por tanto, ω ∈ [X ≤ r0 ] ∩ [Y < x − r0 ] ⊂ A. Como consecuencia, tenemos A = [X + Y < x] ∈ A para todo x ∈ R. De aquí, · ¸ 1 X +Y <x+ n ∈A 2 y, en consecuencia, · ∞ 1 ¸ X + Y < x + n = [X + Y ≤ x] ∈ A n=1 2 Producto de un número real por una variable aleatoria El producto de un número real k por una variable aleatoria X definida sobre un espacio de probabilidades (Ω, A, P ) es otra aplicación, denotada por kX, que satisface (kX)(ω) = k · X(ω) para cada ω ∈ Ω. Teorema 10 Si k ∈ R y X es una variable aleatoria sobre un espacio de prob- abilidades (Ω, A, P ), kX también lo es. Demostración: Consideremos tres casos: © Els autors, 2002; © Edicions UPC, 2002
  • 7.
    2.2. DEFINICIÓN DEVARIABLE ALEATORIA 55 Caso 1 k = 0 En este caso, evidentemente tenemos ½ ∅ si x < 0 [kX ≤ x] = Ω si x ≥ 0 Caso 2 k > 0 En este caso, para todo x ∈ R tenemos h xi [kX ≤ x] = X ≤ ∈A k Caso 3 k < 0 En este caso, para todo x ∈ R tenemos h xi h xi [kX ≤ x] = X ≥ = X< ∈A k k ya que h xi [· ∞ x 1 ¸ X< = X≤ − n ∈A k n=1 k 2 pues, · ¸ x 1 X ≤ − n ∈A (n = 1, 2, 3, ...) k 2 La demostración de estos tres casos completa la prueba del teorema. Producto de variables aleatorias La producto de dos variables aleatorias X, Y definidas sobre un mismo espacio de probabilidades (Ω, A, P ) es otra aplicación, denotada por XY , que cumple (XY )(ω) = X(ω) · Y (ω) para cada ω ∈ Ω. Teorema 11 Si X es una variable aleatoria sobre (Ω, A, P ), también lo es X 2 . Demostración: Es claro que si x < 0, entonces £ 2 ¤ X ≤x =∅∈A Supongamos ahora que x ≥ 0, entonces tenemos £ 2 ¤ £ √ √ ¤ £ √ ¤ £ √ ¤ X ≤x = − x≤X ≤ x = X ≤ x ∩ X ≥− x ∈A pues £ √ ¤ £ √ ¤ X ≥− x = X<− x ∈A y £ √ ¤ [· ∞ √ 1 ¸ X<− x = X ≤− x− n ∈A n=1 2 © Els autors, 2002; © Edicions UPC, 2002
  • 8.
    56 CAPÍTULO 2. VARIABLES ALEATORIAS Teorema 12 Si X, Y son variables aleatorias sobre un espacio de probabili- dades (Ω, A, P ), XY también lo es. Demostración: Aplicando el teorema 1, deducimos que X − Y y X + Y son variables aleatorias. Por el teorema 3, deducimos que (X + Y )2 y (X − Y )2 también lo son. Por último, por los teoremas 1 y 2 (X + Y )2 − (X − Y )2 = XY 4 es también una variable aleatoria. Cociente de variables aleatorias El cociente de dos variables aleatorias X, Y definidas sobre un mismo espa- cio de probabilidades (Ω, A, P ) es otra aplicación, denotada por X , que satisface Y X X(ω) ( )(ω) = Y Y (ω) ¡X ¢ para todo ω ∈ Ω, supuesto que Y (ω) 6= 0; obsérvese que Dom Y = [Y 6= 0]. Teorema 13 Si X, Y son variables aleatorias sobre un espacio de probabili- dades (Ω, A, P ) y [Y = 0] = ∅, entonces X también lo es. Y Demostración: Podemos escribir · ¸ µ· ¸ ¶ µ· ¸ ¶ X X X ≤x = ≤ x ∩ [Y < 0] ∪ ≤ x ∩ [Y > 0] Y Y Y = ([X ≥ xY ] ∩ [Y < 0]) ∪ ([X ≤ xY ] ∩ [Y > 0]) = ([X − xY ≥ 0] ∩ [Y < 0]) ∪ ([X − xY ≤ 0] ∩ [Y > 0]) Cada una de estas cuatro últimas clases de sucesos son también sucesos como puede comprobarse enseguida utilizando la técnica usada en las demostraciones de los teoremas 1, 2 o 3. Máximo y mínimo de variables aleatorias Dadas dos variables aleatorias X, Y definidas sobre un espacio de prob- abilidades (Ω, A, P ), definimos la función máximo de X, Y , denotada por m´x{X, Y }, mediante a m´x{X, Y }(ω) = m´x{X(ω), Y (ω)} a a para todo ω ∈ Ω. Del mismo modo, se define la función mínimo de X, Y , denotada por m´ ın{X, Y }, mediante m´ ın{X, Y }(ω) = m´ ın{X(ω), Y (ω)} para todo ω ∈ Ω. © Els autors, 2002; © Edicions UPC, 2002
  • 9.
    2.2. DEFINICIÓN DEVARIABLE ALEATORIA 57 Teorema 14 Si X, Y son variables aleatorias sobre un espacio de probabili- dades (Ω, A, P ), entonces m´x{X, Y } y m´ a ın{X, Y } son también variables aleato- rias. Demostración: El teorema se sigue de los dos hechos siguientes [m´x{X, Y } ≤ x] = [X ≤ x] ∩ [Y ≤ x] ∈ A a y [m´ ın{X, Y } ≤ x] = [X ≤ x] ∪ [Y ≤ x] ∈ A Puede también probarse que m´ ın{X, Y } = − m´x{−X, −Y } a y de aquí, demostrar que m´ es una variable aleatoria. ın 2.2.2. Funciones de distribución. Propiedades Si X es una variable aleatoria sobre un espacio de probabilidades (Ω, A, P ), se llama función de distribución de X a la función real de variable real FX definida por FX (x) = P ([X ≤ x]) para todo x ∈ R. Esta función se introduce para conocer cómo se reparte la probabilidad de los valores que toma la variable aleatoria. Obsérvese que si [X ≤ x] no fuera un suceso de A, FX (x) no estaría definida (ver la observación 1). Escribiremos F en lugar de FX cuando no haya confusión posible, y también P (X ≤ x) en lugar de P ([X ≤ x]). Observación 11 Es importante saber distinguir los conceptos de variable aleato- ria y de función de distribución. Dada una variable aleatoria, tenemos los valores reales asignados a cada uno de los elementos del espacio muestral, o como tam- bién se dice a menudo, tenemos una variabilidad del espacio de probabilidades. Mientras que, dada una función de distribución, tenemos únicamente cuáles son estos valores reales y cómo se reparten, o sea, tenemos la distribución de estos valores. Al pasar de una variable aleatoria a su distribución se pierde la información relacionada con los objetos que dan lugar a estos valores reales y que se recoge en el espacio de probabilidades. Es importante observar que dos variables aleatorias distintas pueden tener la misma función de distribución. En estos casos, decimos que las variables aleatorias son equivalentes (ver ejemplo 4, apartado 1). Ejemplo 35 1. Dado un espacio de probabilidades (Ω, A, P ) de manera que Ω = {ω 1 , ω 2 }, A = P(Ω) y P viene dada por 1 P (ω 1 ) = P (ω 2 ) = 2 © Els autors, 2002; © Edicions UPC, 2002
  • 10.
    58 CAPÍTULO 2. VARIABLES ALEATORIAS Consideremos dos variables aleatorias X, Y definidas por ½ ½ 0 si ω = ω 1 1 si ω = ω 1 X(ω) = y Y (ω) = 1 si ω = ω 2 0 si ω = ω 2 Es claro que X 6= Y , pues X(ω) 6= Y (ω) para todo ω ∈ Ω. Se cumple    ∅ si x < 0  ∅ si y < 0 [X ≤ x] = {ω 1 } si 0 ≤ x < 1 y [Y ≤ y] = {ω 2 } si 0 ≤ y < 1   Ω si x ≥ 1 Ω si y ≥ 1 y, por tanto,   0 si x < 0 1 FX (x) = P (X ≤ x) = 2 si 0 ≤ x < 1  1 si x ≥ 1 y   0 si y < 0 1 FY (y) = P (Y ≤ y) = 2 si 0 ≤ y < 1  1 si y ≥ 1 es decir, las dos variables aleatorias tienen la misma función distribución. 2. Consideremos el experimento que consiste en tirar tres veces una moneda al aire. En este caso, Ω consta de 8 sucesos elementales Ω = {ccc, ccx, cxx, xxx, xxc, xcc, xcx, cxc} donde por ejemplo cxc significa "salir cara, cruz y cara en las tres tiradas". Indicamos por X "número de caras obtenidas en las tres tiradas". Es claro que X es una variable aleatoria cuando A = P(Ω) y se cumple X(ccc) = 3 X(ccx) = X(xcc) = X(cxc) = 2 X(cxx) = X(xxc) = X(xcx) = 1 X(xxx) = 0 y   ∅  si x<0   {xxx}  si 0≤x<1 [X ≤ x] = {xxx, cxx, xxc, xcx} si 1≤x<2   {xxx, cxx, ..., xcc, cxc}   si 2≤x<3  Ω si 3≤x © Els autors, 2002; © Edicions UPC, 2002
  • 11.
    2.2. DEFINICIÓN DEVARIABLE ALEATORIA 59 Entonces la función de distribución de X viene dada por   0  si −∞<x<0    1/8 si 0≤x<1 FX (x) = P (X ≤ x) = 1/2 si 1≤x<2   7/8   si 2≤x<3  1 si 3 ≤ x < +∞ La gráfica de esta función aparece en la siguiente figura Propiedades A continuación vamos a demostrar algunas propiedades de las funciones distribución en general. Teorema 15 Si F es la función distribución de una variable aleatoria X sobre un espacio de probabilidades (Ω, A, P ), entonces se cumplen: 1. 0 ≤ F (x) ≤ 1 para todo x ∈ R 2. F es monótona no decreciente: x1 < x2 =⇒ F (x1 ) ≤ F (x2 ) para todo x1 , x2 ∈ R 3. F (−∞) = 0 y F (+∞) = 1 4. P (a < X ≤ b) = F (b) − F (a) para todo a, b ∈ R con a ≤ b © Els autors, 2002; © Edicions UPC, 2002
  • 12.
    60 CAPÍTULO 2. VARIABLES ALEATORIAS 5. F es continua por la derecha en cada punto de R Demostración: (1) Es evidente ya que F (x) = P (X ≤ x) y 0 ≤ P (X ≤ x) ≤ 1. (2) Si x1 < x2 , podemos escribir [X ≤ x2 ] = [X ≤ x1 ] ∪ [x1 < X ≤ x2 ] y entonces, tomando probabilidades en los dos miembros de la ecuación, obten- emos P (X ≤ x2 ) = P (X ≤ x1 ) + P (x1 < X ≤ x2 ) ≥ P (X ≤ x1 ) y por definición, deducimos F (x2 ) ≥ F (x1 ) (3) De la definición obtenemos F (+∞) = P (X ≤ +∞) Ahora bien [X ≤ +∞] es el suceso seguro, ya que X(ω) < +∞ para todo ω ∈ Ω, y por tanto, F (+∞) = 1. Como se cumple x < +∞ para todo x ∈ R, del apartado (2) deducimos F (x) ≤ F (+∞) = 1 Por otro lado, como que X(ω) > −∞ para todo ω ∈ Ω, se tiene que [X > −∞] es el suceso seguro. Por definición F (−∞) = P (X ≤ −∞) = 1 − P (X > −∞) = 0 Finalmente, como se verifica −∞ < x para todo x ∈ R, del apartado (2) deduci- mos 0 = F (−∞) ≤ F (x) (4) Si a = b, la fórmula es evidente. Supongamos que a < b, entonces podemos escribir [X ≤ b] = [X ≤ a] ∪ [a < X ≤ b] y entonces, tomando probabilidades en los miembros de la ecuación, obtenemos P (X ≤ b) = P (X ≤ a) + P (a < X ≤ b) y, por definición, deducimos lo que queríamos P (a < X ≤ b) = F (b) − F (a) © Els autors, 2002; © Edicions UPC, 2002
  • 13.
    2.2. DEFINICIÓN DEVARIABLE ALEATORIA 61 (5) Sea a cualquier número real. Para ver que F es continua por la derecha en a debemos demostrar que se cumple l´ F (x) = F (a) ım x→a+ o de forma equivalente, 1 l´ F (a + ım ) = F (a) n→∞ n Definimos los siguientes sucesos · ¸ 1 An = a < X ≤ a + n Es claro que (An ) es una sucesión decreciente de sucesos y su límite viene dado por · ∞ 1 ¸ l´ An = ım a<X ≤a+ =∅ n→∞ n=1 n Entonces, del apartado (4) deducimos 1 P (An ) = F (a + ) − F (a) n y pasando al límite, obtenemos 1 l´ P (An ) = l´ F (a + ım ım ) − F (a) n→∞ n→∞ n y por la propiedad de continuidad de la probabilidad, tenemos l´ P (An ) = P (∅) = 0 ım n→∞ Como consecuencia, se tiene 1 l´ F (a + ım ) = F (a) n→∞ n Observación 12 La función de distribución F puede ser discontinua por la izquierda. En efecto, si fuera continua por la izquierda en a debería cumplirse 1 l´ F (a − ım ) = F (a) n→∞ n Ahora bien, consideremos la siguiente sucesión de sucesos (Bn ) definida medi- ante · ¸ 1 Bn = a − < X ≤ a n © Els autors, 2002; © Edicions UPC, 2002
  • 14.
    62 CAPÍTULO 2. VARIABLES ALEATORIAS Es claro que es una sucesión decreciente y su límite viene dado por · ∞ 1 ¸ l´ Bn = ım a − < X ≤ a = [X = a] n→∞ n=1 n Entonces, del apartado (4) del teorema deducimos 1 P (Bn ) = F (a) − F (a − ) n y pasando al límite, obtenemos 1 l´ P (Bn ) = F (a) − l´ F (a − ım ım ) n→∞ n n→∞ y por la propiedad de continuidad de la probabilidad, tenemos l´ P (Bn ) = P (X = a) ım n→∞ Por tanto, tenemos 1 F (a) − l´ F (a − ım ) = P (X = a) n→∞ n y, como consecuencia, si P (X = a) 6= 0 entonces la función de distribución es discontinua por la derecha. 2.2.3. Variables aleatorias y distribuciones discretas Se dice que una variable aleatoria X es discreta, y asimismo se llama disc- reta a su función de distribución F , si el conjunto de valores que toma con probabilidad no nula es finito o numerable. Esto significa que existe una suce- sión de números reales x1 , x2 , ..., xn , ... tales que P (X = xi ) = pi 6= 0 y P (X 6= xi ) = 0 (i = 1, 2, 3, ...) Para una variable aleatoria discreta la función de distribución viene dada por X F (x) = P (X = xi ) xi ≤x en donde la suma se realiza sobre todos aquellos valores de i para los que xi ≤ x. Asociada a una variable aleatoria discreta, o a su correspondiente distribu- ción discreta, aparece una función a la que se le llama función de densidad de probabilidad, o simplemente función de densidad, que denotamos por fX o por f cuando no haya confusión, y se define por ½ P (X = xi ) si x = xi f (x) = 0 si x 6= xi para todo i = 1, 2, 3, ... Como consecuencias inmediatas de la definición y de los axiomas de probabili- dad, tenemos las siguientes propiedades de la función de densidad © Els autors, 2002; © Edicions UPC, 2002
  • 15.
    2.2. DEFINICIÓN DEVARIABLE ALEATORIA 63 1. 0 ≤ f (x) ≤ 1 2. ∞ X f (xi ) = 1 i=1 3. X F (x) = f (xi ) xi ≤x Debe observarse que cualquier variable aleatoria discreta puede representarse mediante indicadores. Si In es el indicador del suceso [X = xn ], entonces X puede escribirse en la siguiente forma X X= xn In n En efecto, si ω ∈ [X = xk ] (k = 1, 2, 3, ...), entonces ½ 1 si n = k In (ω) = 0 si n 6= k y, por tanto, obtenemos X X(ω) = xn In (ω) = xk n que es lo que tenía que salir. Ejemplo 36 1. Sea X la variable aleatoria que da el número de éxitos en n pruebas de Bernoulli. Es claro que X es una variable aleatoria discreta, pues sólo puede tomar los valores enteros que van de 0 a n. Además, se cumple µ ¶ n k P (X = k) = p (1 − p)n−k (k = 0, 1, 2, ..., n) k siendo p la probabilidad de éxito. Entonces, la función de distribución es X µn¶ F (x) = pk (1 − p)n−k k k≤x X µn¶ [x] = pk (1 − p)n−k k k=0 siendo [x] la parte entera del número real x (es decir, el mayor número entero menor que x). Esta distribución se llama distribución binomial de parámetros n y p. © Els autors, 2002; © Edicions UPC, 2002
  • 16.
    64 CAPÍTULO 2. VARIABLES ALEATORIAS 2. Sea X una variable aleatoria discreta que puede tomar cualquier valor entero no negativo. Entonces X tiene una distribución de Poisson de parámetro λ > 0 si λk −λ P (X = k) = e (k = 0, 1, 2, ...) k! La función de distribución viene dada por [x] X λk F (x) = e−λ k! k=0 3. Sea X una variable aleatoria discreta que sólo puede tomar un número finito de valores x1 , x2 , ..., xn . Entonces X tiene una distribución uni- forme (discreta) si 1 P (X = xk ) = (k = 1, 2, ..., n) n La distribución uniforme es X nx F (x) = P (X = xk ) = n xk ≤x donde nx es el número de valores xk que son menores o iguales que x. En la siguiente figura se muestra la distribución uniforme para n = 6 © Els autors, 2002; © Edicions UPC, 2002
  • 17.
    2.2. DEFINICIÓN DEVARIABLE ALEATORIA 65 Ejemplo 37 Se sabe que X es una variable aleatoria discreta que puede tomar cualquier valor entero no negativo. Además, se sabe que existe un número real 0 < α < 1 para el que se cumple P (X = k) = α · P (X = k − 1) (1) Encontrar la función de densidad de probabilidad de X. (2) Determinar la probabilidad de que X tome valores impares. Solución: (1) Aplicando sucesivamente la relación dada entre las probabil- idades, se tiene P (X = k) = α · P (X = k − 1) = α2 · P (x = k − 2) = ··· = αk · P (X = 0) Sabemos que ∞ X P (X = k) = 1 k=0 © Els autors, 2002; © Edicions UPC, 2002
  • 18.
    66 CAPÍTULO 2. VARIABLES ALEATORIAS luego, ∞ X 1 = αk · P (X = 0) k=0 ∞ X = P (X = 0) · αk k=0 1 = P (X = 0) · 1−α y, por tanto, P (X = 0) = 1 − α y, como consecuencia, P (X = k) = αk (1 − α) (k = 0, 1, 2, ...) (2) Sea A = [X = 1] ∪ [X = 3] ∪ · · · ∪ [X = 2n − 1] ∪ · · · entonces la probabilidad pedida es P (A). Tenemos ∞ X P (A) = P (X = 2n − 1) n=1 X∞ = α2n−1 (1 − α) n=1 ∞ 1 − α X 2n = α α n=1 1 − α α2 = α 1 − α2 α = 1+α 2.2.4. Variables aleatorias y distribuciones absolutamente continuas Una variable aleatoria se llama continua si su función de distribución no tiene discontinuidades y, por tanto, el conjunto de valores que toma con prob- abilidad no nula es no numerable. Entre ellas, las más fáciles de estudiar son las absolutamente continuas. Una variable aleatoria se llama absolutamente continua si existe una función no negativa e integrable f , denominada función de densidad de probabilidad, tal que su función de distribución puede ponerse en la forma Z x F (x) = f (t) dt (2.2) −∞ © Els autors, 2002; © Edicions UPC, 2002
  • 19.
    2.2. DEFINICIÓN DEVARIABLE ALEATORIA 67 para todo x ∈ R. Como consecuencia, es claro que la función de densidad ha de cumplir también la siguiente condición Z +∞ f (x) dx = 1 −∞ Es importante observar que la continuidad de F no implica la existencia de una representación de la forma (5.3). Observación 13 La clasificación de las variables aleatorias en discretas y con- tinuas no implica que toda distribución de probabilidad haya de ser discreta o bien continua. Las distribuciones discretas y las distribuciones continuas son dos pequeñas clases disjuntas de distribuciones; son las más fáciles de estudiar, sobretodo si no se está familiarizado con la teoría de la medida y de la integral de Lebesgue. Es importante observar que hay muchas funciones de distribución que no son discretas ni tampoco son continuas. Teorema 16 Si f es la función de densidad de una variable aleatoria absolu- tamente continua X y F es su función de distribución Z x F (x) = f (t) dt −∞ entonces se cumplen 1. f (x) ≥ 0 para todo x ∈ R 2. F es continua 3. P (X = a) = 0 para todo a ∈ R 4. F 0 (a) = f (a), si f es continua en a ∈ R 5. Z b P (a < X ≤ b) = f (x) dx a Demostración: (1) Por los apartados (3) y (4) del teorema 7, es inmediato comprobar que f (x) ≥ 0 para todo x ∈ R. (2) Por el apartado (5) del teorema 7, F es continua por la derecha en cada a ∈ R. Veamos ahora que F es continua por la izquierda. En efecto, sea > 0, entonces Z a Z a− F (a) − F (a − ) = f (x) dx − f (x) dx −∞ −∞ Z a = f (x) dx a− = f (θ) © Els autors, 2002; © Edicions UPC, 2002
  • 20.
    68 CAPÍTULO 2. VARIABLES ALEATORIAS en donde θ ∈ [a − , a]. Luego l´ [F (a) − F (a − )] = 0 · f (θ) = 0 ım →0+ de donde se deduce que F es continua por la izquierda en a. (3) Es consecuencia de la continuidad de F . En efecto, en la observación 3 hemos obtenido 1 F (a) − l´ F (a − ) = P (X = a) ım n→∞ n Ahora bien, al ser F continua se cumple 1 l´ F (a − ım ) = F (a) n→∞ n Por tanto, P (X = a) = 0 para todo a ∈ R. (4) Por el teorema fundamental del cálculo, para todo valor de x en el cual f es continua, F es derivable y se cumple F 0 (x) = f (x). (5) Por el apartado (4) del teorema 7, tenemos P (a < X ≤ b) = F (b) − F (a) Z b = f (x) dx a ya que f tiene a lo sumo un número finito de discontinuidades evitables o de salto finito. Obsérvese que por el apartado (3), se tiene · ¸ F (x + h) − F (x) l´ ım − f (x) = 0 h→0 h de donde, · ¸ P (x < X ≤ x + h) l´ ım − f (x) = 0 h→0 h y, en consecuencia, P (x < X ≤ x + dx) = f (x) dx es decir, f (x) dx se interpreta como la probabilidad infinitesimal de que la vari- able X tome valores dentro del intervalo (x, x + dx]. Observación 14 1. Como consecuencia del apartado (4), la probabilidad es igual al área bajo la gráfica de la función densidad f en el intervalo [a, b]. Además, como [a, b] = {a} ∪ (a, b] de los apartados (3) y (4) se deduce P (a ≤ X ≤ b) = P (X = a) + P (a < X ≤ b) = F (b) − F (a) © Els autors, 2002; © Edicions UPC, 2002
  • 21.
    2.2. DEFINICIÓN DEVARIABLE ALEATORIA 69 Del mismo modo, tenemos P (a ≤ X < b) = P (a < X < b) = F (b) − F (a) Este hecho es diferente a la situación encontrada en el caso de una dis- tribución discreta. 2. En general, si la variable aleatoria X no es continua (y por tanto F no es continua por la izquierda), no se cumplen (3), (4) y las consecuencias anteriores. En efecto, para estas variables se tiene P (X = a) = F (a) − l´ − F (x) ım x→a P (X < a) = P (X ≤ a) − P (X = a) = l´ − F (x) ım x→a P (a < X < b) = l´ − F (x) − F (a) ım x→b P (a < X ≤ b) = P (a < X < b) + P (X = b) = F (b) − F (a) P (a ≤ X < b) = P (X = a) + P (a < X < b) = l´ − F (x) − l´ − F (x) ım ım x→b x→a P (a ≤ X ≤ b) = F (b) − l´ − F (x) ım x→a Obsérvese que todos los límites se toman por la izquierda. Ejemplo 38 1. Una variable aleatoria absolutamente continua tiene una distribución uniforme en un intervalo [a, b] si su función de densidad viene dada por ½ 1 b−a si x ∈ [a, b] f (x) = 0 si x ∈ [a, b] / La función de distribución vendrá dada por Z x F (x) = f (t) dt −∞ Si x < a, entonces F (x) = 0 ya que f (x) = 0. Si a ≤ x < b, entonces Z x F (x) = f (t) dt −∞ Z a Z x = f (t) dt + f (t) dt −∞ a Z x 1 x−a = dt = a b−a b−a Finalmente, si x ≥ b, entonces Z x F (x) = f (t) dt −∞ Z a Z b Z x = f (t) dt + f (t) dt + f (t) dt −∞ a b Z b 1 = dt = 1 a b−a © Els autors, 2002; © Edicions UPC, 2002
  • 22.
    70 CAPÍTULO 2. VARIABLES ALEATORIAS Por tanto,   0 si x < a x−a F (x) = b−a si a ≤ x < b  1 si x ≥ b En la siguiente figura se muestra la distribución uniforme en el intervalo [2, 4] 2. Sea X una variable aleatoria absolutamente continua cuyo recorrido es toda la recta real. Se dice que X tiene una distribución exponencial de parámetro λ > 0 si su función de densidad viene dada por ½ λe−λx si x ≥ 0 f (x) = 0 si x < 0 Si x < 0, la función de distribución F (x) = 0 ya que f (x) = 0. Si x ≥ 0, © Els autors, 2002; © Edicions UPC, 2002
  • 23.
    2.2. DEFINICIÓN DEVARIABLE ALEATORIA 71 entonces Z x F (x) = f (t) dt −∞ Z 0 Z x = f (t) dt + f (t) dt −∞ 0 Z x = λe−λt dt 0 = 1 − e−λx Luego ½ 1 − e−λx si x ≥ 0 F (x) = 0 si x < 0 En la figura siguiente se muestra la distribución exponencial de parámetro λ=2 3. Una variable aleatoria absolutamente continua tiene una distribución © Els autors, 2002; © Edicions UPC, 2002
  • 24.
    72 CAPÍTULO 2. VARIABLES ALEATORIAS normal o de Gauss si la función de densidad es 1 2 2 f (x) = √ e−(x−µ) /2σ σ 2π donde µ y σ > 0 son parámetros de la distribución. La gráfica de f es la conocida campana de Gauss con un máximo situado en el punto x = µ y dos inflexiones en los puntos x = µ ± σ. Para calcular su función de distribución procedemos de la siguiente manera: Z x 1 2 2 F (x) = √ e−(t−µ) /2σ dt σ 2π −∞ haciendo el cambio siguiente t−µ u= σ tenemos Z 0 Z x−µ 1 −u2 /2 1 σ 2 F (x) = √ e du + √ e−u /2 du 2π −∞ 2π 0 2 Ahora bien, al ser e−u /2 una función par, tenemos Z 0 Z +∞ 1 2 1 2 √ e−u /2 du = √ e−u /2 du 2π −∞ 2π 0 y sabemos que Z +∞ 2 Γ(p) u2p−1 e−au = 0 2ap siendo Z +∞ Γ(p) = xp−1 e−x dx 0 Luego Z +∞ 2 Γ(1/2) e−u /2 du = p 0 2 1/2 √ 2π = 2 Por tanto, tenemos √ Z x−µ 1 2π 1 σ 2 F (x) = √ +√ e−u /2 du 2π 2 2π 0 µ ¶ 1 x−µ = +Φ 2 σ © Els autors, 2002; © Edicions UPC, 2002
  • 25.
    2.2. DEFINICIÓN DEVARIABLE ALEATORIA 73 donde Z x 1 2 Φ(x) = √ e−t /2 dt 2π 0 se llama la integral de probabilidad. En la siguiente figura se muestra la distribución normal con parámetros µ = 0 y σ = 2 Ejemplo 39 Sea X una variable aleatoria absolutamente continua cuya función de densidad es ½ k(1 + x2 ) si x ∈ (0, 3) f (x) = 0 si x ∈ (0, 3) / Se pide: (1) hallar la constante k y la función de distribución de X; (2) deter- minar la probabilidad de que X esté comprendido entre 1 y 2; y (3) hallar la probabilidad de que X sea menor que 1. Solución: (1) Al ser f una función de densidad de una variable absoluta- mente continua debe cumplirse que Z +∞ f (x) dx = 1 −∞ © Els autors, 2002; © Edicions UPC, 2002
  • 26.
    74 CAPÍTULO 2. VARIABLES ALEATORIAS Luego, Z +∞ Z 0 Z 3 Z +∞ f (x) dx = f (x) dx + f (x) dx + f (x) dx −∞ −∞ 0 3 Z 3 = k (1 + x2 ) dx 0 · ¸3 x3 = k x+ = 12k 3 0 Por tanto, k = 1/12. Para hallar la función de distribución sabemos que Z x F (x) = f (t) dt −∞ Luego, si x < 0, entonces F (x) = 0 ya que f (x) = 0. Si 0 < x < 3, entonces Z x F (x) = f (t) dt −∞ Z 0 Z x = f (t) dt + f (t) dt −∞ 0 Z x 1 + t2 = dt 0 12 · ¸x µ ¶ 1 t3 1 x3 = t+ = x+ 12 3 0 12 3 Por tanto, obtenemos   0 ³  ´ si x ≤ 0 1 x3 F (x) = 12 x+ 3 si 0 < x < 3   1 si x ≥ 3 (2) Se pide la probabilidad del suceso [1 ≤ X ≤ 2]. Entonces, Z 2 P (1 ≤ X ≤ 2) = f (x) dx 1 Z 2 1 = (1 + x2 ) dx 1 12 · ¸2 1 x3 5 = x+ = 12 3 1 18 (3) Se pide la probabilidad del suceso [X < 1]. Entonces 1 1 1 P (X < 1) = F (1) = (1 + ) = 12 3 9 © Els autors, 2002; © Edicions UPC, 2002
  • 27.
    2.2. DEFINICIÓN DEVARIABLE ALEATORIA 75 2.2.5. Transformación de variables aleatorias Sea X una variable aleatoria sobre un espacios probabilidades (Ω, A, P ) y sea g una función de la variable real x. Entonces, Y = g(X) es una nueva función real definida sobre Ω tal que Y (ω) = g(X(ω)) Si queremos que Y sea una variable aleatoria debemos imponer la condición de que {ω ∈ Ω : Y (ω) ≤ y} ∈ A (2.3) para todo y ∈ R. En lo sucesivo haremos la suposición de que las funciones g son tales que (2.3) se satisface. En esta situación el problema que se nos plantea es el de encontrar las funciones de densidad y de distribución de Y a partir de las de X. En el caso de vari- ables aleatorias discretas la solución a este problema viene dada por el siguiente teorema. Teorema 17 Sea X una variable aleatoria discreta y Y una variable aleatoria definida por Y = g(X) Entonces la función de distribución de Y viene dada por X FY (y) = P (X = x) g(x)≤y Demostración: Observamos que Y es una variable aleatoria discreta, ya que X P (Y = y) = P (X = x) g(x)=y © Els autors, 2002; © Edicions UPC, 2002
  • 28.
    76 CAPÍTULO 2. VARIABLES ALEATORIAS Por tanto, FY (y) = P (Y ≤ y) X = P (X = x) g(x)≤y Ejemplo 40 Dada la variable aleatoria discreta X definida por la siguiente tabla xi 0 2 5 7 pi 0,3 0,2 0,4 0,1 Se pide determinar la distribución de la variable Y = 3X + 2. Solución: Observamos que xi 0 2 5 7 yi 2 8 17 23 Entonces, yi 2 8 17 23 pi 0,3 0,2 0,4 0,1 La función de distribución de Y viene dada por X F (y) = P (X = xi ) 3xi +2≤y Por tanto   0  si x<2    0,3 si 2≤y<8 F (y) = 0,5 si 8 ≤ y < 17   0,9   si 17 ≤ y < 23  1 si y ≥ 23 En el caso de que las variables sean absolutamente continuas, hay dos pro- cedimientos. Uno consiste en calcular primero la función de distribución FY de Y = g(X) a partir de la de X y, después, si FY es derivable, determinar 0 la función de densidad fY mediante fY (y) = FY (y). La justificación de este procedimiento se encuentra en el teorema siguiente. Teorema 18 Sea X una variable aleatoria absolutamente continua con función de densidad fX y sea Y la variable aleatoria definida por Y = g(X). Entonces, la función de distribución de Y es Z FY (y) = fX (x) dx D donde D es el subconjunto de la recta real definido por g(x) ≤ y. © Els autors, 2002; © Edicions UPC, 2002
  • 29.
    2.2. DEFINICIÓN DEVARIABLE ALEATORIA 77 Demostración: Por definición, tenemos FY (y) = P (Y ≤ y) = P (g(X) ≤ y) = P (X ∈ D) ya que de la condición g(X(ω)) ≤ y se deduce X(ω) ∈ D. Por tanto, Z P (X ∈ D) = fX (x) dx D y, como consecuencia, tenemos Z FY (y) = fX (x) dx D que es lo que queríamos demostrar. Ejemplo 41 Dada la variable aleatoria absolutamente continua X cuya función de densidad viene dada por ½ 2x si x ∈ (0, 1) f (x) = 0 si x ∈ (0, 1) / Consideramos las siguientes transformaciones: (1) Y = 3X + 5; (2) Y = X 2 ; (3) Y = 2X 2 + 5. En cada una, calcular las funciones de distribución y de densidad. Solución: La función de distribución de X es   0 si x < 0 F (x) = x2 si 0 ≤ x < 1  1 si x ≥ 1 (1) Consideremos la transformación Y = 3X + 5. Tenemos FY (y) = P (Y ≤ y) = P (3X + 5 ≤ y) y−5 = P (X ≤ ) 3 y−5 = F( ) 3 Ahora bien, y−5 0< 3 < 1 ⇐⇒ 5 < y < 8 © Els autors, 2002; © Edicions UPC, 2002
  • 30.
    78 CAPÍTULO 2. VARIABLES ALEATORIAS Por tanto,   0 si y < 5 1 FY (y) = 9 (y − 5)2 si 5 ≤ y < 8  1 si y ≥ 8 Es claro que FY es derivable en (5, 8) y, por tanto, la función de densidad de Y viene dada por ½ 2 fY (y) = 9 (y − 5) si y ∈ (5, 8) 0 si y ∈ (5, 8) / (2) Consideremos la transformación Y = X 2 . En este caso, tenemos FY (y) = P (Y ≤ y) = P (X 2 ≤ y) √ √ = P (− y ≤ X ≤ y) √ √ = F ( y) − F (− y) √ = F ( y) Ahora bien √ 0< y < 1 ⇐⇒ 0 < y < 1 Por tanto,   0 si y < 0 FY (y) = y si 0 ≤ y < 1  1 si y ≥ 1 Es claro que FY es derivable en (0, 1) y, por tanto, la función de densidad de Y viene dada por ½ 1 si y ∈ (0, 1) fY (y) = 0 si y ∈ (0, 1) / (3) Consideremos la transformación Y = 2X 2 + 5. Entonces FY (y) = P (Y ≤ y) = P (2X 2 + 5 ≤ y) Ã r r ! y−5 y−5 = P − ≤X≤ 2 2 Ãr ! Ã r ! y−5 y−5 = F −F − 2 2 Ãr ! y−5 = F 2 Ahora bien, q y−5 0< 2 < 1 ⇐⇒ 5 < y < 7 © Els autors, 2002; © Edicions UPC, 2002
  • 31.
    2.2. DEFINICIÓN DEVARIABLE ALEATORIA 79 Por tanto,   0 si y < 5 y−5 FY (y) = 2 si 5 ≤ y < 7  1 si y ≥ 7 Es claro que FY es derivable en (5, 7) y, por tanto, la función de densidad de Y viene dada por ½ 1 2 si y ∈ (5, 7) fY (y) = 0 si y ∈ (5, 7) / Otro procedimiento consiste en determinar primero la función de densidad fY de Y = g(X) a partir de la de X y, después, por integración, calcular la fun- ción de distribución. Este procedimiento es más limitado que el anterior porque se han de comprobar previamente algunas condiciones como, por ejemplo, que la función g sea monótona y derivable. La justificación de este procedimiento se halla en el siguiente teorema. Teorema 19 Sea X una variable aleatoria absolutamente continua cuya fun- ción de densidad es una función fX continua. Sea g : R → R una función monótona y derivable, entonces Y = g(X) es una variable aleatoria del mismo tipo cuya función de densidad viene dada por 1 fY (y) = fX (x) · |g 0 (x)| para todo y ∈ R, siendo y = g(x). Además, la función de distribución de Y es FY (y) = FX (x) si g es creciente, y FY (y) = 1 − FX (x) si g es decreciente. Demostración: Supongamos que g es creciente y derivable. Por el teorema de la inversa derivable, g es biyectiva sobre su recorrido, g −1 es derivable en su dominio y se cumple 1 (g −1 )0 (y) = 0 g (x) en donde g(x) = y. Entonces, puesto que £ ¤ [g(X) ≤ y] = X ≤ g −1 (y) se tiene FY (y) = P (Y ≤ y) = P (g(X) ≤ y) = P (X ≤ g −1 (y)) = FX (g −1 (y)) = FX (x) © Els autors, 2002; © Edicions UPC, 2002
  • 32.
    80 CAPÍTULO 2. VARIABLES ALEATORIAS ya que g(x) = y equivale a x = g −1 (y). Como fX es continua, según el apartado (4) del teorema 8, se tiene 0 fX (x) = FX (x) = (FY ◦ g)0 (x) = FY (g(x)) · g 0 (x) 0 = FY (y) · g 0 (x) 0 Al ser g una función creciente, se tiene g 0 (x) > 0 para todo x ∈ R. Por tanto, |g 0 (x)| = g 0 (x) y, en consecuencia, obtenemos 0 1 FY (y) = fX (x) · |g 0 (x)| Por consiguiente, si la función de densidad de Y es continua, deducimos que 1 fY (y) = fX (x) · |g 0 (x)| Supongamos ahora que g es decreciente, entonces £ ¤ X ≥ g −1 (y) = [g(X) ≤ y] y, por tanto, FY (y) = P (Y ≤ y) = P (g(X) ≤ y) = P (X ≥ g −1 (y)) = 1 − P (X ≤ x) = 1 − FX (x) Por otro lado, tenemos 0 fX (x) = FX (x) = (1 − FY ◦ g)0 (x) = −FY (g(x)) · g 0 (x) 0 = −FY (y) · g 0 (x) 0 Ahora bien, como g es decreciente tenemos g 0 (x) < 0 para todo x ∈ R. Por tanto, |g 0 (x)| = −g 0 (x) © Els autors, 2002; © Edicions UPC, 2002
  • 33.
    2.2. DEFINICIÓN DEVARIABLE ALEATORIA 81 y, en consecuencia, obtenemos 0 1 FY (y) = fX (x) · |g 0 (x)| Por consiguiente, si la función de densidad de Y es continua, deducimos que 1 fY (y) = fX (x) · |g 0 (x)| En conclusión, si g es monótona, entonces 1 fY (y) = fX (x) · |g 0 (x)| Ejemplo 42 Sea X una variable aleatoria absolutamente continua de la cual sabemos que su densidad viene dada por la siguiente función ½ 1 − 1 x si x ∈ (0, 2) 2 f (x) = 0 si x ∈ (0, 2) / Se pide calcular las funciones de densidad y de distribución de las variables (1) Y = eX y (2) Y = e−X . Solución: La función de distribución de X es   0 si x < 0 2 F (x) = x − x si 0 ≤ x < 2  4 1 si x ≥ 2 (1) Consideremos la transformación Y = eX . En este caso g(x) = ex es una función creciente y derivable. Por tanto, según el teorema 11, tenemos FY (y) = FX (x) y 1 fY (y) = f (x) · |g 0 (x)| De este modo, como x = ln y, obtenemos   0 si y < 1 ln2 y FY (y) = FX (ln y) = ln y − si 1 ≤ y < e2  4 1 si x ≥ e2 y 1 1− 2 ln y 2 − ln y fY (y) = = y 2y si 1 < y < e2 . © Els autors, 2002; © Edicions UPC, 2002
  • 34.
    82 CAPÍTULO 2. VARIABLES ALEATORIAS (2) Consideremos la transformación Y = e−X . En este caso g(x) = e−x es una función decreciente y derivable. Por tanto, según el teorema 11, tenemos FY (y) = 1 − FX (x) y 1 fY (y) = f (x) · |g 0 (x)| De este modo, como x = − ln y, obtenemos   0 si y > 0 ln2 y FY (y) = 1 − Fx (− ln y) = 1 + ln y + 4 si 1 ≥ y > e−2  1 si y ≤ e−2 y 1 + 1 ln y 2 2 + ln y fY (y) = = y 2y −2 si 1 > y > e . 2.3. Variables aleatorias bidimensionales 2.3.1. Introducción Supongamos que tenemos dos variables aleatorias X, Y sobre el mismo es- pacio de probabilidades (Ω, A, P ). De este modo, para cada suceso elemental ω ∈ Ω tenemos dos números reales X(ω) y Y (ω). Entonces, hay dos posibles interpretaciones: (1) Considerar los números X(ω) y Y (ω) de forma separada, como se ha hecho al considerar las operaciones con variables aleatorias, o bien (2) podemos considerar este par de números como las componentes de un vector (X(ω), Y (ω)) de R2 (o las coordenadas de un punto del plano). Es esta segunda interpretación la que conduce al concepto de variable aleatoria bidimension- al y, por extensión, al de variable aleatoria n-dimensional. © Els autors, 2002; © Edicions UPC, 2002
  • 35.
    2.3. VARIABLES ALEATORIASBIDIMENSIONALES 83 Al ser X, Y variables aleatorias, tenemos que [X ≤ x] = {ω ∈ Ω : X(ω) ≤ x} ∈ A y [Y ≤ y] = {ω ∈ Ω : Y (ω) ≤ y} ∈ A para todo x, y ∈ R. Por tanto, [X ≤ x] ∩ [Y ≤ y] ∈ A y, como consecuencia, estos sucesos tienen asignadas probabilidades. Así, podemos introducir la función F definida por FX (x, y) = P ([X ≤ x] ∩ [Y ≤ y]) para todo (x, y) ∈ R2 ; F es una función real de dos variables que se llama función de distribución conjunta o función de distribución de la variable aleatoria bidimensional X = (X, Y ). En general, una variable aleatoria n-dimensional o vector aleatorio será un n-tupla X = (X1 , X2 , ..., Xn ) formada por variables aleatorias Xi (i = 1, 2, ..., n) sobre un mismo espacio de probabilidades (Ω, A, P ). El vector aleatorio X = (X1 , X2 , ..., Xn ) definirá una aplicación de Ω en Rn que hace corresponder a cada suceso elemental ω un vector (x1 , x2 , ..., xn ) de Rn , siendo xi = Xi (ω) (i = 1, 2, ..., n). Para facilitar la escritura, en esta sección sólo trataremos el caso n = 2. La generalización al caso n-dimensional de todos los resultados que obtendremos no supone ninguna dificultad y podrá realizarla el lector como ejercicio. Observación 15 Para abreviar, en toda esta sección escribiremos [X ≤ x, Y ≤ y] en lugar de [X ≤ x]∩[Y ≤ y], y también P (X ≤ x, Y ≤ y) en lugar de P ([X ≤ x] ∩ [Y ≤ y]). 2.3.2. Definición de variable aleatoria bidimensional Una variable aleatoria bidimensional es cualquier par X = (X, Y ) for- mada por variables aleatorias sobre el mismo espacio de probabilidades (Ω, A, P ). © Els autors, 2002; © Edicions UPC, 2002
  • 36.
    84 CAPÍTULO 2. VARIABLES ALEATORIAS 2.3.3. Definición de función de distribución conjunta Dada una variable aleatoria bidimensional X = (X, Y ) sobre (Ω, A, P ), se llama función de distribución conjunta a la función real de dos variables definida por FX (x, y) = P (X ≤ x, Y ≤ y) en donde [X ≤ x, Y ≤ y] = [X ≤ x] ∩ [Y ≤ y] Propiedades Teorema 20 La función de distribución conjunta FX de una variable aleatoria bidimensional X = (X, Y ) satisface las siguientes propiedades: 1. 0 ≤ FX (x, y) ≤ 1 para todo (x, y) ∈ R2 2. FX es monótona no decreciente para cada argumento x1 < x2 =⇒ FX (x1 , y) ≤ FX (x2 , y) y1 < y2 =⇒ FX (x, y1 ) ≤ FX (x, y2 ) 3. FX (+∞, +∞) = 1 y FX (−∞, y) = FX (x, −∞) = 0 4. P (a < X ≤ b, c < Y ≤ d) = FX (b, d) − FX (a, d) − FX (b, c) + FX (a, c) 5. FX es continua por la derecha para cada argumento Demostración: (1) Es evidente, ya que FX (x, y) = P (X ≤ x, Y ≤ y) y 0 ≤ P (X ≤ x, Y ≤ y) ≤ 1. (2) Si x1 < x2 , podemos escribir [X ≤ x1 ] ∩ [Y ≤ y] ⊂ [X ≤ x2 ] ∩ [Y ≤ y] y, por tanto, FX (x1 , y) = P ([X ≤ x1 ] ∩ [Y ≤ y]) ≤ P ([X ≤ x2 ] ∩ [Y ≤ y]) = FX (x2 , y) Del mismo modo se prueba que FX es no decreciente respecto al segundo argu- mento. (3) Observamos que [X ≤ +∞, Y ≤ +∞] = [X ≤ +∞] ∩ [Y ≤ +∞] = Ω∩Ω=Ω Por tanto, FX (+∞, +∞) = P (X ≤ +∞, Y ≤ +∞) = P (Ω) = 1 © Els autors, 2002; © Edicions UPC, 2002
  • 37.
    2.3. VARIABLES ALEATORIASBIDIMENSIONALES 85 Observamos también que [X ≤ −∞, Y ≤ y] = [X ≤ −∞] ∩ [Y ≤ y] = ∅ ∩ [Y ≤ y] = ∅ Por tanto, FX (−∞, y) = P (X ≤ −∞, Y ≤ y) = P (∅) = 0 Análogamente, se prueba que FX (x, −∞) = 0. (4) Definimos los siguientes sucesos A = [a < X ≤ b, Y ≤ d] B = [a < X ≤ b, Y ≤ c] C = [a < X ≤ b, c < Y ≤ d] Es claro que B y C son incompatibles y se cumple A = B ∪ C. Por tanto, P (A) = P (B) + P (C) (2.4) Además, es claro también que A = [X ≤ b, Y ≤ d] − [X ≤ a, Y ≤ d] B = [X ≤ b, Y ≤ c] − [X ≤ a, Y ≤ c] luego P (A) = FX (b, d) − FX (a, d) P (B) = FX (b, c) − FX (a, c) Sustituyendo estas dos expresiones en (5.2), obtenemos P (C) = P (a < X ≤ b, c < Y ≤ d) = FX (b, d) − FX (a, d) − FX (b, c) + FX (a, c) (5) Definimos los siguientes sucesos £ 1 ¤ An = a < X ≤ a + n , Y ≤ y B = [X ≤ a, Y ≤ y] £ ¤ 1 Cn = X ≤ a + n , Y ≤ y © Els autors, 2002; © Edicions UPC, 2002
  • 38.
    86 CAPÍTULO 2. VARIABLES ALEATORIAS entonces Cn = B ∪ An siendo B y An dos sucesos incompatibles para todo n ∈ N. Por tanto, P (Cn ) = P (B) + P (An ) (2.5) Es claro que (An ) es una sucesión decreciente de sucesos y su límite viene dado por µ· ∞ 1 ¸ ¶ l´ An = ım a<X ≤a+ ∩ [Y ≤ y] n→∞ n=1 n Ã∞ · ¸! 1 = a<X ≤a+ ∩ [Y ≤ y] n=1 n = ∅ ∩ [Y ≤ y] = ∅ Entonces, como 1 P (Cn ) = FX (a + , y) y P (B) = FX (a, y) n de (5.4), obtenemos 1 FX (a + , y) = FX (a, y) + P (An ) n y pasando al límite, deducimos 1 l´ FX (a + ım , y) = FX (a, y) + l´ P (An ) ım n→∞ n n→∞ y por la propiedad de continuidad de la probabilidad, tenemos l´ P (An ) = P (∅) = 0 ım n→∞ Como consecuencia, 1 l´ FX (a + ım , y) = FX (a, y) n→∞ n Del mismo modo, se demuestra que FX es continua por la derecha respecto al segundo argumento. Distribuciones marginales Teorema 21 Sea FX la función de distribución conjunta de una variable aleato- ria bidimensional X = (X, Y ). Entonces l´ ım FX (x, y) = FX (x) y l´ ım FX (x, y) = FY (y) y→+∞ x→+∞ © Els autors, 2002; © Edicions UPC, 2002
  • 39.
    2.3. VARIABLES ALEATORIASBIDIMENSIONALES 87 donde FX y FY son las funciones de distribución de las variables X e Y por separado, respectivamente. A estas dos funciones se les llama entonces dis- tribuciones marginales de X = (X, Y ). Demostración: Puesto que [X ≤ x, Y ≤ +∞] = [X ≤ x] ∩ [Y ≤ +∞] = [X ≤ x] ∩ Ω = [X ≤ x] por definición, obtenemos FX (x, +∞) = FX (x) Análogamente se prueba FX (+∞, y) = FY (y). 2.3.4. Variables aleatorias bidimensionales discretas Una variable aleatoria bidimensional X = (X, Y ) definida en el espacio de probabilidades (Ω, A, P ) se llama discreta si X e Y son variables aleatorias discretas. Supongamos que X e Y toman los valores xi e yj (i, j = 1, 2, 3, ...) con probabilidades P (X = xi ) y P (Y = yj ), respectivamente. Definimos la función de densidad de probabilidad conjunta de la variable aleatoria bidimensional discreta X = (X, Y ) por ½ P (X = xi , Y = yj ) si x = xi y y = yj f (x, y) = 0 si x 6= xi o y 6= yj para todo i, j = 1, 2, 3, ... en donde P (X = xi , Y = yj ) = P ([X = xi ] ∩ [Y = yj ]) (i, j = 1, 2, 3, ...) y su función de distribución conjunta viene dada entonces por X X F (x, y) = P (X ≤ x, Y ≤ y) = P (X = xi , Y = yj ) xi ≤x yj ≤y Como consecuencias inmediatas de la definición y de los axiomas de probabili- dad, tenemos las siguientes propiedades de la función de densidad conjunta 1. 0 ≤ f (xi , yj ) ≤ 1, para todo i, j = 1, 2, 3, ... 2. XX f (xi , yj ) = 1 i j 3. X X F (x, y) = f (xi , yj ) xi ≤x yj ≤y © Els autors, 2002; © Edicions UPC, 2002
  • 40.
    88 CAPÍTULO 2. VARIABLES ALEATORIAS Observamos que X X XX l´ F (x, y) = ım P (X = xi , Y = yj ) = P (X = xi , Y = yj ) y→+∞ xi ≤x yj ≤+∞ xi ≤x yj (2.6) Ahora bien, por el teorema 13, sabemos que la distribución marginal viene dada por X l´ ım F (x, y) = FX (x) = P (X = xi ) (2.7) y→+∞ xi ≤x Comparando (5.5) y (5.6), obtenemos la función de densidad de X X fX (x) = P (X = xi ) = P (X = xi , Y = yj ) yj que no es más que la suma de la densidad conjunta para todos los valores que toma la variable Y . Del mismo modo se obtiene X fY (y) = P (Y = yj ) = P (X = xi , Y = yj ) xi Expresadas de este modo, las funciones fX y fY se llaman funciones de den- sidad marginales de X = (X, Y ). Ejemplo 43 Si tiran dos dados a la vez. Sea X la variable aleatoria "número de puntos obtenidos por el primer dado", e Y la variable aleatoria "el número mayor de los puntos obtenidos con los dos dados". Se pide la función de den- sidad de la variable aleatoria bidimensional (X, Y ) y las funciones de densidad marginales de (X, Y ). Solución: Se trata de una variable aleatoria bidimensional discreta. Si f es la función de densidad conjunta, entonces f (1, 1) = P (X = 1, Y = 1) = 1/36 Además, f (k, 1) = P (X = k, Y = 1) = 0 con k > 1, pues [X = k] ∩ [Y = 1] es el suceso imposible. Tenemos también que f (2, 2) = P (X = 2, Y = 2) = 2/36 ya que [X = 2] ∩ [Y = 2] = {(2, 1), (2, 2)}. Y así sucesivamente, los valores de la función de densidad se encuentran en la tabla siguiente © Els autors, 2002; © Edicions UPC, 2002
  • 41.
    2.3. VARIABLES ALEATORIASBIDIMENSIONALES 89 La función de densidad marginal de X se obtendrá sumando, para cada val- or de X, los valores de la densidad conjunta; en otras palabras, sumando por columnas las probabilidades de la tabla. Así, tenemos xi 1 2 3 4 5 6 fX (xi ) 1/6 1/6 1/6 1/6 1/6 1/6 Análogamente, la función de densidad marginal para Y se obtendrá sumando por filas las probabilidades de la tabla. Así, tenemos yj 1 2 3 4 5 6 fY (yj ) 1/36 1/12 5/36 7/36 1/4 11/36 2.3.5. Variables aleatorias bidimensionales absolutamente continuas Se dice que una variable aleatoria bidimensional X = (X, Y ) es absolu- tamente continua si existe una función real integrable de dos variables f , denominada función de densidad de probabilidad conjunta, tal que la función de distribución conjunta de X puede expresarse en la forma siguiente Z x Z y F (x, y) = f (u, v) du dv −∞ −∞ © Els autors, 2002; © Edicions UPC, 2002
  • 42.
    90 CAPÍTULO 2. VARIABLES ALEATORIAS para todo (x, y) ∈ R2 . Como consecuencia, es claro que la función de densidad conjunta ha de cumplir también la siguiente condición Z +∞ Z +∞ f (x, y) dx dy = 1 −∞ −∞ Teorema 22 Si f es la función de densidad conjunta de una variable aleatoria absolutamente continua X = (X, Y ) y F es su función de distribución conjunta Z x Z y F (x, y) = f (u, v) du dv −∞ −∞ entonces se cumplen 1. Si f es continua, entonces ∂ 2 F (x, y) = f (x, y) ∂y∂x 2. f (x, y) ≥ 0 para todo (x, y) ∈ R2 3. La probabilidad de que X tome valores dentro de un recinto D del plano viene dada por Z Z P ((X, Y ) ∈ D) = f (x, y) dx dy D Z b Z d P (a < X ≤ b, c < Y ≤ d) = f (x, y) dx dy a c Demostración: (1) Consideremos A = (−∞, x) y B = (−∞, y). Para cada u ∈ A, definimos la función gu : B → R por gu (v) = f (u, v) Puesto que f es continua, gu es continua y, por tanto, por el teorema funda- mental del cálculo, Z y gu (v) dv −∞ es derivable y se cumple Z y ∂ gu (v) dv = gu (y) ∂y −∞ En particular, Z y h(u) = gu (v) dv −∞ © Els autors, 2002; © Edicions UPC, 2002
  • 43.
    2.3. VARIABLES ALEATORIASBIDIMENSIONALES 91 es continua en A. De nuevo, por el teorema fundamental del cálculo Z x h(u) du −∞ es derivable y se cumple Z x Z y ∂ h(u) du = h(x) = gx (v) dv ∂x −∞ −∞ o sea Z x µZ y ¶ Z y ∂ gu (v) dv du = gx (v) dv ∂x −∞ −∞ −∞ De aquí, derivando respecto de y, obtenemos µZ x µZ y ¶ ¶ Z y ∂2 ∂ f (u, v) dv du = gx (v) dv = f (x, y) ∂y∂x −∞ −∞ ∂y −∞ luego ∂ 2 F (x, y) = f (x, y) (2.8) ∂y∂x (2) Vamos a interpretar (2.8). Esta ecuación puede escribirse de forma equivalente como · ¸ F (x + h, y + k) − F (x + h, y) − F (x, y + k) + F (x, y) l´ ım − f (x, y) = 0 h→0 hk k→0 Ahora bien, según el apartado (4) del teorema 7, tenemos P (x < X ≤ x+h, y < Y ≤ y+k) = F (x+h, y+k)−F (x+h, y)−F (x, y+k)+F (x, y) Por tanto, · ¸ P (x < X ≤ x + h, y < Y ≤ y + k) l´ ım − f (x, y) = 0 (2.9) h→0 hk k→0 de donde P (x < X ≤ x + dx, y < Y ≤ y + dy) = f (x, y) dx dy (2.10) es decir, que f (x, y) dx dy se interpreta como la probabilidad infinitesimal de que el punto (X, Y ) del plano se encuentre dentro del rectángulo (x, x + dx] × (y, y + dy] Por otro parte, como P (x < X ≤ x + h, y < Y ≤ y + k) ≥ 0 © Els autors, 2002; © Edicions UPC, 2002
  • 44.
    92 CAPÍTULO 2. VARIABLES ALEATORIAS de la ecuación (2.9) se deduce que f es necesariamente una función no negativa f (x, y) ≥ 0 para todo (x, y) ∈ R2 . (3) Como [(X, Y ) ∈ D] = {ω ∈ Ω : (X(ω), Y (ω)) ∈ D} se tiene Z Z P ((X, Y ) ∈ D) = P (x < X ≤ x + dx, y < Y ≤ y + dy) y por (2.10), deducimos Z Z P ((X, Y ) ∈ D) = f (x, y) dx dy D En particular, si D = [a, b] × [c, d] y f es continua en D, se tiene Z b Z d P (a < X ≤ b, c < Y ≤ d) = f (x, y) dx dy a c Sabemos que X es una variable aleatoria absolutamente continua con función de densidad fX . Esto quiere decir que la función de distribución de X es Z x FX (x) = fX (t) dt (2.11) −∞ Por otro lado, según el teorema 13, las distribuciones marginales de X = (X, Y ) son l´ FX (x, y) = FX (x) y ım l´ ım FX (x, y) = FY (y) y→+∞ x→+∞ En particular, Z x µZ +∞ ¶ FX (x) = FX (x, +∞) = f (u, v) dv du −∞ −∞ Comparando esta ecuación con (2.11), obtenemos que la función de densidad de X viene dada por Z +∞ fX (x) = f (x, y) dy −∞ Del mismo modo, deducimos que la función de densidad de Y viene dada por Z +∞ fY (y) = f (x, y) dx −∞ © Els autors, 2002; © Edicions UPC, 2002
  • 45.
    2.3. VARIABLES ALEATORIASBIDIMENSIONALES 93 Ejemplo 44 La función de densidad conjunta de dos variables aleatorias con distribución absolutamente continua es ½ k(x2 + y 2 ) si x ∈ (0, 1) e y ∈ (0, 1) f (x, y) = 0 en otro caso (1) Determinar el valor de k. (2) Obtener la función de distribución conjunta. (3) Calcular las funciones de densidad marginales. Solución: (1) Si f es una función de densidad conjunta de una distribución absolutamente continua, entonces se ha de cumplir que Z +∞ Z +∞ f (x, y) dx dy = 1 −∞ −∞ Puesto que fuera de la región (0, 1) × (0, 1) se anula f , entonces Z +∞ Z +∞ Z 1Z 1 f (x, y) dx dy = k (x2 + y 2 ) dx dy −∞ −∞ 0 0 Z 1 · ¸1 2 y3 = k x y+ dx 0 3 0 Z 1 1 = k (x2 + ) dx 0 3 · 3 ¸1 x x 2k = k + = 3 3 0 3 Por tanto, k = 3/2. (2) Para obtener la función de distribución conjunta debemos distinguir las siguientes regiones numeradas, siendo la parte rayada la única en la que no se anula la función de densidad conjunta. En la región 1, definida por x ≤ 0 e y ≥ 1, la función de distribución es cero, pues la función de densidad se anula. Lo mismo ocurre en las regiones 2,3,6 y 9. En las cuatro restantes, la función de distribución no se anula. © Els autors, 2002; © Edicions UPC, 2002
  • 46.
    94 CAPÍTULO 2. VARIABLES ALEATORIAS En la región 4, definida por 0 < x ≤ 1 e y ≥ 1, sólo nos interesa la parte en la que no se anula la función de densidad, es decir, la parte rayada de la siguiente figura Entonces, tenemos Z x Z y F (x, y) = f (u, v) du dv −∞ −∞ Z 0 Z 0 Z x Z 1 Z x Z y 3 2 = 0 du dv + (u + v 2 ) du dv + 0 du dv −∞ −∞ 0 0 2 0 1 Z · ¸1 3 x 2 v3 = u v+ du 2 0 3 0 Z xµ ¶ 3 1 = u2 + du 2 0 3 · 3 ¸x 3 u u x3 + x = + = 2 3 3 0 2 En la región 5, definida por 0 ≤ x ≤ 1 e 0 ≤ y ≤ 1, © Els autors, 2002; © Edicions UPC, 2002
  • 47.
    2.3. VARIABLES ALEATORIASBIDIMENSIONALES 95 tenemos Z x Z y F (x, y) = f (u, v) du dv −∞ −∞ Z 0 Z 0 Z x Z y 3 2 = 0 du dv + (u + v 2 ) du dv −∞ −∞ 0 0 2 Z x· ¸y 3 2 v3 = u v+ du 2 0 3 0 Z xµ ¶ 3 y3 = u2 y + du 2 0 3 · ¸x 3 u3 y y 3 u x3 y + y 3 x = + = 2 3 3 0 2 En la región 7, definida por x ≥ 1 e y ≥ 1, tenemos Z x Z y F (x, y) = f (u, v) du dv −∞ −∞ Z 0 Z 0 Z 1 Z 1 Z x Z y 3 2 = 0 du dv + (u + v 2 ) du dv + 0 du dv −∞ −∞ 0 0 2 1 1 Z 1Z 1 3 2 = (u + v 2 ) du dv = 1 0 0 2 Finalmente, en la región 8, definida por x ≥ 1 e 0 ≤ y < 1, © Els autors, 2002; © Edicions UPC, 2002
  • 48.
    96 CAPÍTULO 2. VARIABLES ALEATORIAS tenemos Z x Z y F (x, y) = f (u, v) du dv −∞ −∞ Z 0 Z 0 Z 1 Z y Z x Z y 3 2 = 0 du dv + (u + v 2 ) du dv + 0 du dv −∞ −∞ 0 0 2 1 0 Z · ¸y 3 1 2 v3 = u v+ du 2 0 3 0 Z µ ¶ 3 1 y3 = u2 y + du 2 0 3 · ¸1 3 u3 y y 3 u y + y3 = + = 2 3 3 0 2 En resumen, la función de distribución conjunta viene dada por la siguiente función   0  3 si x≤0 e y≤0  x y+y3 x    2 si 0≤x<1y 0≤y<1 F (x, y) = x3 +x si 0≤x<1e y≥1   2 y+y 3   si x≥1 y 0≤y<1   2 1 si x≥1 e y≥1 (3) La función de densidad marginal de X es © Els autors, 2002; © Edicions UPC, 2002
  • 49.
    2.3. VARIABLES ALEATORIASBIDIMENSIONALES 97 Z +∞ fX (x) = f (x, y) dy −∞ Z 1 3 2 = (x + y 2 ) dy 0 2 · ¸1 3 2 y3 = x y+ 2 3 0 µ ¶ 3 1 = x2 + 2 3 Por tanto, ½ 3 ¡ 2 1¢ 2 x +3 si x ∈ (0, 1) fX (x) = 0 si x ∈ (0, 1) / Análogamente, para la función de densidad marginal de Y , tenemos © Els autors, 2002; © Edicions UPC, 2002
  • 50.
    98 CAPÍTULO 2. VARIABLES ALEATORIAS Z +∞ fY (y) = f (x, y) dx −∞ Z 1 3 2 = (x + y 2 ) dx 0 2 · ¸1 3 x3 = + y2 x 2 3 µ ¶ 0 3 1 = + y2 2 3 Por tanto, ½ ¡1 ¢ 3 2 3 + y2 si y ∈ (0, 1) fY (y) = 0 si y ∈ (0, 1) / 2.3.6. Transformaciones de variables aleatorias bidimen- sionales Sea X = (X1 , X2 ) una variable aleatoria bidimensional sobre el espacio de probabilidades (Ω, A, P ). Sea Y = (Y1 , Y2 ) la variable aleatoria bidimensional definida por Y1 = g1 (X1 , X2 ) y Y2 = g2 (X1 , X2 ) Las funciones g1 , g2 son tales que {ω ∈ Ω : Y1 (ω) = g1 (X1 (ω), X2 (ω)) ≤ y1 }∩{ω ∈ Ω : Y2 (ω) = g2 (X1 (ω), X2 (ω)) ≤ y2 } ∈ A En esta situación el problema que se nos plantea es el de encontrar la función de distribución conjunta de Y a partir de la de X. En el caso de variables aleatorias bidimensionales discretas la solución a este problema viene dada por el siguiente teorema. Teorema 23 Sea X = (X1 , X2 ) una variable aleatoria bidimensional discreta y Y = (Y1 , Y2 ) una variable aleatoria bidimensional definida por Y1 = g1 (X1 , X2 ) Y2 = g2 (X1 , X2 ) Entonces la función de distribución de Y viene dada por X FY (y1 , y2 ) = P (X = x1 , X = x2 ) g1 (x1 ,x2 )≤y1 g2 (x1 ,x2 )≤y2 Demostración: Observamos que Y es una variable aleatoria bidimensional discreta, ya que X P (Y1 = y1 , Y2 = y2 ) = P (X = x1 , X = x2 ) g1 (x1 ,x2 )=y1 g2 (x1 ,x2 )=y2 © Els autors, 2002; © Edicions UPC, 2002
  • 51.
    2.3. VARIABLES ALEATORIASBIDIMENSIONALES 99 Por tanto, FY (y1 , y2 ) = P (Y1 ≤ y1 , Y2 ≤ y2 ) X = P (X = x1 , X = x2 ) g1 (x1 ,x2 )≤y1 g2 (x1 ,x2 )≤y2 Ejemplo 45 Sean X e Y dos variables aleatorias discretas con la siguiente función de probabilidad conjunta XY 1 2 3 1 0,1 0,1 0,2 2 0,2 0,3 0,1 Se definen las variables U = X + Y y V = X − Y . Calcular: (1) la función de probabilidad conjunta de (U, V ); (2) las funciones de probabilidad marginales de U y V. Solución: Encontremos en primer lugar los recorridos de las nuevas vari- ables. Es claro que U puede tomar los valores 2, 3, 4 y 5, mientras que V puede tomar los valores −2, −1, 0 y 1 XY 1 2 3 XY 1 2 3 U =X +Y : 1 1 3 4 y V =X −Y : 1 0 −1 −2 2 3 4 5 2 1 0 −1 Para calcular las probabilidades conjuntas, hacemos lo siguiente: X P (U = 2, V = −2) = P (X = x, Y = y) = 0 x+y=2 x−y=−2 ya que ½ x+y =2 x − y = −2 si x = 0 e y = 2, pero P (X = 0, Y = 2) = 0 ya que X no toma el valor 0. Análogamente, X P (U = 2, V = 0) = P (X = x, Y = y) x+y=2 x−y=0 = P (X = 1, Y = 1) = 0,1 Y así sucesivamente, para obtener al final U V −2 −1 0 1 2 0 0 0,1 0 3 0 0,1 0 0,2 4 0,2 0 0,3 0 5 0 0,1 0 0 © Els autors, 2002; © Edicions UPC, 2002
  • 52.
    100 CAPÍTULO 2. VARIABLES ALEATORIAS (2) De aquí obtenemos las funciones de probabilidad marginales de U y V , sumando filas y columnas, respectivamente. Así, tenemos ui 2 3 4 5 vj −2 −1 0 1 y pi 0,1 0,3 0,5 0,1 pj 0,2 0,2 0,4 0,2 En el caso de las variables aleatorias bidimensionales absolutamente con- tinuas, hay dos procedimientos. Uno consiste en calcular primero la función de distribución conjunta de Y a partir de la de X y, después, si FY es diferenciable, calcular la función de densidad conjunta fY mediante ∂ 2 FY (y1 , y2 ) = fY (y1 , y2 ) ∂y2 ∂y1 La justificación de este procedimiento se encuentra en el teorema siguiente. Teorema 24 Sean X1 , X2 dos variables aleatorias absolutamente continuas con función de densidad conjunta fX y sean Y1 , Y2 dos variables aleatorias definidas por Yi = gi (X1 , X2 ) (i = 1, 2). Entonces, la función de distribución conjunta de Y = (Y1 , Y2 ) es Z Z FY (y1 , y2 ) = fX (x1 , x2 ) dx1 dx2 D donde D es el recinto plano de integración definido por gi (x1 , x2 ) ≤ yi (i = 1, 2). Demostración: Por definición, tenemos FY (y1 , y2 ) = P (Y1 ≤ y1 , Y2 ≤ y2 ) = P (g1 (X1 , X2 ) ≤ y1 , g2 (X1 , X2 ) ≤ y2 ) = P ((X1 , X2 ) ∈ D) ya que de la condición gi (X1 (ω), X2 (ω)) ≤ yi (i = 1, 2) se deduce (X1 (ω), X2 (ω)) ∈ D. Por tanto, Z Z P ((X1 , X2 ) ∈ D) = fX (x1 , x2 ) dx1 dx2 D y, como consecuencia, tenemos Z Z FY (y1 , y2 ) = fX (x1 , x2 ) dx1 dx2 D que es lo que queríamos demostrar. © Els autors, 2002; © Edicions UPC, 2002
  • 53.
    2.3. VARIABLES ALEATORIASBIDIMENSIONALES 101 Ejemplo 46 Dada la siguiente función de densidad conjunta ½ k(x + y) si 0 < x < 1 y 0 < y < 2 − 2x f (x, y) = 0 en otro caso (1) Calcular el valor de k. (2) Definimos las variables U, V mediante U = X +Y y V = X − Y . Calcular P (U > 0,5, V < −0,5). Solución: (1) Si f es una función de densidad conjunta de una variable aleatoria bidimensional, entonces Z +∞ Z +∞ f (x, y) dx dy = 1 −∞ −∞ En nuestro caso, tenemos Z +∞ Z +∞ Z 0 Z 0 Z 1 µZ 2−2x ¶ f (x, y) dx dy = 0 dx dy + k(x + y) dy dx −∞ −∞ −∞ −∞ 0 0 ·Z 1 ¸2−2x y2 = k xy + dx 0 2 0 Z 1µ ¶ (2 − 2x)2 = k x(2 − 2x) + dx 0 2 Z 1 = k (2 − 2x) dx 0 = k y, por tanto, k = 1. (2) El recinto R es la parte de la región D, definida por las desigualdades x + y > 0,5 x − y < −0,5 en la que no se anula la función de densidad conjunta; la densidad conjunta no se anula en la región limitada por las líneas rojas de la siguiente figura. © Els autors, 2002; © Edicions UPC, 2002
  • 54.
    102 CAPÍTULO 2. VARIABLES ALEATORIAS Es claro que P (U > 0,5, V < −0,5) = P (X + Y > 0,5, X − Y < −0,5) = P ((X, Y ) ∈ D) Además, Z 0,5 µZ 2−2x ¶ P ((X, Y ) ∈ D) = (x + y) dy dx 0 0,5+x Z 0,5 · ¸ 2 2−2x y = xy + dx 0 2 0,5+x Z 0,5 3 15 = (−3x − x2 + ) dx 0 2 8 · ¸0,5 3 2 1 3 15 1 = − x − x + x = 2 2 8 0 2 Otro procedimiento consiste en determinar primero la función de densidad fY de Y = g(X) a partir de la de X y, después, por integración doble, determinar la función de distribución. Este procedimiento es más limitado que el anterior porque se han de comprobar previamente que se cumplen las condiciones del teorema del cambio de variables para integrales dobles. La justificación de este procedimiento se halla en el siguiente teorema. Teorema 25 Sea X = (X1 , X2 ) una variable aleatoria absolutamente continua con función de densidad conjunta fX y sea Yi = gi (X1 , X2 ) (i = 1, 2), de manera que g = (g1 , g2 ) sea una aplicación de R2 en sí mismo de clase C 1 e inyectiva en el conjunto A en que fX no se anula. Entonces, sobre el recorrido g(A) está © Els autors, 2002; © Edicions UPC, 2002
  • 55.
    2.3. VARIABLES ALEATORIASBIDIMENSIONALES 103 −1 −1 −1 definida la transformación inversa g −1 = (g1 , g2 ) por Xi = gi (Y1 , Y2 ) (i = −1 1, 2). Supongamos también que g es continua y que su jacobiano Jg−1 no se anula en g −1 (A). En estas condiciones, Y = (Y1 , Y2 ) es una variable aleatoria absolutamente continua y ¯ ¯ fY (y1 , y2 ) = fX (g −1 (y1 , y2 ), g −1 (y1 , y2 )) · ¯Jg−1 ¯ 1 2 Demostración: Tenemos ¯ ¯ ¯ ∂x1 ∂x1 ¯ ¯ ∂y1 ∂y2 ¯ Jg−1 =¯ ∂x2 ∂x2 ¯ ¯ ∂y1 ∂y2 ¯ y las condiciones impuestas son suficientes para poder aplicar el teorema del cambio de variables para integrales dobles. Entonces P ((Y1 , Y2 ) ∈ g −1 (A)) = P ((X1 , X2 ) ∈ A) Z Z = fX (x1 , x2 ) dx1 dx2 A Z Z ¯ ¯ = fX (g1 (y1 , y2 ), g2 (y1 , y2 )) · ¯Jg−1 ¯ dy1 dy2 −1 −1 g −1 (A) de donde se deduce que la función de densidad conjunta de Y viene dada por ¯ ¯ fY (y1 , y2 ) = fX (g1 (y1 , y2 ), g2 (y1 , y2 )) · ¯Jg−1 ¯ −1 −1 Ejemplo 47 La función de densidad conjunta de dos variables aleatorias con distribución absolutamente continua es ½ 2 si 0 < y < x < 1 f (x, y) = 0 en otro caso Calcular: (1) la función de densidad conjunta de las variables U, V , definidas por U = X + Y y V = X − Y ; (2) P (U < 1,5, V < 0,75); (3) P (U < 1,5), y (4) P (V < 0,75). Solución: Consideremos la siguiente transformación o cambio de variables ¾ x+y =u x−y =v La transformación inversa es ½ x = 1 (u + v) 2 y = 1 (u − v) 2 y su jacobiano es ¯ ¯ ¯ 1 1 ¯ J =¯ 2 2 ¯ = −1 ¯ 1 −1 ¯ 2 2 2 © Els autors, 2002; © Edicions UPC, 2002
  • 56.
    104 CAPÍTULO 2. VARIABLES ALEATORIAS luego |J| = 1/2 y, según el teorema 17, la función de densidad conjunta de (U, V ) es u+v u−v 1 g(u, v) = f ( , )· =1 2 2 2 en la imagen del recinto por la transformación. El recinto A, definido en el plano xy por 0 < y < x < 1, se transforma en el recinto B en el plano uv. Como consecuencia, tenemos que la función de densidad conjunta de U y V es ½ 1 si 0 < v < u y u + v < 2 g(u, v) = 0 en otro caso (2) La región sombreada de la siguiente figura representa la parte del suceso [U < 1,5, V < 0,75] en la que la función de densidad conjunta no se anula. Por tanto, Z 0,75 µZ u ¶ Z 1,25 µZ 0,75 ¶ P (U < 1,5, V < 0,75) = 1 dv du + 1 dv 0 0 0,75 0 Z 1,5 µZ 2−u ¶ + 1 dv dv = 0,812 5 1,25 0 (3) Para calcular P (U < 1,5), antes determinaremos la función de densidad marginal de U . © Els autors, 2002; © Edicions UPC, 2002
  • 57.
    2.3. VARIABLES ALEATORIASBIDIMENSIONALES 105 Por definición, si 0 < u < 1, entonces Z u gU (u) = 1 dv = u 0 y si 1 ≤ u < 2, entonces Z 2−u gU (u) = 1 dv = 2 − u 0 Por tanto,   u si 0 < u < 1 gU (u) = 2 − u si 1 ≤ u < 2  0 en otro caso Como consecuencia, Z 1 Z 1,5 P (U < 1,5) = u du + (2 − u) du = 0,875 0 1 (4) Del mismo modo, para calcular P (V < 0,75) necesitamos la función de densidad marginal de V . Por definición, si 0 < v < 1, entonces Z 2−v gV (v) = 1 du = 2 − 2v v © Els autors, 2002; © Edicions UPC, 2002
  • 58.
    106 CAPÍTULO 2. VARIABLES ALEATORIAS Por tanto, ½ 2 − 2v si 0 < v < 1 gV (v) = 0 en otro caso Como consecuencia, Z 0,75 P (V < 0,75) = (2 − 2v) dv = 0,937 5 0 2.3.7. Independencia de variables aleatorias. Distribuciones condicionades Supongamos que A y B son dos subconjuntos arbitrarios de la recta real, entonces decimos que las variables aleatorias absolutamente continuas X e Y sobre el mismo espacio de probabilidades (Ω, A, P ) son independientes si los sucesos [X ∈ A] = {ω ∈ Ω : X(ω) ∈ A} [Y ∈ B] = {ω ∈ Ω : Y (ω) ∈ B} son independientes, o dicho de otro modo, si P (X ∈ A, Y ∈ B) = P (X ∈ A) · P (Y ∈ B) (2.12) En particular, si tomamos A = (−∞, x] y B = (−∞, y], donde x, y son dos números reales cualesquiera, entonces [X ∈ A] = [X ≤ x] y [Y ∈ B] = [Y ≤ y] y la condición (2.12) se escribe en la forma siguiente FX (x, y) = FX (x) · FY (y) (2.13) en donde FX es la función de distribución conjunta de X = (X, Y ) y FX , FY son las distribuciones marginales de X e Y respectivamente. Recíprocamente, si (2.13) se cumple también se satisface (2.12). En efecto, si se cumple FX (x, y) = FX (x) · FY (y) y las variables son absolutamente continuas, se tiene Z x Z y Z x Z y f (u, v) du dv = fX (u) du · fY (v) dv −∞ −∞ −∞ −∞ y, en consecuencia, f (x, y) = fX (x) · fY (y) Ahora bien, sabemos que Z Z P (X ∈ A) = fX (x) dx y P (Y ∈ B) = fY (y) dy A B © Els autors, 2002; © Edicions UPC, 2002
  • 59.
    2.3. VARIABLES ALEATORIASBIDIMENSIONALES 107 y, por tanto, Z Z P (X ∈ A, Y ∈ B) = f (x, y) dx dy A×B Z Z = fX (x) · fY (y) dx dy Z A×B Z = fX (x) dx fY (y) dy A B = P (X ∈ A) · P (Y ∈ B) El caso que acabamos de estudiar justifica la siguiente definición. Independencia de variables aleatorias Definición 5 Dos variables aleatorias X e Y son independientes si su función de distribución conjunta factoriza en producto de funciones de distribución in- dividuales F (x, y) = FX (x) · FY (y) Observación 16 Como hemos visto, la condición de independencia para dos variables aleatorias X, Y absolutamente continuas es equivalente a f (x, y) = fX (x) · fY (y) y, si son discretas, es inmediato comprobar que la condición es equivalente a P (X = x, Y = y) = P (X = x) · P (Y = y) Ejemplo 48 La función de densidad conjunta de dos variables aleatorias X, Y con distribución absolutamente continua es ½ 6x si 0 < x < y < 1 f (x, y) = 0 en otro caso Calcular: (1) las funciones de densidad marginales, y (2) averiguar si X e Y son o no independientes. Solución: El recinto de definición viene dado por A partir de él, determinaremos las funciones de densidad marginales. © Els autors, 2002; © Edicions UPC, 2002
  • 60.
    108 CAPÍTULO 2. VARIABLES ALEATORIAS (1) Si 0 < x < 1, tenemos Z 1 fX (x) = 6x dy = 6x(1 − x) x y, por tanto, ½ 6x(1 − x) si 0 < x < 1 fX (x) = 0 en otro caso Por otro lado, si 0 < y < 1, tenemos Z y fY (y) = 6x dx = 3y 2 0 y, por tanto, ½ 3y 2 si 0 < y < 1 fY (y) = 0 en otro caso (2) Puesto que, fX (x) · fY (y) = 18xy 2 (1 − x) 6= 6x = f (x, y) en 0 < x < y < 1, las variables aleatorias X e Y no son independientes. Ejemplo 49 Consideremos las variables aleatorias discretas consideradas en el ejercicio 12. Se trata de averiguar si son o no independientes. © Els autors, 2002; © Edicions UPC, 2002
  • 61.
    2.3. VARIABLES ALEATORIASBIDIMENSIONALES 109 Solución: Para que las variables X e Y fueran independientes tendría que verificarse P (X = i, Y = j) = P (X = i) · P (Y = j) para todo i, j = 1, 2, ..., 6. Sin embargo, ésto no sucede, ya que, por ejemplo 1 1 1 P (X = 1, Y = 2) = 6= · = P (X = 1) · P (Y = 2) 36 6 12 Por lo tanto, las variables no son independientes. El siguiente teorema nos dice que las funciones de variables aleatorias inde- pendientes son independientes. Así, si X e Y son independientes, entonces las variables g(X) = X 2 y h(Y ) = sin Y también lo son. Teorema 26 Si X e Y son dos variables aleatorias independientes sobre el espacio de probabilidades (Ω, A, P ), entonces las variables aleatorias U = g(X) y V = h(Y ) son también independientes. Demostración: Por definición, tenemos FU V (u, v) = P (U ≤ u, V ≤ v) = P (g(X) ≤ u, h(Y ) ≤ v) Consideremos los subconjuntos siguientes de la recta real A = {x ∈ R : g(x) ≤ u} B = {y ∈ R : h(y) ≤ v} Entonces, [g(X) ≤ u, h(Y ) ≤ v] = [X ∈ A, Y ∈ B] Ahora bien, como X e Y son independientes, deducimos FU V (u, v) = P (X ∈ A, Y ∈ B) = P (X ∈ A) · P (Y ∈ B) = P (g(X) ≤ u) · P (h(Y ) ≤ v) = P (U ≤ u) · P (V ≤ v) = FU (u) · FV (v) Distribuciones condicionadas Sea X una variable aleatoria definida sobre un espacio de probabilidades (Ω, A, P ) y sea B ∈ A con P (B) > 0. Se llama función de distribución condicionada de la variable X a B, denotada por F ( |B), a la función definida por P (X ≤ x, B) F (x|B) = P (X ≤ x|B) = P (B) © Els autors, 2002; © Edicions UPC, 2002
  • 62.
    110 CAPÍTULO 2. VARIABLES ALEATORIAS Como la función de distribución condicionada se define en términos de la prob- abilidad condicionada y sabemos que ésta es una probabilidad sobre (Ω, A) al igual que P , dicha función posee las mismas propiedades que cualquier función de distribución de una variable aleatoria sobre (Ω, A, P ) . Por consiguiente, se cumple: 1. 0 ≤ F (x|B) ≤ 1 para todo x ∈ R 2. F ( |B) es monótona no decreciente: x1 < x2 =⇒ F (x1 |B) ≤ F (x2 |B) para todo x1 , x2 ∈ R 3. F (−∞|B) = 0 y F (+∞|B) = 1 4. P (a < X ≤ b|B) = F (b|B) − F (a|B) para todo a, b ∈ R con a ≤ b 5. F ( |B) es continua por la derecha en cada punto de R Por ejemplo, en el caso de que X sea una variable aleatoria absolutamente continua, la función de densidad condicionada, denotada por f ( |B), se define mediante Z x F (x|B) = f (t|B) dt −∞ Esta función cumple propiedades análogas a las de las funciones de densidad de variables aleatorias absolutamente continuas, es decir, 1. Z +∞ f (x|B) dx = 1 −∞ 2. f (x|B) ≥ 0 para todo x ∈ R 3. Si f ( |B) es continua, entonces f (x|B) = F 0 (x|B) 4. Z b P (a < X ≤ b) = f (x) dx a En la definición de distribución condicionada, B es un suceso arbitrario su- jeto a la única condición de que P (B) > 0. Consideraremos ahora dos casos importantes de condicionamiento: Sea X una variable aleatoria absolutamente continua sobre (Ω, A, P ). Caso 4 Y es una variable aleatoria absolutamente continua sobre el mismo espacio de probabilidades que X y B = [Y ≤ y], con P (B) > 0 © Els autors, 2002; © Edicions UPC, 2002
  • 63.
    2.3. VARIABLES ALEATORIASBIDIMENSIONALES 111 Entonces, por definición, tenemos P (X ≤ x, Y ≤ y) F (x|Y ≤ y) = P (Y ≤ y) F (x, y) = (FY (y) > 0) FY (y) Si, además, f es continua, entonces obtenemos que la función de densidad condi- cionada viene dada por µ ¶ ∂ F (x, y) f (x|Y ≤ y) = ∂x FY (y) 1 ∂F (x, y) = FY (y) ∂x Caso 5 Y es una variable aleatoria absolutamente continua sobre el mismo espacio de probabilidades que X y B = [Y = y] En este caso, al ser Y una variable aleatoria absolutamente continua, se cumple P (B) = P (Y = y) = 0 y no podemos aplicar la definición de función de distribución condicionada. En su lugar, procederemos de la siguiente manera: consideremos el suceso Bh = [y < Y ≤ y + h] con h ≥ 0. Es claro que P (Bh ) 6= 0 y l´ Bh = l´ + [y < Y ≤ y + h] = [Y = y] = B ım ım h→0+ h→0 De este modo, tenemos P (X ≤ x, y < Y ≤ y + h) F (x|y < Y ≤ y + h) = P (y < Y ≤ y + h) P (X ≤ x, Y ≤ y + h) − P (X ≤ x, Y ≤ y) = P (y < Y ≤ y + h) F (x, y + h) − F (x, y) = FY (y + h) − FY (y) de donde, pasando al límite, obtenemos F (x,y+h)−F (x,y) h l´ + F (x|y ım < Y ≤ y + h) = l´ + ım FY (y+h)−FY (y) h→0 h→0 h 1 ∂F (x, y) = 0 FY (y) ∂y © Els autors, 2002; © Edicions UPC, 2002
  • 64.
    112 CAPÍTULO 2. VARIABLES ALEATORIAS es decir, 1 ∂F (x, y) F (x|Y = y) = 0 FY (y) ∂y 0 Si fY es continua y fY (y) > 0, entonces FY (y) = fY (y), y, como consecuencia, obtenemos 1 ∂F (x, y) F (x|Y = y) = (2.14) fY (y) ∂y Si f ( |Y = y) es también continua, entonces ∂F (x|Y = y) f (x|Y = y) = ∂x y, por tanto, derivando (2.14) respecto a x, obtenemos 1 ∂ 2 F (x, y) f (x|Y = y) = fY (y) ∂x∂y f (x, y) = fY (y) ya que si f es continua, entonces ∂ 2 F (x, y) = f (x, y) ∂y∂x Del mismo modo, se obtiene f (x, y) f (y|X = x) = fX (x) En resumen, las funciones de densidad condicionadas son ( f (x,y) fY (y) si fY (y) > 0 f (x|Y = y) = 0 en otro caso y ( f (x,y) fX (x) si fX (x) > 0 f (y|X = x) = 0 en otro caso Finalmente, si X e Y son independientes, entonces f (x, y) = fX (x) · fY (y) y, como consecuencia, obtenemos que f (x|Y = y) = fX (x) y f (y|X = x) = fY (y) es decir, todas las densidades condicionadas coinciden con las marginales. © Els autors, 2002; © Edicions UPC, 2002
  • 65.
    2.3. VARIABLES ALEATORIASBIDIMENSIONALES 113 Observación 17 En el caso discreto, se deducen fórmulas análogas. Así, por ejemplo, tenemos p(X = xi , Y = yj ) P (X = xi |Y = yj ) = p(Y = yj ) siendo X P (Y = yj ) = P (X = xi , Y = yj ) 6= 0 xi Ejemplo 50 Se considera la siguiente función de probabilidad conjunta de una variable aleatoria bidimensional discreta (X, Y ) xi yj 1 2 1 0,1 0,2 2 0,2 0,3 3 0,1 0,1 Calcular: (1) las funciones de probabilidad marginales; (2) las funciones de prob- abilidad condicionadas de X a Y ; y (3) las funciones de probabilidad condi- cionadas de Y a X. Solución: (1) Las funciones de probabilidad marginales se definen, para X, como X P (X = xi ) = P (X = xi , Y = yj ) yj y para Y , como X P (Y = yj ) = P (X = xi , Y = yj ) xi Por tanto, tenemos xi P (X = xi ) 1 P (X = 1, Y = 1) + P (X = 1, Y = 2) = 0,3 2 P (X = 2, Y = 1) + P (X = 2, Y = 2) = 0,5 3 P (X = 3, Y = 1) + P (X = 3, Y = 2) = 0,2 y yj P (Y = yj ) 1 P (X = 1, Y = 1) + P (X = 2, Y = 1) + P (X = 3, Y = 1) = 0,4 2 P (X = 1, Y = 2) + P (X = 2, Y = 2) + P (X = 3, Y = 2) = 0,6 (2) Las probabilidades condicionadas de X a Y se definen como P (X = xi , Y = yj ) P (X = xi |Y = yj ) = P (Y = yj ) © Els autors, 2002; © Edicions UPC, 2002
  • 66.
    114 CAPÍTULO 2. VARIABLES ALEATORIAS Por tanto, tenemos X|Y = 1 P (X|Y = 1) X|Y = 2 P (X|Y = 2) 1 1/4 1 2/6 y 2 2/4 2 3/6 3 1/4 3 1/6 (3) Las probabilidades condicionadas de Y a X se definen como P (X = xi , Y = yj ) P (Y = yj |X = xi ) = P (Y = xi ) Por tanto, tenemos Y |X = 1 P (Y |X = 1) Y |X = 2 P (Y |X = 2) Y |X = 3 P (Y |X = 3) 1 1/3 y 1 2/5 y 1 1/2 2 2/3 2 3/5 2 1/2 Ejemplo 51 Una variable aleatoria bidimensional (X, Y ) tiene una distribu- ción uniforme en el recinto definido por las rectas y = x, y = −x y x = 1. Calcular (1) las funciones de densidad marginales; (2) las funciones de densi- dad condicionadas; y (3) P (Y > 1/4|X = 1/2) y P (X < 3/4|Y = 1/2). Solución: Si (X, Y ) tiene una función de distribución uniforme quiere decir que f (x, y) = k sobre el recinto de definición. Entonces se ha de cumplir que Z +∞ Z +∞ f (x, y) dx dy = 1 −∞ −∞ © Els autors, 2002; © Edicions UPC, 2002
  • 67.
    2.3. VARIABLES ALEATORIASBIDIMENSIONALES 115 Por tanto, Z +∞ Z +∞ Z 1 µZ x ¶ f (x, y) dx dy = k dy dx −∞ −∞ 0 −x Z 1 = 2k x dx 0 · ¸1 x2 = 2k =k 2 0 luego, k = 1. (1) La función de densidad marginal de X para 0 < x < 1 es Z x fX (x) = 1 dy = 2x −x Luego, ½ 2x si 0 < x < 1 fX (x) = 0 en otro caso Por otro lado, la función de densidad marginal de Y para −1 < y < 0 es Z 1 fY (y) = 1 dx = 1 + y −y y para 0 ≤ y < 1, Z 1 fY (y) = 1 dx = 1 − y y Luego,   1+y si − 1 < y < 0 fY (y) = 1−y si 0 ≤ y < 1  0 en otro caso © Els autors, 2002; © Edicions UPC, 2002
  • 68.
    116 CAPÍTULO 2. VARIABLES ALEATORIAS Figura 2.1: (2) La función de densidad condicionada de X a Y se define como f (x, y) f (x|y) = (fY (y) 6= 0) fY (y) y la de Y a X, como f (x, y) f (y|x) = (fX (x) 6= 0) fX (x) Por tanto, para −1 < y < 0 tenemos −y < x < 1 y 1 f (x|y) = 1+y y, para 0 ≤ y < 1 tenemos y < x < 1 y 1 f (x|y) = 1−y Por tanto, la función de densidad condicionada de X a Y viene dada por  1  1+y si − y < x < 1 1 f (x|y) = si y ≤ x < 1  1−y 0 en otro caso Interpretamos este resultado como sigue: por ejemplo, si Y = −1/2, entonces observamos que en el recinto de definición la variable X toma valores entre 1/2 y 1. En consecuencia, 1 f (x|Y = −1/2) = =2 1 − 1/2 © Els autors, 2002; © Edicions UPC, 2002
  • 69.
    2.3. VARIABLES ALEATORIASBIDIMENSIONALES 117 es decir, X|Y = −1/2 tiene una distribución uniforme en el intervalo (1/2, 1). Del mismo modo, para 0 < x < 1 tenemos −x < y < x y 1 f (y|x) = 2x Por ejemplo, si tomamos x = 1/2, se observa que Y toma los valores en (−1/2, 1/2) y para este campo de valores la función de densidad condiciona- da de Y a X = 1/2 viene dada por 1 f (y|X = 1/2) = =1 2 · 1/2 es decir, Y |X = 1/2 tiene una distribución uniforme en el intervalo (−1/2, 1/2). (3) Hemos visto que Y |X = 1/2 tiene distribución uniforme en el intervalo (−1/2, 1/2) y f (y|X = 1/2) = 1 Luego Z 1/2 1 P (Y > 1/4|X = 1/2) = 1 dy = 1/4 4 Análogamente, para Y = 1/2, tenemos que X toma valores en (1/2, 1) y 1 f (x|Y = 1/2) = =2 1 − 1/2 y, por tanto, Z 1 1 P (X < 3/4|Y = 1/2) = 2 dx = 3/4 2 Fórmulas de la probabilidad total y de Bayes Sabemos que las fórmulas de la probabilidad total y de Bayes son consecuen- cia inmediata de la definición de probabilidad condicionada. El siguiente teore- ma da las fórmulas equivalentes para el caso de distribuciones condicionadas de variables aleatorias absolutamente continuas. Teorema 27 Sea X e Y dos variables aleatorias absolutamente continuas sobre (Ω, A, P ) con densidades fX y fY y con densidades condicionadas f ( |y) y f ( |x), respectivamente. Entonces, se cumple la fórmula de la probabilidad total Z +∞ fX (x) = f (x|y) · fY (y) dy −∞ y la fórmula de Bayes f (x|y) · fY (y) f (y|x) = fX (x) © Els autors, 2002; © Edicions UPC, 2002
  • 70.
    118 CAPÍTULO 2. VARIABLES ALEATORIAS en donde hemos abreviado f (x|Y = y) por f (x|y). Demostración: Sabemos que f (x, y) = f (x|y) · fY (y) (2.15) y Z +∞ fX (x) = f (x, y) dy −∞ Como consecuencia, resulta la fórmula de la probabilidad total Z +∞ fX (x) = f (x|y) · fY (y) dy −∞ Sabemos que f (x, y) = f (y|x) · fX (x) (2.16) Entonces, de (2.15) y (2.16), deducimos f (x|y) · fY (y) = f (y|x) · fX (x) y, de aquí se obtiene la fórmula de Bayes para variables aleatorias f (x|y) · fY (y) f (y|x) = fX (x) Observación 18 1. En el caso discreto, tenemos fórmulas análogas. Así, por ejemplo, tenemos X P (X = xi ) = P (X = xi |Y = yj ) · P (Y = yj ) yj y P (X = xi |Y = yj ) · P (Y = yj ) P (Y = yj |X = xi ) = P (X = xi ) 2. Estas dos fórmulas pueden generalizarse de la siguiente manera: Z +∞ P (A) = f (A|x) · fX (x) dx −∞ y f (A|x) · fX (x) f (x|A) = P (A) en donde A es un suceso cualquiera, X es una variable aleatoria absolu- tamente continua con densidad fX y P (A, x < X ≤ x + h) f (A|x) = l´ + ım h→0 P (x < X ≤ x + h) siempre que el límite exista. © Els autors, 2002; © Edicions UPC, 2002
  • 71.
    2.3. VARIABLES ALEATORIASBIDIMENSIONALES 119 Ejemplo 52 El número de productos defectuosos fabricados al día por una em- presa es una variable aleatoria X con función de densidad de probabilidad 3x P (X = x) = e−3 (x = 0, 1, 2, ...) x! Si un día se obtienen x productos defectuosos, el número de minutos que se tarda en revisarlos y recomponerlos a no defectuosos es una variable aleatoria Y de forma que (x + 1)y P (Y = y|X = x) = e−x−1 (y = 0, 1, 2, ...) y! Se pide: (1) obtener la función de densidad conjunta de (X, Y ); (2) ¿son X e Y independientes?, y (3) calcular la expresión de la probabilidad de que X se concrete en 2 defectuosos, supuesto que se tardó 3 minutos en convertirlos en no defectuosos. Solución: (1) Por la definición de probabilidad condicionada se deduce P (X = x, Y = y) = P (Y = y|X = x) · P (X = x) 3x (x + 1)y = e−x−4 (x, y = 0, 1, 2, ...) x!y! (2) Es evidente que X e Y no son independientes, ya que P (Y = y|X = x) depende de x y, como consecuencia, se tendrá P (Y = y|X = x) 6= P (Y = y) (3) Según la fórmula de Bayes, tenemos P (Y = 3|X = 2) · P (X = 2) P (X = 2|Y = 3) = P (Y = 3) Ahora bien, sabemos por el enunciado que 9 −3 P (X = 2) = e 2 y 27 −3 P (Y = 3|X = 2) = e 6 y, además, por la fórmula de la probabilidad total, obtenemos ∞ X P (Y = 3) = P (Y = 3|X = x) · P (X = x) X=0 ∞ X 3x (x + 1)3 = e−x−4 x=0 x!3! ∞ X 1 3x (x + 1)3 e−x−4 6 x=0 x! © Els autors, 2002; © Edicions UPC, 2002
  • 72.
    120 CAPÍTULO 2. VARIABLES ALEATORIAS Por tanto, 81 −6 4 e 1 1 P (X = 2|Y = 3) = ∞ = ∞ X x (x+1)3 2X x−5 (x+1)3 1 6 e−x−4 3 x! e−x+2 3 x! x=0 x=0 2.4. Valores esperados, momentos y funciones características 2.4.1. Concepto de esperanza matemática Dada una variable aleatoria X definida sobre un espacio muestral Ω numer- able, su esperanza matemática es el número E(X) dado por la fórmula X E(X) = X(ω) · p({ω}) (2.17) ω∈Ω siempre y cuando esta serie sea absolutamente convergente, es decir, siempre que X |X(ω)| · P ({ω}) (2.18) ω∈Ω sea convergente. Se dice entonces que existe la esperanza matemática de la variable X. Cuando se habla de "esperanza matemática"es corriente omitir el adjetivo. Se utilizan también otros términos, como "valor esperado", "media.o "valor medio". En cualquier caso, no se espera encontrar el valor de E(X) al ir observando los valores de X. Por ejemplo, si se lanza una moneda insesgada, y se gana 1 C = cuando sale cara y nada cuando sale cruz, nunca se obtendrá el valor esperado de 0.5 C . Sin embargo, lanzando la moneda un gran número n de veces, sí se = puede esperar conseguir alrededor de n/2 C con buena probabilidad. Así se = deduce de la ley de los grandes números, que se estudiará en otra sección. Evidentemente, cuando Ω sea un espacio finito la condición (2.18) se cumple automáticamente, pero cuando Ω sea infinito numerable la condición es esencial, porque permite calcular la esperanza por cualquier procedimiento de reorde- nación y asociación de sumandos de la serie (2.17) sin temor a que se obtengan resultados contradictorios. Dicho de otra forma, las series absolutamente con- vergentes tienen una suma definida de manera única, que para nada depende de como se vayan eligiendo y sumando sus términos. La esperanza matemática es una generalización del concepto de media arit- mética. Dada una muestra de valores observados x1 , x2 , ..., xn de una variable X con sus respectivas frecuencias f1 , f2 , ..., fn . Sabemos que la media de la muestra es n n 1 X X fi x= xi · fi = xi · N i=1 i=1 N © Els autors, 2002; © Edicions UPC, 2002
  • 73.
    2.4. VALORES ESPERADOS,MOMENTOS Y FUNCIONES CARACTERÍSTICAS121 en donde n X N= fi i=1 Las frecuencias relativas fi /N se pueden considerar como las probabilidades que tienen los valores xi de presentarse en la muestra total de tamaño N . Poniendo entonces fi P (X = xi ) = (i = 1, 2, ..., n) N tenemos n X x= xi · P (X = xi ) i=1 o sea, resulta (2.17) en el caso de que Ω sea un espacio muestral finito. Observación 19 Al pensar que el concepto de esperanza está estrechamente vinculado a los juegos de azar y, por tanto, con la misma definición de proba- bilidad, quizá sorprenda al lector que suprimiendo la condición de convergencia absoluta (2.18) puedan producirse sorpresas. El siguiente ejemplo pone de man- ifiesto este hecho. Supongamos que queremos jugar al siguiente juego: lanzamos una moneda al aire hasta que sale cara. Si sale cara en la primera tirada, la banca paga al jugador 2 C . Si sale cara en la segunda tirada el jugador recibe 22 C . Si sale = = cara por primera vez en la tirada n-ésima el jugador gana 2n C . Es claro que = la cantidad de euros que el jugador puede ganar en este juego es una variable aleatoria X. ¿Cuál es el valor esperado de X? ¿Estaríamos dispuestos a pagar este valor por avanzado para participar en este juego? Los valores que puede tomar X son x1 , x2 , ..., xn , ... , con xn = 2n . Además, la probabilidad del valor xn correspondiente a la probabilidad del suceso de que en n tiradas independientes salga cara por primera vez en el último lanzamiento es µ ¶n 1 P (X = xn ) = 2 Por tanto, la esperanza de X viene dada por ∞ X E(X) = xn · P (X = xn ) n=1 X∞ 1 = 2n · n=1 2n = 1 + 1 + ··· + 1 + ··· = ∞ De este modo hemos encontrado una variable aleatoria para la que no existe la esperanza matemática o que su valor esperado es infinito. © Els autors, 2002; © Edicions UPC, 2002
  • 74.
    122 CAPÍTULO 2. VARIABLES ALEATORIAS 2.4.2. Valores esperados de variables aleatorias discretas Si X es una variable aleatoria discreta de función de densidad f (xi ) = P (X = xi ), se define la esperanza o valor esperado de X por X E(X) = xi · f (xi ) i Si la suma es una serie numérica, se exige que sea absolutamente convergente. Ejemplo 53 En el juego de la ruleta se hace girar una bola encima de una rueda circular dividida en 37 arcos de la misma longitud, numerados del 0 al 36. Suponemos que la probabilidad de que ocurra un arco es la misma para todos y, por tanto, la bola puede caer en cualquier número del 0 al 36 con una probabilidad de 1/37. Supongamos ahora que jugamos a números impares y que la apuesta se hace a dos por uno, es decir, si apostamos 1 C y sale impar, recibimos 2 C = = (incluida la apuesta), y no cobramos nada si sale par. ¿Qué esperamos a ganar si apostamos continuamente a números impares? Solución: Sea X la variable aleatoria que indica la cantidad que uno puede ganar o perder al apostar 1 C a un número impar. Es claro que X puede tomar = dos valores: X = 1 si sale impar, y X = −1 si sale par o cero (hay que recordar que la banca se queda con la apuesta si sale cero). Además, 18 19 P (X = 1) = y P (X = −1) = 37 37 Como consecuencia, tenemos 1 E(X) = 1 · P (X = 1) + (−1) · P (X = −1) = − = −0,027 37 La esperanza de X representa en este caso la ganancia o pérdida media por apuesta. Si hacemos n apuestas de 1 C a número impar, la ganancia o pérdida = media será X1 + X2 + · · · + Xn n y el valor esperado de X será este valor cuando n tienda al infinito (Veremos más adelante que la ley de los grandes números asegura este hecho). Así, al apostar 1 C a un número impar en la ruleta es un juego injusto para el jugador, = ya que por cada 1000 apuestas se espera que el judador pierda 27 C . = Ejemplo 54 Calcular la esperanza del indicador IA de un suceso A de un es- pacio de probabilidades (Ω, A, P ). Solución: Sabemos que IA es una variable aleatoria discreta, definida como sigue ½ 1 ω∈A IA (ω) = 0 ω∈A / Además, se tiene P (IA = 1) = P (ω ∈ A) = P (A) © Els autors, 2002; © Edicions UPC, 2002
  • 75.
    2.4. VALORES ESPERADOS,MOMENTOS Y FUNCIONES CARACTERÍSTICAS123 y P (IA = 0) = P (ω ∈ A) = P (A) = 1 − P (A) / Por tanto, E(IA ) = 1 · P (IA = 1) + (−1) · P (IA = 0) = P (A) Como consecuencia, la probabilidad de un suceso es el valor esperado de su indicador. Valores esperados de las funciones de variables aleatorias discretas Sea g una función real de variable real y sea X una variable aleatoria sobre (Ω, A, P ). No vamos a suponer que g sea una función arbitraria, sino que se supondrá que g(X) es, a su vez, una variable aleatoria. Recordemos que g(X) es una función definida sobre Ω que asigna a cada ω ∈ Ω el número real g(X(ω)), y la condición de que g(X) sea una variable aleatoria significa que para todo número real r, el conjunto [g(X) ≤ r] = {ω ∈ Ω : g(X(ω)) ≤ r} ∈ A Teorema 28 Si X es una variable aleatoria discreta que toma los valores x1 , x2 , ..., xn , ... con función de densidad f (xi ) = P (X = xi ) (i = 1, 2, ...) y g es una función real de variable real tal que g(X) es una variable aleatoria, entonces X E(g(X)) = g(xn ) · f (xn ) n siempre y cuando la serie converga absolutamente. Demostración: Como X es discreta también lo será g(X). Consideremos el conjunto T de todos los números reales de la forma g(xn ). Es claro que T será un conjunto finito o infinito numerable. Entonces, por definición de esperanza tenemos X X E(g(X)) = t· f (xn ) t∈T {xn :g(xn )=t} X = t · f (xn ) t∈T {xn :g(xn )=t} X = g(xn ) · f (xn ) n Observación 20 Este teorema puede generalizarse al caso de una función de n-varias variables aleatorias discretas. Por ejemplo, si X, Y son dos variables aleatorias discretas sobre (Ω, A, P ) con función de densidad conjunta f y g es © Els autors, 2002; © Edicions UPC, 2002
  • 76.
    124 CAPÍTULO 2. VARIABLES ALEATORIAS una función real de dos argumentos reales tal que g(X, Y ) sea una variable aleatoria sobre (Ω, A, P ), es decir, [g(X, Y ) ≤ r] = {ω ∈ Ω : g (X(ω), Y (ω)) ≤ r} ∈ A para todo número real r. Entonces, se cumple que XX E (g(X, Y )) = g(xi , yj ) · f (xi , yj ) i j siempre y cuando la serie doble sea absolutamente convergente. Ejemplo 55 Sea X una variable aleatoria con distribución de Poisson de parámetro λ, es decir, tal que ∞ X λn P (X = n) = e−λ n=0 n! Calcular la esperanza de Y = e−X . Solución: Tenemos E(Y ) = E(e−X ) ∞ X = e−n · P (X = n) n=0 ∞ X (λ/e)n = e−λ n=0 n! 1 = e−λ(1− e ) ya que ∞ X (λ/e)n = eλ/e n=0 n! Ejemplo 56 Una variable aleatoria bidimensional discreta tiene la seguiente distribución de probabilidad conjunta Y X 1 2 3 4 1 0,10 0,10 0,20 0,10 2 0,05 0,05 0,05 0,03 3 0,07 0,03 0,10 0,12 Calcular E(3X 2 − 7Y 3 + 5). Solución: Consideremos la función g(X, Y ) = 3X 2 − 7Y 3 + 5, entonces según la observación 11 tenemos 4 XX3 2 3 E(3X − 7Y + 5) = h(xi , yj ) f (xi , yj ) = −44,79 i=1 j=1 © Els autors, 2002; © Edicions UPC, 2002
  • 77.
    2.4. VALORES ESPERADOS,MOMENTOS Y FUNCIONES CARACTERÍSTICAS125 Propiedades de la esperanza de variables aleatorias discretas Teorema 29 Sean X, Y dos variables aleatorias discretas para las que existen E(X), E(Y ), entonces se cumplen las siguientes propiedades: 1. E(1) = 1, siendo 1 la variable aleatoria discreta constante igual a 1 2. E(aX) = aE(X) , para todo a ∈ R 3. |E(X)| ≤ E(|X|) 4. E(X + Y ) = E(X) + E(Y ) 5. Si Y ≤ X, entonces E(Y ) ≤ E(X); en particular, si X ≥ 0, entonces E(X) ≥ 0 6. Si X, Y son variables aleatorias independientes, entonces E(X · Y ) = E(X) · E(Y ) Demostración: (1) Es evidente a partir de la definición de esperanza. (2) Sea g(X) = aX, entonces por el teorema 20 tenemos X E(aX) = axn · P (X = xn ) n X = a xn · P (X = xn ) n = aE(X) (3) Por definición tenemos ¯ ¯ ¯X ¯ ¯ ¯ |E(X)| = ¯ xn · P (X = xn )¯ ¯ n ¯ X ≤ |xn · P (X = xn )| n X = |xn | · P (X = xn ) n = E(|X|) (4) Sea g(X, Y ) = X + Y , entonces por la observación 11 tenemos X E(X + Y ) = (xn + ym ) · P (X = xn , Y = ym ) n,m X X X X = xn P (X = xn , Y = ym ) + ym P (X = xn , Y = ym ) n m m n pero X P (X = xn , Y = ym ) = P (X = xn ) m © Els autors, 2002; © Edicions UPC, 2002
  • 78.
    126 CAPÍTULO 2. VARIABLES ALEATORIAS y X P (X = xn , Y = ym ) = P (Y = ym ) n son las densidades marginales de X, Y respectivamente. Por tanto, obtenemos X X E(X + Y ) = xn P (X = xn ) + ym P (Y = ym ) n m = E(X) + E(Y ) (5) Sea g(X, Y ) = X − Y , entonces por la observación 11 tenemos X E(X − Y ) = (xn − ym ) · P (X = xn , Y = ym ) n,m pero si Y ≤ X, entonces ym ≤ xn para todos los n, m y, por tanto, E(X − Y ) ≥ 0 Por otra parte, los apartados (2) y (4) permiten escribir E(X − Y ) = E (X + (−Y )) = E(X) + E(−Y ) = E(X) − E(Y ) y, en consecuencia, obtenemos E(X) − E(Y ) ≥ 0 es decir, E(X) ≥ E(Y ). En particular, si Y = 0, entonces E(Y ) = 0 y, por tanto, X ≥ 0 implica E(X) ≥ 0. (6) Sea g(X, Y ) = X · Y . Entonces, por la observación 11 tenemos X E(X · Y ) = xn · ym · P (X = xn , Y = ym ) n,m pero, al ser X, Y independientes, se cumple P (X = xn , Y = ym ) = P (X = xn ) · P (Y = ym ) para todos los n, m. En consecuencia, tenemos X E(X · Y ) = xn · ym · P (X = xn ) · P (Y = ym ) n,m X X = xn · P (X = xn ) ym · P (Y = ym ) n m = E(X) · E(Y ) © Els autors, 2002; © Edicions UPC, 2002
  • 79.
    2.4. VALORES ESPERADOS,MOMENTOS Y FUNCIONES CARACTERÍSTICAS127 Observación 21 La afirmación recíproca de la propiedad (6) no es cierta: si E(X · Y ) = E(X) · E(Y ), entonces no necesariamente X, Y son independientes. El ejemplo 26 demuestra este hecho. Ejemplo 57 Sea X una variable aleatoria con tres valores −1, 0, 1 y 1 P (X = −1) = P (X = 0) = P (X = 1) = 3 Sea Y la variable aleatoria definida por ½ 0 si X = 0 Y = 1 si X 6= 0 Probar que X, Y no son independientes y se cumple E(X · Y ) = E(X) · E(Y ). Solución: Es claro que 1 P (Y = 0) = P (X = 0) = 3 y 2 P (Y = 1) = P (X = −1) + P (X = 1) = 3 Por tanto, tenemos E(X) = (−1) · P (X = −1) + 0 · P (X = 0) + 1 · P (X = 1) = 0 y 2 E(Y ) = 0 · P (Y = 0) + 1 · P (Y = 1) = 3 Además, tenemos P (X = 0, Y = 1) = P (∅) = 0 y 2 P (X = 0) · P (Y = 1) = 9 y, como consecuencia, X, Y no son independientes. Es inmediato comprobar las probabilidades de la siguiente tabla correspondi- ente a la función de densidad conjunta Y X −1 0 1 0 0 1/3 0 1 1/3 0 1/3 Por tanto, 1 1 1 E(X · Y ) = (−1) · +0· +1· =0 3 3 3 y, en consecuencia, se cumple E(X · Y ) = E(X) · E(Y ) © Els autors, 2002; © Edicions UPC, 2002
  • 80.
    128 CAPÍTULO 2. VARIABLES ALEATORIAS Ejemplo 58 El número total de puntos obtenidos en n tiradas de un dado se designa por X. Hallar E(X). Solución: Podríamos resolver este problema hallando la función de densidad de la variable aleatoria X, pero es más sencillo tener en cuenta que X es suma de n variables aleatorias X = X1 + X2 + · · · + Xn siendo Xi el número de puntos obtenidos en la i-ésima tirada del dado. Es claro que 6 1X 21 7 E(Xi ) = n= = 6 n=1 6 2 Puesto que E(X) = E(X1 ) + E(X2 ) + · · · + E(Xn ) entonces 7n E(X) = 2 2.4.3. Valores esperados de variables aleatorias absoluta- mente continuas Si X es una variable aleatoria absolutamente continua con función de den- sidad f , se define la esperanza o valor esperado de X por Z +∞ E(X) = x · f (x) dx −∞ siempre y cuando la integral impropia sea absolutamente convergente, es decir, Z +∞ |x| · f (x) dx −∞ sea convergente. Observación 22 1. Como en el caso discreto (ver observación 10), también existen variables aleatorias absolutamente continuas para las que no existe su esperanza. Supongamos que X es una variable aleatoria con distribu- ción de Cauchy, es decir, tal que su función de densidad viene dada por 1 f (x) = π(1 + x2 ) © Els autors, 2002; © Edicions UPC, 2002
  • 81.
    2.4. VALORES ESPERADOS,MOMENTOS Y FUNCIONES CARACTERÍSTICAS129 Entonces, Z +∞ x E(X) = dx π(1 + x2 ) −∞ Z l x = l´ ım dx k→+∞ −k π(1 + x2 ) l→+∞ µ ¶ 1 1 + l2 = ım ln l´ 2π k→+∞ 1 + k2 l→+∞ y el valor de E(X) depende de la forma en que k y l tienden a +∞. Si primero k tiende a +∞ y luego l tiende a +∞, entonces E(X) tiende a −∞, mientras que si el límite se toma en orden inverso, entonces E(X) tiende a +∞. En el caso de que k = l, E(X) = 0. Vemos, pues, que la distribución de Cauchy no tiene un valor esperado. 2. En general, dada una variable aleatoria X con función de distribución F , la esperanza de X se define utilizando la integral de Riemann-Stieljes: Z +∞ E(X) = x dF (x) −∞ Esta definición coincide con la dada para el caso discreto y absolutamente continuo. Para una variable aleatoria con distribución mixta tal que Z +∞ X F (x) = α f1 (t) dt + (1 − α) f2 (x) −∞ xi ≤x la esperanza se define como sigue Z +∞ X E(X) = α xf1 (x) dx + (1 − α) xi f2 (xi ) −∞ i Ejemplo 59 Sea X una variable aleatoria absolutamente continua que se dis- tribuye uniformemente en el intervalo (a, b). Calcular la esperanza de X. Solución: Al tratarse de una distribución uniforme en (a, b) se tiene ½ 1 b−a si x ∈ (a, b) f (x) = 0 si x ∈ (a, b) / Entonces, por definición tenemos Z +∞ E(X) = x · f (x) dx −∞ Z b 1 = x dx b−a a 1 = (a + b) 2 © Els autors, 2002; © Edicions UPC, 2002
  • 82.
    130 CAPÍTULO 2. VARIABLES ALEATORIAS Valores esperados de las funciones de variables aleatorias absoluta- mente continuas Teorema 30 Si X es una variable aleatoria absolutamente continua y g es una función derivable, entonces Z +∞ E (g(X)) = g(x) · f (x) dx −∞ siempre que la integral sea absolutamente convergente. Demostración: Para no complicar excesivamente las cosas, haremos la demostración para funciones crecientes, aunque el teorema es válido también para funciones decrecientes y, en general, para funciones no monótonas. Por definición, tenemos Z +∞ E(Y ) = y · fY (y) dy −∞ mediante el cambio y = g(x), obtenemos Z +∞ E (g(X)) = g(x) · fY (g(x)) · g 0 (x) dx −∞ Según el teorema 11, se cumple 1 fY (y) = f (x) · g 0 (x) Entonces, obtenemos Z +∞ E (g(X)) = g(x) · f (x) dx −∞ Observación 23 1. En general, dada una variable aleatoria X con función de distribución F , la esperanza de una función g de X se define utilizando la integral de Riemann-Stieljes: Z +∞ E (g(X)) = g(x) dF (x) −∞ Esta definición coincide con la dada para el caso discreto y absolutamente continuo. Para una variable aleatoria con distribución mixta tal que Z +∞ X F (x) = α f1 (t) dt + (1 − α) f2 (x) −∞ xi ≤x la esperanza se define como sigue Z +∞ X E(g(X)) = α g(x) · f1 (x) dx + (1 − α) g(xi ) · f2 (xi ) −∞ i © Els autors, 2002; © Edicions UPC, 2002
  • 83.
    2.4. VALORES ESPERADOS,MOMENTOS Y FUNCIONES CARACTERÍSTICAS131 2. Este teorema puede generalizarse al caso de una función de n-varias vari- ables aleatorias absolutamente continuas. Por ejemplo, si X, Y son dos variables aleatorias absolutamente continuas con función de densidad con- junta f , entonces se cumple que Z +∞ Z +∞ E (g(X, Y )) = g(x, y) · f (x, y) dx dy −∞ −∞ siempre y cuando la integral doble sea absolutamente convergente. Ejemplo 60 Una variable aleatoria X tiene como función de densidad ½ 2 f (x) = 3 x si x ∈ (1, 2) 0 en otro caso Calcular el valor esperado de g(X) = 3X + X 2 . Solución: Aplicando el teorema 22, tenemos Z 2 2x E (g(X)) = (3x + x2 ) dx 1 3 Z 2µ ¶ 2 = 2x2 + x3 dx 1 3 · 3 ¸ 4 2 2x x 43 = + = 3 6 1 6 Ejemplo 61 La función de densidad conjunta de dos variables X, Y con dis- tribución absolutamente continua es ½ x + y si x, y ∈ (0, 1) f (x, y) = 0 en otro caso Calcular la esperanza de Z = XY 2 + 2X. Solución: Consideremos la función g(X, Y ) = X ·Y 2 +2X. Entonces, según la observación 14, tenemos Z 1Z 1 ¡ ¢ E XY 2 + 2X = (xy 2 + 2x)(x + y) dx dy 0 0 Z 1 µZ 1 ¶ = (x2 y 2 + 2x2 + xy 3 + 2xy) dx dy 0 0 Z 1 · ¸1 x 2 2x3 x2 3 3 = y + + y + x2 y dy 0 3 3 2 0 Z 1µ ¶ 1 2 2 1 3 = y + + y + y dy 0 3 3 2 101 = 72 © Els autors, 2002; © Edicions UPC, 2002
  • 84.
    132 CAPÍTULO 2. VARIABLES ALEATORIAS Propiedades de la esperanza de variables aleatorias absolutamente continuas Teorema 31 Sean X, Y dos variables aleatorias absolutamente continuas para las que existen E(X), E(Y ), entonces se cumplen las siguientes propiedades: 1. E(1) = 1, siendo 1 la variable aleatoria absolutamente continua constante igual a 1 2. Linealidad: E (ag(X) + bh(X)) = aE (g(X)) + bE (h(X)) siendo a, b números reales arbitrarios y g, h funciones reales de variable real 3. Si X tiene una función de densidad simétrica respecto de un punto c, entonces E(X) = c 4. |E (g(X))| ≤ E (|g(X)|) 5. Si 0 ≤ g(x) ≤ h(x) para todo x ∈ R, entonces 0 ≤ E (g(X)) ≤ E (h(X)) 6. Si m ≤ g(x) ≤ M para todo x ∈ R, entonces m ≤ E (g(X)) ≤ M 7. Si X, Y son independientes, entonces E (X · Y ) = E(X) · E(Y ) Demostración: (1) Por definición tenemos Z +∞ E(1) = 1 · f (x) dx = 1 −∞ (2) Sea k(X) = ag(X) + bh(X), entonces Z +∞ E (k(X)) = k(x) · f (x) dx −∞ Z +∞ = [ag(x) + bh(x)] · f (x) dx −∞ Z +∞ Z +∞ = a g(x) · f (x) dx + b h(x) · f (x) dx −∞ −∞ = aE (g(X)) + bE (h(X)) (3) Si f es simétrica respecto de un punto c = 0, es decir, f es par, se cumple f (x) = f (−x) © Els autors, 2002; © Edicions UPC, 2002
  • 85.
    2.4. VALORES ESPERADOS,MOMENTOS Y FUNCIONES CARACTERÍSTICAS133 Entonces Z +∞ E(X) = x · f (x) dx −∞ Z 0 Z +∞ = x · f (x) dx + x · f (x) dx −∞ 0 Z −∞ Z +∞ = − x · f (x) dx + x · f (x) dx 0 0 Z +∞ Z +∞ = − x · f (x) dx + x · f (x) dx 0 0 = 0 Ahora bien, si f es simétrica respecto del punto c, entonces f (c − x) = f (c + x) y, en consecuencia, la variable aleatoria X − c será simétrica respecto de cero y, por tanto, 0 = E(X − c) = E(X) − c luego, E(X) = c (4) Tenemos ¯Z +∞ ¯ ¯ ¯ ¯ |E (g(X))| = ¯ g(x) · f (x) dx¯¯ −∞ Z +∞ ≤ |g(x)| · f (x) dx −∞ = E (|g(X)|) (5) Puesto que f (x) ≥ 0, entonces 0 ≤ g(x) · f (x) ≤ h(x) · f (x) y, como consecuencia, tenemos Z +∞ Z +∞ 0≤ g(x) · f (x) dx ≤ h(x) · f (x) dx −∞ −∞ es decir, 0 ≤ E (g(X)) ≤ E (h(X)) (6) Puesto que f (x) ≥ 0, entonces m · f (x) ≤ g(x) · f (x) ≤ M · f (x) © Els autors, 2002; © Edicions UPC, 2002
  • 86.
    134 CAPÍTULO 2. VARIABLES ALEATORIAS para todo x ∈ R. Puesto que 0 ≤ g(x) · f (x) − m · f (x) entonces Z +∞ 0 ≤ (g(x) · f (x) − m · f (x)) dx −∞ Z +∞ Z +∞ = g(x) · f (x) dx − m f (x) dx −∞ −∞ Z +∞ = g(x) · f (x) dx − m · 1 −∞ luego m ≤ E (g(X)) Análogamente, se deduce E (g(X)) ≤ M (7) Sea g(X, Y ) = X · Y , entonces por la observación 14 tenemos Z +∞ Z +∞ E (g(X, Y )) = xy · f (x, y) dx dy −∞ −∞ Z +∞ Z +∞ = xy · fX (x) · fY (y) dx dy −∞ −∞ Z +∞ Z +∞ = x · fX (x) dx y · fY (y) dy −∞ −∞ = E(X) · E(Y ) Ejemplo 62 Si X, Y son dos variables aleatorias con función de densidad con- junta ½ kx2 ye−x−y si x ≥ 0 e y ≥ 0 f (x, y) = 0 en otro caso (1) Averiguar si X e Y son o no independientes y (2) calcular E(3XY ). Solución: Al tratarse de una función de densidad, se cumple Z +∞ Z +∞ f (x, y) dx dy = 1 −∞ −∞ Por tanto, Z +∞ Z +∞ 1 = k x2 ye−x−y dx dy 0 0 Z +∞ Z +∞ 2 −x = k x e dx ye−y dy 0 0 = k·2·1 = 2k © Els autors, 2002; © Edicions UPC, 2002
  • 87.
    2.4. VALORES ESPERADOS,MOMENTOS Y FUNCIONES CARACTERÍSTICAS135 de donde k = 1/2. (1) Calculemos ahora las funciones de densidad marginales. Tenemos, por un lado Z +∞ fX (x) = f (x, y) dy −∞ Z +∞ 1 2 −x−y = x ye dy 0 2 Z 1 2 −x +∞ −y = x e ye dy 2 0 1 2 −x = x e 2 y, por tanto, ½ 1 2 −x fX (x) = 2x e si x ≥ 0 0 en otro caso y, por otro, tenemos Z +∞ fY (x) = f (x, y) dx −∞ Z +∞ 1 2 −x−y = x ye dx 0 2 Z +∞ 1 −y = ye x2 e−x dx 2 0 = ye−y y, por tanto, ½ ye−y si y ≥ 0 fY (y) = 0 en otro caso Observamos que f (x, y) = fX (x) · fY (y) y, en consecuencia, X e Y son independientes. (2) Al ser X e Y independientes, se cumple E(3XY ) = 3E(XY ) = 3E(X)E(Y ) Por tanto, calcularemos E(X) y E(Y ). Tenemos Z +∞ E(X) = x fX (x) dx −∞ Z +∞ 1 = x3 e−x dx 2 0 = 3 © Els autors, 2002; © Edicions UPC, 2002
  • 88.
    136 CAPÍTULO 2. VARIABLES ALEATORIAS y Z +∞ E(Y ) = y fY (y) dy −∞ Z +∞ = y 2 e−y dy 0 = 2 y, en consecuencia, E(3XY ) = 3 · 3 · 2 = 18 2.4.4. Concepto de esperanza condicionada La distribución condicionada de Y |X = x describe las probabilidades asoci- adas a los posibles valores de Y cuando la variable aleatoria X ha tomado un cierto valor x. Por tanto, es natural preguntarse por la esperanza o valor medio condicionado de Y |X = x. En el caso discreto, definimos X E (Y |X = x) = yj · f (yj |X = x) j y en el caso absolutamente continuo, definimos Z +∞ E (Y |X = x) = y · f (y|X = x) dy −∞ y, en general, tenemos X E (g(Y )|X = x) = g(yj ) · f (yj |X = x) j en el caso discreto, y Z +∞ E (g(Y )|X = x) = g(y) · f (y|X = x) dy −∞ Análogamente se define el valor medio de X condicionado por Y = y. Observación 24 Obsérvese que también podemos calcular la esperanza condi- cionada por las siguientes fórmulas: X f (x, yj ) E (Y |X = x) = yj · j fX (x) 1 X = yj · f (x, yj ) fX (x) j © Els autors, 2002; © Edicions UPC, 2002
  • 89.
    2.4. VALORES ESPERADOS,MOMENTOS Y FUNCIONES CARACTERÍSTICAS137 en el caso discreto, y Z +∞ f (x, y) E (Y |X = x) = y· dy −∞ fX (x) Z +∞ 1 = y · f (x, y) dy fX (x) −∞ en el caso continuo. La esperanza condicionada como variable aleatoria Al variar el valor de x puede variar f (Y |X = x) y, por tanto, E(Y |X = x) puede tomar diferentes valores y, en consecuencia, es una función de x. Entonces, mediante la función h(x) = E(Y |X = x) podemos construir una nueva variable aleatoria que designamos por E(Y |X) X E(Y |X) Ω −→ R −→ R ω 7−→ X(ω) 7−→ E(Y |X = X(ω) Como E(Y |X) es una variable aleatoria podemos plantearnos calcular el valor de su esperanza. Así tenemos Z +∞ E (E(Y |X)) = E(Y |X = x) · fX (x) dx −∞ Z +∞ µ Z +∞ ¶ 1 = y · f (x, y) dy fX (x) dx −∞ fX (x) −∞ Z +∞ Z +∞ = y · f (x, y) dx dy −∞ −∞ Z +∞ Z +∞ = y dy f (x, y) dx −∞ −∞ Z +∞ Z +∞ = y · fy (y) dy (ya que fy (y) = f (x, y) dx) −∞ −∞ = E(Y ) Del mismo modo se demuestra que E (E(X|Y )) = E(X). Observación 25 Una de las aplicaciones más importantes de la esparanza condicionada es la regresión. Más adelante trataremos este punto. Ejemplo 63 Consideremos la variable aleatoria discreta con la siguiente dis- tribución de probabilidad conjunta Y X 10 11 12 13 14 1 0,02 0,03 0,07 0,02 0,04 2 0,01 0,02 0,08 0,15 0,04 3 0,05 0,04 0,09 0,10 0,03 4 0,08 0,06 0,01 0,05 0,01 © Els autors, 2002; © Edicions UPC, 2002
  • 90.
    138 CAPÍTULO 2. VARIABLES ALEATORIAS Calcular: (1) E(X) y E(Y ); (2) E(Y |X = 15); (3) E(X|Y < 3) y (4) E(Y 2 |11 < X ≤ 13). Solución: (1) Para calcular E(X) y E(Y ), primero necesitamos las dis- tribuciones de probabilidad marginales de X e Y . Así, tenemos xi 10 11 12 13 14 P (X = xi ) 0,16 0,15 0,25 0,32 0,12 y yj 1 2 3 4 P (Y = yj ) 0,18 0,30 0,31 0,21 Por tanto, 5 X E(X) = xi P (X = xi ) = 12,09 i=1 y 4 X E(Y ) = yj P (Y = yj ) = 2,55 j=1 (2) Por definición, tenemos 4 X E (Y |X = 15) = yj · P (Y = yj |X = 15) j=1 X 4 1 = yj · P (X = 15, Y = yj ) P (X = 15) j=1 1 = (1 · 0,03 + 2 · 0,02 + 3 · 0,04 + 4 · 0,06) 0,15 0,43 = = 2,87 0,15 (3) Por definición, tenemos 5 X E (X|Y < 3) = xi · P (X = xi |Y < 3) i=1 X 5 1 = xi · P (X = xi , Y < 3) P (Y < 3) i=1 pero, P (Y < 3) = P (Y = 1) + P (Y = 2) = 0,48 y 5 X 5 X xi · P (X = xi , Y < 3) = xi · [P (X = xi , Y = 1) + P (X = xi , Y = 2)] i=1 i=1 = 10 · 0,03 + 11 · 0,05 + 12 · 0,15 + 13 · 0,17 + 14 · 0,08 = 5,98 © Els autors, 2002; © Edicions UPC, 2002
  • 91.
    2.4. VALORES ESPERADOS,MOMENTOS Y FUNCIONES CARACTERÍSTICAS139 Por tanto, 5,98 E (X|Y < 3) = = 12,458 0,48 (4) Por definición, tenemos 4 X E(Y 2 |11 < X ≤ 13) = 2 yj · P (Y = yj |11 < X ≤ 13) j=1 X 4 1 = y 2 · P (Y = yj , 11 < X ≤ 13) P (11 < X ≤ 13) j=1 j pero P (11 < X ≤ 13) = P (X = 12) + P (X = 13) = 0,57 y 4 X 4 X 2 2 yj · P (Y = yj , 11 < X ≤ 13) = yj · [P (Y = yj , X = 12) + P (Y = yj , X = 13)] j=1 j=1 = 1 · 0,09 + 4 · 0,23 + 9 · 0,19 + 16 · 0,06 = 3,68 Por tanto, 3,68 E(Y 2 |11 < X ≤ 13) = = 6,4561 0,57 Ejemplo 64 Dadas dos variables aleatorias absolutamente continuas X, Y con función de densidad conjunta ½ 12 si 0 < 2x ≤ 3y < 1 f (x, y) = 0 en otro caso Calcular las esperanzas condicionadas. Solución: Primero calcularemos las funciones de densidad marginales. Así, para 0 < x < 1/2 tenemos Z +∞ fX (x) = f (x, y) dy −∞ Z 1/3 = 12 dy 2x/3 = 4 − 8x y, por tanto, ½ 4 − 8x si 0 < x < 1/2 fX (x) = 0 en otro caso © Els autors, 2002; © Edicions UPC, 2002
  • 92.
    140 CAPÍTULO 2. VARIABLES ALEATORIAS Por otro lado, para 0 < y < 1/3 tenemos Z +∞ fY (y) = f (x, y) dx −∞ Z 3y/2 = 12 dx 0 = 18y y, por tanto, ½ 18y si 0 < y < 1/3 fY (y) = 0 en otro caso En segundo lugar, calcularemos las funciones de densidad condicionadas. Así, para 0 < x < 1/2 tenemos f (x, y) f (y|X = x) = fX (x) 12 3 = = 4 − 8x 1 − 2x siempre que 2x/3 ≤ y < 1/3; en cualquier otro caso, la función se anula. Por otro lado, para 0 < y < 1/3 tenemos f (x, y) f (x|Y = y) = fY (y) 12 2 = = 18y 3y siempre que 0 < x < 3y/2; en cualquier otro caso, la función se anula. Final- mente, podemos ahora calcular las esperanzas condicionadas. Así, tenemos Z +∞ E (Y |X = x) = y · f (y|X = x) dy −∞ Z 1/3 3 = y· dy 2x/3 1 − 2x · 2 ¸1/3 3 y = 1 − 2x 2 2x/3 1 + 2x = 6 © Els autors, 2002; © Edicions UPC, 2002
  • 93.
    2.4. VALORES ESPERADOS,MOMENTOS Y FUNCIONES CARACTERÍSTICAS141 y Z +∞ E(X|Y = y) = x · f (x|Y = y) dx −∞ Z 3y/2 2 = x· dx 0 3y · ¸3y/2 2 x2 = 3y 2 0 3y = 4 2.4.5. Momentos de variables aleatorias Bajo ciertas condiciones, los momentos caracterizan la distribución de una variable aleatoria, en el sentido de que si existen todos, existe una sola distribu- ción con tales momentos. Momentos simples Dada una variable aleatoria X, se llama momento de orden k (respecto al origen) al valor medio, si existe, de la variable X k mk = E(X k ) y, £en general, se llama momento de orden k respecto a un punto c al valor ¤ E (X − c)k . Los momentos respecto al valor medio se llaman momentos cen- trales de orden k h i k µk = E (X − E(X)) En ambos casos, k puede ser cualquier número real no necesariamente entero. En particular, si X es una variable aleatoria discreta, entonces X X k mk = xk · P (X = xi ) y µk = i (xi − E(X)) · P (X = xi ) i i y, si X es una variable aleatoria absolutamente continua, entonces Z +∞ Z +∞ k mk = xk · f (x) dx y µk = (x − E(X)) · f (x) dx −∞ −∞ Observación 26 De los momentos hay dos que merecen especial atención. El momento de orden 1, m1 = E(X) = µ, media de la distribución, describe donde está centrada la distribución de probabilidad de la variable aleatoria X y, por tanto, es un valor que caracteriza a dicha distribución de probabilidad. £ ¤ El otro momento es el momento central de orden 2, µ2 = E (X − µ)2 = σ 2 , © Els autors, 2002; © Edicions UPC, 2002
  • 94.
    142 CAPÍTULO 2. VARIABLES ALEATORIAS varianza de la distribución, describe la forma de la distribución, es decir, la forma en que se dispersan los valores de la variable aleatoria X respecto del valor esperado µ = E(X); es también un valor que caracteriza a dicha distribución. Además de la media y la varianza, como medidas de centralización y dis- persión, el conocimiento de momentos de orden superior proporcionan mayor información sobre la forma de la distribución de la variable aleatoria. Cono- ciendo los momentos centrales de orden 3 y de orden 4 se puede obtener el coeficiente de asimetría µ3 µ3 γ1 = = 3/2 µ2 σ3 y el coeficiente de curtosis o apuntamiento µ4 µ γ2 = = 4 µ2 2 σ4 Estos coeficientes se interpretan de la siguiente manera. Si la distribución es simétrica, entonces γ 1 = 0 y, además, si la distribución es asimétrica por la derecha (izquierda), entonces γ 1 > 0 (γ 1 < 0). El coeficiente de curtosis toma como referencia la función de densidad de una distribución normal de parámet- ros µ y σ para la que γ 2 = 3. Entonces, si γ 2 > 3, la distribución es más apuntada que la normal, y si γ 2 < 3, la distribución es menos apuntada. Momentos mixtos Las definiciones de los momentos simples se generalizan para variables aleato- rias n-dimensionales. Sin embargo, para facilitar la escritura aquí sólo consid- eraremos el caso de variables aleatorias bidimensionales. Dadas dos variables aleatorias X, Y se llama momento mixto de orden k + h (respecto al origen) al valor medio, si existe, de la variable X k Y h mkh = E(X k Y h ) y se llama momento mixto central de orden k + h al valor h i k h µkh = E (X − E(X)) (Y − E(Y )) De nuevo, en ambos casos, k y h son números reales cualesquiera no necesaria- mente enteros. En particular, si (X, Y ) es una variable aleatoria bidimensional discreta, entonces XX mr = xk yj · P (X = xi , Y = yj ) i h i j y XX k h µr = (xi − E(X)) (yj − E(Y )) · P (X = xi , Y = yj ) i j © Els autors, 2002; © Edicions UPC, 2002
  • 95.
    2.4. VALORES ESPERADOS,MOMENTOS Y FUNCIONES CARACTERÍSTICAS143 y, si (X, Y ) es una variable aleatoria bidimensional absolutamente continua, entonces Z +∞ mr = xk y h · f (x, y) dx dy −∞ y Z +∞ k h µr = (x − E(X)) (y − E(Y )) · f (x, y) dx dy −∞ Observación 27 Es claro que los momentos mixtos de orden 1 son las medias de X y de Y m10 = E(X) = µX y m01 = E(Y ) = µY Si k = 2 y h = 0 se obtiene la varianza de X £ ¤ µ20 = E (X − µX )2 = σ 2 X por lo que se denomina varianza marginal de X. Análogamente, £ ¤ µ02 = E (Y − µY )2 = σ 2 Y se llama varianza marginal de Y . Es claro que los momentos mixtos centrales de orden 1 son nulos. Es especialmente importante el momento mixto central de orden 1 + 1, que recibe el nombre de covarianza de X, Y µ11 = E [(X − µX ) (Y − µY )] = σ XY La covarianza nos permitirá dar una medida de la dependencia lineal entre las variables aleatorias X e Y . Es inmediato comprobar que µ20 = m20 − m2 10 µ02 = m02 − m2 01 µ11 = m11 − m10 m01 En efecto, tenemos £ ¤ ¡ ¢ µ20 = E (X − m10 )2 = E X 2 − 2m10 X + m2 10 = E(X 2 ) − 2m10 E(X) + m2 10 = m20 − m2 10 La segunda fórmula se obtiene del mismo modo y, la última, se obtiene como sigue µ11 = E [(X − m10 ) (Y − m01 )] = E(XY − m01 X − m10 Y + m10 m01 ) = E(XY ) − m01 E(X) − m10 E(Y ) + m10 m01 = m11 − m10 m01 © Els autors, 2002; © Edicions UPC, 2002
  • 96.
    144 CAPÍTULO 2. VARIABLES ALEATORIAS 2.4.6. Concepto de varianza y sus propiedades La esperanza o valor esperado de una variable aleatoria describe donde está centrada su distribución de probabilidad y, por tanto, es un valor que caracteriza a dicha distribución de probabilidad. Sin embargo, la esperanza por sí sola no da una descripción adecuada de la forma de la distribución, es necesario saber cómo se dispersan los valores de la variable aleatoria respecto del valor esperado. La medida de dispersión más utilizada en Estadística es la varianza, y ahora se generaliza para variables aleatorias. Dada una muestra de valores observados x1 , x2 , ..., xn de una variable X con sus respectivas frecuencias f1 , f2 , ..., fn , la dispersión de un valor xi respecto a la media x se puede medir por (xi − x)2 y la media de esta dispersión viene dada por Xn fi s2 = (xi − x)2 · i=1 N en donde n X N= fi i=1 Las frecuencias relativas fi /N se pueden considerar como las probabilidades que tienen los valores xi de presentarse en la muestra total de tamaño N . Poniendo entonces fi P (X = xi ) = (i = 1, 2, ..., n) N tenemos X n 2 s = (xi − x)2 · P (X = xi ) (2.19) i=1 que se llama varianza de la muestra. Vamos a extender esta idea al caso de una variable aleatoria. Se llama varianza de una variable aleatoria X y se denota por σ 2 o V ar(X), X o simplemente σ 2 cuando no hay confución posible, al valor del momento central de orden 2 h i 2 σ 2 = V ar(X) = E (X − E(X)) si existe. Así, tenemos X σ2 = (xi − µ)2 · f (xi ) i en el caso discreto (obsérvese la analogía entre esta fórmula y (2.19)), y Z +∞ 2 σ2 = (x − µ) · f (x) dx −∞ © Els autors, 2002; © Edicions UPC, 2002
  • 97.
    2.4. VALORES ESPERADOS,MOMENTOS Y FUNCIONES CARACTERÍSTICAS145 en el caso absolutamente continuo, siendo µ = E(X). Como ya hemos dicho, la varianza de una variable aleatoria X será una medida de dispersión de X respecto de su valor medio µ, en el sentido de que si X toma valores muy alejados de µ, entonces |X − µ| será una variable aleatoria que muy¤ probablemente tomará valores grandes y, en consecuencia, £ σ 2 = E (X − µ)2 será grande, mientras que si X toma valores cercanos a µ, entonces la variable aleatoria |X − µ| tomará muy probablemente valores pe- queños y, por tanto, σ 2 será pequeña. Se llama desviación típica o estándar a la raíz cuadrada positiva de la varianza. Es una medida de dispersión de la misma dimensión física que la variable aleatoria y se indica por σ r h i p 2 σ = V ar(X) = E (X − E(X)) Propiedades de la varianza Teorema 32 Sean X, Y dos variables aleatorias que tienen una distribución conjunta discreta o absolutamente continua y ambas tienen momento de segundo orden finito, entonces 1. V ar(X) = E(X 2 ) − (E(X))2 2. V ar(a) = 0, con a ∈ R 3. V ar(aX) = a2 V ar(X), con a ∈ R 4. V ar(aX + b) = a2 V ar(X) 5. Si X, Y son independientes, entonces V ar(X + Y ) = V ar(X) + V ar(Y ) Demostración: (1) Es inmediato, pues, tenemos h i V ar(X) = E (X − E(X))2 h i 2 = E X 2 − 2XE(X) + (E(X)) = E(X 2 ) − 2 (E(X))2 + (E(X))2 2 = E(X 2 ) − (E(X)) (2) Es también inmediato, pues, h i V ar(a) = E (a − E(a))2 = E(0) = 0 © Els autors, 2002; © Edicions UPC, 2002
  • 98.
    146 CAPÍTULO 2. VARIABLES ALEATORIAS (3) Aplicando el apartado (1), tenemos V ar(aX) = E(a2 X 2 ) − (E(aX))2 = a2 E(X 2 ) − a2 (E(X))2 h i = a2 E(X 2 ) − (E(X))2 = a2 V ar(X) (4) Aplicando de nuevo el apartado (1), tenemos £ ¤ 2 V ar(aX + b) = E (aX + b)2 − (E(aX + b)) = E(a2 X 2 + 2abX + b2 ) − (aE(X) + b)2 2 = a2 E(X 2 ) + 2abE(X) + b2 − a2 (E(X)) − 2abE(X) − b2 h i 2 = a2 E(X 2 ) − (E(X)) = a2 V ar(X) (5) Si X, Y son independientes, entonces E(XY ) = E(X) · E(Y ). Aplicando ahora el apartado (1), tenemos £ ¤ 2 V ar(X + Y ) = E (X + Y )2 − (E(X + Y )) = E(X 2 + 2XY + Y 2 ) − (E(X) + E(Y ))2 2 2 = E(X 2 ) + 2E(X)E(Y ) + E(Y 2 ) − (E(X)) − 2E(X)E(Y ) − (E(Y )) = V ar(X) + V ar(Y ) Ejemplo 65 Calcular la varianza del número de puntos obtenidos en la tirada de un dado ordinario. Solución: La variable aleatoria X "número de puntos en la tirada de un dado"es discreta y toma los valores 1, 2, ..., 6 con probabilidad 1/6. Por tanto, 1 21 7 E(X) = (1 + 2 + · · · + 6) = = 6 6 2 y, además, se cumple 1 2 91 E(X 2 ) = (1 + 22 + · · · + 62 ) = 6 6 Entonces, V ar(X) = E(X 2 ) − (E(X))2 µ ¶2 91 7 35 = − = 6 2 12 © Els autors, 2002; © Edicions UPC, 2002
  • 99.
    2.4. VALORES ESPERADOS,MOMENTOS Y FUNCIONES CARACTERÍSTICAS147 Ejemplo 66 Calcular la varianza de la variable aleatoria absolutamente con- tinua con función de densidad ½ 1 √ 2 x si x ∈ (0, 1) f (x) = 0 en otro caso Solución: Tenemos Z +∞ E(X) = x f (x) dx −∞ Z 1 x = √ dx 0 2 x · ¸1 1 x3/2 1 = = 2 3/2 0 3 y también Z +∞ E(X 2 ) = x2 f (x) dx −∞ Z 1 x2 = √ dx 0 2 x · ¸1 1 x5/2 1 = = 2 5/2 0 5 Como consecuencia, obtenemos 2 V ar(X) = E(X 2 ) − (E(X)) µ ¶2 1 1 4 = − = 5 3 45 Ejemplo 67 Sean X e Y variables aleatorias independientes con varianzas fini- £ ¤ tas tales que E(X) = E(Y ). (1) Demostrar que E (X − Y )2 = V ar(X) + V ar(Y ); (2) Si V ar(X) = V ar(Y ) = 3, determinar los valores de V ar(X − Y ) y V ar(2X − 3Y + 1). Solución: (1) Tenemos £ ¤ E (X − Y )2 = E(X 2 − 2XY + Y 2 ) = E(X 2 ) − 2E(X)E(Y ) + E(Y 2 ) = E(X 2 ) − (E(X))2 − (E(Y ))2 + E(Y 2 ) = V ar(X) + V ar(Y ) (2) Al ser X, Y independientes, también lo son X e −Y . Entonces tenemos V ar(X − Y ) = V ar(X) + V ar(−Y ) = V ar(X) + (−1)2 V ar(Y ) = V ar(X) + V ar(Y ) = 6 © Els autors, 2002; © Edicions UPC, 2002
  • 100.
    148 CAPÍTULO 2. VARIABLES ALEATORIAS Del mismo modo, 2X y −3Y + 1 son independientes y, por tanto, tenemos V ar(2X − 3Y + 1) = V ar(2X) + V ar(−3Y + 1) = 4V ar(X) + 9V ar(Y ) = 12 + 27 = 39 2.4.7. Teoremas de Markov y Tchebychev Los siguientes resultados establecen cotas para las probabilidades en térmi- nos de los momentos de una variable aleatoria X. Teorema 33 (Teorema de Tchebychev) Sea X una variable aleatoria (disc- reta o absolutamente continua) tal que, para un cierto k > 0 (no necesariamente entero), el momento de orden k de |X| existe, entonces para cada > 0 se cumple ³ ´ k E |X| P (|X| ≥ ) ≤ k Demostración: Haremos la demostración para el caso en que la variable aleato- ria X sea absolutamente continua, con función de densidad f . Por definición tenemos ³ ´ Z +∞ k k E |X| = |x| f (x) dx −∞ Dado > 0, entonces podemos escribir ³ ´ Z − Z Z +∞ E |X|k = |x|k f (x) dx + |x|k f (x) dx + |x|k f (x) dx −∞ − Ahora bien, Z Z |x|k f (x) dx = |x|k f (x) dx − |x|< y Z Z Z − +∞ k k |x| f (x) dx + |x| f (x) dx = |x|k f (x) dx −∞ |x|≥ Por tanto, ³ ´ Z Z k k k E |X| = |x| f (x) dx + |x| f (x) dx |x|< |x|≥ Puesto que f es una función no negativa, las dos integrales anteriores son pos- itivas y, por tanto, podemos escribir ³ ´ Z Z k k E |X| ≥ |x| f (x) dx ≥ k f (x) dx |x|≥ |x|≥ © Els autors, 2002; © Edicions UPC, 2002
  • 101.
    2.4. VALORES ESPERADOS,MOMENTOS Y FUNCIONES CARACTERÍSTICAS149 Ahora bien, Z f (x) dx = P (|x| ≥ ) |x|≥ y, en consecuencia, obtenemos ³ ´ k k E |X| ≥ · P (|x| ≥ ) es decir, ³ ´ E |X|k P (|x| ≥ ) ≤ k Observación 28 Este resultado nos dice que es improbable que una variable aleatoria (con al menos algún momento finito) tome valores excesivamente grandes, pues, si es grande 1/ k , con k > 0, será pequeño y la probabilidad de que |X| ≤ será también pequeña. De este teorema se deducen dos desigualdades importantes en términos de los momentos. Para k = 1, tenemos la desigualdad de Markov E (|X|) P (|X| ≥ ) ≤ y, para k = 2, tenemos la desigualdad de Tchebychev ¡ ¢ E X2 P (|X| ≥ ) ≤ 2 Teorema 34 (Teorema de Markov) Sea X una variable aleatoria (discreta o absolutamente continua), g una función de la variable real x, no negativa y tal que E (g(X)) existe, entonces para cada > 0 se cumple E (g(X)) P (g(X) ≥ ) ≤ Demostración: Haremos la demostración para el caso en que la variable aleato- ria X sea absolutamente continua, con función de densidad f . Dada > 0, consideremos el conjunto A = {ω ∈ Ω : g (X(ω)) ≥ } Entonces, se cumple Z +∞ E (g(X)) = g(x) f (x) dx Z−∞ ≥ g(x) f (x) dx A Z ≥ f (x) dx A = · P (g(X) ≥ ) © Els autors, 2002; © Edicions UPC, 2002
  • 102.
    150 CAPÍTULO 2. VARIABLES ALEATORIAS luego, E (g(X)) P (g(X) ≥ ) ≤ Corolario 1 (Desigualdad de Tchebychev) Sea X una variable aleatoria (discreta o absolutamente continua) con valor medio µ = E(X) y varianza σ 2 finitas. Entonces para cada k > 0 se cumple 1 P (|X − µ| ≥ kσ) ≤ k2 Demostración: Tomando en el teorema de Markov g(x) = (x−µ)2 y = k 2 σ 2 , deducimos £ ¤ ¡ 2 2 2 ¢ E (X − µ)2 σ2 1 P (X − µ) ≥ k σ ≤ 2 σ2 = 2 2 = 2 k k σ k Ahora bien, se cumple ¡ ¢ P (X − µ)2 ≥ k 2 σ2 = P (|X − µ| ≥ kσ) y, por tanto, obtenemos 1 P (|X − µ| ≥ kσ) ≤ k2 Observación 29 Otra expresión de esta desigualdad es 1 P (µ − kσ < X < µ + kσ) ≥ 1 − k2 y se obtiene calculando la probabilidad del suceso contrario en la desigualdad de Tchebychev. En efecto, tenemos 1 1 − P (|X − µ| < kσ) ≤ k2 es decir, 1 P (|X − µ| < kσ) ≥ 1 − k2 luego, 1 P (µ − kσ < X < µ + kσ) ≥ 1 − k2 Esta desigualdad se interpreta diciendo que la probabilidad de que una variable aleatoria X tome un valor que dista del valor medio en menos de k veces su desviación típica es por lo menos 1 − 1/k 2 . Se pone así de manifiesto la impor- tancia del valor medio y de la desviación típica como medidas fundamentales para caracterizar la distribución de una variable aleatoria. © Els autors, 2002; © Edicions UPC, 2002
  • 103.
    2.4. VALORES ESPERADOS,MOMENTOS Y FUNCIONES CARACTERÍSTICAS151 Ejemplo 68 El número de pasajeros que en un día toman el tren entre dos ciudades es una variable aleatoria X con valor medio 200 y varianza 100. Si cada vagón de pasajeros tiene una capacidad para 40 viajeros, calcular el número de vagones necesarios para asegurar con una probabilidad de al menos 0.95 que se cubra en ese día la demanda de los pasajeros entre ambas ciudades. Solución: Aplicando la desigualdad de Tchebychev en la forma dada en la observación 20, tenemos 1 P (|X − 200| < k · 10) ≥ 1 − k2 Haciendo 1 1− k2 = 0,95 y k > 0 ⇐⇒ k = 4. 472 1 tenemos P (X − 200 < 44,721) ≥ P (|X − 200| < 44,721) ≥ 0,95 es decir, P (X < 244,721) ≥ 0,95 Este último resultado significa que como máximo pueden viajar 244 pasajeros con una probabilidad de al menos 0.95. Como los vagones tienen 40 plazas, necesitamos 7 vagones ya que 244 = 6,1 40 Ejemplo 69 Una máquina produce ejes cuyo diámetro medio es de 22 mm con una desviación típica de 0.3 mm. Se aceptan como buenos los ejes que tienen un diámetro comprendido entre 20 y 24 mm. Obtener una cota del porcentaje de ejes defectuosos que fabrica la máquina. Solución: Indicamos por X la variable aleatoria "diámetro de los ejes que produce la máquina". El suceso ün eje no es defectuoso"es [20 ≤ X ≤ 24] y, por tanto, el suceso contrario ün eje defectuoso"es [20 > X > 24] = [|X − 22| > 2] Mediante la desigualdad de Tchebychev 1 P (|X − µ| ≥ kσ) ≤ (k > 0) k2 podemos obtener una cota superior de la probabilidad de que un eje sea defectu- oso. En efecto, haciendo 2 20 k · σ = k · 0,3 = 2 =⇒ k= = 0,3 3 tenemos µ ¶2 3 9 P (|X − 22| ≥ 2) ≤ = = 0,0225 20 400 luego, el porcentaje de ejes defectuosos fabricados por la máquina es menor que 2.25 %. © Els autors, 2002; © Edicions UPC, 2002
  • 104.
    152 CAPÍTULO 2. VARIABLES ALEATORIAS 2.4.8. Otras medidas de posición y dispersión Aunque el valor medio es la medida de posición más utilizada, en algunos casos no existe y en otros puede ser afectada por valores extremos de la variable. Se llama mediana de una variable aleatoria X con función de distribución F a cualquier valor x de X tal que 1 1 F (x) ≤ y 1 − F (x) < 2 2 es decir, la mediana es un punto que divide la "masa"de probabilidad en dos partes iguales. Para las distribuciones absolutamente continuas la mediana es única. La moda se define solamente en el caso discreto o absolutamente continuo. En el primer caso, se define como cualquier valor xi de X tal que f (xi−1 ) ≤ f (xi ) y f (xi ) ≥ f (xi+1 ) En el segundo caso, se define como cualquier valor x de X que se corresponda con un máximo relativo de la función de densidad. Una distribución se llama unimodal, bimodal, etc., según que tenga una sola moda, dos modas, etc. Se llama desviación media de una variable aleatoria X al primer momento respecto de una mediana xm en valor absoluto E(|X − xm |) Es fácil demostrar que E(|X − c|) es mínima cuando c = xm . De este modo, la desviación media constituye una buena medida de dispersión de la variable aleatoria respecto de la mediana. Ejemplo 70 La función de densidad de una variable aleatoria X con distribu- ción absolutamente continua es ½ 2 2xe−x si x > 0 f (x) = 0 en otro caso Encontrar la moda, la mediana y la desviación media. Solución: Sabemos que la moda es un máximo relativo de f . Por tanto, 2 √ f 0 (x) = (2 − 4x2 )e−x = 0 ⇐⇒ x = ±1/ 2 √ √ √ Puesto que f 00 (1/ 2) > 0 y f 00 (−1/ 2) < 0, en x = 1/ 2 hay un máximo relativo y, por tanto, hay una única moda √ x = 1/ 2 y la distribución de X es unimodal. Es claro que la función de distribución de X es Z x 2 2 F (x) = 2te−t dt = 1 − e−x 0 © Els autors, 2002; © Edicions UPC, 2002
  • 105.
    2.4. VALORES ESPERADOS,MOMENTOS Y FUNCIONES CARACTERÍSTICAS153 si x > 0. Como la mediana es el valor xm de X para el cual F (xm ) = 1/2, tenemos √ 2 1 − e−xm = 1/2 ⇐⇒ xm = ln 2 Por último, la desviación media es por definición ¯ √ ¯ ¯ ¯ E(|X − xm |) = E(¯X − ln 2¯) Z +∞ ¯ √ ¯ ¯ ¯ 2 = ¯x − ln 2¯ · 2xe−x dx 0 Z √ Z +∞ ln 2 √ √ 2 2 = (−x + ln 2) · 2xe−x dx + √ (x − ln 2) · 2xe−x dx 0 ln 2 Z √ Z √ ln 2 2 √ 2 ln 2 = − 2x2 e−x dx + ln 2 2xe−x dx 0 0 Z +∞ √ Z +∞ 2 2 + √ 2x2 e−x dx − ln 2 √ 2xe−x dx ln 2 ln 2 Z √ln 2 Z +∞ 2 −x2 2 = − 2x e dx + √ 2x2 e−x dx 0 ln 2 Ahora bien, integrando por partes, obtenemos Z Z 2 −x2 −x2 2 2x e dx = −xe + e−x dx y, por tanto, Z √ Z ¯ √ ¯ ln 2 +∞ ¯ ¯ 2 2 E(¯X − ln 2¯) = − 2x2 e−x dx + √ 2x2 e−x dx 0 ln 2 Z √ Z +∞ h i√ln 2 ln 2 h i 2 +∞ −x2 2 2 = xe − e−x dx + −xe−x √ + √ e−x dx 0 0 ln 2 ln 2 Z Z √ √ +∞ ln 2 2 2 = 2 ln 2e− ln 2 + √ e−x dx − e−x dx ln 2 0 El valor numérico de las dos integrales se puede calcular teniendo en cuenta la tabla de la distribución normal de parámetros µ = 0 y σ = 1 cuya función de distribución viene dada por Z z 1 2 FZ (z) = P (Z ≤ z) = √ e−t /2 dt 2π −∞ √ En efecto, haciendo el cambio x = t/ 2, tenemos √ √ Z Z ln 2 −x2 1 2 ln 2 2 √ ³ √ ´ √ e dx = √ e−t /2 dt = π FZ ( 2 ln 2) − FZ (0) = π(0,8790−0,5) 0 2 0 © Els autors, 2002; © Edicions UPC, 2002
  • 106.
    154 CAPÍTULO 2. VARIABLES ALEATORIAS y Z Z +∞ 2 1 +∞ 2 √ ³ √ ´ √ √ e−x dx = √ √ e−z /2 dz = π FZ (+∞) − FZ ( 2 ln 2) = π(1−0,8790) ln 2 2 2 ln 2 Por tanto, obtenemos √ Z +∞ Z ln 2 −x2 2 √ √ e dx − e−x dx = π(1 − 0,8790 − 0,8790 + 0,5) = −0,45729 ln 2 0 Finalmente, obtenemos la desviación media ¯ √ ¯ √ ¯ ¯ E(¯X − ln 2¯) = 2 ln 2e− ln 2 − 0,45729 = 0,37526 2.4.9. Concepto de covarianza y sus propiedades La medida del grado de interdependencia lineal entre dos variables estadís- ticas es la covarianza. Dada una muestra de n pares de observaciones de dos variables estadísticas X, Y (x1 , y1 ), (x2 , y2 ), ..., (xn , yn ) entonces la covarianza de la muestra viene dada por n 1X sXY = (xi − x)(yi − y) n i=1 siendo n n 1X X x= xi y y= yi n i=1 i=1 Ahora queremos generalizar este concepto al caso de variables aleatorias. Se llama covarianza de dos variables aleatorias X, Y y se denota por σXY o Cov(X, Y ), al valor del momento mixto central de orden 1 + 1 σ XY = Cov(X, Y ) = E [(X − E(X)) (Y − E(Y ))] si existe. Propiedades de la covarianza Teorema 35 Si X, Y son variables aleatorias (discretas o absolutamente con- tinuas), entonces 1. Cov(X, Y ) = E(XY ) − E(X)E(Y ) 2. Cov(X, X) = V ar(X) © Els autors, 2002; © Edicions UPC, 2002
  • 107.
    2.4. VALORES ESPERADOS,MOMENTOS Y FUNCIONES CARACTERÍSTICAS155 3. Cov(X, Y ) = Cov(X, Y ) 4. Cov(aX, bY ) = abCov(X, Y ), con a, b ∈ R 5. Cov(X + Y, Z) = Cov(X, Z) + Cov(Y, Z) 6. V ar(X ± Y ) = V ar(X) + V ar(Y ) ± 2Cov(X, Y ) 7. Si X, Y son independientes, entonces Cov(X, Y ) = 0 Demostración: (1) Por definición tenemos Cov(X, Y ) = E [(X − E(X)) (Y − E(Y ))] = E (XY − XE(Y ) − Y E(X) + E(X)E(Y )) = E(XY ) − E(Y )E(X) − E(X)E(Y ) + E(X)E(Y ) = E(XY ) − E(X)E(Y ) (2) Por el apartado (1), tenemos 2 Cov(X, X) = E(X 2 ) − (E(X)) = V ar(X) (3) Es inmediato al ser R un cuerpo conmutativo. (4) Por el apartado (1), tenemos Cov(aX, bY ) = E(aX · bY ) − E(aX)E(bY ) = abE(XY ) − abE(X)E(Y ) = abCov(X, Y ) (5) Por el apartado (1), tenemos Cov(X + Y, Z) = E ((X + Y )Z) − E(X + Y )E(Z) = E(XZ) + E(Y Z) − E(X)E(Z) − E(Y )E(Z) = Cov(X, Z) + Cov(Y, Z) (6) Por el apartado (1) del teorema , tenemos £ ¤ 2 V ar(X + Y ) = E (X + Y )2 − (E(X + Y )) 2 = E(X 2 + 2XY + Y 2 ) − (E(X) + E(Y )) = E(X 2 ) + 2E(XY ) + E(Y 2 ) − (E(X))2 − 2E(X)E(Y ) − (E(Y ))2 = E(X 2 ) − (E(X))2 + E(Y 2 ) − (E(Y ))2 + 2 [E(XY ) − E(X)E(Y )] = V ar(X) + V ar(Y ) + 2Cov(X, Y ) Análogamente se comprueba la otra fórmula. (7) Si X, Y son independientes, entonces E(XY ) = E(X)E(Y ) y, por tanto, obtenemos Cov(X, Y ) = E(XY ) − E(X)E(Y ) = 0 © Els autors, 2002; © Edicions UPC, 2002
  • 108.
    156 CAPÍTULO 2. VARIABLES ALEATORIAS El recíproco de esta propiedad es falso, pues existen pares de variables aleatorias dependientes que tienen covarianza cero, lo cual nos indica que no podemos utilizar la covarianza como un test para la independencia. No obstante, es claro que si Cov(X, Y ) 6= 0, entonces X, Y son dependientes. Ejemplo 71 Se lanza un dado al aire. Sea X la variable aleatoria "número de puntos obtenidos"e Y la variable aleatoria que vale 0 si sale 1,2 o 3, y vale 1 si sale 4,5 o 6. Calcular la covarianza de X e Y . Solución: La distribución de probabilidad conjunta viene dada por la sigu- iente tabla Y X 1 2 3 4 5 6 0 1/6 1/6 1/6 0 0 0 1 0 0 0 1/6 1/6 1/6 Entonces, es inmediato comprobar que E(X) = 7/2 y E(Y ) = 1/2. Además se cumple 6 XX2 4 5 6 15 5 E(XY ) = xi yj · P (X = xi , Y = yj ) = + + = = i=1 j=1 6 6 6 6 2 Luego, obtenemos que Cov(X, Y ) = E(XY ) − E(X)E(Y ) 5 7 3 = − = 2 4 4 Ejemplo 72 La función de densidad conjunta de dos variables aleatorias abso- lutamente continuas X, Y es ½ 3 2 2 f (x, y) = 2 (x + y ) si x, y ∈ (0, 1) 0 en otro caso Calcular la covarianza de X e Y . Solución: Primero debemos calcular las funciones de densidad marginales. Así, tenemos Z +∞ fX (x) = f (x, y) dy −∞ Z 1 3 = (x2 + y 2 ) dy 2 0 µ ¶ 3 1 = x2 + 2 3 luego ½ ¡ 2 1¢ 3 2 x +3 si x ∈ (0, 1) fX (x) = 0 si x ∈ (0, 1) / © Els autors, 2002; © Edicions UPC, 2002
  • 109.
    2.4. VALORES ESPERADOS,MOMENTOS Y FUNCIONES CARACTERÍSTICAS157 Análogamente, Z +∞ fY (y) = f (x, y) dx −∞ Z 1 3 = (x2 + y 2 ) dx 2 0 µ ¶ 3 1 = + y2 2 3 luego ½ ¡1 ¢ 3 2 3 + y2 si y ∈ (0, 1) fY (y) = 0 si y ∈ (0, 1) / De aquí, obtenemos Z +∞ E(X) = x · fX (x) dx −∞ Z 1µ ¶ 3x3 x = + dx 0 2 2 5 = 8 y Z +∞ E(Y ) = y · fY (y) dy −∞ Z 1µ ¶ y 3y 3 = + dy 0 2 2 5 = 8 Por otra parte, tenemos Z +∞ Z +∞ E(XY ) = xy · f (x, y) dx dy −∞ −∞ Z 1 Z 1 3 = (x3 y + xy 3 ) dx dy 2 0 0 3 = 8 Por consiguiente, obtenemos Cov(X, Y ) = E(XY ) − E(X)E(Y ) 3 25 1 = − =− 8 64 64 © Els autors, 2002; © Edicions UPC, 2002
  • 110.
    158 CAPÍTULO 2. VARIABLES ALEATORIAS 2.4.10. Regresión lineal Regresión y correlación lineal entre dos variables estadísticas Nuestro objetivo es generalizar el concepto de regresión lineal al caso de vari- ables aleatorias. Sin embargo, antes daremos un breve repaso de este concepto al caso de muestras de variables estadísticas. Consideremos el caso de n pares de valores observados (x1 , y1 ), (x2 , y2 ), ..., (xn , yn ) correspondientes a dos variables estadísticas X, Y . Se llama regresión lineal al problema de encontrar una recta y = ax + b b de manera que los valores de yi = axi + b se ajusten del mejor modo posible a los yi . Utilizando el criterio de los mínimos cuadrados, es decir, que la b suma de todos los errores ei = yi − yi elevados al cuadrado sea mínima n X n X n X e2 = i (yi − yi )2 = b (yi − axi − b)2 i=1 i=1 i=1 esta expresión es una función G de a y b, n X G(a, b) = (yi − axi − b)2 (2.20) i=1 y para minimizarla se tiene en cuenta la condición necesaria de mínimo, es decir, las ecuaciones ∂G(a, b) ∂G(a, b) =0 y =0 ∂a ∂b de donde se obtienen sXY b= 2 a y b = y − bx b a sX siendo x, y, las medias marginales, s2 , la varianza marginal y sXY , la covarianza X de la muestra. A la recta y = bx + b a b se la llama recta de regresión de Y sobre X y se acostumbra a expresar en la forma sXY y − y = 2 (x − x) sX y al coeficiente sXY βY X = s2 X se le llama coeficiente de regresión de Y sobre X. Análogamente se encuen- tra la recta de regresión de X sobre Y b x = by + d c © Els autors, 2002; © Edicions UPC, 2002
  • 111.
    2.4. VALORES ESPERADOS,MOMENTOS Y FUNCIONES CARACTERÍSTICAS159 que se expresa en la forma siguiente sXY x−x = (y − y) s2 Y y al coeficiente sXY β XY = s2 Y se le llama coeficiente de regresión de X sobre Y . La recta de regresión de Y sobre X sirve para predecir y conocido x; la recta de regresión de X sobre Y sirve para predecir x conocido y. De (2.20) se obtiene la siguiente identidad fundamental Xn µ 2 ¶ b = 1 G(b, b) a a b = s2 1 − sXY (yi − bxi − b) = s2 (1 − r2 ) ≥ 0 (2.21) Y Y n i=1 s2 s2 X Y que expresa el error mínimo cuadrático medio de estimación de Y por la recta y = ax + b, siendo s2 r2 = XY = β Y X · β XY s2 s2 X Y que se llama coeficiente de determinación, y satisface 0 ≤ r2 ≤ 1. Por definición, el coeficiente de correlación lineal es sXY r= sX sY Es un coeficiente de gran importancia en Estadística que da una medida del grado del buen ajuste de Y como función lineal de X. Algunas de sus propiedades son: 1. De (2.21) se obtiene 1 − r2 ≥ 0 y, por tanto, −1 ≤ r ≤ 1, además de tener el mismo signo que sXY y los coeficientes de regresión β Y X y β XY . 2. Si r2 = 1, es decir, r = ±1, según (2.21), el error mínimo cuadrático medio es cero, lo que implica yi = bxi + b a b (i = 1, 2, ...n) es decir, una variable es exactamente combinación lineal de la otra. En este caso se dice que hay correlación total. 3. Si r2 = 0, o sea, r = 0, según (2.21), tenemos que el error mínimo cuadráti- co medio es s2 . Entonces yi difiere mucho de la predicción bxi + b En este Y a b. caso se dice que las variables X, Y están incorrelacionadas (condición que cumplen las variables independientes). 4. Si 0 < r < 1, se dice que la correlación es positiva y, en tal caso, si crece (resp. decrece) X cabe esperar que Y crezca (resp. decrezca). © Els autors, 2002; © Edicions UPC, 2002
  • 112.
    160 CAPÍTULO 2. VARIABLES ALEATORIAS 5. Si −1 < r < 0, se dice que la correlación es negativa y, en tal caso, si crece (resp. decrece) X cabe esperar que Y decrezca (resp. crezca). Por lo tanto, el coeficiente de correlación r es una medida del grado de interdependencia lineal entre dos variables estadísticas. Si restamos a la variable Y la parte debida a X según la regresión lineal b b ei = yi − yi se obtienen los residuos de la aproximación. La varianza de estos residuos s2 , rY llamada varianza residual, es s2 = s2 (1 − r2 ) rY Y (2.22) y puede interpretarse como la variabilidad propia de Y una vez eliminada la influencia que sobre Y tiene la variable X. De (2.22), obtenemos s2 = s2 + r2 s2 Y rY Y es decir, la varianza de Y se descompone en dos partes: s2 , la varianza residual, rY y r2 s2 , la varianza explicada o parte de la varianza que es debida a la influencia Y sobre ella de la variable X. De este modo, el coeficiente de determinación r2 puede interpretarse como la parte de la variabilidad de Y (en tanto por uno) debida a la variable X. Al valor p srY = sY 1 − r2 se le llama error típico y no es más que la desviación típica de una predicción y = bx + b b a b. Regresión entre dos variables aleatorias Antes de ver la regresión lineal entre dos variables aleatorias, trataremos un caso más sencillo de regresión. Supongamos que queremos aproximar una variable aleatoria X a un número real constante no aleatorio α. Una manera de hacerlo consiste en encontrar α mediante el criterio de que el error cuadrático medio £ ¤ = E (X − α)2 sea mínimo. Es claro que el error dependerá de α y, por tanto, será mínimo si d =0 dα Ahora bien, se cumple que d d £ ¤ = E (X − α)2 dα dα d ¡ ¢ = E(X 2 ) − 2αE(X) + α2 dα = −2E(X) + 2α © Els autors, 2002; © Edicions UPC, 2002
  • 113.
    2.4. VALORES ESPERADOS,MOMENTOS Y FUNCIONES CARACTERÍSTICAS161 Por tanto, será mínimo si α = E(X) Hemos visto, pues, que la mejor manera de aproximar una variable aleatoria X por una constante es mediante su valor medio. En este caso, el error mínimo cometido es la varianza de X h i = E (X − E(X))2 = σ 2 Como consecuencia, la aproximación de X por su valor medio sólo será una buena aproximación si la varianza de X es pequeña. Si no lo es, la sustitución de X por E(X) no es efeciente y en tales casos hay que buscar otras aproximaciones mejores. Una de estas, consiste en aproximar X mediante una función lineal de una variable aleatoria Y aY + b de forma que el error cuadrático medio h i E (X − (aY + b))2 sea mínimo. En general, la regresión consiste básicamente en aproximar una variable aleatoria X que tiene una distribución de probabilidad desconocida o muy com- pleja mediante una función de una cierta variable aleatoria Y con distribución conocida o más sencilla que la distribución de X. Si la función de Y es lineal tenemos la regresión lineal (simple o múltiple), mientras que si la función de Y es arbitraria, tenemos la regresión no lineal. Dada una variable aleatoria X, la regresión lineal simple consiste en aprox- imar X mediante aY + b, siendo Y otra variable aleatoria, de manera que el error cuadrático medio h i (a, b) = E (X − (aY + b))2 sea mínimo. Los resultados que se obtienen a partir de esta condición son una generalización del caso muestral y, por este motivo, no haremos sus demostra- ciones. Recta de regresión de X sobre Y : Cov(X, Y ) x − E(X) = (y − E(Y )) V ar(Y ) Recta de regresión de Y sobre X: Cov(X, Y ) y − E(Y ) = (x − E(X)) V ar(X) Coeficientes de regresión: Cov(X, Y ) Cov(X, Y ) β XY = y βY X = V ar(Y ) V ar(X) © Els autors, 2002; © Edicions UPC, 2002
  • 114.
    162 CAPÍTULO 2. VARIABLES ALEATORIAS Error mínimo cuadrático medio de Y sobre X: m´ = V ar(Y ) · (1 − ρ2 ) ın Coeficiente de determinación: 0 ≤ ρ2 = β Y X · β XY ≤ 1 Coeficiente de correlación lineal (poblacional): Cov(X, Y ) −1 ≤ ρ = p p ≤1 V ar(X) V ar(Y ) e Varianza residual de Y = Y − β Y X X − β 0 , con β 0 = E(X) − β XY E(Y ) e V ar(Y ) = V ar(Y )(1 − ρ2 ) Error típico: p σY = e V ar(Y )(1 − ρ2 ) Es importante no confundir r con ρ, pues ρ es constante, mientras que r varía con la muestra. En todo caso, puede considerarse r como una estimación de ρ. Las propiedades de ρ son análogas a las de r: 1. −1 ≤ ρ ≤ 1 2. Si ρ = ±1, una variable es exactamente función lineal de la otra, o sea, Y = βY X X + β0. 3. Si ρ = 0, se dice que las variables aleatorias están incorrelacionadas. En particular, si son independientes, Cov(X, Y ) = 0 y, por tanto, ρ = 0. El recíproco en general es falso. 4. ρ es invariante por transformaciones lineales de las variables aleatorias, es decir, ρ(X, Y ) = ρ(aX + b, cX + d) Por lo tanto, el coeficiente de correlación ρ es una medida estándar del gra- do de interdependencia lineal entre dos variables aleatorias, que tiene la ventaja sobre la covarianza de no depender de la dimensión física de las variables aleato- rias. Ejemplo 73 La función de densidad conjunta de dos variables aleatorias abso- lutamente continuas X, Y es ½ 3 2 2 f (x, y) = 2 (x + y ) si x, y ∈ (0, 1) 0 en otro caso (1) Calcular el coeficiente de correlación; (2) determinar las rectas de regresión, y (3) ¿qué porcentaje de la variabilidad de X es debida a Y ? © Els autors, 2002; © Edicions UPC, 2002
  • 115.
    2.4. VALORES ESPERADOS,MOMENTOS Y FUNCIONES CARACTERÍSTICAS163 Solución: Sabemos por el ejemplo 41 que 5 5 3 1 E(X) = E(Y ) = E(XY ) = Cov(X, Y ) = − 8 8 8 64 Vamos ahora a calcular las varianzas marginales. Tenemos, Z +∞ 2 E(X ) = x2 fX (x) dx −∞ Z µ ¶ 3 1 x2 = x4 + dx 2 0 3 7 = 15 luego, 2 V ar(X) = E(X 2 ) − (E(X)) µ ¶2 7 5 73 = − = 15 8 960 Además, tenemos Z +∞ 2 E(Y ) = y 2 fY (y) dy −∞ Z 1 µ ¶ 3 y2 = + y4 dy 2 0 3 7 = 15 luego, 2 V ar(Y ) = E(Y 2 ) − (E(Y )) µ ¶2 7 5 73 = − = 15 8 960 (1) Por tanto, el coeficiente de correlación es Cov(X, Y ) −1/64 ρ= p p =p p = −0,2055 V ar(X) V ar(Y ) 73/960 73/960 que nos dice que la dependencia es negativa y débil; obsérvese que las dos vari- ables no son independientes, pues f (x, y) 6= fX (x) · fY (y) (2) Los coeficientes de regresión son: Cov(X, Y ) −1/64 β XY = = = −15/73 V ar(Y ) 73/960 © Els autors, 2002; © Edicions UPC, 2002
  • 116.
    164 CAPÍTULO 2. VARIABLES ALEATORIAS y Cov(X, Y ) −1/64 βY X = = = −15/73 V ar(X) 73/960 y, por tanto, la recta de regresión de Y sobre X es µ ¶ 5 15 5 y− =− x− 8 73 8 y la recta de regresión de X sobre Y es µ ¶ 5 15 5 x− =− y− 8 73 8 (3) El coeficiente de determinación es µ ¶2 2 15 ρ = β Y X · β XY = − = 0,0422 73 es decir, hay un 4.22 % de la variabilidad de X que es debida a la de Y , lo que nos indica que el ajuste por rectas de regresión no es aceptable. A veces la aproximación lineal simple de una variable aleatoria X es poco adecuada. Se puede entonces ensayar una función polinómica, exponencial, etc. Pero lo más interesante es determinar una función g de una variable aleatoria Y de modo que entre todas las curvas posibles se cumpla que h i 2 E (X − g(Y )) sea mínimo. El siguiente teorema soluciona este problema, afirmando que la esperanza condicionada es la función que hace que la aproximación sea la mejor posible. Teorema 36 Si queremos aproximar una variable aleatoria X mediante una función g de la variable aleatoria Y , entonces la esperanza condicionada E(X|Y ) tiene el error cuadrático medio más pequeño entre todas las posibles aproxima- ciones de X, es decir, h i h i E (X − E(X|Y ))2 ≤ E (X − g(Y ))2 h i para cualquier función g de la variable aleatoria Y tal que E (X − g(Y ))2 exista. Entonces a la función g(y) = E(X|Y = y) se la llama función de regresión de X sobre Y y a su representación gráfica, curva de regresión de X sobre Y . Demostración: Haremos la demostración suponiendo que X, Y son dos vari- ables aleatorias absolutamente continuas con función de densidad conjunta f . Sea g una función de la variable aleatoria Y tal que el error cuadrático medio h i = E (X − g(Y ))2 © Els autors, 2002; © Edicions UPC, 2002
  • 117.
    2.4. VALORES ESPERADOS,MOMENTOS Y FUNCIONES CARACTERÍSTICAS165 exista. Puesto que f (x, y) = f (x|y) fY (y) entonces tenemos h i 2 = E (X − g(Y )) Z +∞ Z +∞ = [x − g(y)]2 f (x, y) dx dy −∞ −∞ Z +∞ Z +∞ 2 = fY (y) dy [x − g(y)] f (x|y) dx −∞ −∞ Sea Z +∞ 2 h (g(y)) = [x − g(y)] f (x|y) dx −∞ entonces podemos escribir Z +∞ = fY (y) h (g(y)) dy −∞ Al ser fY una función no negativa, será mínimo si h (g(y)) es mínimo. Ahora bien, tenemos Z +∞ Z +∞ Z +∞ 2 2 h (g(y)) = x f (x|y) dx−2g(y) x f (x|y) dx+(g(y)) f (x|y) dx −∞ −∞ −∞ pero Z +∞ f (x|y) dx = 1 −∞ y Z +∞ xn f (x|y) dx = E(X n |Y ) (n = 1, 2) −∞ Por tanto, obtenemos una funcional h de g(y) 2 h (g(y)) = E(X 2 |Y ) − 2g(y)E(X|Y ) + (g(y)) Mediante el cálculo variacional se puede demostrar que una condición necesaria para que h (g(y)) sea mínimo es que su variación δh = 0, es decir, ∂ δh = h [g(y) + αδy]α=0 ∂α ∂ h 2 i = E(X 2 |Y ) − 2 (g(y) + αδy) E(X|Y ) + (g(y) + αδy) ∂α α=0 = [−2δyE(X|Y ) + 2(g(y) + αδy)δy]α=0 = [−2E(X|Y ) + 2g(y)] δy Por tanto, δh = 0 ⇐⇒ −2E(X|Y ) + 2g(y) = 0 © Els autors, 2002; © Edicions UPC, 2002
  • 118.
    166 CAPÍTULO 2. VARIABLES ALEATORIAS es decir, g(y) = E(X|Y ) Observación 30 1. Análogamente se obtiene la curva de regresión de Y sobre X y = h(x) siendo h(x) = E(Y |X = x). 2. Es claro que si E(Y |X = x) coincide con la recta de regresión de Y sobre X, entonces se dice que Y tiene regresión lineal respecto de X. En gener- al, si sustituimos las curvas de regresión E(X|Y ) y E(Y |X) por las rectas de regresión podemos cometer graves errores al intentar obtener mediante ellas los valores de las esperanzas condicionadas si el coeficiente de deter- minación ρ2 es muy cercano a cero, mientras que si ρ2 es próximo a 1, el ajuste por rectas de regresión es aceptable. 3. En general, para medir el grado de ajuste entre la distribución conjunta y la curva de regresión de Y sobre X se utiliza la llamada razón de correlación de Y sobre X que se define por £ ¤ 2 E (h(X) − E(Y ))2 ηY X = V ar(Y ) Se verifica: (1) 0 ≤ η 2 X ≤ 1; (2) η2 X ≥ ρ2 ; (3) si η 2 X = 0, entonces la Y Y Y curva de regresión se reduce a la recta y = E(Y ), y una variable difiere mucho de ser función de la otra; (4) si η 2 X = 1, entonces toda la dis- Y tribución conjunta está concentrada en la curva de regresión de Y sobre X, es decir, se cumple la relación funcional Y = h(X) y, cuando y = h(x) es una recta, se dice que Y tiene regresión lineal respecto de X. Ejemplo 74 Hallar la curva de regresión de Y sobre X, sabiendo que la función de densidad conjunta es ½ 1 f (x, y) = 8 (x + y) si x, y ∈ (0, 2) 0 en otro caso ¿La regresión entre X e Y es lineal? Calcular también la razón de correlación de Y sobre X. Solución: La curva de regresión de Y sobre X viene dada por y = h(x) = E(Y |X = x) © Els autors, 2002; © Edicions UPC, 2002
  • 119.
    2.4. VALORES ESPERADOS,MOMENTOS Y FUNCIONES CARACTERÍSTICAS167 siendo Z +∞ 1 E(Y |X = x) = y · f (x, y) dy fX (x) −∞ pero, para 0 < x < 2, tenemos Z +∞ fX (x) = f (x, y) dy −∞ Z 2 1 = (x + y) dy 8 0 1 = (x + 1) 4 y se anula en otro caso. Por tanto, para 0 < x < 2 tenemos Z 2 4 1 E(Y |X = x) = (xy + y 2 ) dy x+1 0 8 µ ¶ 1 8 = · 2x + 2(x + 1) 3 3x + 4 = 3x + 3 y la curva de regresión es 3x + 4 y = h(x) = (0 < x < 2) 3x + 3 Es claro que la regresión no es lineal. La razón de correlación es £ ¤ E (h(X) − E(Y ))2 η2 X Y = V ar(Y ) Se comprueba enseguida que 7 11 E(Y ) = y V ar(Y ) = 6 36 y se cumple µ ¶2 2 3x + 4 7 (h(X) − E(Y )) = − 3x + 3 6 µ ¶2 1 1−x = 36 1 + x © Els autors, 2002; © Edicions UPC, 2002
  • 120.
    168 CAPÍTULO 2. VARIABLES ALEATORIAS luego, Z " µ ¶2 # £ ¤ 2 2 1 1−x 1 E (h(X) − E(Y )) = · (x + 1) dx 0 36 1+x 4 Z 2 1 (1 − x)2 = dx 144 0 1+x Z 2 Z 2 1 1 4 = (x − 3) dx + dx 144 0 144 0 x + 1 1 1 = − + ln 3 36 36 Por consiguiente, obtenemos £ ¤ E (h(X) − E(Y ))2 η2 X Y = V ar(Y ) µ ¶ 36 1 1 = − + ln 3 11 36 36 = 0,009 Obsérvese que X, Y son dependientes, pues η 2 X 6= 0, pero la dependencia es Y muy débil. 2.4.11. Función característica y función generatriz de mo- mentos Disponemos ya de dos funciones que nos ayudan a entender una variable aleatoria: la función de distribución y la función de densidad. En este apartado introduciremos dos nuevas funciones que podremos utilizar para describir las variables aleatorias desde una perspectiva diferente. Nos estamos refiriendo a la función característica y a la función generatriz de momentos. Ambas funciones son equivalentes en muchos sentidos. La diferencia esencial entre ellas reside en que la primera siempre está definida para una variable aleatoria, mientras que la segunda puede no estarlo. Hasta ahora sólo hemos tratado con variables aleatorias reales. No obstante, la definición de esperanza puede extenderse sin dificultades al caso de una vari- able aleatoria compleja Z = X +iY , donde X e Y son variables aleatorias reales. En efecto, si los valores esperados de X e Y existen, entonces el valor esperado de Z se define por E(Z) = E(X) + iE(Y ) Un caso en que trataremos con variable aleatorias complejas es el de la función característica de una variable aleatoria real X. Esta función es la esperanza de la variable aleatoria compleja eitX = cos tX + i sin tX que depende del parámetro real t. © Els autors, 2002; © Edicions UPC, 2002
  • 121.
    2.4. VALORES ESPERADOS,MOMENTOS Y FUNCIONES CARACTERÍSTICAS169 Definiciones de función característica y de función generatriz de mo- mentos Se llama función característica de la variable aleatoria real X a la función ϕ definida por ϕ(t) = E(eitX ) Para una variable aleatoria discreta X, tenemos X ϕ(t) = eitxn P (X = xn ) n y para una variable aleatoria absolutamente continua X con función de densidad f , tenemos Z +∞ ϕ(t) = eitx f (x) dx −∞ Se llama función generatriz de momentos de la variable aleatoria X a la función definida por g(t) = E(etX ) siempre que E(etX ) sea finito. Para una variable aleatoria discreta X, tenemos X g(t) = etxn P (X = xn ) n y para una variable aleatoria absolutamente continua X con función de densidad f , tenemos Z +∞ g(t) = etx f (x) dx −∞ Observación 31 1. La función característica de una variable aleatoria X es una función de variable real que toma valores complejos. Además, es una función que siempre existe aunque no exista la esperanza de X. En efecto, por definición tenemos ϕ(t) = E(eitX ) = E(cos tX) + iE(sin tX) Entonces, ϕ(t) existirá si E(cos tX) y E(t sin X) son finitos, pero |E(cos tX)| ≤ E(|cos tX|) ≤ E(1) = 1 y, por tanto, E(cos tX) es finito; lo mismo ocurre con E(sin tX). En el apartado 1 de la observación 13 hemos visto que para la distribución de Cauchy 1 f (x) = π(1 + x2 ) © Els autors, 2002; © Edicions UPC, 2002
  • 122.
    170 CAPÍTULO 2. VARIABLES ALEATORIAS la esperanza no es finita. Sin embargo, mediante el cálculo de residuos se puede demostrar que Z +∞ 1 ϕ(t) = eitx dx −∞ π(1 + x2 ) Z 1 +∞ eitx = dx π −∞ 1 + x2 = e−|t| y ϕ(t) existe para todo t ∈ R. 2. La función generatriz de momentos de una variable aleatoria es una fun- ción real de variable real. Evidentemente, para que exista la función gen- eratriz de momentos tendrá que existir el correspondiente valor esperado. Ejemplo 75 Calcular la función característica y la función generatriz de mo- mentos de (1) la distribución de Poisson de parámetro λ y (2) la distribución normal de parámetros µ = 0 y σ = 1. Solución: (1) Para una variable aleatoria X con distribución de Poisson de parámetro λ > 0 se tiene λn −λ P (X = n) = e (n = 0, 1, 2, ...) n! Por tanto, ∞ X ϕ(t) = eitn P (X = n) n=0 ∞ X (λeit )n = e−λ n=0 n! it = e−λ eλe £ ¤ = exp λ(eit − 1) Además, se tiene ∞ X g(t) = etn P (X = n) n=0 ∞ X (λet )n = e−λ n=0 n! t = e−λ eλe £ ¤ = exp λ(et − 1) (2) Para una variable aleatoria X con distribución normal de parámetros µ = 0 y σ = 1 se tiene 1 2 f (x) = √ e−x /2 2π © Els autors, 2002; © Edicions UPC, 2002
  • 123.
    2.4. VALORES ESPERADOS,MOMENTOS Y FUNCIONES CARACTERÍSTICAS171 Por tanto, Z +∞ 1 2 ϕ(t) = eitx √ e−x /2 dx −∞ 2π Z +∞ 1 2 = √ eitx−x /2 dx 2π −∞ Z 1 −t2 /2 +∞ −(x−it)2 /2 = √ e e dx 2π −∞ 2 = e−t /2 Además, se tiene Z +∞ 1 2 g(t) = etx √ e−x /2 dx −∞ 2π Z +∞ 1 2 = √ etx−x /2 dx 2π −∞ Z 1 t2 /2 +∞ −(x−t)2 /2 = √ e e dx 2π −∞ 2 = et /2 Ejemplo 76 Calcular la función característica de la variable aleatoria con la siguiente distribución mixta P (X = 1) = 0,1, P (X = 2) = 0,2, P (X = 3) = 0,3 y f (x) = 0,04x para 4 ≤ x ≤ 6, y cero en cualquier otro caso. Solución: Por definición, tenemos ϕ(t) = E(eitX ) X3 Z 6 = eitx P (X = n) + eitx · 0,04x dx n=1 4 Z 6 = 0,1eit + 0,2e2it + 0,3e3it + 0,04 xeitx dx 4 pero Z 6 · ¸6 Z 6 eitx eitx xeitx dx = − dx 4 it 4 4 it · ¸ itx 6 e 1 £ itx ¤6 = − e 4 it 4 (it)2 e6it − e4it e6it − e4it = + it t2 © Els autors, 2002; © Edicions UPC, 2002
  • 124.
    172 CAPÍTULO 2. VARIABLES ALEATORIAS luego, µ ¶ e6it − e4it e6it − e4it ϕ(t) = 0,1eit + 0,2e2it + 0,3e3it + 0,04 + it t2 Propiedades de las funciones características Las propiedades más importantes de las funciones características se recogen en el siguiente teorema. Teorema 37 La función característica ϕX de una variable aleatoria X (disc- reta o absolutamente continua) satisface las siguientes propiedades: 1. ϕX (0) = 1 y |ϕX (t)| ≤ 1, para todo t ∈ R 2. ϕX (−t) = ϕX (t), en donde la barra denota el complejo conjugado de ϕX (t) 3. Si Y = aX + b, entonces ϕY (t) = eitb ϕX (at), para todo a, b ∈ R 4. Si X, Y son variables aleatorias independientes, entonces ϕX+Y (t) = ϕX (t)ϕY (t) Demostración: (1) Es evidente ϕX (0) = 1 ya que ϕX (0) = E(e0 ) = E(1) = 1. Por otra parte, ¯ ¯ |ϕX (t)| = ¯E(eitX )¯ ¯ ¯ ≤ E(¯eitx ¯) = E(1) = 1 ya que ¯ itx ¯ p ¯e ¯ = cos2 tx + sin2 tx = 1 (2) Puesto que ϕX (t) = E(cos tX) + iE(sin tX) tenemos, ϕX (−t) = E(e−itX ) = E(cos tX − i sin tX) = E(cos tX) − iE(sin tX) = ϕX (t) © Els autors, 2002; © Edicions UPC, 2002
  • 125.
    2.4. VALORES ESPERADOS,MOMENTOS Y FUNCIONES CARACTERÍSTICAS173 (3) Tenemos ϕY (t) = E(eitY ) = E(eit(aX+b) ) = E(eitaX eitb ) = eitb E(eitaX ) = eitb ϕX (aX) (4) Tenemos ϕX+Y (t) = E(eit(X+Y ) ) = E(eitX eitY ) = E(eitX )E(eitY ) = ϕX (t)ϕY (t) Ejemplo 77 Dadas n variables aleatorias X1 , X2 , ..., Xn , independientes y con funciones características ϕ1 , ϕ2 , ..., ϕn , se define una nueva variable aleatoria Y por n X Y = (ai Xi + bi ) i=1 Calcular la función característica ϕ de Y . Solución: Por definición, tenemos ϕ(t) = E(eitY ) " Ã n !# X = E exp it (ai Xi + bi ) i=1 " n # Y = E exp it (ai Xi + bi ) i=1 Al ser las variables aleatorias Xi independientes, las variables exp it (ai Xi + bi ) © Els autors, 2002; © Edicions UPC, 2002
  • 126.
    174 CAPÍTULO 2. VARIABLES ALEATORIAS también lo son, y, por tanto, " n # Y ϕ(t) = E exp it (ai Xi + bi ) i=1 n Y = E [exp it (ai Xi + bi )] i=1 Yn £ ¤ = E eitai Xi · eitbi i=1 Yn ¡ itbi ¡ ¢¢ = e · E eitai Xi i=1 Yn ¡ itbi ¢ = e · ϕi (ai t) i=1 Yn n Y = eitbi · ϕi (ai t) i=1 i=1 Ã n ! n X Y = exp it bi · ϕi (ai t) i=1 i=1 Propiedades de la función generatriz de momentos Teorema 38 La función generatriz de momentos g de una variable aleatoria X (discreta o absolutamente continua) satisface las siguientes propiedades: 1. Si Y = aX + b, entonces gY (t) = etb gX (at), para todo a, b ∈ R 2. Si X, Y son variables aleatorias independientes, entonces gX+Y (t) = gX (t)gY (t) Demostración: Es análoga a los correspondientes apartados del teorema 29. Cálculo de los momentos mediante la función característica La utilidad práctica de la función característica se pone de manifiesto en el siguiente teorema. Teorema 39 Si una variable aleatoria X (discreta o absolutamente continua) tiene todos sus momentos de orden n ∈ N finitos, entonces 1 (n) mn = E(X n ) = ϕ (0) (n = 1, 2, 3, ...) in © Els autors, 2002; © Edicions UPC, 2002
  • 127.
    2.4. VALORES ESPERADOS,MOMENTOS Y FUNCIONES CARACTERÍSTICAS175 Demostración: Para una variable aleatoria discreta X tenemos " # (n) dn X itxk ϕ (t) = e P (X = xk ) dtn k X dn ¡ ¢ = eitxk P (X = xk ) dtn k Ahora bien, tenemos dn ¡ itxk ¢ e = in xn eitxk k dtn Por tanto, X ϕ(n) (t) = in xn eitxk P (X = xk ) k k Finalmente, en el punto t = 0, tenemos X ϕ(n) (0) = in xn P (X = xk ) k k = in E(X n ) = in mn Del mismo modo, para una variable aleatoria absolutamente continua, tenemos ·Z +∞ ¸ dn ϕ(n) (t) = eitx f (x) dx dtn −∞ Z +∞ n = i xn eitx f (x) dx −∞ tomando t = 0, obtenemos Z +∞ ϕ(n) (0) = in xn f (x) dx −∞ = in E(X n ) = in mn Obsérvese que si X tiene todos los momentos finitos, entonces la función carac- terística puede desarrollarse en serie de Taylor en un entorno del punto x = 0 Z +∞ ϕX (t) = eitx f (x) dx −∞ Z +∞ µ ¶ it (it)2 2 (it)n n = 1+ x+ x + ··· + x + · · · f (x) dx −∞ 1! 2! n! Z +∞ Z +∞ Z it (it)2 +∞ 2 = f (x) dx + x f (x) dx + x f (x) dx −∞ 1! −∞ 2! −∞ Z (it)n +∞ n +··· + x f (x) dx + · · · n! −∞ it (it)2 (it)n = 1+ m1 + m2 + · · · + mn + · · · 1! 2! n! © Els autors, 2002; © Edicions UPC, 2002
  • 128.
    176 CAPÍTULO 2. VARIABLES ALEATORIAS Ejemplo 78 Hallar los dos primeros momentos de la distribución binomial de parámetros n y p. Solución: Recordemos que una variable aleatoria con distribución binomi- al de parámetros n y p es la suma de n variables aleatorias de Bernoulli de parámetro p independientes. Una variable aleatoria X sigue una distribución de Bernoulli de parámetro p si X toma sólo dos valores 1 (éxito) y 0 (fracaso) con la siguiente distribución de probabilidad ½ p si x = 1 P (X = x) = (p + q = 1) q si x = 0 luego, su función característica es ϕX (t) = E(eitX ) = peit + qe0 = peit + q Por consiguiente, si Y es una variable aleatoria con distribución binomial de parámetros n y p Xn Y = Xi i=1 siendo cada Xi una variable aleatoria de Bernoulli de parámetro p. Entonces, al ser las Xi independientes, tenemos que la función característica de Y es n Y ϕ(t) = ϕXi (t) i=1 ¡ it ¢n = pe + q (p + q = 1) Podemos pasar a calcular ahora los momentos pedidos. Se cumple 1 (n) mn = ϕ (0) (k = 1, 2, 3, ...) in luego, tenemos 1 0 m1 = ϕ (0) i · ¸ n(peit + q)n−1 · ipeit = i t=0 = np y 1 00 m2 = ϕ (0) i2 · ¸ n(n − 1)(peit + q)n−2 · i2 p2 e2it + n(peit + q)n−1 · i2 peit = i2 t=0 = n(n − 1)p2 + np © Els autors, 2002; © Edicions UPC, 2002
  • 129.
    2.4. VALORES ESPERADOS,MOMENTOS Y FUNCIONES CARACTERÍSTICAS177 Ejemplo 79 Estudiar la distribución de una variable aleatoria X que tiene todos sus momentos finitos e iguales a un número real a. ¿Qué condición ha de cumplir a? Solución: Como todos los momentos existen y E(X) = E(X 2 ) = · · · = E(X n ) = · · · = a la función característica de X puede desarrollarse en serie de Taylor en un entorno del punto x = 0 it (it)2 (it)n ϕX (t) = 1 + m1 + m2 + · · · + mn + · · · 1! 2! n! ita (it)2 a (it)n a = 1+ + + ··· + + ··· 1! µ 2! n! ¶ 2 it (it) (it)n = 1−a+a 1+ + + ··· + + ··· 1! 2! n! = 1 − a + aeit es decir, ϕX (t) = 1 − a + aeit pero debe cumplirse que |ϕX (t)| ≤ 1 es decir, ¯ ¯ ¯1 − a + aeit ¯ ≤ |1 − a| + |a| ≤ 1 luego 0≤a≤1 Poniendo ahora p = a y q = 1 − a, obtenemos ϕX = q + peit que es la función característica de la distribución de Bernoulli (ver ejemplo 47). En resumen, se ha de cumplir que 0 ≤ a ≤ 1 y la distribución de X es una Bernoulli de parámetro a. Cálculo de los momentos mediante la función generatriz de momentos La utilidad práctica de la función generatriz de momentos, si existe, se pone de manifiesto en el siguiente teorema. Teorema 40 Si una variable aleatoria X (discreta o absolutamente continua) tiene todos sus momentos de orden n ∈ N finitos para la que existe la función generatriz de momentos, entonces mn = E(X n ) = g (n) (0) (k = 1, 2, 3, ...) © Els autors, 2002; © Edicions UPC, 2002
  • 130.
    178 CAPÍTULO 2. VARIABLES ALEATORIAS Demostración: Consideremos el desarrollo en serie de Taylor de h(x) = etx en x = 0, se tiene t t2 tn etx = 1 + x + x2 + · · · + xn + · · · 1! 2! n! de donde Z +∞ g(t) = etx f (x) dx −∞ Z +∞ µ ¶ t t2 tn = 1+ x + x2 + · · · + xn + · · · f (x) dx −∞ 1! 2! n! derivando sucesivamente respecto de t en t = 0, resulta Z +∞ µ ¶ Z +∞ tn−1 n g 0 (t) = x + tx2 + · · · + x + · · · f (x) dx =⇒ g 0 (0) = x f (x) dx = m1 −∞ (n − 1)! −∞ Z +∞ µ ¶ Z +∞ tn−2 n g 00 (t) = x2 + · · · + x + ··· f (x) dx =⇒ g 00 (0) = x2 f (x) dx = m2 −∞ (n − 2)! −∞ reiterando este proceso se concluye que g (n) (0) = mn La demostración para el caso de variable aleatoria discreta es análogo. Teoremas de unicidad y de inversión La función característica de una variable aleatoria proporciona información sobre ella en el sentido de que permite conocer fácilmente todos sus momen- tos de orden n ∈ N. De hecho podemos afirmar aún más: conocer la función característica equivale a conocer la distribución de probabilidad de la variable aleatoria. Los dos teoremas siguientes, que damos sin demostración, justifican esta última afirmación. El primero nos dice que cualquier función de distribución F (x) = P (X ≤ x) está unívocamente determinada por su función característica. Como consecuen- cia, la función característica caracteriza la variable aleatoria, en el sentido de que dos variables aleatorias con la misma función característica tienen la misma función de distribución. Teorema 41 (Teorema de unicidad) Sean F1 y F2 dos funciones de dis- tribución con la misma función característica, entonces F1 = F2 . Es claro que si conocemos la función de densidad de una variable aleatoria la misma definición de función característica determina ϕ(t) de forma unívoca. El problema ahora es conocer la función de densidad a partir del conocimiento de la función característica. El segundo teorema resuelve este último problema. © Els autors, 2002; © Edicions UPC, 2002
  • 131.
    2.4. VALORES ESPERADOS,MOMENTOS Y FUNCIONES CARACTERÍSTICAS179 Teorema 42 (Teorema de inversión) Sean ϕ y F la función característica y la función de distribución de una varfiable aleatoria X. Entonces, para parejas arbitrarias de puntos a y b (a < b) donde F es continua, se cumple la siguiente fórmula Z c −ita 1 e − e−itb F (b) − F (a) = l´ ım ϕ(t) dt c→+∞ 2π −c it que suele llamarse fórmula de inversión. Para el caso de una variable aleatoria absolutamente continua X con función de distribución F diferenciable y tal que F 0 (x) = f (x) sea la función de densidad, la fórmula de inversión puede escribirse de un modo más sencillo, como lo indica el siguiente corolario. Corolario 2 Si la función de distribución de una variable aleatoria absoluta- mente continua F es diferenciable y F 0 (x) = f (x), entonces se cumple Z +∞ 1 f (x) = e−itx ϕ(t) dt 2π −∞ siempre que |ϕ(t)| sea integrable en toda la recta real; dicho en otras palabras, la función característica y la función de densidad son transformadas de Fourier la una de la otra. Observación 32 La función de densidad es una integral en el plano complejo que puede resolverse, salvo casos sencillos, por el método de los residuos. Para variables aleatorias discretas, el siguiente teorema proporciona la fór- mula de inversión. Teorema 43 Sea X una variable aleatoria discreta que toma los valores x1 , x2 , ..., xn , ... con probabilidad no nula, y sea ϕ su función característica. Entonces, la función de densidad de X viene dada por la siguiente fórmula " Z T # 1 P (X = xn ) = l´ım e−itxn ϕ(t) dt (n = 1, 2, 3, ...) T →+∞ 2T −T Ejemplo 80 Una variable aleatoria X se dice que es simétrica si su función de densidad es par, es decir, f (x) = f (−x) para todo x ∈ R. (1) ¿Qué debe verificar la función característica para que la variable sea simétrica? (2) Averiguar si la variable aleatoria X de función de función característica ½ 1 − |t| si |t| ≤ 1 ϕX (x) = 0 si |t| > 1 (3) ¿Tiene momentos esta variable aleatoria? (4) Hallar la función de densidad de la variable aleatoria X del apartado (2). © Els autors, 2002; © Edicions UPC, 2002
  • 132.
    180 CAPÍTULO 2. VARIABLES ALEATORIAS Solución: (1) Si X es simétrica, entonces X y −X se distribuyen de la misma manera. Por tanto, X y −X tienen la misma función característica y, por tanto, ϕX (t) = ϕ−X (t) = ϕX (−t) = ϕX (t) para todo t ∈ R. La condición ϕX (t) = ϕX (t) es equivalente a decir que ϕX (t) es un número real y, en consecuencia, ϕX ha de ser una función real de variable real par. (2) Es claro que ϕX es una función real par, luego ϕX (t) = ϕX (−t) = ϕ−X (t) y, por tanto, según el teorema de unicidad, X y −X tienen la misma distribución y, como consecuencia, X es simétrica. (3) Esta variable aleatoria no tiene momentos porque la función caracterís- tica no es derivable en x = 0. (4) Aplicando la fórmula de inversión, tenemos Z +∞ 1 f (x) = e−itx ϕX (t) dt 2π −∞ y observando la gráfica de ϕX podemos escribir Z 0 Z 1 1 1 f (x) = e−itx (1 + t) dt + e−itx (1 − t) dt 2π −1 2π 0 © Els autors, 2002; © Edicions UPC, 2002
  • 133.
    2.4. VALORES ESPERADOS,MOMENTOS Y FUNCIONES CARACTERÍSTICAS181 pero Z 0 · ¸0 Z 0 −itx e−itx 1 e (1 + t) dt = (1 + t) − e−itx dt −1 −ix −1 −ix −1 · ¸0 1 1 e−itx = − + ix ix −ix −1 1 1 = − − (1 − eix ) ix (ix)2 y del mismo modo se obtiene Z 1 1 1 e−itx (1 − t) dt = + (e−ix − 1) 0 ix (ix)2 Por lo tanto, tenemos · ¸ · ¸ 1 1 1 ix 1 1 1 −ix f (x) = − − (1 − e ) + + (e − 1) 2π ix (ix)2 2π ix (ix)2 1 = (2 − eix − e−ix ) 2πx2µ ¶ 1 eix + e−ix = 1− πx2 2 1 − cos x = πx2 Funciones características bidimensionales De manera análoga al caso unidimensional se define la función característica y la función generatriz de momentos de variables aleatorias n-dimensionales. Como hemos hecho en otros casos, aquí sólo trataremos el caso bidimensional, dejando la generalización para el lector. Trataremos sólo las funciones carac- terísticas y dejaremos también al lector el trabajo de reescribir la definición y propiedades de la función generatriz de momentos para variables aleatorias bidimensionales. Se llama función característica de una variable aleatoria bidimensional (X, Y ) a la función ϕ(u, v) = E [exp (i(uX + vY ))] Es una función en las variables reales u, v que toma valores complejos. En el caso discreto, tenemos XX ϕ(u, v) = exp [i(uxh + vyk )] P (X = xh , Y = yk ) h k y, en el caso absolutamente continuo, Z +∞ Z +∞ ϕ(u, v) = exp [i(ux + vy)] f (x, y) dx dy −∞ −∞ © Els autors, 2002; © Edicions UPC, 2002
  • 134.
    182 CAPÍTULO 2. VARIABLES ALEATORIAS Del mismo modo que en el caso unidimensional, se puede demostrar que la función característica caracteriza totalmente a la función de distribución con- junta. Las propiedades de las funciones características para variables aleatorias bidimensionales se recogen en el siguiente teorema. Teorema 44 La función característica ϕXY de una variable aleatoria bidi- mensional (X, Y ) (discreta o absolutamente continua) satisface las siguientes propiedades: 1. ϕXY (0, 0) = 1 y |ϕXY (u, v)| ≤ 1, para todo (u, v) ∈ R2 2. ϕX (t) = ϕXY (t, 0) y ϕY (t) = ϕXY (0, t) 3. El momento mixto de orden k + h, si existe, es ¸ 1 ∂ k+h ϕXY (u, v) mkh = E(X k Y h ) = · ik+h ∂uk ∂v h u=v=0 4. Si Z = X + Y , entonces ϕZ (t) = ϕXY (t, t) 5. Dos variables aleatorias X, Y son independientes si y sólo si ϕXY (u, v) = ϕX (u) · ϕY (v) 6. Si Z = X + Y y X, Y son independientes, entonces ϕZ (t) = ϕX (t) · ϕY (t) Demostración: (1) Se hace del mismo modo que en el caso unidimensional (ver teorema 29). (2) Es claro que ϕXY (t, 0) = E [exp (i(tX + 0 · Y ))] = E(eitX ) = ϕX (t) y del mismo modo se hace la otra relación. (3) De la definición, mediante derivación parcial, es fácil deducir esta fór- mula; se deja al lector su comprobación. Además, se puede demostrar que bajo ciertas condiciones ϕXY admite un desarrollo en serie expresado en términos de los momentos mixtos (al igual que ocurría en el caso unidimensional). (4) En efecto, ϕZ (t) = E(eitZ ) = E(exp(it(X + Y ))) = E(exp(i(tX + tY ))) = ϕXY (t, t) (5) En efecto, si X, Y son independientes, entonces ϕXY (u, v) = E [exp (i(uX + vY ))] = E(eiuX · eivY ) = E(eiuX ) · E(eivY ) = ϕX (u) · ϕY (v) © Els autors, 2002; © Edicions UPC, 2002
  • 135.
    2.4. VALORES ESPERADOS,MOMENTOS Y FUNCIONES CARACTERÍSTICAS183 No demostraremos el recíproco de esta afirmación por exigir la aplicación del teorema de inversión. (6) Es evidente a partir de (4) y (5). Ejemplo 81 Dada la variable bidimensional discreta (X, Y ) con distribución de probabilidad conjunta Y X 1 2 1 0,1 0,2 2 0,1 0,6 Calcular la función característica de (X, Y ) y encontrar el momento mixto de orden 1 + 1 respecto al origen. Solución: Por definición tenemos 2 XX2 ϕXY (u, v) = exp [i(uh + vk)] P (X = h, Y = k) h=1 k=1 i(u+v) = e · 0,1 + ei(u+2v) · 0,1 + ei(2u+v) · 0,2 + ei(2u+2v) · 0,6 y si el momento pedido existe, se puede calcular mediante ¸ 1 ∂ 2 ϕXY (u, v) m11 = · i2 ∂u∂v u=v=0 Para ello, calculamos primero ∂ϕXY (u, v) = 0,1iei(u+v) + 0,1iei(u+2v) + 0,4iei(2u+v) + 1,2iei(2u+2v) ∂u Entonces ∂ 2 ϕXY (u, v) = 0,1i2 ei(u+v) + 0,2i2 ei(u+2v) + 0,4i2 ei(2u+v) + 2,4i2 ei(2u+2v) ∂u∂v y, por tanto, ¸ 0,1i2 ei(u+v) + 0,2i2 ei(u+2v) + 0,4i2 ei(2u+v) + 2,4i2 ei(2u+2v) m11 = i2 u=v=0 = 3,1 Ejemplo 82 Hallar la función característica de (X, Y ), sabiendo que la función de densidad conjunta es ½ x + y si x, y ∈ (0, 1) f (x, y) = 0 en otro caso © Els autors, 2002; © Edicions UPC, 2002
  • 136.
    184 CAPÍTULO 2. VARIABLES ALEATORIAS Solución: Por definición tenemos Z +∞ Z +∞ ϕ(u, v) = exp [i(ux + vy)] f (x, y) dx dy −∞ −∞ Z 1Z 1 i(ux+vy) = e (x + y) dx dy 0 0 Z 1Z 1 Z 1 Z 1 ivy iux = e e x dx dy + eiux eivy y dx dy 0 0 0 0 Calculando cada una de estas integrales, tenemos Z 1 Z 1 Z 1 · ¸1 ivy iux xeiux ivy eiux e e x dx dy = e − dy 0 0 0 iu (iu)2 0 µ iu ¶Z 1 e eiu 1 = + 2 − 2 eivy dy iu u u 0 µ iu ¶ · ivy ¸1 e eiu 1 e = + 2 − 2 iu u u iv µ iu iu ¶ µ iv 0 ¶ e e 1 e 1 = + 2 − 2 − iu u u iv iv y del mismo modo se obtiene Z 1 Z 1 µ ¶µ ¶ eiu 1 eiv eiv 1 eiux eivy y dx dy = − + 2 − 2 0 0 iu iu iv v v Por consiguiente, obtenemos que µ iu ¶ µ iv ¶ µ iu ¶ µ iv ¶ e eiu 1 e 1 e 1 e eiv 1 ϕ(u, v) = + 2 − 2 − + − + 2 − 2 iu u u iv iv iu iu iv v v 2.5. Convergencia de sucesiones de variables aleato- rias En las secciones anteriores nos hemos ocupado del concepto de variable aleatoria tanto unidimensional como bidimensinal, estudiando sus aspectos fun- damentales a través de su función de densidad, su función de distribución, de sus momentos y de su función característica. Pero en muchas situaciones tendremos que analizar el comportamiento límite de una sucesión de variables aleatorias definidas sobre un mismo espacio de probabilidades y no necesariamente inde- pendientes. En esta sección nos ocuparemos de la convergencia de sucesiones de variables aleatorias. © Els autors, 2002; © Edicions UPC, 2002
  • 137.
    2.5. CONVERGENCIA DESUCESIONES DE VARIABLES ALEATORIAS185 2.5.1. Tipos de convergencia Sea (Xn ) una sucesión de variables aleatorias (reales) definidas sobre un mis- mo espacio de probabilidades (Ω, A, P ). Para cada ω ∈ Ω, la sucesión (Xn (ω)) es una sucesión de números reales que puede ser convergente o divergente según sea ω. En otras palabras, la existencia o no del límite de la sucesión l´ Xn ım n→∞ dependerá de los sucesos elementales. Esta dependencia origina tres maneras distintas de definir la convergencia de variables aleatorias: la convergencia casi segura, la convergencia en probabilidad y la convergencia en media cuadrática. Por otra parte, si (Fi ) es la sucesión de funciones de distribución asociada a la sucesión de variables aleatorias (Xi ), estudiaremos también la convergencia de (Fi ) que nos llevará a la convergencia en distribución. Convergencia segura y casi segura El concepto más fuerte de convergencia de sucesiones de variables aleatorias es el de convergencia segura. Una sucesión de variables aleatorias (Xn ) se dice que converge seguro a la variable aleatoria X si para todo ω ∈ Ω la sucesión (Xn (ω)) converge a X(ω), es decir, l´ Xn (ω) = X(ω) ım (2.23) n→∞ para todo ω ∈ Ω. Este tipo de convergencia se da en muy pocos casos y, en general, lo que ocurre es que (2.23) se cumple sólo para un cierto subconjunto C de Ω, es decir, un suceso de A; obsérvese que en el caso de convergencia segura C = Ω. Un criterio de convergencia un poco menos fuerte es el de convergencia casi segura o en probabilidad 1. Una sucesión de variables aleatorias (Xn ) se dice que converge casi seguro a la variable aleatoria X si (2.23) se cumple sólo para un suceso de probabilidad 1, es decir, si n o C = ω ∈ Ω : l´ Xn (ω) = X(ω) ım n→∞ entonces P (C) = 1 Obsérvese que en el caso de convergencia casi segura P (C) = 0, siendo n o C = ω ∈ Ω : l´ Xn (ω) 6= X(ω) 6= ∅ ım n→∞ Evidentemente, si C = Ω, la convergencia es segura. La convergencia casi segura se indica por c.s. Xn −→ X y viene a significar que (Xn ) converge a X en el sentido ordinario del análisis matemático, salvo en conjuntos de probabilidad nula. © Els autors, 2002; © Edicions UPC, 2002
  • 138.
    186 CAPÍTULO 2. VARIABLES ALEATORIAS Observación 33 Teniendo en cuenta que para cada ω ∈ C la condición l´ Xn (ω) = X(ω) ım n→∞ significa que para todo > 0 existe un número natural m tal que para todo n ≥ m se cumple |Xn (ω) − X(ω)| < entonces el conjunto n o C = ω ∈ Ω : l´ Xn (ω) = X(ω) ım n→∞ puede también expresarse en la siguiente forma [ ½ ∞ ∞ ∞ 1 ¾ C= ω ∈ Ω : |Xn (ω) − X(ω)| < m=1 n=m k k=1 y, en consecuencia, también tenemos que [ [ ½ ∞ ∞ ∞ 1 ¾ C= ω ∈ Ω : |Xn (ω) − X(ω)| ≥ m=1 n=m k k=1 Convergencia en probabilidad Una sucesión de variables aleatorias (Xn ) se dice que converge en proba- bilidad a la variable aleatoria X si para todo > 0 se cumple l´ P ({ω ∈ Ω : |Xn (ω) − X(ω)| ≥ }) = 0 ım (2.24) n→∞ o de forma equivalente l´ P ({ω ∈ Ω : |Xn (ω) − X(ω)| < }) = 1 ım n→∞ El concepto de convergencia en probabilidad es esencialmente distinto de la con- vergencia determinista, pues (2.24) sólo afirma que dado > 0, la probabilidad de que Xn difiera de X en más de es menor que una cantidad tan pequeña como se quiera, a partir de un n suficientemente grande. En particular, (Xn ) converge en probabilidad a la constante a si l´ P ({ω ∈ Ω : |Xn (ω) − a| ≥ }) = 0 ım n→∞ Esta convergencia en probabilidad se llama también convergencia estocásti- ca y se dice que (Xn ) converge estocásticamente a X. Abreviadamente lo indicaremos por P Xn −→ X © Els autors, 2002; © Edicions UPC, 2002
  • 139.
    2.5. CONVERGENCIA DESUCESIONES DE VARIABLES ALEATORIAS187 Observación 34 1. La convergencia en probabilidad significa que la difer- encia entre Xn y X es muy probable que sea muy pequeña si n es grande, pero esto no implica que sea pequeña para todo ω de un cierto subconjunto C de Ω aunque n sea muy grande. En consecuencia, la convergencia en probabilidad es un concepto más débil que la convergencia casi segura (ver teorema 37). 2. Indicamos a continuación las principales propiedades de la convergencia en probabilidad: P P a) Si Xn −→ X, entonces Xn − X −→ 0 P P b) Si Xn −→ X y g es una función continua, entonces g(Xn ) −→ g(X) P P c) Si Xn −→ X y Yn −→ Y , y g es una función real continua de P las variables x, y, entonces g(Xn , Yn ) −→ g(X, Y ). En particular, se cumplen P Xn ± Yn −→ X ± Y P Xn · Yn −→ X · Y Xn P X P Yn −→ Y (Yn −→ Y 6= 0) Con todo esto vemos que las sumas, productos y cocientes de suce- siones de variables aleatorias convergen en probabilidad a las corre- spondientes sumas, productos y cocientes de los límites en probabili- dad (si existen) de aquellas variables aleatorias. Convergencia en media cuadrática Una sucesión de variables aleatorias (Xn ) se dice que converge en media cuadrática a la variable aleatoria X si E(Xn ) y E(X 2 ) son finitos y 2 £ ¤ l´ E (Xn − X)2 = 0 ım n→∞ Abreviadamente lo indicaremos por m.c. Xn −→ X En general, se dice que (Xn ) converge en media de orden r (r > 0) a X si E(|Xn |r ) y E(|X|r ) son finitos y l´ E [(Xn − X)r ] = 0 ım n→∞ © Els autors, 2002; © Edicions UPC, 2002
  • 140.
    188 CAPÍTULO 2. VARIABLES ALEATORIAS Convergencia en distribución Una sucesión de variables aleatorias X1 , X2 , ... con funciones de distribución F1 , F2 , ... se dice que converge en distribución o en ley a la variable aleatoria X con función de distribución F si l´ Fn (x) = F (x) ım n→∞ en todos los puntos x donde F es continua. Abreviadamente lo indicaremos por D Xn −→ X 2.5.2. Relación entre los distintos tipos de convergencia En este apartado demostraremos que existe una cierta relación entre los diferentes tipos de convergencia y que podemos resumir en el siguiente diagrama casi segura en media cuadrática & . en probabilidad ↓ en distribución Lema 1 La sucesión de variables aleatorias (Xn ) converge casi seguro a la vari- able aleatoria X si y sólo si µ ½ ¾¶ 1 P l´ sup ω ∈ Ω : |Xn (ω) − X(ω)| ≥ ım =0 k para todo k = 1, 2, 3, .... Demostración: Supongamos que µ ½ ¾¶ 1 P l´ sup ω ∈ Ω : |Xn (ω) − X(ω)| ≥ ım =0 (2.25) k para todo k = 1, 2, 3, .... Consideremos los conjuntos ½ ¾ 1 Ank = ω ∈ Ω : |Xn (ω) − X(ω)| ≥ (k, n = 1, 2, 3, ...) k Por la observación 24 podemos escribir [ [ ½ ∞ ∞ ∞ 1 ¾ [ [ ∞ ∞ ∞ C= ω ∈ Ω : |Xn (ω) − X(ω)| ≥ = Ank m=1 n=m k m=1 n=m k=1 k=1 De la desigualdad de Boole, obtenemos ∞ Ã ∞ ∞ ! X [ P (C) ≤ P Ank k=1 m=1 n=m © Els autors, 2002; © Edicions UPC, 2002
  • 141.
    2.5. CONVERGENCIA DESUCESIONES DE VARIABLES ALEATORIAS189 Ahora bien, por la definición de límite superior de una sucesión de sucesos, tenemos ∞ ∞ [ Ank = l´ sup Ank ım m=1 n=m y, por tanto, ∞ X P (C) ≤ P (l´ sup Ank ) ım k=1 y por (2.25), obtenemos P (C) = 0 o lo que es equivalente, P (C) = 1 Por tanto, la sucesión (Xn ) converge casi seguro a X. Recíprocamente, supongamos que (Xn ) converge casi seguro a X. Observa- mos en primer lugar que ∞ ∞ [ ∞ ∞ ∞ [ [ l´ sup Ank = ım Ank ⊂ Ank = C m=1 n=m k=1 m=1 n=m y, por tanto, P (C) ≥ P (l´ sup Ank ) ım Ahora bien, puesto que (Xn ) converge casi seguro a X, entonces P (C) = 0 y, como consecuencia, obtenemos µ ½ ¾¶ 1 P (l´ sup Ank ) = P l´ sup ω ∈ Ω : |Xn (ω) − X(ω)| ≥ ım ım =0 k para todo k = 1, 2, 3, .... Observación 35 Si (Xn ) es una sucesión de variables mutuamente independi- entes, entonces se puede demostrar que la condición µ ½ ¾¶ 1 P l´ sup ω ∈ Ω : |Xn (ω) − X(ω)| ≥ ım =0 k para todo k = 1, 2, 3, ..., es equivalente a la siguiente condición X µ½ ∞ 1 ¾¶ P ω ∈ Ω : |Xn (ω) − X(ω)| ≥ <∞ n=1 k y, como consecuencia, tenemos el siguiente criterio de convergencia casi segura: si (Xn ) es una sucesión de variables mutuamente independientes, entonces (Xn ) converge casi seguro a X si y sólo si ∞ X P ({ω ∈ Ω : |Xn (ω) − X(ω)| ≥ }) < ∞ n=1 para cualquier > 0 dado. © Els autors, 2002; © Edicions UPC, 2002
  • 142.
    190 CAPÍTULO 2. VARIABLES ALEATORIAS Teorema 45 La convergencia casi segura implica la convergencia en probabili- dad. Demostración: Supongamos que la sucesión de variables aleatorias (Xn ) con- verge casi seguro a la variable aleatoria X. Según el lema 1, entonces se cumple P (l´ sup Ank ) = 0 ım (2.26) para todo k = 1, 2, 3, ..., siendo ½ ¾ 1 Ank = ω ∈ Ω : |Xn (ω) − X(ω)| ≥ k De la definición de límite superior de una sucesión de sucesos, tenemos ∞ ∞ [ l´ sup Ank = ım Ank m=1 n=m pero la sucesión B1k , B2k , ... definida por ∞ [ Bmk = Ank m=n es decreciente y, por tanto, ∞ ∞ ∞ [ l´ Bmk = ım Bmk = Ank = l´ sup Ank ım m→∞ m=1 m=1 n=m De la propiedad de continuidad de la probabilidad, deducimos ³ ´ P (l´ sup Ank ) = P l´ Bmk = l´ P (Bmk ) ım ım ım (2.27) m→∞ m→∞ De la definición de Bmk , vemos que Bmk = Amk ∪ Am+1k ∪ · · · y, por tanto, se cumple Amk ⊂ Bmk luego, P (Amk ) ≤ P (Bmk ) Entonces, de (2.26) y (2.27), deducimos 0 = P (l´ sup Ank ) = l´ P (Bmk ) ≥ l´ P (Amk ) ım ım ım m→∞ m→∞ es decir, l´ P (Amk ) ≤ 0 ım m→∞ pero como las probabilidades no son negativas, obtenemos µ½ ¾¶ 1 l´ P (Amk ) = l´ P ım ım ω ∈ Ω : |Xm (ω) − X(ω)| ≥ =0 m→∞ m→∞ k para todo k = 1, 2, 3, .... Por consiguiente, la sucesión (Xn ) converge en proba- bilidad a X. © Els autors, 2002; © Edicions UPC, 2002
  • 143.
    2.5. CONVERGENCIA DESUCESIONES DE VARIABLES ALEATORIAS191 Observación 36 El recíproco, en general, no es cierto (ver ejemplo 52). Ejemplo 83 Sea (Xn ) una sucesión de variables aleatorias mutuamente inde- pendientes tales que ½ 1 0 con probabilidad 1 − n+1 Xn = 1 1 con probabilidad n+1 Probar que (Xn ) no converge casi seguramente a X = 0 y, en cambio, (Xn ) converge en probabilidad a 0. Solución: Según la observación 26, como que para todo > 0 se cumple ∞ X ∞ X 1 P ({ω ∈ Ω : |Xn (ω)| ≥ }) = n=1 n=1 n+1 es divergente, al tratarse de la serie armónica, (Xn ) no converge casi segura- mente a X = 0. En cambio, para todo > 0 se cumple 1 l´ P ({ω ∈ Ω : |Xn (ω)| ≥ }) = l´ ım ım =0 n→∞ n→∞ n+1 y, por tanto, (Xn ) converge en probabilidad a X = 0. A continuación demostraremos que la convergencia en media cuadrática (si existe) es también un concepto más fuerte que el de convergencia en probabili- dad. Teorema 46 La convergencia en media cuadrática (si existe) implica la con- vergencia en probabilidad. Demostración: Supongamos que la sucesión de variables aleatorias (Xn ) con- verge en media cuadrática a la variable aleatoria X. Entonces, por la desigualdad de Tchebychev aplicada a la variable Xn − X, tenemos ³ ´ E |Xn − X|2 P (|Xn − X| ≥ ) ≤ 2 pero, por hipótesis, se cumple £ ¤ l´ E (Xn − X)2 = 0 ım n→∞ y, por tanto, l´ P (|Xn − X| ≥ ) = 0 ım n→∞ es decir, (Xn ) converge en probabilidad a X. Observación 37 El recíproco, en general, no es cierto (ver ejemplo 53). © Els autors, 2002; © Edicions UPC, 2002
  • 144.
    192 CAPÍTULO 2. VARIABLES ALEATORIAS Ejemplo 84 Sea (Xn ) una sucesión de variables aleatorias mutuamente inde- pendientes tales que ½ 1 0 con probabilidad 1 − n Xn = 1 1 con probabilidad n Probar que: (1) (Xn ) converge en probabilidad a 0; (2) (Xn ) no converge casi seguramente a 0; (3) (Xn ) converge en media cuadrática a 0. Solución: (1) En efecto, es evidente que para todo > 0 se cumple 1 P (|Xn | ≥ ) = P (Xn = 1) = n y, por tanto, 1 l´ P (|Xn | ≥ ) = l´ ım ım =0 n→∞ n→∞ n y, en consecuencia, (Xn ) converge en probabilidad a 0. (2) En efecto, X∞ ∞ X1 P (|Xn | ≥ ) = n=1 n=1 n no es convergente, pues es la serie armónica y, por tanto, (Xn ) no converge casi seguramente a 0. (3) En efecto, µ ¶ ¡ ¢ 1 1 1 E Xn 2 = 02 · 1 − + 12 · = n n n y, por tanto, ¡ ¢ l´ E Xn 2 = 0 ım n→∞ es decir, (Xn ) converge en media cuadrática a 0. Obsérvese que con este ejemplo también hemos demostrado que la conver- gencia en media cuadrática no implica la convergencia casi segura. También se puede ver que la convergencia en media cuadrática no es implicada por la convergencia casi segura. En efecto, la sucesión (Xn ) de variables aleatorias mutuamente independientes definida por ½ 1 0 con probabilidad 1 − n2 Xn = 1 n con probabilidad n2 es convergente casi seguro a X = 0, pues para > 0 dado se cumple ∞ X ∞ X ∞ X 1 P (|Xn | ≥ ) = P (Xn = n) = <∞ n=1 n=1 n=1 n2 y, en cambio, no converge en media cuadrática, pues µ ¶ ¡ ¢ 1 1 E Xn 2 = 02 · 1 − 2 + n2 · 2 = 1 n n © Els autors, 2002; © Edicions UPC, 2002
  • 145.
    2.5. CONVERGENCIA DESUCESIONES DE VARIABLES ALEATORIAS193 y, por tanto, ¡ ¢ l´ E Xn 2 = 1 6= 0 ım n→∞ A continuación demostraremos que la convergencia en distribución es un concepto más débil que el de convergencia en probabilidad. Teorema 47 La convergencia en probabilidad implica la convergencia en dis- tribución. Demostración: Supongamos que la sucesión de variables aleatorias (Xn ) con- verge en probabilidad a la variable aleatoria X. Sean Fn (n = 1, 2, ...) y F las funciones de distribución de Xn (n = 1, 2, ...) y X. Tenemos [Xn ≤ x] = [Xn ≤ x, X ≤ y] ∪ [Xn ≤ x, X > y] ⊂ [X ≤ y] ∪ [Xn ≤ x, X > y] luego, P (Xn ≤ x) = P (X ≤ y) + P (Xn ≤ x, X > y) es decir, Fn (x) = F (y) + P (Xn ≤ x, X > y) (2.28) Si y > x, entonces [Xn ≤ x, X > y] ⊂ [|Xn − X| ≥ y − x] y, por tanto, P (Xn ≤ x, X > y) ≤ P (|Xn − X| ≥ y − x) De aquí y de (2.28), obtenemos Fn (x) = F (y) + P (Xn ≤ x, X > y) ≤ F (y) + P (|Xn − X| ≥ y − x) P pero, por hipótesis, Xn −→ X, entonces l´ P (|Xn − X| ≥ ) = 0 ım n→∞ para todo > 0. Tomando = y − x > 0, obtenemos l´ Fn (x) ≤ F (x + ) ım (2.29) n→∞ Por el mismo razonamiento, pero cambiando X por Xn , tenemos [X ≤ y] = [Xn ≤ x, X ≤ y] ∪ [Xn > x, X ≤ y] ⊂ [Xn ≤ x] ∪ [Xn > x, X ≤ y] luego, P (X ≤ y) = P (Xn ≤ x) + P (Xn > x, X ≤ y) © Els autors, 2002; © Edicions UPC, 2002
  • 146.
    194 CAPÍTULO 2. VARIABLES ALEATORIAS es decir, F (y) = Fn (x) + P (Xn > x, X ≤ y) (2.30) Si y < x, entonces [Xn > x, X ≤ y] ⊂ [|Xn − X| ≥ x − y] y, por tanto, P (Xn > x, X ≤ y) ≤ P (|Xn − X| ≥ x − y) De aquí y de (2.30), obtenemos F (y) = Fn (x) + P (Xn > x, X ≤ y) ≤ Fn (x) + P (|Xn − X| ≥ x − y) P pero, por hipótesis, Xn −→ X, entonces l´ P (|Xn − X| ≥ ) = 0 ım n→∞ para todo > 0. Tomando = x − y > 0, obtenemos F (x − ) ≤ l´ Fn (x) ım (2.31) n→∞ Por consiguiente, de (2.29) y (2.31), obtenemos F (x − ) ≤ l´ Fn (x) ≤ F (x + ) ım n→∞ Ahora bien, si x es un punto de continuidad de F , entonces F (x − ) = F (x + ) = F (x) y, por tanto, deducimos l´ Fn (x) = F (x) ım n→∞ que es lo que queríamos demostrar. Observación 38 El recíproco, en general, no es cierto (ver ejemplo 54). Ejemplo 85 Sea Y una variable aleatoria definida por ½ 1 con P (Y = 1) = 1/2 Y = −1 con P (Y = −1) = 1/2 Definimos la sucesión (Xn ) mediante ½ Y si n es par Xn = −Y si n es impar Probar que (Xn ) converge en distribución a Y y, en cambio, no converge en probabilidad a Y . © Els autors, 2002; © Edicions UPC, 2002
  • 147.
    2.5. CONVERGENCIA DESUCESIONES DE VARIABLES ALEATORIAS195 Solución: Es claro que Xn = ±1 con probabilidad 1/2 en ambos casos. Por tanto, las variables Xn e Y tienen la misma función de distribución y, como consecuencia, l´ Fn (x) = l´ F (x) = F (x) ım ım n→∞ n→∞ es decir, (Xn ) converge en distribución a Y . Ahora bien, es claro que ½ 0 si n es par Xn − Y = −2Y si n es impar y se cumple 1 1 P (|X2n−1 − Y | ≥ 1) = P (2 |Y | ≥ 1) = P (|Y | ≥ 1/2) = + =1 2 2 para todo n = 1, 2, 3, ..., y, por tanto, l´ P (|X2n−1 − Y | ≥ 1) = 1 6= 0 ım n→∞ y, en consecuencia, (Xn ) no converge en probabilidad a Y . No obstante, si una sucesión de variables aleatorias converge en distribución a una constante no aleatoria, entonces el siguiente teorema prueba que la con- vergencia en distribución implica la convergencia en probabilidad a la constante. Teorema 48 Sea (Xn ) una sucesión de variables aleatorias que converge en distribución a una constante c no aleatoria. Entonces, (Xn ) también converge en probabilidad a c. Demostración: Si (Xn ) converge en distribución a c, entonces l´ Fn (x) = F (x) = c ım n→∞ y, por tanto, ½ 0 si x ≤ c F (x) = 1 si x > c De este modo, para > 0 tenemos P (|Xn − c| > ) = P (Xn < c − ) + P (Xn > c + ) = Fn (c − ) + 1 − Fn (c + ) luego, l´ P (|Xn − c| > ) = F (c − ) + 1 − F (c + ) = 0 + 1 − 1 = 0 ım n→∞ y, por tanto, (Xn ) también converge en probabilidad a c. En la mayor parte de las aplicaciones, el criterio de convergencia en dis- tribución no se utiliza en términos de las funciones de distribución Fn , sino a través de las funciones características. Enunciamos sin demostración el teorema de Glivenko que permite hacer esto. © Els autors, 2002; © Edicions UPC, 2002
  • 148.
    196 CAPÍTULO 2. VARIABLES ALEATORIAS Teorema 49 (Teorema de Glivenko) Sea X1 , X2 , ... una sucesión de vari- ables aleatorias con funciones características ϕ1 , ϕ2 , ..., entonces (Xn ) converge en distribución a la variable aleatoria X si y sólo si l´ ϕn (t) = ϕ(t) ım n→∞ para todo t ∈ R, siendo ϕ la función característica de X. Observación 39 El siguiente resultado, debido a Lévy-Cramer, nos permite estudiar la convergencia en probabilidad utilizando las funciones características: sea (Xn ) una sucesión de variables aleatorias con funciones de distribución Fn y característica ϕn , entonces (Xn ) converge a X en probabilidad si y sólo si l´ ϕn (t) = ϕ(t) ım n→∞ y ϕ es continua en t = 0, siendo ϕ la función característica de X. 2.5.3. Las leyes de los grandes números Sea (Xn ) una sucesión de variables aleatorias definidas sobre un mismo es- pacio de probabilidades (Ω, A, P ). Consideremos la sucesión de sumas parciales (Sn ) definida por X n Sn = Xk k=1 El nombre genérico de "leyes de los grandes números"hace referencia a un con- junto de teoremas que tratan sobre el comportamiento asintótico de (Sn ) cuando n tiende a infinito. El problema general consiste en encontrar las condiciones que aseguren la existencia de límites de la forma µ ¶ Sn − an l´ ım n→∞ bn siendo (an ) y (bn ) sucesiones (no aleatorias) de números reales. Ley débil de los grandes números Se dice que una sucesión (Xn ) de variables aleatorias satisface una ley débil de los grandes números si existen sucesiones numéricas (an ) y (bn ) tales que Sn −an P bn −→ 0 Una condición suficiente para que una sucesión satisfaga la ley débil de los grandes números viene dada por el siguiente teorema. Teorema 50 (Ley débil de los grandes números de Tchebychev) Sea (Xn ) una sucesión de variables aleatorias mutuamente independientes que tienen varianzas finitas y acotadas por una misma constante α h i σ 2 = E (Xn − E(Xn ))2 ≤ α n © Els autors, 2002; © Edicions UPC, 2002
  • 149.
    2.5. CONVERGENCIA DESUCESIONES DE VARIABLES ALEATORIAS197 para todo n ∈ N, entonces Sn −E(Sn ) P n −→ 0 Sn −E(Sn ) Demostración: Por la desigualdad de Tchebichev aplicada a n obten- emos ³ ´ ¯ ¯ E |Sn − E(Sn )| 2 ¯ Sn − E(Sn ) ¯ P (¯ ¯ ¯≥ )≤ ¯ n n2 2 para todo > 0. Ahora bien, como las variables aleatorias Xn (n = 1, 2, 3, ...) son mutuamente independientes, se cumple ³ ´ 2 E (Sn − E(Sn )) = V ar(Sn ) à n ! X = V ar Xk k=1 n X = V ar(Xk ) k=1 ≤ nα Por tanto, ³ ´ ¯ ¯ E |Sn − E(Sn )| 2 ¯ Sn − E(Sn ) ¯ α P (¯ ¯ ¯≥ )≤ ¯ ≤ 2 n n2 2 n y, en consecuencia, ¯ ¯ ¯ Sn − E(Sn ) ¯ l´ P (¯ ım ¯ ¯≥ )=0 ¯ n→∞ n para todo > 0. Corolario 3 (Ley clásica de los grandes números de Bernoulli) Sea (Xn ) una sucesión de variables aleatorias mutuamente independientes que tienen la misma esperanza E(Xn ) = µ (n = 1, 2, 3, ...) y varianzas finitas y acotadas por una misma constante σ2 ≤ α n para todo n ∈ N. Entonces X1 +X2 +···+Xn P n −→ µ Demostración: Es claro que à n ! n X X E(Sn ) = E Xk = E(Xk ) = nµ k=1 k=1 © Els autors, 2002; © Edicions UPC, 2002
  • 150.
    198 CAPÍTULO 2. VARIABLES ALEATORIAS Entonces, por el teorema 42, la sucesión Sn − nµ X1 + X2 + · · · + Xn = −µ n n converge en probabilidad a 0. Por tanto, X1 + X2 + · · · + Xn n converge en probabilidad a µ. Observación 40 1. El significado empírico de esta ley es el siguiente: dadas n observaciones independientes x1 , x2 , ..., xn de una variable aleatoria X, la media de esta muestra n 1X x= xk n k=1 se aproxima al valor medio de X a medida que crece n. 2. De la ley clásica de los grandes números se deduce la llamada primera ley empírica del azar: dado un suceso de probabilidad p, en una serie de pruebas de un experimento aleatorio, la frecuencia relativa se aproxima a p. En efecto, sea Nn el número de veces que sale un determinado resultado A en n pruebas independientes de un experimento aleatorio. La frecuencia relativa de A en las n pruebas es Nn fn (A) = n Ahora bien, podemos escribir Nn en la forma Nn = X1 + X2 + · · · + Xn donde las Xk son variables aleatorias independientes que sólo pueden tomar los valores 1 o 0 según ocurra o no ocurra A. Si además suponemos que la probabilidad de que ocurra A es la misma en todas las pruebas, tenemos ½ 1 con P (Xk = 1) = p Xk = 0 con P (Xk = 0) = 1 − p siendo p = P (A). Por tanto, en este caso tenemos µ = E(Xk ) = 1 · p + 0 · (1 − p) = p y entonces, aplicando la ley clásica de los grandes números, obtenemos P fn (A) −→ p = P (A) A continuación enunciamos el teorema de Khintchine sin hacer la demostración. © Els autors, 2002; © Edicions UPC, 2002
  • 151.
    2.5. CONVERGENCIA DESUCESIONES DE VARIABLES ALEATORIAS199 Teorema 51 (Ley débil de los grandes números de Khintchine) Si (Xn ) es una sucesión de variables aleatorias mutuamente independientes, idéntica- mente distribuidas y con esperanza finita. Entonces X1 +X2 +···+Xn P n −→ µ siendo µ = E(Xn ). Observación 41 Son consecuencias de la ley débil de los grandes números de Khintchine, en el caso de que los momentos correspondientes existan 1. n 1X k P k X −→ E(Xn ) n i=1 i 2. n 1X P (Xi − E(Xi ))2 −→ V ar(Xn ) n i=1 En general, cualquier parámetro que sea función de los momentos (coefi- ciente de correlación, covarianza, asimetría, curtosis) puede aproximarse por el correspondiente parámetro muestral si el número de observaciones n es grande. Ley fuerte de los grandes números Se dice que una sucesión (Xn ) de variables aleatorias satisface una ley fuerte de los grandes números si existen sucesiones numéricas (an ) y (bn ) tales que Sn −an c.s. bn −→ 0 Únicamente enunciaremos sin demostración los teoremas de Borel y de Kol- mogorov que dan condiciones suficientes para que una sucesión (Xn ) satisfaga la ley fuerte de los grandes números. Teorema 52 (Ley fuerte de los grandes números de Borel) Sea (Xn ) una sucesión de variables aleatorias mutuamente independientes que tienen la misma esperanza E(Xn ) = µ (n = 1, 2, 3, ...) y momentos centrales finitos y acotados hasta el orden cuatro E (|Xn − µ|r ) ≤ αr (0 < r ≤ 4) para todo n ∈ N. Entonces X1 +X2 +···+Xn c.s. n −→ µ © Els autors, 2002; © Edicions UPC, 2002
  • 152.
    200 CAPÍTULO 2. VARIABLES ALEATORIAS Observación 42 En la observación 30 hemos visto la ley clásica de los grandes números según la cual dado un suceso de probabilidad p, en una serie de pruebas de un experimento aleatorio, la frecuencia relativa se aproxima a p. Ahora, según la ley fuerte de los grandes números de Borel, la frecuencia relativa de un suceso de probabilidad p converge casi seguro a p. Por tanto, la convergencia es más fuerte que la que se desprende de la ley más débil. Teorema 53 (Ley fuerte de los grandes números de Kolgomorov) Sea (Xn ) una sucesión de variables aleatorias mutuamente independientes con vari- anzas σ2 finitas, y sea (bn ) una sucesión divergente de números reales positivos n tales que ∞ X σ2 n <∞ n=1 b2n entonces la sucesión (Xn ) sigue la ley fuerte de los grandes números Sn −E(Sn ) c.s. bn −→ 0 En particular, si ∞ X σ2 n <∞ n=1 n2 entonces Sn −E(Sn ) c.s. n −→ 0 Teorema 54 (Teorema de Kolgomorov) La condición necesaria y suficiente para que una sucesión (Xn ) de variables aleatorias independientes e idéntica- mente distribuidas cumpla la siguiente ley fuerte X1 +X2 +···+Xn c.s. n −→ µ siendo µ = E(Xn ) (n = 1, 2, 3, ...), es que E(|Xn |) < ∞ Observación 43 Si las variables aleatorias Xn son idénticamente distribuidas, es decir, todas tienen la misma función de distribución, entonces desaparece la restricción de que las varianzas sean finitas. Ejemplo 86 Sea (Xn ) una sucesión de variables aleatorias absolutamente con- tinuas, independientes e idénticamente distribuidas. Comprobar si la sucesión satisface la ley fuerte de los grandes números en los casos siguientes: (1) la función de densidad de Xn es fn (x) = e−|x| (n = 1, 2, 3, ...) para todo x ∈ R, y (2) la función de densidad de Xn es e fn (x) = x2 ln x © Els autors, 2002; © Edicions UPC, 2002
  • 153.
    2.5. CONVERGENCIA DESUCESIONES DE VARIABLES ALEATORIAS201 para todo x ∈ (e, +∞) y se anula en cualquier otro caso. Solución: Según el teorema de Kolgomorov, en ambos casos hemos de com- probar que Z +∞ E(|Xn |) = |x| · fn (x) dx < ∞ −∞ para que la sucesión satisfaga la ley fuerte de los grandes números. (1) En este caso tenemos Z +∞ Z +∞ −|x| E(|Xn |) = |x| · e dx = 2 xe−x dx = 2 −∞ 0 y, por tanto, la sucesión satisface la ley fuerte de los grandes números. Además, como Z +∞ µ = E(Xn ) = x · e−|x| dx = 0 −∞ entonces X1 + X2 + · · · + Xn c.s. −→ 0 n (2) En este caso tenemos Z +∞ e E(|Xn |) = |x| · dx e x2 ln x Z +∞ 1 = e dx = ∞ e x ln x y, por tanto, la sucesión no satisface la ley fuerte de los grandes números. 2.5.4. Aplicaciones al análisis matemático. El método Monte Carlo Aplicaciones al análisis matemático Teorema 55 Sea (Xn ) una sucesión de variables aleatorias, independientes e idénticamente distribuidas, con esperanza µ = E(Xn ) que satisface una ley de los grandes números X1 +X2 +···+Xn n −→ µ y sea f cualquier función continua y acotada en R, entonces · µ ¶¸ X1 + X2 + · · · + Xn E f −→ f (µ) n Demostración: Sea Sn = X1 + X2 + · · · + Xn , entonces por ser f una función continua y acotada, tenemos µ ¶ µ ¶ Sn Sn l´ f ım = f l´ ım n→∞ n n→∞ n © Els autors, 2002; © Edicions UPC, 2002
  • 154.
    202 CAPÍTULO 2. VARIABLES ALEATORIAS pero, por hipótesis, Sn −→ µ n luego, µ ¶ Sn f −→ f (µ) n y, por tanto, · µ ¶¸ Sn E f −→ f (µ) n Mediante este teorema de naturaleza totalmente probabilística puede demostrarse algunos resultados clásicos del análisis matemático. A continuación, a modo de ejemplo, damos uno de estos resultados. Ejemplo 87 (Teorema de aproximación de Weierstrass) Cualquier fun- ción continua y acotada f en el intervalo [0, 1] puede aproximarse uniforme- mente en dicho intervalo por una sucesión de funciones polinómicas. Solución: Consideremos una sucesión de variables aleatorias (Xn ), inde- pendientes y con distribución de Bernoulli, es decir, tales que ½ 1 con probabilidad p Xn = 0 con probabilidad 1 − p para todo n ∈ N. Por tanto, µ = E(Xn ) = p (n = 1, 2, 3, ...) En este caso, la función de distribución de n X Sn = Xi i=1 es del tipo binomial de parámetros n y p, es decir, µ ¶ n k P (Sn = k) = p (1 − p)n−k (k = 0, 1, 2, ..., n) k Por tanto, obtenemos · µ ¶¸ X µ ¶ µ ¶ n X1 + X2 + · · · + Xn k n k E f = f · p (1 − p)n−k n n k k=0 pero si f es continua y acotada en [0, 1], por el teorema 47, deducimos · µ ¶¸ X1 + X2 + · · · + Xn l´ E f ım = f (µ) = f (p) n→∞ n © Els autors, 2002; © Edicions UPC, 2002
  • 155.
    2.5. CONVERGENCIA DESUCESIONES DE VARIABLES ALEATORIAS203 Si hacemos p = x y tenemos en cuenta que 0 ≤ p ≤ 1, entonces " n µ ¶ µ ¶ # X k n k l´ ım f · x (1 − x)n−k = f (x) n→∞ n k k=0 para todo x ∈ [0, 1]. Observemos que las funciones X µ k ¶ µn¶ n Pn (x) = f · xk (1 − x)n−k n k k=0 son polinomios de grado n. Por lo tanto, obtenemos l´ Pn (x) = f (x) ım n→∞ en el intervalo [0, 1]. Ahora se puede demostrar que la convergencia es uniforme. Otra aplicación de las leyes de los grandes números consiste en una técnica de gran utilidad en el cálculo numérico de integrales definidas en el intervalo [0, 1]. Esta técnica es conocida como el método Monte Carlo. El método Monte Carlo Sea f : [0, 1] → [0, 1] una función continua. Consideremos dos sucesiones de variables aleatorias (Xn ) y (Yn ) absolutamente continuas e independientes, distribuidas uniformemente sobre el intervalo [0, 1], es decir, con función de densidad ½ ½ 1 si x ∈ [0, 1] 1 si y ∈ [0, 1] fXn (x) = y fYn (y) = 0 si x ∈ [0, 1] / 0 si y ∈ [0, 1] / Definimos otra sucesión (Zn ) mediante ½ 1 si f (Xn ) > Yn Zn = (n = 1, 2, 3, ...) 0 si f (Xn ) < Yn Es claro que E(Zn ) = 1 · P (Zn = 1) + 0 · P (Zn = 0) = P (Zn = 1) = P (f (Xn ) > Yn ) pero, al ser Xn e Yn independientes y distribuidas uniformente sobre [0, 1], la función de densidad conjunta es ½ 1 si x, y ∈ [0, 1] fXn Yn (x, y) = fXn (x) · fYn (y) = 0 si x, y ∈ [0, 1] / © Els autors, 2002; © Edicions UPC, 2002
  • 156.
    204 CAPÍTULO 2. VARIABLES ALEATORIAS Por tanto, Z 1 Z f (x) Z 1 P (f (Xn ) > Yn ) = 1 dx dy = f (x) dx 0 0 0 Entonces, por la ley fuerte de los grandes números, obtenemos n Z 1X c.s. 1 Zk −→ µ = E(Zn ) = f (x) dx n 0 k=1 es decir, Ã ! Z n 1 1X f (x) dx = l´ ım Zk 0 n→∞ n k=1 2.5.5. El teorema del límite central Las leyes de los grandes números son resultados sobre convergencia en prob- abilidad y convergencia casi segura de sucesiones del tipo Sn − an (2.32) bn hacia cero, con n X Sn = Xk k=1 La pregunta que se plantea de forma inmediata es en qué condiciones (2.32) coverge en distribución hacia una variable aleatoria. La respuesta a esta cuestión se conoce genéricamente como el teorema del límite central. Como veremos en este apartado el teorema de límite central no es más que un conjunto de teoremas que responden al problema planteado. En general, aquí diremos que una sucesión de variables aleatorias (Xn ) in- dependientes satisface el teorema central del límite si existen dos sucesiones de números reales (no aleatorios) tales que la variable aleatoria suma Sn cumple Sn − an D −→ Z bn siendo Z una variable aleatoria con distribución normal estándar, es decir, la de parámetros µ = 0 y σ = 1; desde ahora escribiremos Z ∼ N (0, 1) para indicar que Z tiene una distribución normal estándar. Teorema 56 (Teorema de Lévy-Lindeberg) Sea (Xn ) una sucesión de vari- ables aleatorias independientes e idénticamente distribuidas, con esperanza µ y varianza σ 2 finita. Entonces Sn − nµ D √ −→ Z ∼ N (0, 1) σ n © Els autors, 2002; © Edicions UPC, 2002
  • 157.
    2.5. CONVERGENCIA DESUCESIONES DE VARIABLES ALEATORIAS205 Demostración: Sea Yn = Xn − µ (n = 1, 2, 3, ...). Es claro que las Yn son variables aleatorias independientes con E(Yn ) = 0 y E(Yn ) = σ 2 2 (n = 1, 2, 3, ...) Consideremos ahora las variables aleatorias n 1 X Sn − nµ Zn = √ Yi = √ σ n i=1 σ n Primero vamos a demostrar que la función característica de Zn tiende a la función característica de la distribución normal estándar 2 ϕ(t) = e−t /2 En efecto, si ϕn es la función característica de Zn , entonces por definición tenemos ϕn (t) = E(eitZn ) " à n !# it X = E exp √ Yi σ n i=1 Ahora bien, de la independencia de las variables Yn , obtenemos Y · n µ itYi ¶¸ ϕn (t) = E exp √ i=1 σ n Yn µ ¶ t = ϕYi √ i=1 σ n Ahora bien, las variables Yn están idénticamente distribuidas y, por tanto, todas ellas tienen la misma función característica ϕ. Así, tenemos · µ ¶¸n t ϕn (t) = ϕ √ (2.33) σ n Desarrollando ahora ϕ en serie de Taylor en t = 0, obtenemos µ ¶ µ ¶ t t t2 1 ϕ √ = ϕ(0) + √ ϕ0 (0) + 2 ϕ00 (0) + O σ n σ n 2σ n n3/2 en donde el símbolo µ ¶ 1 O n3/2 indica que el resto de los términos de la serie son infinitésimos de orden igual o superior a 1/n3/2 cuando n tiende a infinito. De las propiedades de la función característica (ver los teoremas 29 y 31), obtenemos ϕ(0) = 1, ϕ0 (0) = iE(Yn ) = 0, ϕ00 (0) = i2 E(Yn ) = −σ2 2 © Els autors, 2002; © Edicions UPC, 2002
  • 158.
    206 CAPÍTULO 2. VARIABLES ALEATORIAS Así, tenemos µ ¶ µ ¶ t t2 1 ϕ √ =1− +O σ n 2n n3/2 Por tanto, de (2.33), tenemos · µ ¶¸n t l´ ϕn (t) = l´ ım ım ϕ √ n→∞ n→∞ σ n · µ ¶¸n t2 1 ım 1 − = l´ +O n→∞ 2n n3/2 · 2 ¸n t = l´ ım 1 − n→∞ 2n 2 = e−t /2 es decir, la función característica de Sn − nµ Zn = √ σ n tiende a la función característica de la distribución normal estándar y, en conse- cuencia, por el teorema de Glivenko (ver teorema 41), obtenemos que la función de distribución de Zn también tenderá a la función de distribución normal es- tándar. Observación 44 En la práctica, podemos hacer la aproximación √ Sn = X1 + X2 + · · · + Xn ≈ N (nµ, σ n) es decir, la distribución de la variable suma √n se puede aproximar por una S normal de parámetros µ = nE(Xn ) y σ = σ Xn n, siempre que las variables Xn sean independientes, idénticamente distribuidas y n sea suficientemente grande. Ejemplo 88 Sea (Xn ) una sucesión de variables aleatorias de Poisson de parámetro λ = 2 e independientes. Definimos las variables aleatorias n X Yn = Xn (n = 1, 2, 3, ...) k=1 Calcular P (90 < Y50 < 110). © Els autors, 2002; © Edicions UPC, 2002
  • 159.
    2.5. CONVERGENCIA DESUCESIONES DE VARIABLES ALEATORIAS207 Solución: Observamos primero que µ = E(Xn ) ∞ X = n · P (Xn = n) n=0 X∞ 2n = n · e−2 n=0 n! ∞ X 2n = e−2 n=1 (n − 1)! ∞ X 2n−1 = 2e−2 n=1 (n − 1)! = 2e−2 · e2 = 2 y como ∞ X 2 E(Xn ) = n2 · P (Xn = n) n=0 X∞ 2n = n2 · e−2 n=0 n! ∞ X n2n = e−2 n=1 (n − 1)! ∞ X n2n−1 = 2e−2 n=1 (n − 1)! ∞ µ X (n − 1)2n−1 ¶ 2n−1 = 2e−2 + n=1 (n − 1)! (n − 1)! ∞ X 2n−2 ∞ X 2n−1 = 22 e−2 + 2e−2 n=2 (n − 2)! n=1 (n − 1)! = 4e−2 · e2 + 2e−2 · e2 = 6 tenemos 2 2 V ar(Xn ) = E(Xn ) − (E(Xn )) = 6 − 4 = 2 Aplicando el teorema de Lévy-Lindeberg, obtenemos Yn − 2n D √ −→ Z ∼ N (0, 1) 2n y, por tanto, la variable aleatoria Y50 − 100 Z= ∼ N (0, 1) 10 © Els autors, 2002; © Edicions UPC, 2002
  • 160.
    208 CAPÍTULO 2. VARIABLES ALEATORIAS se distribuye aproximadamente como una normal estándar. Como consecuencia, obtenemos µ ¶ 90 − 100 Y50 − 100 110 − 100 P (90 < Y50 < 110) = P < < 10 10 10 = P (−1 < Z < 1) = 0,8413 − 0,1587 = 0,6826 Corolario 4 (Teorema de De Moivre-Laplace) Sea (Xn ) una sucesión de variables aleatorias independientes e identicamente distribuidas, con distribu- ción de Bernouilli de parámetro p. Entonces Sn − np D √ −→ Z ∼ N (0, 1) (q = 1 − p) npq Demostración: Tenemos ½ 1 con probabilidad p Xn = (n = 1, 2, 3, ...) 0 con probabilidad 1 − p Entonces, p p p √ µ = E(Xn ) = p y σ= V ar(Xn ) = p − p2 = p(1 − p) = pq siendo q = 1 − p. Por el teorema de Lévy-Lindeberg, Sn − np D √ −→ Z ∼ N (0, 1) npq Observación 45 Si las Xn son independientes e idénticamente distribuidas, con distribución de Bernouilli de parámetro p, entonces n X Sn = Xk k=1 se distribuye como una binomial de parámetros n y p, el teorema de De Moivre- Laplace también establece que √ Sn = X1 + X2 + · · · + Xn ≈ N (np, npq) es decir, podemos aproximar la distribución binomial de parámetros n y p por √ una normal de parámetros µ = np y σ = npq, siempre que n sea suficiente- mente grande. © Els autors, 2002; © Edicions UPC, 2002
  • 161.
    2.5. CONVERGENCIA DESUCESIONES DE VARIABLES ALEATORIAS209 Ejemplo 89 Se lanza 1000 veces una moneda perfecta. Si sale cara en la prueba k-ésima hacemos Xk = 1 y si sale cruz, Xk = 0. Calcular à 1000 ! X P 500 < Xk < 550 k=1 Solución: Al tratarse de variables aleatorias de Bernoulli de parámetro p = 1/2 e independientes, podemos aplicar el teorema de De Moivre-Laplace Sn − np D √ −→ Z ∼ N (0, 1) (q = 1 − p) npq siendo n X Sn = Xk k=1 y, por tanto, la variable aleatoria S1000 − 500 Z= √ ∼ N (0, 1) 250 se distribuye aproximadamente como una normal estándar. Como consecuencia, obtenemos à 1000 ! X P 500 < Xk < 550 = P (500 < S1000 < 550) k=1 µ ¶ 500 − 500 550 − 500 = P √ <Z< √ 250 250 = P (0 < Z < 3,16) = 0,4992 El teorema 48 es una versión del teorema del límite central. Otra versión, menos restrictiva, viene dada por el teorema de Liapunov. En concreto, este teo- rema no exige que las variables aleatorias de la sucesión dada sean idénticamente distribuidas. Enunciaremos este teorema sin hacer la demostración. Teorema 57 (Teorema de Liapunov) Sea (Xn ) una sucesión de variables £ ¤ aleatorias independientes con esperanzas µ = E(Xn ) y varianzas σ2 = E (Xn − µn )2 n finitas para todo n = 1, 2, 3, .... Si se cumple 1 X h i n 3 l´ ım E |Xk − µk | = 0 n→∞ σ 3 Sn k=1 siendo n X Sn = Xk k=1 © Els autors, 2002; © Edicions UPC, 2002
  • 162.
    210 CAPÍTULO 2. VARIABLES ALEATORIAS y n X σ2 n = S σ2 k k=1 entonces Sn − E(Sn ) D p −→ Z ∼ N (0, 1) V ar(Sn ) Observación 46 Este resultado es fundamental para la gran mayoría de apli- caciones prácticas. Por ejemplo, gracias a este resultado podemos suponer que muchas variables aleatorias como pesos, alturas, etc. siguen una distribución normal, porque cada una de ellas es suma de un gran número de variables aleato- rias independientes. Así la altura de una persona es suma de muchos factores: hereditario, alimentación, tipo de vida, etc. Los errores, llamados aleatorios, que se presentan en observaciones astronómicas, pesadas de una balanza, etc. y, en general, en la mayoría de las medidas con algún aparato, son la suma de un número elevado de errores elementales independientes: corrientes de aire, vibra- ciones, error de apreciación, etc. Por tal motivo los errores aleatorios siguen también una distribución normal. Rapidez en la convergencia. Teorema de Poisson Consideremos una sucesión de variables aleatorias (Xn ) que satisface el teo- rema del límite central, es decir, se dan las condiciones suficientes para que Sn − E(Sn ) D p −→ Z ∼ N (0, 1) V ar(Sn ) Una cuestión que se plantea de forma natural es la de saber con qué rapidez la función de distribución Fn de la variable aleatoria Sn − E(Sn ) p V ar(Sn ) tiende a la función de distribución normal estándar Z x 1 2 Φ(x) = √ e−t /2 dt 2π −∞ La respuesta a esta pregunta tiene implicaciones muy importantes en la práctica, pues, si la convergencia es rápida, entonces podremos aproximar Fn por Φ para valores de n relativamente pequeños, mientras que si la convergencia es lenta, la aproximación de Fn por Φ sólo se podrá hacer para valores grandes o muy grandes de n. En muchos casos la situación es de este modo como se pone de manifiesto en el siguiente teorema que damos sin demostración. Teorema 58 (Teorema de Berry-Essen) Sea (Xn ) una sucesión de vari- ables aleatorias independientes con esperanzas µ = E(Xn ) y varianzas σ 2 = n © Els autors, 2002; © Edicions UPC, 2002
  • 163.
    2.5. CONVERGENCIA DESUCESIONES DE VARIABLES ALEATORIAS211 £ ¤ E (Xn − µn )2 finitas para todo n = 1, 2, 3, ..., que satisface el teorema del límite central. Sea Fn la función de distribución de la variable aleatoria Sn − E(Sn ) p V ar(Sn ) y sea Φ la función de distribución normal estándar Z x 1 2 Φ(x) = √ e−t /2 dt 2π −∞ Entonces, se cumple cγ n |Fn (x) − Φ(x)| ≤ (2.34) σ3 n S para todo x ∈ R y n ∈ N, siendo c es una constante tal que 1 c≥ √ 2π n X σ2 n = S σ2 k k=1 y n X h i γn = E |Xk − µk |3 k=1 Observación 47 Si las variables aleatorias Xn están idénticamente distribuidas, entonces σ 2 n = nσ 2 y γ n = nγ S y, como consecuencia, la condición (2.34) se escribe ahora como sigue cγ |Fn (x) − Φ(x)| ≤ √ σ3 n √ De aquí, al ser muy lenta la convergencia de 1/ n a cero, vemos que, en general, Fn converge lentamente a Φ. Además, si σ es pequeña, la convergencia es aún más lenta. Por ejemplo, para variables aleatorias de Bernoulli con ½ 1 con probabilidad p Xn = (n = 1, 2, 3, ...) 0 con probabilidad 1 − p tenemos µ=p σ 2 = pq γ = pq(p2 + q 2 ) siendo q = 1 − p. En este caso (2.34) se expresa como sigue c(p2 + q 2 ) |Fn (x) − Φ(x)| ≤ √ npq © Els autors, 2002; © Edicions UPC, 2002
  • 164.
    212 CAPÍTULO 2. VARIABLES ALEATORIAS Por tanto, la aproximación de Fn por Φ es bastante pobre para valores de p próximos a 0 o 1, incluso si n es grande. Sin embargo, el problema de la conver- gencia a la distribución normal estándar para sumas de variables de Bernoulli queda resuelto por el teorema de Poisson, cuando p está próximo a 0 o 1. El siguiente teorema probará que la distribución de Poisson puede obetenerse como límite de una distribución binomial. Teorema 59 (Teorema de Poisson) Supongamos que para cada n ≥ 1 ten- emos una sucesión de variables aleatorias de Bernoulli Xn1 , Xn2 , ..., Xnn con ½ 1 con probabilidad pn Xnk = (k = 1, 2, ...n) 0 con probabilidad 1 − pn Dicho de otro modo, tenemos una sucesión bidimensional de variable aleatorias de Bernoulli X11 X21 , X22 X31 , X32 , X33 ··· Xn1 , Xn2 , Xn3 , ..., Xnn ··· Sea n X Sn = Xnk k=1 Si l´ pn = 0 ım n→∞ de manera que l´ npn = λ > 0 ım n→∞ entonces e−λ λk l´ P (Sn = k) = ım (k = 0, 1, 2, ...) n→∞ k! es decir, la distribución de la variable suma Sn tiende a una distribución de Poisson. Demostración: Al ser las variables aleatorias Xnk independientes, la función característica ϕn de Sn se escribe como sigue n Y ¡ ¢ ϕn (t) = E eitXnk k=1 Ahora bien, es claro que ¡ ¢ E eitXnk = e0 P (Xnk = 0) + eit P (Xnk = 1) = 1 − pn + eit pn = 1 + pn (eit − 1) © Els autors, 2002; © Edicions UPC, 2002
  • 165.
    2.5. CONVERGENCIA DESUCESIONES DE VARIABLES ALEATORIAS213 para k = 1, 2, ..., n. Por tanto, obtenemos £ ¤n ϕn (t) = 1 + pn (eit − 1) (2.35) Si l´ pn = 0 ım n→∞ de manera que l´ npn = λ > 0 ım n→∞ entonces podemos escribir µ ¶ λ 1 pn = + O n n2 luego, de (2.35), obtenemos · µ ¶¸n λ 1 ϕn (t) = 1 + (eit − 1) + O n n2 y, en consecuencia, £ ¤ l´ ϕn (t) = exp λ(eit − 1) ım n→∞ que es la función característica de la distribución de Poisson de parámetro λ. De este modo, por el teorema de Glivenko (ver teorema 41), deducimos e−λ λk l´ P (Sn = k) = ım (k = 0, 1, 2, ...) n→∞ k! que es lo que queríamos demostrar. Observación 48 Para sumas n X Sn = Xk k=1 de variables aleatorias de Bernoulli, independientes y con P (Xn = 1) = p (n = 1, 2, 3, ...), es decir, para una distribución binomial de parámetros n y p, son posibles dos distribuciones límite. Por un lado, según el teorema de De Moivre- Laplace, tenemos la distribución normal estándar Sn − np D √ −→ Z ∼ N (0, 1) (q = 1 − p) npq aproximación que funciona bien cuando p no está próximo a 0 o 1 y n es sufi- cientemente grande. Por otro lado, según este teorema, tenemos la distribución de Poisson e−λ λk l´ P (Sn = k) = ım (k = 0, 1, 2, ...) n→∞ k! aproximación que funciona bien cuando p está próximo a 0 o 1 aunque sea n grande. No obstante, si λ es suficientemente grande, la distribución de Poisson puede aproximarse a la distribución normal estándar (ver teorema 52). © Els autors, 2002; © Edicions UPC, 2002
  • 166.
    214 CAPÍTULO 2. VARIABLES ALEATORIAS Teorema 60 Sea X una variable aleatoria de Poisson con parámetro λ y con- sideremos la siguiente variable aleatoria X −λ Yλ = √ λ Entonces, cuando λ tiende a infinito, la distribución de Yλ tiende a la distribu- ción normal estándar. Demostración: Por las propiedades de la función característica, obtenemos la función característica de Yλ µ ¶ ¡ itY ¢ √ −it λ t ϕλ (t) = E e λ =e ϕX √ λ donde ϕX es la función característica de X, es decir, £ ¤ ϕX (t) = exp λ(eit − 1) Por tanto, √ µ ¶ h √ √ i −it λ t ϕλ (t) = e ϕX √ = exp −it λ + λ(eit/ λ − 1) λ √ √ Si λ tiende a infinito, podemos desarrollar eit/ λ en serie de potencias de 1/ λ µ ¶ √ it t2 1 eit/ λ =1+ √ − +O λ 2λ λ3/2 y, por tanto, obtenemos h √ √ i · 2 µ ¶¸ t 1 ϕλ (t) = exp −it λ + λ(eit/ λ − 1) = exp − + O 2 λ1/2 y, en consecuencia, tenemos 2 l´ ϕλ (t) = e−t ım /2 n→∞ que es la función característica de la distribución normal estándar. De este modo, por el teorema de Glivenko (ver teorema 41), deducimos que cuando λ tiende a infinito, la distribución de Yλ tiende a la distribución normal estándar. Corrección de continuidad En las aplicaciones prácticas, para aproximar una distribución discreta, como lo son la binomial y la de Poisson, a una distribución normal estándar que es absolutamente continua, hay que utilizar la corrección de continuidad. Como consecuencia del teorema de De Moivre-Laplace, para n grande, la distribución binomial de parámetros n y p puede considerarse aproximadamente © Els autors, 2002; © Edicions UPC, 2002
  • 167.
    2.5. CONVERGENCIA DESUCESIONES DE VARIABLES ALEATORIAS215 p una distribución normal de parámetros µ = np y σ = np(1 − p). Así, si X es un variable aleatoria binomial de parámetros n y p, cuya función de distribución es X µn¶ [x] F (x) = pk (1 − p)n−k k k=0 Entonces, la fórmula de la aproximación con corrección de continuidad de la binomial a la normal estándar es X µn¶ b P (a ≤ X ≤ b) = pk (1 − p)n−k = P (a − 0,5 ≤ X ≤ b + 0,5) k k=a Z b0 1 2 ' √ e−t /2 dt = Φ(b0 ) − Φ(a0 ) 2π a0 para cualquier pareja de enteros no negativos a y b (b > a), siendo a − np − 0,5 b − np + 0,5 a0 = p y b0 = p np(1 − p) np(1 − p) En general, la aproximación es suficiente si n ≥ 30 y 0,1 < p < 0,9. Si 0,1 ≥ p ≥ 0,9 o n < 30, la aproximación es aceptable si np > 5. Si p ' 0,5, la proximación sigue siendo válida si np > 3, incluso para valores muy moderados de n. Si n ≥ 30, 0,1 ≥ p ≥ 0,9 y np ≤ 5, la binomial puede aproximarse a una distribución de Poisson de parámetro λ = np por el teorema de Poisson. Finalmente, si n < 30 y np ≤ 5, la binomial debe calcularse directamente como una binomial, utilizando las tablas. En el teorema 52 hemos demostrado que la distribución de Poisson √ puede aproximarse por la distribución normal de parámetros µ = λ y σ = λ, si el parámetro λ es suficientemente grande. En la práctica, la aproximación se considera aceptable si λ > 5, mejorando a medida que aumenta λ. La fórmula de la aproximación con corrección de continuidad es b X λk P (a ≤ X ≤ b) = e−λ = P (a − 0,5 ≤ X ≤ b + 0,5) k! k=a Z b0 1 2 ' √ e−t /2 dt = Φ(b0 ) − Φ(a0 ) 2π a0 para cualquier pareja de enteros no negativos a y b (b > a), siendo a − λ − 0,5 b − λ + 0,5 a0 = √ y b0 = √ λ λ Ejemplo 90 Se sabe que el 1 % de los artículos importados de un determinado país tiene algún defecto. Si tomamos una muestra de 30 artículos, determinar la probabilidad de que tres o más de ellos tengan algún defecto. © Els autors, 2002; © Edicions UPC, 2002
  • 168.
    216 CAPÍTULO 2. VARIABLES ALEATORIAS Solución: Es claro que el número X de artículos con algún defecto de la muestra sigue una distribución binomial de parámetros n = 30 y p = 0,01. Luego, la probabilidad que nos piden es P (X ≥ 3). Para calcularla, podemos hacer una aproximación a la distribución de Poisson, pues p ≤ 0,1, n ≥ 30 y np ≤ 5. En este caso, el parámetro de la distribución de Poisson es λ = np = 0,3. Por tanto, P (X ≥ 3) = 1 − P (X < 3) = 1 − P (X ≤ 2) ' 1 − 0,9964 = 0,0036 en donde hemos utilizado las tablas de la distribución de Poisson. Ejemplo 91 Calcular las siguientes probabilidades, directamente y por aprox- imación a la distribución normal estándar: (1) P (3 ≤ X ≤ 6), siendo X una variable aleatoria binomial de parámetros n = 20 y p = 0,26, y (2) P (2 ≤ X ≤ 10), donde X es una variablea aleatoria de Poisson de parámetro λ = 6. Solución: (1) Utilizando las tablas de la distribución binomial, obtenemos directamente X µ20¶ 6 P (3 ≤ X ≤ 6) = · 0,26k · 0,7420−k = 0,67697 k k=3 p √ Puesto que µ = np = 20 · 0,26 = 5,2 y σ = np(1 − p) = 20 · 0,26 · 0,74 = 1,96, por aproximación a la distribución normal estándar, tenemos P (3 ≤ X ≤ 6) = P (3 − 0,5 ≤ X ≤ 6 + 0,5) = P (2,5 ≤ X ≤ 6,5) µ ¶ 2,5 − 5,2 X − 5,2 6,5 − 5,2 ' P ≤ ≤ 1,96 1,96 1,96 = P (−1,378 ≤ Z ≤ 0,663) = 0,66225 donde Z ∼ N (0, 1). Observamos que la aproximación es aceptable. (2) Utilizando las tablas de la distribución de Poisson, obtenemos directa- mente X10 6k P (2 ≤ X ≤ 10) = e−6 = 0,94003 k! k=2 √ Puesto que µ = λ = 6 y σ = 6, por aproximación a la normal estándar, tenemos P (2 ≤ X ≤ 10) = P (2 − 0,5 ≤ X ≤ 10 + 0,5) = P (1,5 ≤ X ≤ 10,5) µ ¶ 1,5 − 6 X −6 10,5 − 6 ' P √ ≤ √ ≤ √ 6 6 6 = P (−1,837 ≤ Z ≤ 1,837) = 0,93375 donde Z ∼ N (0, 1). Observamos que la aproximación también es aceptable. © Els autors, 2002; © Edicions UPC, 2002