Anzurez Galicia Pedro
Método introducido por primera vez por
Bernoulli.

Posteriormente es revisado y analizado por el
gran matemático Euler.

 Finalmente R. A. Fisher, estadista , en 1920
dio la interpretación que conocemos hoy en
día.
Método de estimación que consiste en
encontrar aquellos valores de los parámetros
del modelo
(β1, β2,… βk, σ ²) que maximizan la función de
verosimilitud; Es decir la probabilidad conjunta
de las observaciones de la variable endógena.
 Densidad de la probabilidad de la muestra
observada, expresada en función de los
posibles valores de la población de α, β y σ².
 Método de estimación puntual.
 Se formula bajo el supuesto de que (ui) tiene
  una distribución normal.
 Consistentemente     asintótico, significa que
  mientras que el tamaño de muestra aumenta, las
  estimaciones convergen a los valores correctos
 Los Estimadores de los coeficientes de regresión
  de los modelos de MV y MCO las β son idénticas,
  para regresiones simples y múltiples.
 Se utiliza cuando se considera fija la muestra.
Máxima Verosimilitud     Muestras Grandes
Estimación
 Puntual

             Mínimos Cuadrados       Muestras Pequeñas
              Ordinarios             Muestras Grandes
es una ecuación que explica el comportamiento de
  una variable, por lo tanto la variable se puede
  reproducir o pronostica.
Cuando se utilizan datos históricos en un modelo
  para hacer una proyección se le llama
  “Estimación Puntual”

Y
                          la ecuación es Y=X
                        Y=variable dependiente
                        X= variable independiente

         45°
                    X
 Desde   un rango de posibilidad

                         intervalo
                         observaciones
 Los  métodos de Mínimos Cuadrados
 Ordinarios y Máxima Verosimilitud son
 aplicables para muestras grandes y divergen
 en muestras pequeñas
          N           ∞
 Ambos métodos contienen supuestos con los
 que el modelo funciona.

 La Máxima Verosimilitud funciona con la
 estadística  Bayesiana    y  que utiliza
 propiedades de conjuntos.
 Se basa en la estadística Bayesiana ya que
  utiliza propiedades de conjuntos y de
  probabilidad.
 La probabilidad se define como un
  cociente entre el numero de eventos
  posibles.

 Para   explicar:
 Se tienen 2 maquinas distintas para producir un
  producto.
 En donde la maquina A produce el 60% de la
  producción total y la maquina B produce el
  restante 40%
 Se determina la productividad de la maquina
  según sus especificaciones
                                          Producción
                    Maq. A                     PE[0,1] La probabilidad esta o pertenece
                                                          al intervalo cerrado de 0,1
producción 0

                             Maq.B



               T0                    T1
Entonces tenemos:
         P( D A)       producto bueno                       P( D B)   producto bueno
Maq. A                                              Maq.B
         P DA             producto malo                     P DB      producto malo



                P A       0.60
                      Maq. A

                       Maq.B                                          n eventos
            PB        0.40
                                                               P
                                                                      n event. posibles


                                 P( D A) 0.98


          P A      0.60
                                   P( D A) 0.02
                   Maq. A


                                     P( D B) 0.96
                        Maq.B
             PB        0.40


                                   P( D B) 0.04
A                  B       conjunto muestral
                               se denota A     B

                                  X X Ay X         B
        Intersección



   A                       B     se denota A       B

                                  X X Aó X         B


A B = P(A)P(B)
Probabilidad condicionada de        ( B A)
A      B    P ( A) P ( B A)
P( A       D)   P ( A) P ( D A)
(0.60)(0.98)       0.588
P( A       D)   P ( A) P ( D A)
(0.60)(0.02)       0.012
P( B       D)   P( B) P( D B)
(0.40)(0.98)       0.384
P( B       D)   ) P( B) P( D B)
(0.40)(0.04)       0.016




                                  0.384
                                             0.012
                     0.588
                                     0.016
0                                            1
P ( A D)                   P ( A D)
P( A D)
          P ( A D) P ( B   D)   P( A) P( D A) P( B) P( D   B)

 Aplicación     de Bayes
              0.012               0.012
                                               0.4285
          0.012 0.016             0.028

 Arroja
       una probabilidad de que el articulo
 malo salga de la maquina A
 Este tipo de estimación puntual consiste en
  seleccionar el valor del parámetro para el
  cual la probabilidad de que ocurra el
  resultado experimental sea máxima; es decir
  dados los resultados experimentales del
  resultado ¿que valor del parámetro tiene la
  máxima probabilidad de ser el verdadero?
 Verosimilitud: que tanto se apega a la
  realidad
 Máxima verosimilitud: el mayor apego a la
  realidad
 Función de máxima verosimilitud: probabilidad
  de obtener la muestra observada dado un valor
  del parámetro poblacional.
 Método objetivo para encontrar buenos
  estimadores puntuales
       X=X     X =µ
      muestra   población   muestra   población


   el estimador de Máxima verosimilitud de un
    parámetro de θ nos dará el valor θ que
    hace máxima la probabilidad de obtener un
    resultado concreto de una muestra
    (x1,x2,…,xn)

para esto necesitamos la función de
  verosimilitud
 Elestimador de MV para σ ² es Ʃ ei 2 / N. Es
 sesgado.

 Elestimador de MCO para σ² es Ʃ ei 2 / (N –
 2) Es insesgado.

 Al comparar ambos estimadores de σ ²,
 incrementando el tamaño de la muestra,
 tienden a ser iguales; Asintóticamente el
 estimador de MV también es insesgado.
En muchos casos, el estimador obtenido por
máxima verosimilitud posee un conjunto de
propiedades asintóticas como son:
 M1. Consistencia: Plim ƟML = Ɵ
 M2. Normalidad asintótica: ƟML N[Ɵ, {I(Ɵ)} ]
  siendo I(Ɵ)=-E[∂² ln L/ ∂Ɵ ∂ Ɵ’]
 M3.    Eficiencia Asintótica: ƟML          es
  asintóticamente eficiente y alcanza la cota
  de      Cramer-Rao       para     estimadores
  consistentes, dada en M2
 M4 Invarianza: El estimador de máxima
  verosimilitud de y= c(Ɵ) es c (ƟML)
Sea X una variable aleatoria con función de
probabilidad    f(X l Ɵ), donde Ɵ es un
parámetro desconocido.
Sean X1… Xn los valores observados en una
muestra aleatoria de tamaño n. La función de
verosimilitud de la muestra es:
                   L(Ɵ) =π=f(Xi lƟ) (Ɵ)

Debemos considerar que la función de
densidad conjunta de la muestra aleatoria
además que la función de verosimilitud es una
función del parámetro desconocido Ɵ
Sea X1....Xn una muestra aleatoria de una
distribución    normal. La    función  de
verosimilitud es:
                1      − 𝑋1 −𝑢 2
      𝐿 𝜃 =           𝑒 2𝜎 2
              2𝜋𝜎 2
                       𝑛       𝑛
               1       2       𝑇 −1𝑋 𝑖 −𝑢 2
            =              𝑒      2𝜎 2
              2𝜋𝜎 2

explica la densidad de una variable con
distribución normal, con media y varianza
dadas
Así:
                                𝑛
              𝑛
       𝐿 𝜃 = − 𝐿𝑜𝑔 2𝜋𝜎 2 − 1         𝑋1 − 𝑢   2
              2
                               𝑇−1

Para encontrar los valores críticos de u y σ²
debemos tomar las derivadas parciales de
l(Ɵ)con respecto a u y σ², igualarlas a cero y
resolver las dos ecuaciones resultantes. Si se
omiten los detalles, los estimadores máximos
verosímiles resultantes son:
𝑛

      𝑢=         𝑋1   2

           𝑇−1




       𝑛                   2
2      𝑇−1        𝑋1 − 𝑋
𝜎 =
                   𝑛
 De Ɵ es el valor de Ɵ que maximiza la
 función de verosimilitud L(Ɵ)
 En ocasiones es mas simple maximizar la
 función log-verosimilitud por ejemplo

       l(Ɵ) = log (L(Ɵ)) =∑=log f(Xi l Ɵ)
 Elmétodo de máxima verosimilitud puede
 emplearse en situaciones donde existen
 varios parámetros desconocidos, Ɵ1, Ɵ2……
 ƟK, que es necesario estimar. En tales casos,
 la función de verosimilitud es una función de
 los parámetros desconocidos y Ɵ1, Ɵ2…… ƟK y
 los estimadores de máxima verosimilitud Ɵ1,
 Ɵ2……ƟK se obtienen al igualar a cero las k
 derivadas parciales, dadas por:

       𝜕𝐿 𝜃1 , 𝜃2 , … , 𝜃 𝑘
                            ,   𝑖 = 1,2, … , 𝑘
               𝜕𝜃 𝑖
DE IGUAL FORMA SE DEMOSTRARA QUE LA VARIANZA PARA LA
MV NO ES IGUAL QUE PARA LOS MCO, PERO DE IGUAL FORMA
TIENDE A SER INSESGADO A MEDIDA QUE CRECE EL NUMERO
DE DATOS, ASÍ COMO SU CONSISTENCIA PARA EL MISMO

*como saben la demostración se realizo en el pizarrón, pero se las adjunto en un archivo en Word
El estimador de máxima verosimilitud se usa
dentro de un gran número de modelos estadísticos:
 Modelos    lineales Como modelos lineales
  generalizados

   Análisis factorial,   tanto   exploratorio   como
    confirmatorio

   Análisis de ecuaciones estructurales

   muchas otras situaciones en el contexto de
    los tests estadísticos
Desgraciadamente, el tamaño necesario de la
muestra para alcanzar las características de este
método puede ser bastante grande, por ejemplo,
cincuenta hasta cientos de muestras de tiempos
exactos de falla, dependiendo de la aplicación.
Con pocas muestras, los métodos pueden ser
polarizados o tendenciosos. Polarizaciones que
pueden causar discrepancias importantes en el
análisis.
Pese a que este método produzca estimaciones
más eficientes por todas sus propiedades
asintóticas, puede fallar en        cuanto a la
recuperación de los factores más débiles.

Maxíma verosimilitud

  • 1.
  • 2.
    Método introducido porprimera vez por Bernoulli. Posteriormente es revisado y analizado por el gran matemático Euler. Finalmente R. A. Fisher, estadista , en 1920 dio la interpretación que conocemos hoy en día.
  • 3.
    Método de estimaciónque consiste en encontrar aquellos valores de los parámetros del modelo (β1, β2,… βk, σ ²) que maximizan la función de verosimilitud; Es decir la probabilidad conjunta de las observaciones de la variable endógena. Densidad de la probabilidad de la muestra observada, expresada en función de los posibles valores de la población de α, β y σ².
  • 4.
     Método deestimación puntual.  Se formula bajo el supuesto de que (ui) tiene una distribución normal.  Consistentemente asintótico, significa que mientras que el tamaño de muestra aumenta, las estimaciones convergen a los valores correctos  Los Estimadores de los coeficientes de regresión de los modelos de MV y MCO las β son idénticas, para regresiones simples y múltiples.  Se utiliza cuando se considera fija la muestra.
  • 5.
    Máxima Verosimilitud Muestras Grandes Estimación Puntual Mínimos Cuadrados Muestras Pequeñas Ordinarios Muestras Grandes
  • 6.
    es una ecuaciónque explica el comportamiento de una variable, por lo tanto la variable se puede reproducir o pronostica. Cuando se utilizan datos históricos en un modelo para hacer una proyección se le llama “Estimación Puntual” Y la ecuación es Y=X Y=variable dependiente X= variable independiente 45° X
  • 7.
     Desde un rango de posibilidad intervalo observaciones
  • 8.
     Los métodos de Mínimos Cuadrados Ordinarios y Máxima Verosimilitud son aplicables para muestras grandes y divergen en muestras pequeñas N ∞  Ambos métodos contienen supuestos con los que el modelo funciona.  La Máxima Verosimilitud funciona con la estadística Bayesiana y que utiliza propiedades de conjuntos.
  • 9.
     Se basaen la estadística Bayesiana ya que utiliza propiedades de conjuntos y de probabilidad.  La probabilidad se define como un cociente entre el numero de eventos posibles.  Para explicar:
  • 10.
     Se tienen2 maquinas distintas para producir un producto.  En donde la maquina A produce el 60% de la producción total y la maquina B produce el restante 40%  Se determina la productividad de la maquina según sus especificaciones Producción Maq. A PE[0,1] La probabilidad esta o pertenece al intervalo cerrado de 0,1 producción 0 Maq.B T0 T1
  • 11.
    Entonces tenemos: P( D A) producto bueno P( D B) producto bueno Maq. A Maq.B P DA producto malo P DB producto malo P A 0.60 Maq. A Maq.B n eventos PB 0.40 P n event. posibles P( D A) 0.98 P A 0.60 P( D A) 0.02 Maq. A P( D B) 0.96 Maq.B PB 0.40 P( D B) 0.04
  • 12.
    A B conjunto muestral se denota A B X X Ay X B Intersección A B se denota A B X X Aó X B A B = P(A)P(B) Probabilidad condicionada de ( B A)
  • 13.
    A B P ( A) P ( B A) P( A D) P ( A) P ( D A) (0.60)(0.98) 0.588 P( A D) P ( A) P ( D A) (0.60)(0.02) 0.012 P( B D) P( B) P( D B) (0.40)(0.98) 0.384 P( B D) ) P( B) P( D B) (0.40)(0.04) 0.016 0.384 0.012 0.588 0.016 0 1
  • 14.
    P ( AD) P ( A D) P( A D) P ( A D) P ( B D) P( A) P( D A) P( B) P( D B)  Aplicación de Bayes 0.012 0.012 0.4285 0.012 0.016 0.028  Arroja una probabilidad de que el articulo malo salga de la maquina A
  • 15.
     Este tipode estimación puntual consiste en seleccionar el valor del parámetro para el cual la probabilidad de que ocurra el resultado experimental sea máxima; es decir dados los resultados experimentales del resultado ¿que valor del parámetro tiene la máxima probabilidad de ser el verdadero?  Verosimilitud: que tanto se apega a la realidad  Máxima verosimilitud: el mayor apego a la realidad
  • 16.
     Función demáxima verosimilitud: probabilidad de obtener la muestra observada dado un valor del parámetro poblacional.  Método objetivo para encontrar buenos estimadores puntuales X=X X =µ muestra población muestra población  el estimador de Máxima verosimilitud de un parámetro de θ nos dará el valor θ que hace máxima la probabilidad de obtener un resultado concreto de una muestra (x1,x2,…,xn) para esto necesitamos la función de verosimilitud
  • 17.
     Elestimador deMV para σ ² es Ʃ ei 2 / N. Es sesgado.  Elestimador de MCO para σ² es Ʃ ei 2 / (N – 2) Es insesgado.  Al comparar ambos estimadores de σ ², incrementando el tamaño de la muestra, tienden a ser iguales; Asintóticamente el estimador de MV también es insesgado.
  • 18.
    En muchos casos,el estimador obtenido por máxima verosimilitud posee un conjunto de propiedades asintóticas como son:  M1. Consistencia: Plim ƟML = Ɵ  M2. Normalidad asintótica: ƟML N[Ɵ, {I(Ɵ)} ] siendo I(Ɵ)=-E[∂² ln L/ ∂Ɵ ∂ Ɵ’]  M3. Eficiencia Asintótica: ƟML es asintóticamente eficiente y alcanza la cota de Cramer-Rao para estimadores consistentes, dada en M2  M4 Invarianza: El estimador de máxima verosimilitud de y= c(Ɵ) es c (ƟML)
  • 19.
    Sea X unavariable aleatoria con función de probabilidad f(X l Ɵ), donde Ɵ es un parámetro desconocido. Sean X1… Xn los valores observados en una muestra aleatoria de tamaño n. La función de verosimilitud de la muestra es: L(Ɵ) =π=f(Xi lƟ) (Ɵ) Debemos considerar que la función de densidad conjunta de la muestra aleatoria además que la función de verosimilitud es una función del parámetro desconocido Ɵ
  • 20.
    Sea X1....Xn unamuestra aleatoria de una distribución normal. La función de verosimilitud es: 1 − 𝑋1 −𝑢 2 𝐿 𝜃 = 𝑒 2𝜎 2 2𝜋𝜎 2 𝑛 𝑛 1 2 𝑇 −1𝑋 𝑖 −𝑢 2 = 𝑒 2𝜎 2 2𝜋𝜎 2 explica la densidad de una variable con distribución normal, con media y varianza dadas
  • 21.
    Así: 𝑛 𝑛 𝐿 𝜃 = − 𝐿𝑜𝑔 2𝜋𝜎 2 − 1 𝑋1 − 𝑢 2 2 𝑇−1 Para encontrar los valores críticos de u y σ² debemos tomar las derivadas parciales de l(Ɵ)con respecto a u y σ², igualarlas a cero y resolver las dos ecuaciones resultantes. Si se omiten los detalles, los estimadores máximos verosímiles resultantes son:
  • 22.
    𝑛 𝑢= 𝑋1 2 𝑇−1 𝑛 2 2 𝑇−1 𝑋1 − 𝑋 𝜎 = 𝑛
  • 23.
     De Ɵes el valor de Ɵ que maximiza la función de verosimilitud L(Ɵ)  En ocasiones es mas simple maximizar la función log-verosimilitud por ejemplo l(Ɵ) = log (L(Ɵ)) =∑=log f(Xi l Ɵ)
  • 24.
     Elmétodo demáxima verosimilitud puede emplearse en situaciones donde existen varios parámetros desconocidos, Ɵ1, Ɵ2…… ƟK, que es necesario estimar. En tales casos, la función de verosimilitud es una función de los parámetros desconocidos y Ɵ1, Ɵ2…… ƟK y los estimadores de máxima verosimilitud Ɵ1, Ɵ2……ƟK se obtienen al igualar a cero las k derivadas parciales, dadas por: 𝜕𝐿 𝜃1 , 𝜃2 , … , 𝜃 𝑘 , 𝑖 = 1,2, … , 𝑘 𝜕𝜃 𝑖
  • 25.
    DE IGUAL FORMASE DEMOSTRARA QUE LA VARIANZA PARA LA MV NO ES IGUAL QUE PARA LOS MCO, PERO DE IGUAL FORMA TIENDE A SER INSESGADO A MEDIDA QUE CRECE EL NUMERO DE DATOS, ASÍ COMO SU CONSISTENCIA PARA EL MISMO *como saben la demostración se realizo en el pizarrón, pero se las adjunto en un archivo en Word
  • 26.
    El estimador demáxima verosimilitud se usa dentro de un gran número de modelos estadísticos:  Modelos lineales Como modelos lineales generalizados  Análisis factorial, tanto exploratorio como confirmatorio  Análisis de ecuaciones estructurales  muchas otras situaciones en el contexto de los tests estadísticos
  • 27.
    Desgraciadamente, el tamañonecesario de la muestra para alcanzar las características de este método puede ser bastante grande, por ejemplo, cincuenta hasta cientos de muestras de tiempos exactos de falla, dependiendo de la aplicación. Con pocas muestras, los métodos pueden ser polarizados o tendenciosos. Polarizaciones que pueden causar discrepancias importantes en el análisis. Pese a que este método produzca estimaciones más eficientes por todas sus propiedades asintóticas, puede fallar en cuanto a la recuperación de los factores más débiles.