SlideShare una empresa de Scribd logo
1 de 14
“INSTITUTO TECNOLÒGICO SUPERIOR DE LA SIERRA
              NEGRA DE AJALPAN”




                 CARRERA:
          ING. ADMÒN DE EMPRESAS




                 TRABAJO:
           RESUMEN DE LA UNIDAD II


               CATEDRATICO:
      ING. JOSÉ GUADALUPE RODRIGUEZ R.




                  ALUMNO:
            FELIX CASTRO GARCIA




             FECHA DE ENTREGA:
                            17 DE FEBRERO DEL 2012
INDICE:



UNIDAD 2:
Pruebas de la bondad del ajuste y análisis de Varianza

2.1 Análisis Ji-Cuadrada
2.1.1 Prueba de independencia
2.1.2 Prueba de la bondad del ajuste
2.1.3 Tablas de contingencia
2.2 Análisis de varianza
2.2.1 Inferencia sobre una varianza de población (Anova).
2.2.2 Inferencia sobre la varianza de dos poblaciones (Anova).
“ANÁLISIS JI-CUADRADA”
En realidad la distribución ji-cuadrada es la distribución maestral de s2. O sea que si
se extraen todas las muestras posibles de una población normal y a cada muestra
se le calcula su varianza, se obtendrá la distribución maestral de varianzas.La
fórmula que se utilizará para calcular el valor de chi-cuadrada es :




 Una moneda fue lanzada al aire 1000 series, de 5 veces cada serie y se observó el
número de caras de cada serie. El número de series en los que se presentaron 0, 1,
1, 3, 4 y 5 caras se muestra en la siguiente tabla.

                                         Número de series
                    Número de caras
                                         (frecuencia observada)

                    0                    38

                    1                    144

                    2                    342

                    3                    287

                    4                    164

                    5                    25

                           Total         1000


   1.   Ajustar una distribución binomial a los datos con un     = 0.05.
   2.   Solución:
   3.   H0; Los datos se ajustan a una distribución binomial.
   4.   H1; Los datos no se ajustan a una distribución binomial.
   5.   Para obtener los valores esperados se tiene que utilizar la formula de la

      distribución binomial:              , donde n en este ejercicio vale 5, p y q
      son las probabilidades respectivas de cara y sello en un solo lanzamiento de
      la moneda. Para calcular el valor de p, se sabe que =np en una distribución
      binomial, por lo que = 5p.
   6. Para la distribución de frecuencias observada, la media del número de caras
      es:


   7.
8. Por lo tanto                      . Así pues, la distribución binomial ajustada

   viene dada por p(x) =                            .
9. Al seguir esta fórmula se calcula la probabilidad de obtener caras, según el
   valor de la variable aleatoria. La probabilidad multiplicada por 1000 nos dará
   el valor esperado. Se resumen los resultados en la tabla siguiente:

      Número      de                    Frecuencia         Frecuencia
                       P(x caras)
      caras (x)                         esperada           observada

      0                0.0332           33.2               38

      1                0.1619           161.9              144

      2                0.3162           316.2              342

      3                0.3087           308.7              287

      4                0.1507           150.7              164

      5                0.0294           29.4               25

10. Para los grados de libertad el valor de m será uno, ya que se tuvo que estimar
    la media de la población para poder obtener el valor de p y así poder calcular
    los valores esperados.
11. Grados de libertad: k-1-m = 6-1-1 = 4




12.
13. Regla de decisión:
14. Si X2R 9.49 no se rechaza Ho.
15. Si X2R >9.49 se rechaza Ho.
16. Cálculos:




17.
    Justificación y decisión:
18. Como el 7.54 no es mayor a 9.49, no se rechaza H 0 y se concluye con un
       = 0.05 que el ajuste de los datos a una distribución binomial es bueno.
PRUEBA DE INDEPENDENCIA
Cuando cada individuo de la población a estudio se puede clasificar según dos
criterios A y B, admitiendo el primero a posibilidades diferentes y b el segundo, la
representación de las frecuencias observadas en forma de una matriz a x b recibe el
nombre de Tabla de contingencia. Los datos se disponen de la forma
siendo el número de individuos que presentan simultáneamente la i-ésima
modalidad del carácter A y la j-ésima del B.
La hipótesis nula a contrastar admite que ambos caracteres, A y B, se presentan de
forma independiente en los individuos de la población de la cual se extrae la
muestra; siendo la alternativa la dependencia estocástica entre ambos caracteres.
La realización de esta prueba requiere el cálculo del estadístico donde:y son las
frecuencias absolutas marginales y el tamaño muestral total.
El estadístico L se distribuye como una con (a - 1)(b - 1) grados de libertad. El
contraste se realiza con un nivel de significación del 5%.
Ejemplo de Aplicación
Para estudiar la dependencia entre la práctica de algún deporte y la depresión, se
seleccionó una muestra aleatoria simple de 100 jóvenes, con los siguientes
resultados:
          Sin depresión Con depresión total
Deportista
            38        9         47
No deportista
            31        22        53
            69        31        100

L = (38 – 32,43)2/32,43 + (31 – 36,57)2/36,57 + (9 – 14,57)2/14,57 + (22 –
16,43)2/16,43
= 0,9567 + 0,8484 + 2,1293 + 1,8883 = 5,8227
El valor que alcanza el estadístico L es 5,8227. Buscando en la tabla teórica de Chi
Cuadrado para 1 grado de libertad se aprecia Lt = 3,84146 < 5,8227 lo que permite
rechazar la hipótesis de independencia de caracteres con un nivel de significación
del 5%, admitiendo por tanto que la práctica deportiva disminuye el riesgo de
depresión.
PRUEBA DE LA BONDAD DEL AJUSTE
Pruebas de tablas de contingencias
En muchas ocasiones, los n elementos de una muestra de población pueden clasificarse de
acuerdo con dos criterios diferentes. Por ello interesa conocer si los dos métodos de
clasificación son estadísticamente independientes; por ejemplo, podemos considerar la
población de ingenieros graduado y tal vez deseemos determinar si el salario inicial es
independiente de las disciplinas académicas.
Supóngase que el primer método de clasificación tiene r niveles y que el segundo método de
clasificación tiene c niveles. Sea oij la frecuencia observada para el nivel i del primer método
de clasificación y el nivel j del segundo método de clasificación. Los datos aparecerían, en
general, como en la tabla. Una tabla de tales características se llama comúnmente tabla de
contingencia r X c.
Estamos interesados en probar la hipótesis de que los métodos de clasificación de renglón y
de columna son independientes. Si rechazamos esta hipótesis, concluimos que hay cierta
interacción entre los dos criterios de clasificación. Los procedimientos de prueba exactos son
difíciles de obtener, pero una estadística de prueba aproximada es valida para n grande.
Supóngase las oij como variables aleatorias multinomiales y pij como la probabilidad de que
un elemento elegido al azar cae en la celda ijesima, dado que las dos clasificaciones son
independientes. Entonces pij = uivj , donde ui es la probabilidad de que un elemento elegido
al azar caiga en el renglón de clase i y vj es la probabilidad de que un elemento seleccionado
en forma aleatoria caiga en la columna de clase j. Luego, suponiendo independencia, los
estimadores de máxima probabilidad de ui y vj son:


                                       ûi =           Oij

                                      ûj =           Oij
Una tabla de contingencia r X c
                                          Columnas
                                           1                  2                 ...                 c


                          1               O11                O12                ...                O1c
                          2               O21                O22                ...                O2c
    Renglones            ...                 ...              ...               ...                ...
                          r                  Or1             Or2                ...                Orc

En consecuencia, el número esperado de cada celda es


                             Eij = nûivj =         Oij       Oij
Entonces, para n grande, la estadística
2

                     X20 =                         - X2 (r – 1) (c – 1)
Aproximadamente, y rechazaríamos la hipótesis de independencia si
X20 > X2a, (r – 1) (c – 1).

Prueba de bondad de ajuste de ji-cuadrada
El procedimiento de prueba requiere una muestra aleatoria de tamaño n de la variable
aleatoria X, cuya función de densidad de probabilidad se desconoce. Estas n observaciones se
arreglan en un histograma de frecuencias, teniendo k intervalos de clase. Sea 01 la frecuencia
observada en el intervalo de la clase iesimo. De la distribución de probabilidad hipotética,
calculamos la frecuencia esperada en el intervalo de clase iesimo, denotada E1. La estadística
de prueba es:


                                     X20 =
Puede demostrar que X²0 sigue aproximadamente la distribución ji cuadrada con k-p-1 grados
de libertad, donde p representa el numero de parámetros de la distribución hipotética estimada
por el medio de estadística de muestra. Esta aproximación se mejora cuando n aumenta.
Rechazaríamos la hipótesis de que X se ajusta ala distribución hipotética si X²0>X²α k-p-1
Un punto que debe advertirse en la aplicación de este procedimiento de prueba se refiere ala
magnitud de las frecuencias esperadas. Si estas frecuencias esperadas son demasiado
pequeñas, entonces X²0 no reflejan la desviación de las observaciones respecto alas esperadas,
si no solo las mas pequeñas de las frecuencias esperadas. No hay un acuerdo general en
relación con el valor mínimo de las frecuencias esperadas, aunque los valores de 3,4 y 5 se
utilizan ampliamente como mínimos. Si la frecuencia esperada es demasiado pequeña, puede
combinarse con la frecuencia esperada en un intervalo de clase adyacente. Las frecuencias
observadas correspondientes se combinaran también en ese caso, y k se reducirá en 1. No se
requiere que los intervalos de clase sean de igual ancho.
Ejemplo
Una distribución completamente especificada Un científico de computadoras ha desarrollado
un algoritmo para generar enteros pseudoaleatorios sobre el intervalo 0-9. Codifica el
algoritmo y genera 1000 dígitos pseudoaleatorios. Los datos se muestran en la tabla 11-3.
¿Existe evidencia de que el generador de números aleatorios esta trabajando correctamente?
Si esta trabajando de manera correcta, entonces los valores 0-9 deben seguir la distribución
uniforme discreta, la cual implica que cada uno de los enteros debe ocurrir exactamente 100
veces. Esto es, las frecuencias esperadas E =100 para I=0,1,….,9 Puesto que estas frecuencias
estimadas pueden estimarse sin que sea necesario estimular ningún parámetro a partir de los
datos de muestra, la prueba resultante de bondad de ajuste de la ji cuadrada tendrá k-p-1=10-
0-1=9 grados de libertad.
Total
0123456789n
Frecuencia
Observada O 94 93 112 101 104 95 100 99 108 94 1000
Frecuencias
Esperada E 100 100 100 100 100 100 100 100 100 100 1000
El valor esperado de la estadística de prueba es
2222


X20 =                =
Puesto que X =16.92 no somos capaces de rechazar la hipótesis de que los datos proviene de
una distribución uniforme discreta. En consecuencia, el generador de números aleatorios
parece estar trabajando en forma satisfactoria.
TABLAS DE CONTINGENCIA

Un método útil para clasificar los datos obtenidos en un recuento es mediante las
tablas de contingencia.
Se trata de tablas en cuyas celdas figuran probabilidades, y en la cual podemos
determinar unas probabilidades conociendo otras de la tabla.

Ejemplo
Se sortea un viaje a Roma entre los 120 mejores clientes de una agencia de
automóviles. De ellos, 65 son mujeres, 80 están casados y 45 son mujeres casadas.
Se pide:
1¿Cuál será la probabilidad de que le toque el viaje a un hombre soltero?
2Si del afortunado se sabe que es casado, ¿cuál será la probabilidad de que sea
una mujer?
ANÁLISIS DE VARIANZA
es un método para comparar dos o más medias, que es necesario porque cuando se
quiere comparar más de dos medias es incorrecto utilizar repetidamente el contraste
basado en la t de Student. por dos motivos:
En primer lugar, y como se realizarían simultánea e independientemente varios
contrastes de hipótesis, la probabilidad de encontrar alguno significativo por azar
aumentaría. En cada contraste se rechaza la H0 si la t supera el nivel crítico, para lo
que, en la hipótesis nula, hay una probabilidad . Por otro lado, en cada comparación
la hipótesis nula es que las dos muestras provienen de la misma población, por lo
tanto, cuando se hayan realizado todas las comparaciones, la hipótesis nula es que
todas las muestras provienen de la misma población y, sin embargo, para cada
comparación, la estimación de la varianza necesaria para el contraste es distinta,
pues se ha hecho en base a muestras distintas.
El método que resuelve ambos problemas es el anova, aunque es algo más que
esto: es un método que permite comparar varias medias en diversas situaciones;
muy ligado, por tanto, al diseño de experimentos y, de alguna manera, es la base del
análisis multivariante.


Ejemplo:

Se ha recogido la valoración de un líder político en dos ciudades distintas A y
B, dividida cada una en tres barrios según su nivel adquisitivo (Alto, Medio y
Bajo), obteniéndose los siguientes resultados:

                                 Nivel
             Nivel alto                      Nivel bajo
                                 medio
                                 6, 7, 8, 5,
              6, 5, 6, 7, 4, 8,9
                                 4, 5, 10, 3, 2, 3, 3, 4, 5, 4, 1,
Ciudad A      4, 4, 6, 8 8,8,3,
                                 6, 7,7, 4, 0, 4, 6, 2, 5, 4, 4
             10
                                 7, 6, 8
                                 4, 4, 5, 1,
             6, 6, 5, 6, 4, 5,
                                 4, 3, 3, 3, 5 4, 6, 3, 2, 3, 2, 3,
Ciudad B     2, 4, 2, 8, 6, 5,
                                 6, 4, 2, 2, 1, 6 4, 2, 2, 3, 1
             4, 4, 3
                                 6, 3, 1

Suponiendo que se cumplen los supuestos del ANOVA para dos factores,
¿podemos afirmar si la población presenta diferencias significativas en la
apreciación del político según la ciudad o según su nivel adquisitivo?

Este sería un ejemplo de Análisis de Varianza con dos factores (ciudad y nivel).
Toda la teoría y consideraciones hechas para el caso de un factor siguen sirviendo
en éste, pero con más sumas de cuadrados y más contrastes F. Sería largo y
complejo explicarlo todo aquí, por lo que se remite al resumen teórico y a los
manuales correspondientes.

Para resolver la cuestión planteada deberás, con paciencia, ir escribiendo los datos
en la hoja anova.ods, en su segunda hoja, correspondiente a dos factores. El esto lo
hará la hoja de cálculo y te presentará estos resultados:
Fuente variación           SC           G.L.        CM        F

Factor A                   83,83        2           41,92     14,55

Factor B                   59,13        1           59,13     20,53

Interacción AB             30,12        2           15,06     5,23

Error                      239,03       83          2,88

TOTAL                      412,11       88

P-valor de FA      0,182



P-valor de FB      0,045           Significativa al 5%



P-valor de FAB 0,007               Significativa al 5%
Observa que ahora se pueden considerar cinco sumas de cuadrados:

Factor A: SCA=83,83. Representa la variabilidad propia del factor Nivel adquisitivo.
Sus grados de libertad son 2, que equivalen al número de niveles menos 1, y su
cuadrado medio 41,92

Factor B:SCB=59,13. Es la suma correspondiente al factor Ciudad. Como sólo hay
dos ciudades, sus grados de libertad equivalen a 1, y su cuadrado medio 59,13, muy
alto respecto al estimador 2,88.

Interacción: SCAB=30,12 Este factor no se considera si existen motivos para creer
que no existe influencia mutua entre el factor Ciudad y el factor Nivel adquisitivo.
Aquí lo consideraremos porque no tenemos suficiente información. Sus grados de
libertad son 2, producto de los G.L. anteriores.

Error:SCE=239,03. Es la variabilidad de la encuesta si se prescinde de la influencia
de los factores. Su cuadrado medio es el mejor estimador de la varianza de la
población: 2,88.

Total: SCT=412,11. Nos sirve para ver si cuadran bien todos los cálculos de sumas
de cuadrados y grados de libertad, o para calcular SCE mediante la operación de
restar.Si dividimos cada cuadrado medio entre 2,88 obtenemos la F de cada factor, y
aplicando el contraste correspondiente obtenemos que son significativas al 5% tanto
la influencia de la Ciudad como de la Interacción, no siendo significativa la influencia
del Nivel adquisitivo.
INFERENCIA SOBRE UNA VARIANZA DE POBLACIÓN (ANOVA).
El análisis de varianza (ANOVA) es una técnica estadística diseñada para comparar
la varianza de dos poblaciones a partir del análisis de las varianzas de las muestras
respectivas. Webster (1998) aplica el concepto de ANOVA al contexto de un
experimento y la define como “... el se puede aplicar a la determinación de si un
tratamiento en que procedimiento particular aplicado a una población tendrá efecto
significativo sobre su media,” (p. 595). Aplicar el ANOVA requiere cumplir con dos
criterios específicos:
a1) Las poblaciones de estudio deber ser normales y tener varianzas iguales.
a2) Seleccionar las muestras independientemente.
La varianza total de todos los tratamientos (observaciones) se puede dividir en dos
fuentes:
a) Variación Intermuestral. Factor que representa la variación entre los diversos
tratamientos administrados durante el desarrollo de un experimento.
b) Variación Intramuestral o debida al Error. Factor que representa la variación
dentro de un mismo tratamiento administrado durante la realización de un
experimento.
En este contexto se entiende que la variación total es igual a la variación
intermuestral + la variación intramuestral o debida al error. Para obtener la
comprobación de una hipótesis de nulidad mediante el ANOVA se tienen que
calcular los siguientes factores:
a) La suma total de cuadrados expresada por la ecuación:
donde:
b) La suma de los cuadrados entre grupos (varianza intermuestral) se expresa por la
ecuación:
donde:
xi2 = Suma de los cuadrados entre los grupos
X1)2 = Suma de las puntuaciones elevadas al cuadrado del tratamiento1
n = Número de casos
c) La suma de cuadrados dentro de grupos (varianza intramuestral) se expresa por
la ecuación:
donde:
Xd2 = Suma de cuadrados dentro de grupos
X12 = Suma de los cuadrados de las puntuaciones del grupo 1
X1)2 = Suma de las puntuaciones elevadas al cuadrado del tratamiento1
Lo anterior refleja que se cuentra con tres varianzas y solo es posible realizar la
comparación de la varianza intermuestral con la varianza intramuestral mediante el
análisis del comportamiento de las mismas con respecta a la distribución F que
supone la independencia de las varianzas. La distribución F se expresa por la
ecuación:
donde:
F = Distribución F.
d) Los grados de libertad para la varianza del error se obtienen mediante la
ecuación:
donde:
gl = grados de libertad
c = columnas
e) Los grados de libertad para la varianza intramuestral se obtienen por medio de la
ecuación:
donde:
gl = grados de libertad
c = columnas
n = número de casos

Ejemplo:
Se busca determinar la influencia de la orientación psicológica en los métodos de crianza de
los niños, mediante una comparación entre liberales y conservadores.
Queremos hacer varias comparaciones que presenten varios puntos en la escala psicológica,
podríamos comparar la permisibilidad en la crianza de los niños de conservadores, liberales,
radicales y moderados.
S X2= 10 + 8 + 13 + 15 = 56
S XT = 6 + 8 + 7 + 7 = 28
T = 7 / 4 = 1.75
Fórmula: Suma total de todos los cuadrados.
N = número de datos de todos los grupos.
n = número de datos de un grupo.
Cálculo de:
Scinter = S ( - T)2 n
S x1 = 6 S x12 = 10 = 1.5 n = 4
S x2 = 8 S x22 = 18 = 2 n = 4 S xT = 28
S x3 = 7 S x32 = 13 = 1.75 n = 4 S T = 1.75
S x4 = 8 S x42 = 15 = 1.75 n = 4 S XT2 = 56
Grupo 1: (1.5 - 1.75)2 (4) = (−0.25)2 (4) = 0.6 (4) = 0.24
Grupo 2: (2 - 1.75)2 (4) = (0.25)2 (4) = 0.6 (4) = 0.24
Grupo 3: (1.75 - 1.75)2 (4) = (0)2 (4) = 0
Grupo 4: (1.75 - 1.75)2 (4) = (0)2 (4) = 0
Scinter = 0.24 + 0.24 + 0 + 0 = 0.48 Variación que existe entre los grupos.
Cálculo de:
Scintra = 1 + 2 + 0.75 + 2.75 = 6.5
Comprobación
SCT = Scinter + Scintra
Scintra = SCT - Scinter
Scinter = 0.48 = 0.5
Scintra = 6.5
SCT = 6.5 + 0.5 = 7
S Cintra? = 7 - 05 = 6.5
Calculamos la media cuadrática (cuadrado medio)
Existe una media de variación conocida como la media cuadrática o varianza, que obtenemos
dividiendo S Cintra o S Cinter? mediante los grados de libertad apropiados.
Cálculo de la media cuadrática:
glinter = K - 1 = 4 - 1 = 3
glintra = NT + K = 16 - 4 = 12
INFERENCIA SOBRE LA VARIANZA DE DOS POBLACIONES
                          (ANOVA)
De manera que, si las varianzas poblacionales son iguales, dicha razón es 1 y
podríamos afirmar que las dos poblaciones tienen una distribución homogénea; es
decir, los datos se encuentran igualmente dispersos. Una forma clara de
interpretación de la importancia de la homogeneidad de varianzas se puede apreciar
en el siguiente ejemplo:

Supongamos que estamos comparando el rendimiento promedio de los alumnos de
una asignatura dividida en dos secciones, cada una de las cuales están asignadas a
diferentes profesores. Podría ocurrir que el rendimiento promedio de ambas
secciones sea la misma; pero sin embargo, las notas pueden tener diferente
variabilidad.




Observe las dos curvas en el siguiente gráfico. Las dos tienen el mismo promedio,
pero, por la forma de la campana, tienen diferente varianza.

Esto justifica la necesidad de establecer una prueba de hipótesis para una razón de
varianzas, a fin de comprobar si ellas son homogéneas o no.

Una aplicación de esta razón podría ser bastante significativa en un caso en el que
las medias no son muy explicativas.

Por otro lado, así como se realiza inferencia sobre la estimación y prueba de
hipótesis de la diferencia de medias o proporciones muestrales en el caso de dos
poblaciones, así también podemos plantear el estudio de la razón de las varianzas

de dos poblaciones definiendo al parámetro q como                     y su estimador

            . Este estudio lo haremos tomando en cuenta el intervalo de confianza y
la prueba de hipótesis para q.

Pues bien. Sea X1, X2, ..., Xn1 una muestra aleatoria extraída a partir una población
N(m1, s1²) y se Y1, Y2, ..., Yn2 una muestra aleatoria extraída a partir una población
N(m2, s2²).


Si              son los estadísticos de la primera muestra, de tamaño n 1 y

            son los estadísticos de la segunda muestra, de tamaño n 2 en donde
y                                así como



                         y


entonces diremos que                    es un estimador puntual para la razón o el

cociente de las varianzas poblacionales




De manera que si                 es el estimador de              definiremos la variable
aleatoria




             tal que F à F(n1 – 1, n2 – 1)


Por tanto las pruebas de hipótesis a plantearse, usando el estadístico



con n1 – 1 grados de libertad en el numerador y n 2 – 1 grados de libertad en el
denominador, serán

Caso I                       Caso II                     Caso III




Si Fc <Fa; Rechazar H0       Rechazar H0 si Fc < Fa/2 o Si Fc > 1-a ; rechazar H0
                             si Fc > F1-a/2



Y en cuanto al Intervalo de confianza del (1-a)x100% para                será

Más contenido relacionado

La actualidad más candente

Pruebas de bondad de ajuste y pruebas no parametricas
Pruebas de bondad de ajuste y pruebas no parametricasPruebas de bondad de ajuste y pruebas no parametricas
Pruebas de bondad de ajuste y pruebas no parametricasAlez Escandón
 
2. ejercicios de prueba de hipótesis
2. ejercicios de prueba de hipótesis2. ejercicios de prueba de hipótesis
2. ejercicios de prueba de hipótesisluiisalbertoo-laga
 
Cinco ejemplos de aplicación de las distribuciones de probabilidad.
Cinco ejemplos de aplicación de las distribuciones de probabilidad.Cinco ejemplos de aplicación de las distribuciones de probabilidad.
Cinco ejemplos de aplicación de las distribuciones de probabilidad.leonardo19940511
 
Tarea 17 de probabilidad y estadistica con respuestas
Tarea 17 de probabilidad y estadistica con respuestasTarea 17 de probabilidad y estadistica con respuestas
Tarea 17 de probabilidad y estadistica con respuestasIPN
 
Mapa conceptual tipos de distribuciones de probabilidad
Mapa conceptual   tipos de distribuciones de probabilidadMapa conceptual   tipos de distribuciones de probabilidad
Mapa conceptual tipos de distribuciones de probabilidadJose Hernandez Landa
 
Tarea 6 de probabilidad y estadistica con respuestas
Tarea 6 de probabilidad y estadistica con respuestasTarea 6 de probabilidad y estadistica con respuestas
Tarea 6 de probabilidad y estadistica con respuestasIPN
 
Distribucion de poisson
Distribucion de poissonDistribucion de poisson
Distribucion de poissoncathycontreras
 
Estadística Probabilidades
Estadística ProbabilidadesEstadística Probabilidades
Estadística ProbabilidadesEdwin Lema
 
Tarea 15 de PROBABILIDAD Y ESTADISTICA CON RESPUESTAS
Tarea 15 de PROBABILIDAD Y ESTADISTICA CON RESPUESTASTarea 15 de PROBABILIDAD Y ESTADISTICA CON RESPUESTAS
Tarea 15 de PROBABILIDAD Y ESTADISTICA CON RESPUESTASIPN
 
DISTRIBUCIÓN MUESTRAL DE LA MEDIA
DISTRIBUCIÓN MUESTRAL DE LA MEDIADISTRIBUCIÓN MUESTRAL DE LA MEDIA
DISTRIBUCIÓN MUESTRAL DE LA MEDIAcheperobertt
 
Tarea 12 de probabilidad y estadística con respuestas
Tarea 12 de probabilidad y  estadística con respuestasTarea 12 de probabilidad y  estadística con respuestas
Tarea 12 de probabilidad y estadística con respuestasIPN
 
Prueba de hipotesis sobre la media con varianza desconocida
Prueba de hipotesis sobre la media con varianza desconocidaPrueba de hipotesis sobre la media con varianza desconocida
Prueba de hipotesis sobre la media con varianza desconocidaKarina Ruiz
 
Tarea 10 de probabilidad y estadistica con respuesta
Tarea 10 de probabilidad y estadistica con respuestaTarea 10 de probabilidad y estadistica con respuesta
Tarea 10 de probabilidad y estadistica con respuestaIPN
 

La actualidad más candente (20)

Pruebas de bondad de ajuste y pruebas no parametricas
Pruebas de bondad de ajuste y pruebas no parametricasPruebas de bondad de ajuste y pruebas no parametricas
Pruebas de bondad de ajuste y pruebas no parametricas
 
2. ejercicios de prueba de hipótesis
2. ejercicios de prueba de hipótesis2. ejercicios de prueba de hipótesis
2. ejercicios de prueba de hipótesis
 
5
55
5
 
Cinco ejemplos de aplicación de las distribuciones de probabilidad.
Cinco ejemplos de aplicación de las distribuciones de probabilidad.Cinco ejemplos de aplicación de las distribuciones de probabilidad.
Cinco ejemplos de aplicación de las distribuciones de probabilidad.
 
Tarea 17 de probabilidad y estadistica con respuestas
Tarea 17 de probabilidad y estadistica con respuestasTarea 17 de probabilidad y estadistica con respuestas
Tarea 17 de probabilidad y estadistica con respuestas
 
Mapa conceptual tipos de distribuciones de probabilidad
Mapa conceptual   tipos de distribuciones de probabilidadMapa conceptual   tipos de distribuciones de probabilidad
Mapa conceptual tipos de distribuciones de probabilidad
 
Tarea 6 de probabilidad y estadistica con respuestas
Tarea 6 de probabilidad y estadistica con respuestasTarea 6 de probabilidad y estadistica con respuestas
Tarea 6 de probabilidad y estadistica con respuestas
 
Estadistica practic
Estadistica practicEstadistica practic
Estadistica practic
 
Distribucion de poisson
Distribucion de poissonDistribucion de poisson
Distribucion de poisson
 
Estadística Probabilidades
Estadística ProbabilidadesEstadística Probabilidades
Estadística Probabilidades
 
Estadistica unidad 3
Estadistica unidad 3Estadistica unidad 3
Estadistica unidad 3
 
Ejer terorema dlimite central
Ejer terorema dlimite centralEjer terorema dlimite central
Ejer terorema dlimite central
 
Distribuciones muestrales
Distribuciones muestralesDistribuciones muestrales
Distribuciones muestrales
 
Tarea 15 de PROBABILIDAD Y ESTADISTICA CON RESPUESTAS
Tarea 15 de PROBABILIDAD Y ESTADISTICA CON RESPUESTASTarea 15 de PROBABILIDAD Y ESTADISTICA CON RESPUESTAS
Tarea 15 de PROBABILIDAD Y ESTADISTICA CON RESPUESTAS
 
Distribución muestral de la media
Distribución muestral de la mediaDistribución muestral de la media
Distribución muestral de la media
 
Regresion lineal multiple
Regresion lineal multipleRegresion lineal multiple
Regresion lineal multiple
 
DISTRIBUCIÓN MUESTRAL DE LA MEDIA
DISTRIBUCIÓN MUESTRAL DE LA MEDIADISTRIBUCIÓN MUESTRAL DE LA MEDIA
DISTRIBUCIÓN MUESTRAL DE LA MEDIA
 
Tarea 12 de probabilidad y estadística con respuestas
Tarea 12 de probabilidad y  estadística con respuestasTarea 12 de probabilidad y  estadística con respuestas
Tarea 12 de probabilidad y estadística con respuestas
 
Prueba de hipotesis sobre la media con varianza desconocida
Prueba de hipotesis sobre la media con varianza desconocidaPrueba de hipotesis sobre la media con varianza desconocida
Prueba de hipotesis sobre la media con varianza desconocida
 
Tarea 10 de probabilidad y estadistica con respuesta
Tarea 10 de probabilidad y estadistica con respuestaTarea 10 de probabilidad y estadistica con respuesta
Tarea 10 de probabilidad y estadistica con respuesta
 

Destacado

Pruebas de bondad de ajuste
Pruebas de bondad de ajustePruebas de bondad de ajuste
Pruebas de bondad de ajusteCarlos Becerra
 
Aplicaciones de la estadística
Aplicaciones de la estadísticaAplicaciones de la estadística
Aplicaciones de la estadísticamafeguerrber
 
La prueba o estadístico chi cuadrado se utiliza para comprobar si la diferenc...
La prueba o estadístico chi cuadrado se utiliza para comprobar si la diferenc...La prueba o estadístico chi cuadrado se utiliza para comprobar si la diferenc...
La prueba o estadístico chi cuadrado se utiliza para comprobar si la diferenc...fatima_m_p
 
Tema 2 analisis
Tema 2 analisisTema 2 analisis
Tema 2 analisisxocua11
 
Síntesis De La Unidad 1
Síntesis De La Unidad 1Síntesis De La Unidad 1
Síntesis De La Unidad 1guestc10eed
 
Mapas conceptuales continuacion sesion 3 y cuarta sesion final--
Mapas conceptuales continuacion sesion 3 y cuarta sesion  final--Mapas conceptuales continuacion sesion 3 y cuarta sesion  final--
Mapas conceptuales continuacion sesion 3 y cuarta sesion final--Mario_85
 
Deber chi cuadrado
Deber chi cuadradoDeber chi cuadrado
Deber chi cuadradoTATHYYYYY
 
Trastornos alimentarios y aprendizaje
Trastornos alimentarios y aprendizajeTrastornos alimentarios y aprendizaje
Trastornos alimentarios y aprendizajeElaine de Vargas
 
Formato gauss jordan 4x4
Formato gauss jordan 4x4Formato gauss jordan 4x4
Formato gauss jordan 4x4Edgar Mata
 
Sietmas de 5x5
Sietmas de 5x5Sietmas de 5x5
Sietmas de 5x5Edgar Mata
 
Unidad 2: Regresión lineal múltiple y correlación
Unidad 2: Regresión lineal múltiple y correlaciónUnidad 2: Regresión lineal múltiple y correlación
Unidad 2: Regresión lineal múltiple y correlaciónAlvaro Chavez
 

Destacado (20)

Pruebas de bondad de ajuste
Pruebas de bondad de ajustePruebas de bondad de ajuste
Pruebas de bondad de ajuste
 
Pruebas de Bondad de Ajuste. Independencia y Homogenidad. Est ind clase10
Pruebas de Bondad de Ajuste. Independencia y Homogenidad. Est ind clase10Pruebas de Bondad de Ajuste. Independencia y Homogenidad. Est ind clase10
Pruebas de Bondad de Ajuste. Independencia y Homogenidad. Est ind clase10
 
Prueba de la bondad del ajuste
Prueba de la bondad del ajustePrueba de la bondad del ajuste
Prueba de la bondad del ajuste
 
Análisis de Varianza
Análisis de VarianzaAnálisis de Varianza
Análisis de Varianza
 
Estadistica inferencial ii
Estadistica inferencial iiEstadistica inferencial ii
Estadistica inferencial ii
 
Aplicaciones de la estadística
Aplicaciones de la estadísticaAplicaciones de la estadística
Aplicaciones de la estadística
 
La prueba o estadístico chi cuadrado se utiliza para comprobar si la diferenc...
La prueba o estadístico chi cuadrado se utiliza para comprobar si la diferenc...La prueba o estadístico chi cuadrado se utiliza para comprobar si la diferenc...
La prueba o estadístico chi cuadrado se utiliza para comprobar si la diferenc...
 
Tema 2 analisis
Tema 2 analisisTema 2 analisis
Tema 2 analisis
 
SíNtesis De La Unidad
SíNtesis De La UnidadSíNtesis De La Unidad
SíNtesis De La Unidad
 
Síntesis De La Unidad 1
Síntesis De La Unidad 1Síntesis De La Unidad 1
Síntesis De La Unidad 1
 
Dca y bca
Dca y bcaDca y bca
Dca y bca
 
Mapas conceptuales continuacion sesion 3 y cuarta sesion final--
Mapas conceptuales continuacion sesion 3 y cuarta sesion  final--Mapas conceptuales continuacion sesion 3 y cuarta sesion  final--
Mapas conceptuales continuacion sesion 3 y cuarta sesion final--
 
Estadistica
EstadisticaEstadistica
Estadistica
 
Deber chi cuadrado
Deber chi cuadradoDeber chi cuadrado
Deber chi cuadrado
 
Trastornos alimentarios y aprendizaje
Trastornos alimentarios y aprendizajeTrastornos alimentarios y aprendizaje
Trastornos alimentarios y aprendizaje
 
Segunda unidad de estadistica
Segunda unidad de estadisticaSegunda unidad de estadistica
Segunda unidad de estadistica
 
Formato gauss jordan 4x4
Formato gauss jordan 4x4Formato gauss jordan 4x4
Formato gauss jordan 4x4
 
Sietmas de 5x5
Sietmas de 5x5Sietmas de 5x5
Sietmas de 5x5
 
Control Estrategico
Control EstrategicoControl Estrategico
Control Estrategico
 
Unidad 2: Regresión lineal múltiple y correlación
Unidad 2: Regresión lineal múltiple y correlaciónUnidad 2: Regresión lineal múltiple y correlación
Unidad 2: Regresión lineal múltiple y correlación
 

Similar a RESUMEN DE ESTADISTICA II INIDAD 2

Similar a RESUMEN DE ESTADISTICA II INIDAD 2 (20)

1. Tema Nº 2 (Apuntes).pptx simplex regresion
1. Tema Nº 2 (Apuntes).pptx simplex regresion1. Tema Nº 2 (Apuntes).pptx simplex regresion
1. Tema Nº 2 (Apuntes).pptx simplex regresion
 
2.ejeercicios
2.ejeercicios2.ejeercicios
2.ejeercicios
 
Ji cuadrada1
Ji cuadrada1Ji cuadrada1
Ji cuadrada1
 
Estimacion de intervalos 1
Estimacion de intervalos 1 Estimacion de intervalos 1
Estimacion de intervalos 1
 
Estimacion de intervalos 1 poblacion- 04-06-2019
Estimacion de intervalos 1 poblacion- 04-06-2019Estimacion de intervalos 1 poblacion- 04-06-2019
Estimacion de intervalos 1 poblacion- 04-06-2019
 
La normal
La normalLa normal
La normal
 
7 distribucion normal_total
7 distribucion normal_total7 distribucion normal_total
7 distribucion normal_total
 
Distribuciones de probabilidad_1
Distribuciones de probabilidad_1Distribuciones de probabilidad_1
Distribuciones de probabilidad_1
 
Formulario estadisticas
Formulario estadisticas Formulario estadisticas
Formulario estadisticas
 
Distribucion normal completo
Distribucion normal completoDistribucion normal completo
Distribucion normal completo
 
Clase 3 mecanica-cuantica
Clase 3 mecanica-cuanticaClase 3 mecanica-cuantica
Clase 3 mecanica-cuantica
 
Tarea ejemplos distribución chi cuadrado, ingrid alcayaga y rocío eyzaguirre
Tarea ejemplos distribución chi cuadrado, ingrid alcayaga y rocío eyzaguirreTarea ejemplos distribución chi cuadrado, ingrid alcayaga y rocío eyzaguirre
Tarea ejemplos distribución chi cuadrado, ingrid alcayaga y rocío eyzaguirre
 
X cuadrada
X cuadradaX cuadrada
X cuadrada
 
Chi cuadrado propiedades
Chi cuadrado propiedadesChi cuadrado propiedades
Chi cuadrado propiedades
 
Clase9
Clase9Clase9
Clase9
 
[Exposicion] modelos probabilísticos aplicados
[Exposicion]   modelos probabilísticos aplicados[Exposicion]   modelos probabilísticos aplicados
[Exposicion] modelos probabilísticos aplicados
 
Distribuciones poisson, rayleigh y student
Distribuciones poisson, rayleigh y studentDistribuciones poisson, rayleigh y student
Distribuciones poisson, rayleigh y student
 
metodos numericos
metodos numericosmetodos numericos
metodos numericos
 
taller metodos numericos 1
taller metodos numericos 1taller metodos numericos 1
taller metodos numericos 1
 
T6
T6T6
T6
 

Más de FELIX Castro Garcia

Unidad i de desarrollo sustentable
Unidad i de desarrollo sustentableUnidad i de desarrollo sustentable
Unidad i de desarrollo sustentableFELIX Castro Garcia
 
Unidad i de desarrollo sustentable
Unidad i de desarrollo sustentableUnidad i de desarrollo sustentable
Unidad i de desarrollo sustentableFELIX Castro Garcia
 
Mapa conceptual de felix castro garcia
Mapa conceptual de felix castro garciaMapa conceptual de felix castro garcia
Mapa conceptual de felix castro garciaFELIX Castro Garcia
 
UNIDAD V: ESTADÍSTICA NO PARAMÉTRICA
UNIDAD V: ESTADÍSTICA NO PARAMÉTRICAUNIDAD V: ESTADÍSTICA NO PARAMÉTRICA
UNIDAD V: ESTADÍSTICA NO PARAMÉTRICAFELIX Castro Garcia
 
Resumen de unidad v de felix castro garcia
Resumen de unidad v de felix castro garciaResumen de unidad v de felix castro garcia
Resumen de unidad v de felix castro garciaFELIX Castro Garcia
 
R. DE ESTADISTICA DE LA UNIDAD IV DE FELIX C.
R. DE ESTADISTICA DE LA UNIDAD IV  DE FELIX C.R. DE ESTADISTICA DE LA UNIDAD IV  DE FELIX C.
R. DE ESTADISTICA DE LA UNIDAD IV DE FELIX C.FELIX Castro Garcia
 
EJERCICIO RESUELTO DE ESTADISTICA II POR FELIX CASTRO GARCIA
EJERCICIO RESUELTO DE ESTADISTICA II POR FELIX CASTRO GARCIA EJERCICIO RESUELTO DE ESTADISTICA II POR FELIX CASTRO GARCIA
EJERCICIO RESUELTO DE ESTADISTICA II POR FELIX CASTRO GARCIA FELIX Castro Garcia
 

Más de FELIX Castro Garcia (10)

Unidad i de desarrollo sustentable
Unidad i de desarrollo sustentableUnidad i de desarrollo sustentable
Unidad i de desarrollo sustentable
 
Unidad i de desarrollo sustentable
Unidad i de desarrollo sustentableUnidad i de desarrollo sustentable
Unidad i de desarrollo sustentable
 
Mapa conceptual de felix castro garcia
Mapa conceptual de felix castro garciaMapa conceptual de felix castro garcia
Mapa conceptual de felix castro garcia
 
UNIDAD V: ESTADÍSTICA NO PARAMÉTRICA
UNIDAD V: ESTADÍSTICA NO PARAMÉTRICAUNIDAD V: ESTADÍSTICA NO PARAMÉTRICA
UNIDAD V: ESTADÍSTICA NO PARAMÉTRICA
 
Resumen de unidad v de felix castro garcia
Resumen de unidad v de felix castro garciaResumen de unidad v de felix castro garcia
Resumen de unidad v de felix castro garcia
 
R. DE ESTADISTICA DE LA UNIDAD IV DE FELIX C.
R. DE ESTADISTICA DE LA UNIDAD IV  DE FELIX C.R. DE ESTADISTICA DE LA UNIDAD IV  DE FELIX C.
R. DE ESTADISTICA DE LA UNIDAD IV DE FELIX C.
 
Regreciòn multiple
Regreciòn multipleRegreciòn multiple
Regreciòn multiple
 
EJERCICIO RESUELTO DE ESTADISTICA II POR FELIX CASTRO GARCIA
EJERCICIO RESUELTO DE ESTADISTICA II POR FELIX CASTRO GARCIA EJERCICIO RESUELTO DE ESTADISTICA II POR FELIX CASTRO GARCIA
EJERCICIO RESUELTO DE ESTADISTICA II POR FELIX CASTRO GARCIA
 
FELIX CASTRO GARCIA
FELIX CASTRO GARCIAFELIX CASTRO GARCIA
FELIX CASTRO GARCIA
 
Felix castro estadistica ii
Felix castro estadistica iiFelix castro estadistica ii
Felix castro estadistica ii
 

RESUMEN DE ESTADISTICA II INIDAD 2

  • 1. “INSTITUTO TECNOLÒGICO SUPERIOR DE LA SIERRA NEGRA DE AJALPAN” CARRERA: ING. ADMÒN DE EMPRESAS TRABAJO: RESUMEN DE LA UNIDAD II CATEDRATICO: ING. JOSÉ GUADALUPE RODRIGUEZ R. ALUMNO: FELIX CASTRO GARCIA FECHA DE ENTREGA: 17 DE FEBRERO DEL 2012
  • 2. INDICE: UNIDAD 2: Pruebas de la bondad del ajuste y análisis de Varianza 2.1 Análisis Ji-Cuadrada 2.1.1 Prueba de independencia 2.1.2 Prueba de la bondad del ajuste 2.1.3 Tablas de contingencia 2.2 Análisis de varianza 2.2.1 Inferencia sobre una varianza de población (Anova). 2.2.2 Inferencia sobre la varianza de dos poblaciones (Anova).
  • 3. “ANÁLISIS JI-CUADRADA” En realidad la distribución ji-cuadrada es la distribución maestral de s2. O sea que si se extraen todas las muestras posibles de una población normal y a cada muestra se le calcula su varianza, se obtendrá la distribución maestral de varianzas.La fórmula que se utilizará para calcular el valor de chi-cuadrada es : Una moneda fue lanzada al aire 1000 series, de 5 veces cada serie y se observó el número de caras de cada serie. El número de series en los que se presentaron 0, 1, 1, 3, 4 y 5 caras se muestra en la siguiente tabla. Número de series Número de caras (frecuencia observada) 0 38 1 144 2 342 3 287 4 164 5 25 Total 1000 1. Ajustar una distribución binomial a los datos con un = 0.05. 2. Solución: 3. H0; Los datos se ajustan a una distribución binomial. 4. H1; Los datos no se ajustan a una distribución binomial. 5. Para obtener los valores esperados se tiene que utilizar la formula de la distribución binomial: , donde n en este ejercicio vale 5, p y q son las probabilidades respectivas de cara y sello en un solo lanzamiento de la moneda. Para calcular el valor de p, se sabe que =np en una distribución binomial, por lo que = 5p. 6. Para la distribución de frecuencias observada, la media del número de caras es: 7.
  • 4. 8. Por lo tanto . Así pues, la distribución binomial ajustada viene dada por p(x) = . 9. Al seguir esta fórmula se calcula la probabilidad de obtener caras, según el valor de la variable aleatoria. La probabilidad multiplicada por 1000 nos dará el valor esperado. Se resumen los resultados en la tabla siguiente: Número de Frecuencia Frecuencia P(x caras) caras (x) esperada observada 0 0.0332 33.2 38 1 0.1619 161.9 144 2 0.3162 316.2 342 3 0.3087 308.7 287 4 0.1507 150.7 164 5 0.0294 29.4 25 10. Para los grados de libertad el valor de m será uno, ya que se tuvo que estimar la media de la población para poder obtener el valor de p y así poder calcular los valores esperados. 11. Grados de libertad: k-1-m = 6-1-1 = 4 12. 13. Regla de decisión: 14. Si X2R 9.49 no se rechaza Ho. 15. Si X2R >9.49 se rechaza Ho. 16. Cálculos: 17. Justificación y decisión: 18. Como el 7.54 no es mayor a 9.49, no se rechaza H 0 y se concluye con un = 0.05 que el ajuste de los datos a una distribución binomial es bueno.
  • 5. PRUEBA DE INDEPENDENCIA Cuando cada individuo de la población a estudio se puede clasificar según dos criterios A y B, admitiendo el primero a posibilidades diferentes y b el segundo, la representación de las frecuencias observadas en forma de una matriz a x b recibe el nombre de Tabla de contingencia. Los datos se disponen de la forma siendo el número de individuos que presentan simultáneamente la i-ésima modalidad del carácter A y la j-ésima del B. La hipótesis nula a contrastar admite que ambos caracteres, A y B, se presentan de forma independiente en los individuos de la población de la cual se extrae la muestra; siendo la alternativa la dependencia estocástica entre ambos caracteres. La realización de esta prueba requiere el cálculo del estadístico donde:y son las frecuencias absolutas marginales y el tamaño muestral total. El estadístico L se distribuye como una con (a - 1)(b - 1) grados de libertad. El contraste se realiza con un nivel de significación del 5%. Ejemplo de Aplicación Para estudiar la dependencia entre la práctica de algún deporte y la depresión, se seleccionó una muestra aleatoria simple de 100 jóvenes, con los siguientes resultados: Sin depresión Con depresión total Deportista 38 9 47 No deportista 31 22 53 69 31 100 L = (38 – 32,43)2/32,43 + (31 – 36,57)2/36,57 + (9 – 14,57)2/14,57 + (22 – 16,43)2/16,43 = 0,9567 + 0,8484 + 2,1293 + 1,8883 = 5,8227 El valor que alcanza el estadístico L es 5,8227. Buscando en la tabla teórica de Chi Cuadrado para 1 grado de libertad se aprecia Lt = 3,84146 < 5,8227 lo que permite rechazar la hipótesis de independencia de caracteres con un nivel de significación del 5%, admitiendo por tanto que la práctica deportiva disminuye el riesgo de depresión.
  • 6. PRUEBA DE LA BONDAD DEL AJUSTE Pruebas de tablas de contingencias En muchas ocasiones, los n elementos de una muestra de población pueden clasificarse de acuerdo con dos criterios diferentes. Por ello interesa conocer si los dos métodos de clasificación son estadísticamente independientes; por ejemplo, podemos considerar la población de ingenieros graduado y tal vez deseemos determinar si el salario inicial es independiente de las disciplinas académicas. Supóngase que el primer método de clasificación tiene r niveles y que el segundo método de clasificación tiene c niveles. Sea oij la frecuencia observada para el nivel i del primer método de clasificación y el nivel j del segundo método de clasificación. Los datos aparecerían, en general, como en la tabla. Una tabla de tales características se llama comúnmente tabla de contingencia r X c. Estamos interesados en probar la hipótesis de que los métodos de clasificación de renglón y de columna son independientes. Si rechazamos esta hipótesis, concluimos que hay cierta interacción entre los dos criterios de clasificación. Los procedimientos de prueba exactos son difíciles de obtener, pero una estadística de prueba aproximada es valida para n grande. Supóngase las oij como variables aleatorias multinomiales y pij como la probabilidad de que un elemento elegido al azar cae en la celda ijesima, dado que las dos clasificaciones son independientes. Entonces pij = uivj , donde ui es la probabilidad de que un elemento elegido al azar caiga en el renglón de clase i y vj es la probabilidad de que un elemento seleccionado en forma aleatoria caiga en la columna de clase j. Luego, suponiendo independencia, los estimadores de máxima probabilidad de ui y vj son: ûi = Oij ûj = Oij Una tabla de contingencia r X c Columnas 1 2 ... c 1 O11 O12 ... O1c 2 O21 O22 ... O2c Renglones ... ... ... ... ... r Or1 Or2 ... Orc En consecuencia, el número esperado de cada celda es Eij = nûivj = Oij Oij Entonces, para n grande, la estadística 2 X20 = - X2 (r – 1) (c – 1)
  • 7. Aproximadamente, y rechazaríamos la hipótesis de independencia si X20 > X2a, (r – 1) (c – 1). Prueba de bondad de ajuste de ji-cuadrada El procedimiento de prueba requiere una muestra aleatoria de tamaño n de la variable aleatoria X, cuya función de densidad de probabilidad se desconoce. Estas n observaciones se arreglan en un histograma de frecuencias, teniendo k intervalos de clase. Sea 01 la frecuencia observada en el intervalo de la clase iesimo. De la distribución de probabilidad hipotética, calculamos la frecuencia esperada en el intervalo de clase iesimo, denotada E1. La estadística de prueba es: X20 = Puede demostrar que X²0 sigue aproximadamente la distribución ji cuadrada con k-p-1 grados de libertad, donde p representa el numero de parámetros de la distribución hipotética estimada por el medio de estadística de muestra. Esta aproximación se mejora cuando n aumenta. Rechazaríamos la hipótesis de que X se ajusta ala distribución hipotética si X²0>X²α k-p-1 Un punto que debe advertirse en la aplicación de este procedimiento de prueba se refiere ala magnitud de las frecuencias esperadas. Si estas frecuencias esperadas son demasiado pequeñas, entonces X²0 no reflejan la desviación de las observaciones respecto alas esperadas, si no solo las mas pequeñas de las frecuencias esperadas. No hay un acuerdo general en relación con el valor mínimo de las frecuencias esperadas, aunque los valores de 3,4 y 5 se utilizan ampliamente como mínimos. Si la frecuencia esperada es demasiado pequeña, puede combinarse con la frecuencia esperada en un intervalo de clase adyacente. Las frecuencias observadas correspondientes se combinaran también en ese caso, y k se reducirá en 1. No se requiere que los intervalos de clase sean de igual ancho. Ejemplo Una distribución completamente especificada Un científico de computadoras ha desarrollado un algoritmo para generar enteros pseudoaleatorios sobre el intervalo 0-9. Codifica el algoritmo y genera 1000 dígitos pseudoaleatorios. Los datos se muestran en la tabla 11-3. ¿Existe evidencia de que el generador de números aleatorios esta trabajando correctamente? Si esta trabajando de manera correcta, entonces los valores 0-9 deben seguir la distribución uniforme discreta, la cual implica que cada uno de los enteros debe ocurrir exactamente 100 veces. Esto es, las frecuencias esperadas E =100 para I=0,1,….,9 Puesto que estas frecuencias estimadas pueden estimarse sin que sea necesario estimular ningún parámetro a partir de los datos de muestra, la prueba resultante de bondad de ajuste de la ji cuadrada tendrá k-p-1=10- 0-1=9 grados de libertad. Total 0123456789n Frecuencia Observada O 94 93 112 101 104 95 100 99 108 94 1000 Frecuencias Esperada E 100 100 100 100 100 100 100 100 100 100 1000 El valor esperado de la estadística de prueba es 2222 X20 = = Puesto que X =16.92 no somos capaces de rechazar la hipótesis de que los datos proviene de una distribución uniforme discreta. En consecuencia, el generador de números aleatorios parece estar trabajando en forma satisfactoria.
  • 8. TABLAS DE CONTINGENCIA Un método útil para clasificar los datos obtenidos en un recuento es mediante las tablas de contingencia. Se trata de tablas en cuyas celdas figuran probabilidades, y en la cual podemos determinar unas probabilidades conociendo otras de la tabla. Ejemplo Se sortea un viaje a Roma entre los 120 mejores clientes de una agencia de automóviles. De ellos, 65 son mujeres, 80 están casados y 45 son mujeres casadas. Se pide: 1¿Cuál será la probabilidad de que le toque el viaje a un hombre soltero? 2Si del afortunado se sabe que es casado, ¿cuál será la probabilidad de que sea una mujer?
  • 9. ANÁLISIS DE VARIANZA es un método para comparar dos o más medias, que es necesario porque cuando se quiere comparar más de dos medias es incorrecto utilizar repetidamente el contraste basado en la t de Student. por dos motivos: En primer lugar, y como se realizarían simultánea e independientemente varios contrastes de hipótesis, la probabilidad de encontrar alguno significativo por azar aumentaría. En cada contraste se rechaza la H0 si la t supera el nivel crítico, para lo que, en la hipótesis nula, hay una probabilidad . Por otro lado, en cada comparación la hipótesis nula es que las dos muestras provienen de la misma población, por lo tanto, cuando se hayan realizado todas las comparaciones, la hipótesis nula es que todas las muestras provienen de la misma población y, sin embargo, para cada comparación, la estimación de la varianza necesaria para el contraste es distinta, pues se ha hecho en base a muestras distintas. El método que resuelve ambos problemas es el anova, aunque es algo más que esto: es un método que permite comparar varias medias en diversas situaciones; muy ligado, por tanto, al diseño de experimentos y, de alguna manera, es la base del análisis multivariante. Ejemplo: Se ha recogido la valoración de un líder político en dos ciudades distintas A y B, dividida cada una en tres barrios según su nivel adquisitivo (Alto, Medio y Bajo), obteniéndose los siguientes resultados: Nivel Nivel alto Nivel bajo medio 6, 7, 8, 5, 6, 5, 6, 7, 4, 8,9 4, 5, 10, 3, 2, 3, 3, 4, 5, 4, 1, Ciudad A 4, 4, 6, 8 8,8,3, 6, 7,7, 4, 0, 4, 6, 2, 5, 4, 4 10 7, 6, 8 4, 4, 5, 1, 6, 6, 5, 6, 4, 5, 4, 3, 3, 3, 5 4, 6, 3, 2, 3, 2, 3, Ciudad B 2, 4, 2, 8, 6, 5, 6, 4, 2, 2, 1, 6 4, 2, 2, 3, 1 4, 4, 3 6, 3, 1 Suponiendo que se cumplen los supuestos del ANOVA para dos factores, ¿podemos afirmar si la población presenta diferencias significativas en la apreciación del político según la ciudad o según su nivel adquisitivo? Este sería un ejemplo de Análisis de Varianza con dos factores (ciudad y nivel). Toda la teoría y consideraciones hechas para el caso de un factor siguen sirviendo en éste, pero con más sumas de cuadrados y más contrastes F. Sería largo y complejo explicarlo todo aquí, por lo que se remite al resumen teórico y a los manuales correspondientes. Para resolver la cuestión planteada deberás, con paciencia, ir escribiendo los datos en la hoja anova.ods, en su segunda hoja, correspondiente a dos factores. El esto lo hará la hoja de cálculo y te presentará estos resultados:
  • 10. Fuente variación SC G.L. CM F Factor A 83,83 2 41,92 14,55 Factor B 59,13 1 59,13 20,53 Interacción AB 30,12 2 15,06 5,23 Error 239,03 83 2,88 TOTAL 412,11 88 P-valor de FA 0,182 P-valor de FB 0,045 Significativa al 5% P-valor de FAB 0,007 Significativa al 5% Observa que ahora se pueden considerar cinco sumas de cuadrados: Factor A: SCA=83,83. Representa la variabilidad propia del factor Nivel adquisitivo. Sus grados de libertad son 2, que equivalen al número de niveles menos 1, y su cuadrado medio 41,92 Factor B:SCB=59,13. Es la suma correspondiente al factor Ciudad. Como sólo hay dos ciudades, sus grados de libertad equivalen a 1, y su cuadrado medio 59,13, muy alto respecto al estimador 2,88. Interacción: SCAB=30,12 Este factor no se considera si existen motivos para creer que no existe influencia mutua entre el factor Ciudad y el factor Nivel adquisitivo. Aquí lo consideraremos porque no tenemos suficiente información. Sus grados de libertad son 2, producto de los G.L. anteriores. Error:SCE=239,03. Es la variabilidad de la encuesta si se prescinde de la influencia de los factores. Su cuadrado medio es el mejor estimador de la varianza de la población: 2,88. Total: SCT=412,11. Nos sirve para ver si cuadran bien todos los cálculos de sumas de cuadrados y grados de libertad, o para calcular SCE mediante la operación de restar.Si dividimos cada cuadrado medio entre 2,88 obtenemos la F de cada factor, y aplicando el contraste correspondiente obtenemos que son significativas al 5% tanto la influencia de la Ciudad como de la Interacción, no siendo significativa la influencia del Nivel adquisitivo.
  • 11. INFERENCIA SOBRE UNA VARIANZA DE POBLACIÓN (ANOVA). El análisis de varianza (ANOVA) es una técnica estadística diseñada para comparar la varianza de dos poblaciones a partir del análisis de las varianzas de las muestras respectivas. Webster (1998) aplica el concepto de ANOVA al contexto de un experimento y la define como “... el se puede aplicar a la determinación de si un tratamiento en que procedimiento particular aplicado a una población tendrá efecto significativo sobre su media,” (p. 595). Aplicar el ANOVA requiere cumplir con dos criterios específicos: a1) Las poblaciones de estudio deber ser normales y tener varianzas iguales. a2) Seleccionar las muestras independientemente. La varianza total de todos los tratamientos (observaciones) se puede dividir en dos fuentes: a) Variación Intermuestral. Factor que representa la variación entre los diversos tratamientos administrados durante el desarrollo de un experimento. b) Variación Intramuestral o debida al Error. Factor que representa la variación dentro de un mismo tratamiento administrado durante la realización de un experimento. En este contexto se entiende que la variación total es igual a la variación intermuestral + la variación intramuestral o debida al error. Para obtener la comprobación de una hipótesis de nulidad mediante el ANOVA se tienen que calcular los siguientes factores: a) La suma total de cuadrados expresada por la ecuación: donde: b) La suma de los cuadrados entre grupos (varianza intermuestral) se expresa por la ecuación: donde: xi2 = Suma de los cuadrados entre los grupos X1)2 = Suma de las puntuaciones elevadas al cuadrado del tratamiento1 n = Número de casos c) La suma de cuadrados dentro de grupos (varianza intramuestral) se expresa por la ecuación: donde: Xd2 = Suma de cuadrados dentro de grupos X12 = Suma de los cuadrados de las puntuaciones del grupo 1 X1)2 = Suma de las puntuaciones elevadas al cuadrado del tratamiento1 Lo anterior refleja que se cuentra con tres varianzas y solo es posible realizar la comparación de la varianza intermuestral con la varianza intramuestral mediante el análisis del comportamiento de las mismas con respecta a la distribución F que supone la independencia de las varianzas. La distribución F se expresa por la ecuación: donde: F = Distribución F. d) Los grados de libertad para la varianza del error se obtienen mediante la ecuación: donde: gl = grados de libertad c = columnas
  • 12. e) Los grados de libertad para la varianza intramuestral se obtienen por medio de la ecuación: donde: gl = grados de libertad c = columnas n = número de casos Ejemplo: Se busca determinar la influencia de la orientación psicológica en los métodos de crianza de los niños, mediante una comparación entre liberales y conservadores. Queremos hacer varias comparaciones que presenten varios puntos en la escala psicológica, podríamos comparar la permisibilidad en la crianza de los niños de conservadores, liberales, radicales y moderados. S X2= 10 + 8 + 13 + 15 = 56 S XT = 6 + 8 + 7 + 7 = 28 T = 7 / 4 = 1.75 Fórmula: Suma total de todos los cuadrados. N = número de datos de todos los grupos. n = número de datos de un grupo. Cálculo de: Scinter = S ( - T)2 n S x1 = 6 S x12 = 10 = 1.5 n = 4 S x2 = 8 S x22 = 18 = 2 n = 4 S xT = 28 S x3 = 7 S x32 = 13 = 1.75 n = 4 S T = 1.75 S x4 = 8 S x42 = 15 = 1.75 n = 4 S XT2 = 56 Grupo 1: (1.5 - 1.75)2 (4) = (−0.25)2 (4) = 0.6 (4) = 0.24 Grupo 2: (2 - 1.75)2 (4) = (0.25)2 (4) = 0.6 (4) = 0.24 Grupo 3: (1.75 - 1.75)2 (4) = (0)2 (4) = 0 Grupo 4: (1.75 - 1.75)2 (4) = (0)2 (4) = 0 Scinter = 0.24 + 0.24 + 0 + 0 = 0.48 Variación que existe entre los grupos. Cálculo de: Scintra = 1 + 2 + 0.75 + 2.75 = 6.5 Comprobación SCT = Scinter + Scintra Scintra = SCT - Scinter Scinter = 0.48 = 0.5 Scintra = 6.5 SCT = 6.5 + 0.5 = 7 S Cintra? = 7 - 05 = 6.5 Calculamos la media cuadrática (cuadrado medio) Existe una media de variación conocida como la media cuadrática o varianza, que obtenemos dividiendo S Cintra o S Cinter? mediante los grados de libertad apropiados. Cálculo de la media cuadrática: glinter = K - 1 = 4 - 1 = 3 glintra = NT + K = 16 - 4 = 12
  • 13. INFERENCIA SOBRE LA VARIANZA DE DOS POBLACIONES (ANOVA) De manera que, si las varianzas poblacionales son iguales, dicha razón es 1 y podríamos afirmar que las dos poblaciones tienen una distribución homogénea; es decir, los datos se encuentran igualmente dispersos. Una forma clara de interpretación de la importancia de la homogeneidad de varianzas se puede apreciar en el siguiente ejemplo: Supongamos que estamos comparando el rendimiento promedio de los alumnos de una asignatura dividida en dos secciones, cada una de las cuales están asignadas a diferentes profesores. Podría ocurrir que el rendimiento promedio de ambas secciones sea la misma; pero sin embargo, las notas pueden tener diferente variabilidad. Observe las dos curvas en el siguiente gráfico. Las dos tienen el mismo promedio, pero, por la forma de la campana, tienen diferente varianza. Esto justifica la necesidad de establecer una prueba de hipótesis para una razón de varianzas, a fin de comprobar si ellas son homogéneas o no. Una aplicación de esta razón podría ser bastante significativa en un caso en el que las medias no son muy explicativas. Por otro lado, así como se realiza inferencia sobre la estimación y prueba de hipótesis de la diferencia de medias o proporciones muestrales en el caso de dos poblaciones, así también podemos plantear el estudio de la razón de las varianzas de dos poblaciones definiendo al parámetro q como y su estimador . Este estudio lo haremos tomando en cuenta el intervalo de confianza y la prueba de hipótesis para q. Pues bien. Sea X1, X2, ..., Xn1 una muestra aleatoria extraída a partir una población N(m1, s1²) y se Y1, Y2, ..., Yn2 una muestra aleatoria extraída a partir una población N(m2, s2²). Si son los estadísticos de la primera muestra, de tamaño n 1 y son los estadísticos de la segunda muestra, de tamaño n 2 en donde
  • 14. y así como y entonces diremos que es un estimador puntual para la razón o el cociente de las varianzas poblacionales De manera que si es el estimador de definiremos la variable aleatoria tal que F à F(n1 – 1, n2 – 1) Por tanto las pruebas de hipótesis a plantearse, usando el estadístico con n1 – 1 grados de libertad en el numerador y n 2 – 1 grados de libertad en el denominador, serán Caso I Caso II Caso III Si Fc <Fa; Rechazar H0 Rechazar H0 si Fc < Fa/2 o Si Fc > 1-a ; rechazar H0 si Fc > F1-a/2 Y en cuanto al Intervalo de confianza del (1-a)x100% para será