ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOS4.1 INTRODUCC...
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSEn estadístic...
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSSi μ es una c...
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSuniversidad d...
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSodocenciavari...
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSStudent para ...
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOScierta la hip...
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOScada sujeto s...
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSa comparar de...
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSTabla 1. Dato...
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSA 84,43 79,80...
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSA 89,28 83,78...
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSy se dice que...
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSP1 2 3 ……. …....
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOS=24Solución:C...
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSSi s12y s22so...
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSAl interpolar...
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSlas dos varia...
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSUna de las hi...
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSestudios con ...
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSσ= Desviación...
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSEjemplo: Si s...
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSLa interpreta...
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSes un ejemplo...
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSLas pruebas d...
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSH1: p1 ¹ p2Re...
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSHo: Lo que pa...
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSPaso 4TRABAJO...
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSEjemplo: En u...
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSDesviaciónest...
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSTengo 95% de ...
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSHipótesis alt...
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSH1: p1 ¹ p2Pu...
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSqueremos esti...
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOS-0.0064<P1-P2...
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOS0≤−= MHo PPH,...
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSPH = proporci...
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSpara la distr...
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSSi se requier...
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSSolución:Paso...
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSasevera que e...
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSsegmentación ...
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSSi podemos de...
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSObserve que 8...
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSfrecuencias e...
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSLas hipótesis...
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSAsí pues, si ...
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSTal como ocur...
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSla distribuci...
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSTRABAJO EN EQ...
Próxima SlideShare
Cargando en…5
×

82253086 unidad-iv-pruebas-de-hipotesis-con-dos-muestras-y-varias-muestras-de-datos-numericos

34.023 visualizaciones

Publicado el

1 comentario
12 recomendaciones
Estadísticas
Notas
Sin descargas
Visualizaciones
Visualizaciones totales
34.023
En SlideShare
0
De insertados
0
Número de insertados
9
Acciones
Compartido
0
Descargas
366
Comentarios
1
Recomendaciones
12
Insertados 0
No insertados

No hay notas en la diapositiva.

82253086 unidad-iv-pruebas-de-hipotesis-con-dos-muestras-y-varias-muestras-de-datos-numericos

  1. 1. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOS4.1 INTRODUCCIÓN PRUEBAS DE HIPÓTESISIntroducción: Prueba de hipótesis En esta unidad nos concentraremos en la prueba dehipótesis, otro aspecto de la inferencia estadística que al igual que la estimación delintervalo de confianza, se basa en la información de la muestra. Se desarrolla unametodología paso a paso que le permita hacer inferencias sobre un parámetro poblacionalmediante el análisis diferencial entre los resultados observados (estadístico de la muestra)y los resultados de la muestra esperados si la hipótesis subyacente es realmente cierta.En el problema de estimación se trata de elegir el valor de un parámetro de la población,mientras que en las pruebas de hipótesis se trata de decidir entre aceptar o rechazar unvalor especificado (por ejemplo, si el nivel de centramiento de un proceso es o no lo es).Prueba de hipótesis: Estadísticamente una prueba de hipótesis es cualquier afirmaciónacerca de una población y/o sus parámetros.Una prueba de hipótesis consiste en contrastar dos hipótesis estadísticas. Tal contrasteinvolucra la toma de decisión acerca de las hipótesis. La decisión consiste en rechazar ono una hipótesis en favor de la otra. Una hipótesis estadística se denota por “H” y sondos: - Ho: hipótesis nula - H1: hipótesis alternativa Partes de una hipótesis 1-La hipótesisnula “Ho” 2-La hipótesis alternativa “H1” 3-El estadístico de prueba 4-Errores tipo I y II 5-La región de rechazo (crítica) 6-La toma de decisión 1. Concepto: Una prueba dehipótesis estadística es una conjetura de una o más poblaciones. Nunca se sabe conabsoluta certeza la verdad o falsedad de una hipótesis estadística, a no ser que seexamine la población entera. Esto por su puesto sería impráctico en la mayoría de lassituaciones. En su lugar, se toma una muestra aleatoria de la población de interés y seutilizan los datos que contiene tal muestra para proporcionar evidencia que confirme o nola hipótesis. La evidencia de la muestra que es un constante con la hipótesis planteadaconduce a un rechazo de la misma mientras que la evidencia que apoya la hipótesisconduce a su aceptación.Definición de prueba de hipótesis estadística es que cuantifica el proceso de toma dedecisiones.Por cada tipo de prueba de hipótesis se puede calcular una prueba estadística apropiada.Esta prueba estadística mide el acercamiento del calor de la muestra (como un promedio)a la hipótesis nula. La prueba estadística, sigue una distribución estadística bien conocida(normal, etc.) o se puede desarrollar una distribución para la prueba estadística particular.La distribución apropiada de la prueba estadística se divide en dos regiones: una regiónde rechazo y una de no rechazo. Si la prueba estadística cae en esta última región no sepuede rechazar la hipótesis nula y se llega a la conclusión de que el proceso funcionacorrectamente.Al tomar la decisión con respecto a la hipótesis nula, se debe determinar el valor crítico enla distribución estadística que divide la región del rechazo (en la cual la hipótesis nula nose puede rechazar) de la región de rechazo. A hora bien el valor crítico depende deltamaño de la región de rechazo.4.2 DISTRIBUCIÓN NORMAL Y DISTRIBUCIÓN T DE STUDENTTRABAJO EN EQUIPO
  2. 2. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSEn estadística y probabilidad se llama distribución normal, distribución de Gauss odistribución gaussiana, a una de las distribuciones de probabilidad de variable continuaque con más frecuencia aparece en fenómenos reales.La gráfica de su función de densidad tiene una forma acampanada y es simétrica respectode un determinado parámetro. Esta curva se conoce como campana de Gauss.La importancia de esta distribución radica en que permite modelar numerosos fenómenosnaturales, sociales y psicológicos. Mientras que los mecanismos que subyacen a granparte de este tipo de fenómenos son desconocidos, por la enorme cantidad de variablesincontrolables que en ellos intervienen, el uso del modelo normal puede justificarseasumiendo que cada observación se obtiene como la suma de unas pocas causasindependientes.De hecho, la estadística es un modelo matemático que sólo permite describir unfenómeno, sin explicación alguna. Para la explicación causal es preciso el diseñoexperimental, de ahí que al uso de la estadística en psicología y sociología sea conocidocomo método correlacional.La distribución normal también es importante por su relación con la estimación pormínimos cuadrados, uno de los métodos de estimación más simples y antiguos.La distribución normal también aparece en muchas áreas de la propia estadística. Porejemplo, la distribución muestral de las medias muéstrales es aproximadamente normal,cuando la distribución de la población de la cual se extrae la muestra no es normal.[1]Además, la distribución normal maximiza la entropía entre todas las distribuciones conmedia y varianza conocidas, lo cual la convierte en la elección natural de la distribuciónsubyacente a una lista de datos resumidos en términos de media muestral y varianza. Ladistribución normal es la más extendida en estadística y muchos tests estadísticos estánbasados en una supuesta "normalidad".En probabilidad y estadística, la distribución t (de Student) es una distribución deprobabilidad que surge del problema de estimar la media de una población normalmentedistribuida cuando el tamaño de la muestra es pequeño.Aparece de manera natural al realizar la prueba t de Student para la determinación de lasdiferencias entre dos medias muestrales y para la construcción del intervalo de confianzapara la diferencia entre las medias de dos poblaciones cuando se desconoce ladesviación típica de una población y ésta debe ser estimada a partir de los datos de unamuestra.La distribución t de Student es la distribución de probabilidad del cocienteDonde• Z tiene una distribución normal de media nula y varianza 1• V tiene una distribución chi-cuadrado con grados de libertad• Z y V son independientesTRABAJO EN EQUIPO
  3. 3. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSSi μ es una constante no nula, el cociente es una variable aleatoria que sigue ladistribución t de Student no central con parámetro de no-centralidad μ.4.3 PRUEBAS DE SIGNIFICANCIALas pruebas de significancia estadística son un procedimiento que brinda un criterioobjetivo para calificar las diferencias que se presentan al comparar los resultados de dosmuestras, con el objetivo de explicar si dichas diferencias se mantienen dentro de loslímites previstos por el diseño estadístico (un error y una confianza esperados) o si, por elcontrario, la diferencia entre ellas resulta lo suficientemente grande como para inferir queha ocurrido un cambio real en el indicador4.4 COMPARACIÓN DE DOS MUESTRAS INDEPENDIENTES: PRUEBAS T PARA LASDIFERENCIAS ENTRE NORMALES.Para comparar las medias de dos muestras aleatorias procedentes de dos poblacionesnormales e independientes, se utiliza el procedimiento Prueba T para muestrasindependientes, y para ello, se selecciona:A continuación se abre una ventana con los siguientes campos:Contrastar variables: donde se han de introducir las variables que se van a analizar, esdecir, aquellas variables sobre las que se va a contrastar si hay o no, diferencias degrupos.Variable de agrupación: aquí se debe introducir la variable que se utiliza para definir losgrupos de sujetos sobre los que se estudian las diferencias. Entonces el sistema activa elbotón definir grupos y al presionarlo aparece una ventana donde se introducen los valoresde la variable que definen los dos grupos de sujetos a comparar, o el valor de la variableque hará de corte para definir dichos grupos. Si el valor de la variable para un individuo esmenor o igual que el valor especificado, el individuo pertenecerá al primer grupo, y encaso contrario, al segundo.Opciones: presionando este botón se obtiene una ventana donde se especifica igual queen la sección anterior el nivel de confianza para el intervalo y la forma de tratar los valoresmissing.Ejemplo: Vamos a comprobar si existen diferencias significativas entre los tiemposmedios de dedicación a la docencia, para los profesores asociados y los titulares deTRABAJO EN EQUIPO
  4. 4. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSuniversidad de Profesores2.sav. Para ello, seleccionamos el procedimiento Prueba T paramuestras independientes, y elegimos la variable Tiemdoc para llevarla al campocontrastar variables. Seguidamente seleccionamos como variable agrupación la variablecategoría, presionamos el botón definir grupos, y tecleamos un 1 en el primer grupo y un 3en el segundo. Por último pulsamos continuar y aceptar para ejecutar el procedimiento.El resultado que muestra la Tabla contiene dos tablas. La primera recoge para ambosgrupos, profesores asociados y titulares de universidad, el número de casos en cadamuestra, los tiempos medios dedicados a la docencia, las desviaciones típicas y loserrores típicos de la media. La segunda tabla muestra el valor del estadístico para laprueba de Levene sobre la igualdad de varianzas, junto con su p-valor. Este se distribuyecomo una F de Snedecor y vale 0.808, mientras que su p-valor 0.373, lo que nos conducea aceptar que las varianzas sean iguales, ya que el p-valor es mayor que 0.05. Tambiénaparece en la tabla el valor del estadístico para resolver el contraste de igualdad demedias, supuesto varianzas iguales y distintas, (en ambos casos se distribuye como una tde Student), junto con los correspondientes grados de libertad y sus p-valores. Puestoque hemos concluido que las varianzas coinciden, fijémonos en el que se han asumidovarianzas iguales, el cual vale 8.661, y cuyo p-valor es 0, luego se rechaza que lasmedias coincidan. Razonamiento que también se puede deducir del intervalo deconfianza, que no contiene el cero.Tabla : Contraste sobre las Medias de dos Poblaciones IndependientesPrueba T Estadísticos de GrupoDesviación Error típ. deCategoría N Media típ. la mediaTiempo diario 1 29 251,3759 29,36731 5,4534para la docencia 3 23 187,1000 22,5337 4,6986Prueba de muestras independientesPrueba deLeveneparala igualdad Prueba T para la igualdad de mediasdevarianzasF Sig. t glSig.bilateralDiferencia demediasErrortípico deladiferenciaIntervalo deconfianza parala diferenciaInferiorSuperiorTiempoAsumiendo0.8080,3738,66150 0.000 64,2759 7,420949,370479,1813diariovarianzasigualespara la NoAsumiend8,92949,9610.000 64,2759 7,1983 49,817378,7345TRABAJO EN EQUIPO
  5. 5. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSodocenciavarianzasigualesEn muchos estudios, incluidos la mayoría de los ensayos clínicos, es necesario compararciertas características en dos o más grupos de sujetos. Tal sería el caso, por ejemplo, sipensamos que un tratamiento nuevo puede tener un porcentaje de mejoría mayor queotro estándar, o cuando nos planteamos si los niños de las distintas comunidadesautónomas tienen o no la misma altura. En este artículo se analizará únicamente elproblema de la comparación de dos grupos con respecto a una variable continua. Laelección de un método de análisis apropiado en este caso dependerá de la naturaleza delos datos y la forma en la que estos hayan sido obtenidos. Fundamentalmente, cuando secomparan dos o más grupos de observaciones pueden darse dos tipos de diseño: aquelen el que las observaciones se refieren a dos grupos independientes de individuos, o elcaso en el que cada serie de datos se recoge en los mismos sujetos bajo condicionesdiferentes. El tipo de metodología será distinto según el caso en el que nos encontremos.Otro aspecto a tener en consideración será el tipo y distribución de los datos. Para gruposindependientes, los métodos paramétricos requieren que las observaciones en cadagrupo provengan de una distribución aproximadamente normal con una variabilidadsemejante, de modo que si los datos disponibles no verifican tales condiciones, puederesultar útil una transformación1,2,3de los mismos (aplicación del logaritmo, raíz cuadrada,etc.) o, en todo caso, se debería recurrir a la utilización de procedimientos noparamétricos4.Normalmente en este tipo de análisis podremos establecer una hipótesis de partida(hipótesis nula), que generalmente asume que el efecto de interés es nulo, por ejemploque la tensión arterial es la misma en hombres y mujeres o que dos tratamientos para lahipercolesterolemia son igualmente efectivos. Posteriormente se puede evaluar laprobabilidad de haber obtenido los datos observados si esa hipótesis es correcta. El valorde esta probabilidad coincide con el valor-p que nos proporciona cada test estadístico, demodo que cuanto menor sea éste más improbable resulta que la hipótesis inicial severifique.En un primer apartado, se presentará el test t de Student para dos muestrasindependientes, introduciendo las modificaciones necesarias en el caso de que lavariabilidad de ambos grupos sea distinta. A continuación se introducirá el test t deStudent para el caso de dos muestras dependientes.t de Student para dos muestras independientesUno de los análisis estadísticos más comunes en la práctica es probablemente el utilizadopara comparar dos grupos independientes de observaciones con respecto a una variablenumérica. Como ejemplo, consideremos los datos que se muestran en la Tabla 1,correspondientes a 75 individuos con sobrepeso sometidos a dos dietas alimenticiasdistintas, de modo que se desea comparar el peso de los individuos que iniciaron cadauna de las dietas.Como ya se ha adelantado, la aplicación de un contraste paramétrico requiere lanormalidad de las observaciones para cada uno de los grupos. La comprobación de estahipótesis puede realizarse tanto por métodos gráficos (por medio de histogramas,diagramas de cajas o gráficos de normalidad) como mediante tests estadísticos5(test deKolmogorov-Smirnov, test de Shapiro-Wilks). Un número suficiente de observaciones(digamos mayor de 30) como ocurre en el ejemplo planteado justifica, no obstante, lautilización del mismo test. Así mismo, este tipo de metodología exigirá que la varianza enambos grupos de observaciones sea la misma. En primer lugar se desarrollará el test t deTRABAJO EN EQUIPO
  6. 6. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSStudent para el caso en el que se verifiquen ambas condiciones, discutiendoposteriormente el modo de abordar formalmente el caso en el que las varianzas no seansimilares.Bajo las hipótesis de normalidad e igual varianza la comparación de ambos grupos puederealizarse en términos de un único parámetro como el valor medio (Figura 1a), de modoque en el ejemplo planteado la hipótesis de partida será, por lo tanto:H0: La media de peso inicial es igual en ambos gruposSe denotará por {X1, X2,...,Xn} e {Y1,Y2,...,Ym} al peso observado en cada uno de lossujetos sometidos a la dieta A y a la dieta B respectivamente. En general no se exigiráque coincida el número de observaciones en cada uno de los grupos que se comparan,de modo que en el ejemplo n=40 y m=35.El t test para dos muestras independientes se basa en el estadístico:(1)Donde e denotan el peso medio en cada uno de los grupos:y , las cuasi varianzas muéstrales correspondientes:Con lo cual, en este caso particular, el valor utilizado para el contraste será:Si la hipótesis de partida es cierta el estadístico (1) seguirá una distribución t de Studentcon n+m-2 grados de libertad. De ser así, el valor obtenido debería estar dentro del rangode mayor probabilidad según esta distribución. Usualmente se toma como referencia elrango de datos en el que se concentra el 95% de la probabilidad. El valor-p queusualmente reportan la mayoría de paquetes estadísticos no es más que la probabilidadde obtener, según esa distribución, un dato más extremo que el que proporciona el test.Como ya se dijo, refleja también la probabilidad de obtener los datos observados si fueseTRABAJO EN EQUIPO
  7. 7. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOScierta la hipótesis inicial. Si el valor-p es muy pequeño (usualmente se considera p<0.05)es poco probable que se cumpla la hipótesis de partida y se debería de rechazar. Laregión de aceptación corresponde por lo tanto a los valores centrales de la distribuciónpara los que p>0.05. En el ejemplo planteado el valor-p correspondiente es de 0.425, demodo que no existe evidencia estadística de que el peso medio en ambos grupos seadiferente. En la Tabla 2, se determina los grados de libertad (en la primera columna) y elvalor de α (en la primera fila). El número que determina su intersección es el valor críticocorrespondiente. De este modo, si el estadístico que se obtiene toma un valor mayor sedirá que la diferencia es significativa.Otro modo de obtener esta misma información es mediante el cálculo de intervalos deconfianza para la diferencia de la respuesta media en ambos grupos. A mayores, elintervalo de confianza constituye una medida de la incertidumbre con la que se estima esadiferencia a partir de la muestra, permitiendo valorar tanto la significación estadísticacomo la magnitud clínica de esa diferencia6. En el caso que nos ocupa, el intervalo deconfianza vendrá dado como:Donde denota el valor que según la distribución t de Student con n+m-2 grados delibertad deja a su derecha el 2.5% de los datos. En el ejemplo, el intervalo de confianzacon una seguridad del 95% para la diferencia de peso viene dado por:Que expresa en definitiva un rango de valores entre los que se puede encontrar el valorreal de la diferencia entre los pesos de ambos grupos. Proporciona además la mismainformación que obteníamos del contraste estadístico. El hecho de que el valor ceropertenezca al intervalo indica que no se dispone de evidencia para concluir que el pesosea distinto en ambos grupos.A medida que el tamaño muestral aumenta, la distribución del estadístico (1) se hace máspróxima a la de una variable Normal estándar. De este modo, en algunos textos se optapor utilizar esta distribución para realizar la comparación de medias. Aunque estaaproximación es correcta para muestras suficientemente grandes, ambos métodosproporcionan en este caso resultados prácticamente idénticos, por lo que resulta mássimple utilizar, independientemente del tamaño de la muestra, la misma metodología apartir de la distribución t. El mismo planteamiento podría utilizarse en el caso de varianzasdistintas o de muestras apareadas.Dos muestras dependientesYa se ha comentado que cuando se trata de comparar dos grupos de observaciones, esimportante distinguir el caso en el que son independientes de aquel en el que los datosestán apareados. Las series dependientes surgen normalmente cuando se evalúa unmismo dato más de una vez en cada sujeto de la muestra. También se puede encontrareste tipo de observaciones en estudios de casos y controles donde cada caso se apareaindividualmente con un control.Supongamos que queremos comprobar, en los datos de la Tabla 1 si realmente seproduce una pérdida de peso significativa en esos individuos, para lo que se recoge enTRABAJO EN EQUIPO
  8. 8. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOScada sujeto su peso antes y después de someterse a la dieta. En este tipo de análisis elinterés no se centra en la variabilidad que puede haber entre los individuos, sino en lasdiferencias que se observan en un mismo sujeto entre un momento y otro. Por estemotivo, resulta intuitivo trabajar con la diferencia de ambas observaciones (en el ejemploserá la pérdida de peso), de modo que se quiere contrastar la hipótesis:H0: La pérdida de peso es nula frente a la alternativa de que la pérdida de peso seaimportante (es decir, distinta de cero).La veracidad de dicha hipótesis puede ser contrastada igualmente mediante el test t deStudent. Como se ha dicho, este tipo de métodos tienen como hipótesis fundamental lanormalidad de los datos. En este caso, sin embargo, no será necesario que lasobservaciones en ambos grupos provengan de poblaciones normales, sino queúnicamente se requiere verificar la normalidad de su diferencia. Denotando por lapérdida media de peso la hipótesis de la que se parte es que:frente a la alternativaA partir de las observaciones muéstrales {Y1,Y2,..., Yn} e {Y1,Y2,...,Yn} en cada uno de losgrupos se calcula la diferencia de peso para cada sujeto {d1,d2,...,dn} con dj=Xj-Yjj=1,2,...,n. Nótese que en este caso un requisito fundamental es que se tenga un númeroigual de observaciones en ambos grupos. A partir de estos datos, el contraste se basa enel estadístico:o en el cálculo del 95% intervalo de confianza:Donde denota la media de la pérdida de peso estimada a partir de la muestra:y denota la cuasi varianza muestral de la diferencia dada por:En nuestro ejemplo el valor del estadístico vendría dado por:TRABAJO EN EQUIPO
  9. 9. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSa comparar del modo habitual con la distribución t de Student con n-1=74 grados delibertad. El intervalo de confianza para la pérdida media de peso correspondiente a unaseguridad del 95% es de (3.56;4.41), lo cual se traduce en una pérdida de pesosignificativamente distinta de cero, tal y como indica el valor-p correspondiente dep<0.001.Figura 1. Comparación de dos poblaciones normalesa) Poblaciones normales con igual varianza y medias distintasb) Poblaciones normales con igual y diferentes varianzas.Figura 2. Regiones de aceptación y rechazo en el contraste dehipótesisTRABAJO EN EQUIPO
  10. 10. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSTabla 1. Datos de 75 pacientes con sobrepeso sometidos ados dietas alimenticias.Dieta Peso inicial Peso final Dieta Peso inicial Peso finalA 94,07 86,59 B 88,02 84,12A 96,79 93,08 B 88,22 86,13A 92,15 87,85 B 103,45 101,21A 92,30 86,83 B 82,94 79,08A 96,50 92,70 B 89,71 86,19A 83,11 76,80 B 94,83 91,93A 91,16 83,40 B 81,93 78,97A 90,81 86,74 B 83,41 78,89A 81,37 77,67 B 73,59 69,76A 89,81 85,70 B 108,47 104,20A 84,92 79,96 B 72,67 70,01TRABAJO EN EQUIPO
  11. 11. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSA 84,43 79,80 B 96,84 93,66A 86,33 81,15 B 88,48 87,00A 87,60 81,92 B 89,57 87,24A 81,08 76,32 B 85,22 82,09A 92,07 90,20 B 103,76 102,24A 81,14 73,34 B 87,84 84,66A 96,87 93,58 B 91,50 88,95A 99,59 92,36 B 93,04 88,73A 83,90 77,23 B 92,14 88,07A 89,41 85,45 B 85,26 81,36A 85,31 84,59 B 89,42 86,64A 89,25 84,89 B 92,42 88,99A 93,20 93,10 B 93,13 89,73A 89,17 86,87 B 80,86 77,81A 93,51 86,36 B 88,75 85,93A 88,85 83,24 B 95,02 91,90A 88,40 81,20 B 92,29 91,28A 82,45 77,18 B 89,43 87,22A 96,47 88,61 B 93,32 89,77A 99,48 94,67 B 92,88 89,38A 99,95 93,87 B 89,88 88,00A 100,05 94,15 B 82,25 80,81A 87,33 82,17 B 88,99 86,87A 87,61 86,01 B 82,07 79,74TRABAJO EN EQUIPO
  12. 12. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSA 89,28 83,78A 89,72 83,56A 95,57 89,58A 97,71 91,35A 98,73 97,824.5 PRUEBA DE FISHER PARA VARIANZAS Y DE IGUALDAD DE LAS VARIANZASDE DOS POBLACIONES NORMALES.La necesidad de disponer de métodos estadísticos para comparar las varianzas de dospoblaciones es evidente a partir del análisis de una sola población. Frecuentemente sedesea comparar la precisión de un instrumento de medición con la de otro, la estabilidadde un proceso de manufactura con la de otro o hasta la forma en que varía elprocedimiento para calificar de un profesor universitario con la de otro.Intuitivamente, podríamos comparar las varianzas de dos poblaciones, y ,utilizando la razón de las varianzas muestrales s21/s22. Si s21/s22 es casi igual a 1, se tendrápoca evidencia para indicar que y no son iguales. Por otra parte, un valor muygrande o muy pequeño para s21/s22, proporcionará evidencia de una diferencia en lasvarianzas de las poblaciones.La variable aleatoria F se define como el cociente de dos variables aleatorias ji-cuadradaindependientes, cada una dividida entre sus respectivos grados de libertad. Esto es,Donde U y V son variables aleatorias ji-cuadrada independientes con grados de libertady  respectivamente.Sean U y V dos variables aleatorias independientes que tienen distribución ji cuadradascon grados de libertad, respectivamente. Entonces la distribución de la variablealeatoria está dada por:TRABAJO EN EQUIPO
  13. 13. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSy se dice que sigue la distribución F con grados de libertad en el numerador ygrados de libertad en el denominador.La media y la varianza de la distribución F son:paraparaLa variable aleatoria F es no negativa, y la distribución tiene un sesgo hacia la derecha.La distribución F tiene una apariencia muy similar a la distribución ji-cuadrada; sinembargo, se encuentra centrada respecto a 1, y los dos parámetros proporcionanuna flexibilidad adicional con respecto a la forma de la distribución.Si s12y s22son las varianzas muéstrales independientes de tamaño n1 y n2 tomadas depoblaciones normales con varianzas y , respectivamente, entonces:Para manejar las tablas de Fisher del libro de Introducción a la Inferencia Estadística delautor Güenther, se tendrá que buscar primero los grados de libertad dos para luegolocalizar el área correspondiente, relacionándola con los grados de libertad uno, paracalcular el valor de F.Las tablas tienen la siguiente estructura:TRABAJO EN EQUIPO
  14. 14. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSP1 2 3 ……. ….. 500 …6 0.00050.0010.005..0.9995 30.4El valor de 30.4 es el correspondiente a una Fisher que tiene 3 grados de libertad uno y 6grados de libertad dos con un área de cero a Fisher de 0.995. Si lo vemos gráficamente:Como nos podemos imaginar existen varias curvas Fisher, ya que ahora su formadepende de dos variables que son los grados de libertad.Ejemplos:1. Encontrar el valor de F, en cada uno de los siguientes casos:a. El área a la derecha de F, es de 0.25 con =4 y =9.b. El área a la izquierda de F, es de 0.95 con =15 y =10.c. El área a la derecha de F es de 0.95 con con =6 y =8.d. El área a la izquierda de F, es de 0.10 con con =24 yTRABAJO EN EQUIPO
  15. 15. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOS=24Solución:Como el área que da la tabla es de cero a Fisher, se tiene que localizar primero losgrados de libertad dos que son 9, luego un área de 0.75 con 4 grados de libertad uno.En este caso se puede buscar el área de 0.95 directamente en la tabla con susrespectivos grados de libertad.Se tiene que buscar en la tabla un área de 0.05, puesto que nos piden un área a laderecha de F de 0.95.Se busca directamente el área de 0.10, con sus respectivos grados de libertad.TRABAJO EN EQUIPO
  16. 16. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSSi s12y s22son las varianzas muéstrales de muestras aleatorias independientes detamaños n1=10 y n2 =20, tomadas de poblaciones normales que tienen las mismasvarianzas, encuentre P(s12/s222.42).Solución:Primero se establecen los grados de libertad. Como en el numerador está la poblaciónuno y en el denominador la población dos, entonces los grados de libertad uno equivalena 10-1=9 y los grados de libertad dos a 20-1=19.Se procede a ir a la tabla a buscar los grados de libertad dos que son 19 y se observa queno están, por lo tanto se tiene que interpolar entre 15 y 20 grados de libertad, buscando elvalor de fisher que quedaría:Este valor de 2.42 se busca en la columna de 9 grados de libertad uno, con 15 grados delibertad dos, y se encuentra el siguiente:Area0.90 2.090.95 2.59Al interpolar entre estos dos valores nos queda un área de 0.933.Se procede a hacer lo mismo pero con 20 grados de libertad dos:Area0.95 2.390.975 2.84TRABAJO EN EQUIPO
  17. 17. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSAl interpolar entre estos dos valores nos queda un área de 0.9516.Ahora ya se tienen las dos áreas referentes a los grados de libertad dos, por lo que seinterpolará para ver cuánto le corresponde a los grados libertad dos con un valor de 19.Al interpolar nos queda que para 9 grados de libertad uno y 19 grados delibertad dos con un valor de Fisher de 2.42 el área a la izquierda es de0.9478.Si s12y s22representan las varianzas de las muestras aleatorias independientes detamaño n1= 25 y n2 = 31, tomadas de poblaciones normales con varianzas 12=10 y22= 15, respectivamente, encuentre P(s12/s22> 1.26).Solución:Calcular el valor de Fisher:Luego se va a la tabla de Fisher a buscar 30 grados de libertad 2 con 24 grados delibertad uno. Cuando se este en esta posición se busca adentro de la tabla el valor deFisher de 1.89. Al localizarlo y ver a la izquierda de este valor se obtiene un área de 0.95,pero esta área correspondería a la probabilidad de que las relaciones de varianzasmuéstrales fueran menor a 1.26, por lo que se calcula su complemento que sería 0.05,siendo esta la probabilidad de que s12/s22> 1.26.Intervalo de Confianza para el Cociente de Varianzas de Dos Distribuciones NormalesSupóngase que se tienen dos poblaciones normales e independientes con varianzasdesconocidas 2y 22, respectivamente. De este par de poblaciones, se tienendisponibles dos muestras aleatorias de tamaños n1 y n2, respectivamente, sean s12y s22TRABAJO EN EQUIPOArea15 0.93320 0.9516
  18. 18. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSlas dos varianzas muestrales. Se desea conocer un intervalo de confianza del 100() por ciento para el cociente de las dos varianzas, 12/ 22.Para construir el intervalo de confianza para el cociente de dos varianzas poblacionales,se coloca la varianza muestral mayor en el numerador del estadístico F.Ejemplos:Un fabricante de automóviles pone a prueba dos nuevos métodos de ensamblaje demotores respecto al tiempo en minutos. Los resultados se muestran el la tabla:Método 1 Método 2n1 = 31 n2 = 25s12= 50 s22= 24Construya un intervalo de confianza del 90% para 12/ 22.Solución:Por la recomendación de que la varianza muestral mayor va en el numerador se tiene lasiguiente fórmula:al despejar: .F toma dos valores dependiendo del nivel de confianza y de los grados de libertad. Eneste caso los grados de libertad uno valen 30 y los grados de libertad dos 24.1.2. y4.6 COMPARACIONES DE DOS MUESTRAS PAREADASTRABAJO EN EQUIPO
  19. 19. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSUna de las hipótesis sobre las que habitualmente se fundamentan las pruebasestadísticas de comparación es que las observaciones pertenecientes a cada una de lasmuestras son independientes entre sí, no guardan relación; siendo precisamente ese unode los objetivos de la aleatorización (elección aleatoria de los sujetos o unidades deobservación). Sin embargo, la falta de independencia entre las observaciones de losgrupos puede ser una característica del diseño del estudio para buscar fundamentalmenteuna mayor eficiencia del contraste estadístico al disminuir la variabilidad. En otrasocasiones con este tipo de diseño pareado lo que se busca es dar una mayor validez a lasinferencias obtenidas, controlando o eliminando la influencia de variables extrañas cuyoefecto ya es conocido o sospechado, y no se desea que intervenga en el estudio actualpudiendo enmascarar el efecto del tratamiento o de la variable de interés.Las muestras apareadas se obtienen usualmente como distintas observaciones realizadassobre los mismos individuos. Un ejemplo de observaciones pareadas consiste enconsiderar a un conjunto de n personas a las que se le aplica un tratamiento médico y semide por ejemplo el nivel de insulina en la sangre antes (X) y después del mismo (Y). Eneste ejemplo no es posible considerar aX eY como variables independientes ya que va aexistir una dependencia clara entre las dos variables.4.7 MODELO TOTALMENTE ALEATORIO: ANÁLISIS DE VARIANZA DE UN FACTOR.Hay varias formas en las cuales puede diseñarse un experimento ANOVA. Quizás el máscomún es el diseño completamente aleatorizado a una vía. El término proviene del hechoque varios sujetos o unidades experimentales se asignan aleatoriamente a diferentesniveles de un solo factor. Por ejemplo: varios empleados (unidades experimentales)pueden seleccionarse aleatoriamente para participar en diversos tipos (niveles diferentes)de un programa de capacitación (el factor).El análisis de varianza se basa en una comparación de la cantidad de variación en cadauno de los tratamientos. Si de un tratamiento al otro la variación es significativamente alta,puede concluirse que los tratamientos tienen efectos diferentes en las poblaciones.a. Esta variación entre el número total de las 14 observaciones. Esto se llama variacióntotal.b. Existe variación entre los diferentes tratamientos (muestras). Esto se llama variaciónentre muestras.c. Existe variación dentro de un tratamiento dado (muestra). Esto se denominavariación dentro de la muestra.4.8 SELECCIÓN DEL TAMAÑO DE MUESTRA PARA ESTIMAR LA DIFERENCIA DEDOS MEDIASEn Estadística el tamaño de la muestra es el número de sujetos que componen la muestraextraída de una población, necesarios para que los datos obtenidos sean representativosde la población.1. Estimar un parámetro determinado con el nivel de confianza deseado.2. Detectar una determinada diferencia, si realmente existe, entre los grupos deestudio con un mínimo de garantía.3. Reducir costes o aumentar la rapidez del estudio.Por ejemplo, en un estudio de investigación epidemiológico la determinación de untamaño adecuado de la muestra tendría como objetivo su factibilidad. Así:Si el número de sujetos es insuficiente habría que modificar los criterios de selección,solicitar la colaboración de otros centros o ampliar el periodo de reclutamiento. LosTRABAJO EN EQUIPO
  20. 20. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSestudios con tamaños muestrales insuficientes, no son capaces de detectar diferenciasentre grupos, llegando a la conclusión errónea de que no existe tal diferencia.Si el número de sujetos es excesivo, el estudio se encarece desde el punto de vistaeconómico y humano. Además es poco ético al someter a más individuos a unaintervención que puede ser menos eficaz o incluso perjudicial.El tamaño de una muestra es el número de individuos que contiene.Una fórmula muy extendida que orienta sobre el cálculo del tamaño de la muestra paradatos globales es la siguiente:n = ( (k^2) * N*p*q) / ( (e^2 * (N-1) )+( (k^2) * p*q))N: es el tamaño de la población o universo (número total de posibles encuestados).k: es una constante que depende del nivel de confianza que asignemos. El nivel deconfianza indica la probabilidad de que los resultados de nuestra investigación seanciertos: un 95,5 % de confianza es lo mismo que decir que nos podemos equivocar conuna probabilidad del 4,5%.Los valores k más utilizados y sus niveles de confianza son:K 1,15 1,28 1,44 1,65 1,96 2 2,58Nivel de confianza 75% 80% 85% 90% 95% 95,5% 99%(Por tanto si pretendemos obtener un nivel de confianza del 95% necesitamos poner en lafórmula k=1,96)e: es el error muestral deseado. El error muestral es la diferencia que puede haber entreel resultado que obtenemos preguntando a una muestra de la población y el queobtendríamos si preguntáramos al total de ella.Ejemplos:Ejemplo 1: si los resultados de una encuesta dicen que 100 personas comprarían unproducto y tenemos un error muestral del 5% comprarán entre 95 y 105 personas.Ejemplo 2: si hacemos una encuesta de satisfacción a los empleados con un errormuestral del 3% y el 60% de los encuestados se muestran satisfechos significa que entreel 57% y el 63% (60% +/- 3%) del total de los empleados de la empresa lo estarán.Ejemplo 3: si los resultados de una encuesta electoral indicaran que un partido iba aobtener el 55% de los votos y el error estimado fuera del 3%, se estima que el porcentajereal de votos estará en el intervalo 52-58% (55% +/- 3%).p: proporción de individuos que poseen en la población la característica de estudio. Estedato es generalmente desconocido y se suele suponer que p=q=0.5 que es la opción mássegura.q: proporción de individuos que no poseen esa característica, es decir, es 1-p.n: tamaño de la muestra (número de encuestas que vamos a hacer).Altos niveles de confianza y bajo margen de error no significan que la encuesta sea demayor confianza o esté más libre de error necesariamente; antes es preciso minimizar laprincipal fuente de error que tiene lugar en la recogida de datos. Para calcular el tamañode la muestra suele utilizarse la siguiente fórmula:Otra fórmula para calcular el tamaño de la muestra es:n=(Nσ^2 Z^2)/((N-1) e^2+σ^2 Z^2 ) Donde: n = el tamaño de la muestra.N = tamaño de la población.TRABAJO EN EQUIPO
  21. 21. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSσ= Desviación estándar de la población que, generalmente cuando no se tiene su valor,suele utilizarse un valor constante de 0,5. Z = Valor obtenido mediante niveles deconfianza. Es un valor constante que, si no se tiene su valor, se lo toma en relación al95% de confianza equivale a 1,96 (como más usual) o en relación al 99% de confianzaequivale 2,58, valor que queda a criterio del encuestador. e = Límite aceptable de errormuestral que, generalmente cuando no se tiene su valor, suele utilizarse un valor quevaría entre el 1% (0,01) y 9% (0,09), valor que queda a criterio del encuestador.La fórmula anterior se obtiene de la fórmula para calcular la estimación del intervalo deconfianza para la media:X -Z σ/√n̅ √((N-n)/(N-1))≤μ≤X +Z σ/√n √((N-n)/(N-1))̅En donde el error es:e=Z σ/√n √ ((N-n)/(N-1))Elevando al cuadrado el error se tiene: 〖 (e) 〗 ^2=(Z σ/√n √((N-n)/(N-1)))^2 e^2=Z^2σ^2/n (N-n)/(N-1)Multiplicando fracciones: e^2= (〖Z^2 σ〗^2 (N-n))/n(N-1)Eliminando denominadores: e^2 n(N-1)=〖Z^2 σ〗^2 (N-n)Eliminando paréntesis: e^2 nN-e^2 n=〖Z^2 σ〗^2 N-〖Z^2 σ〗^2 nTransponiendo n a la izquierda: e^2 nN-e^2 n+〖Z^2 σ〗^2 n=〖Z^2 σ〗^2 NFactor común de n:n(e^2 N-e^2+Z^2 σ^2 )=〖Z^2 σ〗^2 NDespejando n:n=(〖Z^2 σ〗^2 N)/(e^2 N-e^2+Z^2 σ^2 )Ordenando se obtiene la fórmula para calcular el tamaño de la muestra:n=(Nσ^2 Z^2)/((N-1) e^2+σ^2 Z^2 )Ejemplo ilustrativo: Calcular el tamaño de la muestra de una población de 500 elementoscon un nivel de confianza del 99%Solución: Se tiene N=500, para el 99% de confianza Z = 2,58, y como no se tiene losdemás valores se tomará σ=0,5, y e = 0,05.Reemplazando valores en la fórmula se obtiene:n=(Nσ^2 Z^2)/((N-1) e^2+σ^2 Z^2 )n=(500∙ 〖 0,5 〗 ^2 〖 ∙ 2,58 〗 ^2)/((500-1) 〖 (±0,05) 〗 ^2+ 〖 0,5 〗 ^2∙ 〖 2,58 〗 ^2 )=832,05/2,9116=285,77=286Suponga que se tienen dos poblaciones distintas, la primera con media 1 y desviaciónestándar 1, y la segunda con media 2 y desviación estándar 2. Más aún, se eligeuna muestra aleatoria de tamaño n1 de la primera población y una muestra independientealeatoria de tamaño n2 de la segunda población; se calcula la media muestral para cadamuestra y la diferencia entre dichas medias. La colección de todas esas diferencias sellama distribución muestral de lasTRABAJO EN EQUIPO
  22. 22. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSEjemplo: Si se tienen dos poblaciones con medias 1 y 2 y varianzas 12y 22,respectivamente, un estimador puntual de la diferencia entre 1 y 2 está dado por laestadística . Por tanto. Para obtener una estimación puntual de1- 2, se seleccionan dos muestras aleatorias independientes, una de cada población,de tamaño n1 y n2, se calcula la diferencia , de las medias muestrales.Recordando a la distribución muestral de diferencia de medias:Al despejar de esta ecuación 1- 2 se tiene:En el caso en que se desconozcan las varianzas de la población y los tamaños demuestra sean mayores a 30 se podrá utilizar la varianza de la muestra como unaestimación puntual.Ejemplo: Se lleva a cabo un experimento en que se comparan dos tipos de motores, A yB. Se mide el rendimiento en millas por galón de gasolina. Se realizan 50 experimentoscon el motor tipo A y 75 con el motor tipo B. La gasolina que se utiliza y las demáscondiciones se mantienen constantes. El rendimiento promedio de gasolina para el motorA es de 36 millas por galón y el promedio para el motor B es 24 millas por galón.Encuentre un intervalo de confianza de 96% sobre la diferencia promedio real para losmotores A y B. Suponga que las desviaciones estándar poblacionales son 6 y 8 para losmotores A y B respectivamente.Solución:Es deseable que la diferencia de medias sea positiva por lo que se recomienda restar lamedia mayor menos la media menor. En este caso será la media del motor B menos lamedia del motor A.El valor de z para un nivel de confianza del 96% es de 2.05.3.43< B- A<8.57TRABAJO EN EQUIPO
  23. 23. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSLa interpretación de este ejemplo sería que con un nivel de confianza del 96% ladiferencia del rendimiento promedio esta entre 3.43 y 8.57 millas por galón a favor delmotor B. Esto quiere decir que el motor B da mas rendimiento promedio que el motor A,ya que los dos valores del intervalo son positivos.Una compañía de taxis trata de decidir si comprar neumáticos de la marca A o de la Bpara su flotilla de taxis. Para estimar la diferencia de las dos marcas, se lleva a cabo unexperimento utilizando 12 de cada marca. Los neumáticos se utilizan hasta que sedesgastan, dando como resultado promedio para la marca A 36,300 kilómetros y para lamarca B 38,100 kilómetros. Calcule un intervalo de confianza de 95% para la diferenciapromedio de las dos marcas, si se sabe que las poblaciones se distribuyen de formaaproximadamente normal con desviación estándar de 5000 kilómetros para la marca A y6100 kilómetros para la marca B.Solución:-2662.68< B- A<6262.67Gráficamente:Como el intervalo contiene el valor "cero", no hay razón para creer que el promedio deduración del neumático de la marca B es mayor al de la marca A, pues el cero nos estáindicando que pueden tener la misma duración promedio.4.9 APLICACIONESUNIDAD 5 PRUEBAS DE HIPOTESIS CON DOS MUESTRAS DATOS CATEGORICOSY VARIAS MUESTRAS CON DATOS CATEGORICOS.Prueba De Hipótesis Para ProporcionesEl concepto de prueba de hipótesis se puede utilizar para probar hipótesis en relación condatos cualitativos. Por ejemplo, en el problema anterior el gerente de la fábrica de llantasquería determinar la proporción de llantas que se reventaban antes de 10,000 millas. EsteTRABAJO EN EQUIPO
  24. 24. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSes un ejemplo de una variable cualitativa, dado que se desea llegar a conclusiones encuanto a la proporción de los valores que tienen una característica particular.El gerente de la fábrica de llantas quiere que la calidad de llantas producidas, sea lobastante alta para que muy pocas se revienten antes de las 10,000 millas. Si más de un8% de las llantas se revientan antes de las 10,000 millas, se llegaría a concluir que elproceso no funciona correctamente. La hipótesis nula y alternativa se pueden expresarcomo sigue:Ho: p .08 (funciona correctamente)H1: p > .08 (no funciona correctamente)La prueba estadística se puede expresar en términos de la proporción de éxitos comosigue:En dondep = proporción de éxitos de la hipótesis nulaAhora se determinará si el proceso funciona correctamente para las llantas producidaspara el turno de día. Los resultados del turno de día indican que cinco llantas en unamuestra de 100 se reventaron antes de 10,000 millas para este problema, si se seleccionaun nivel de significancia de .05, las regiones de rechazo y no rechazo se estableceríancomo a continuación se muestra:Y la regla de decisión sería:Rechazar Ho si > + 1.645; de lo contrario no rechazar Ho.Con los datos que se tienen,= .05Y entonces,= −1.107Z −1.107 < + 1.645; por tanto no rechazar Ho.La hipótesis nula no se rechazaría por que la prueba estadística no ha caído en la regiónde rechazo. Se llegaría a la conclusión de que no hay pruebas de que más del 8% de lasllantas producidas en el turno de día se revienten antes de 10,000 millas. El gerente no haencontrado ninguna prueba de que ocurra un número excesivo de reventones en lasllantas producidas en el turno de día.Pruebas de hipótesis a partir de proporciones.TRABAJO EN EQUIPO
  25. 25. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSLas pruebas de hipótesis a partir de proporciones se realizan casi en la misma formautilizada cuando nos referimos a las medias, cuando se cumplen las suposicionesnecesarias para cada caso. Pueden utilizarse pruebas unilaterales o bilateralesdependiendo de la situación particular.La proporción de una poblaciónLas hipótesis se enuncian de manera similar al caso de la media.Ho: p = p0H1: p ¹ p0En caso de que la muestra sea grande n>30, el estadígrafo de prueba es:Se distribuye normal estándar.Regla de decisión: se determina de acuerdo a la hipótesis alternativa (si es bilateral ounilateral), lo cual puedes fácilmente hacerlo auxiliándote de la tabla 4.4.1.En el caso de muestras pequeñas se utiliza la distribución Binomial. No lo abordaremospor ser complicado y poco frecuente su uso. Diferencia entre las proporciones de dospoblacionesLa situación más frecuente es suponer que existen diferencias entre las proporciones dedos poblaciones, para ello suelen enunciarse las hipótesis de forma similar al caso de lasmedias:Ho: p1 = p2 Þ p1 - p2 = 0H1: p1 ¹ p2Puede la hipótesis alternativa enunciarse unilateralmente.El estadígrafo de prueba para el caso de muestras independientes:Siendo a1 y a2, el número de sujetos con la característica objeto de estudio en lasmuestras 1 y 2 respectivamente, es decir, en vez de calcular la varianza para cadamuestra, se calcula una p conjunta para ambas muestras bajo el supuesto que no haydiferencias entre ambas proporciones y así se obtiene la varianza conjunta. Recuerda queq = 1-p.Está de más que te diga que este estadígrafo se distribuye normal estándar.La regla de decisión se determina de manera similar a los casos ya vistos anteriormente.El objetivo de la prueba es comparar estas dos proporciones, como estimadoresTRABAJO EN EQUIPO
  26. 26. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSH1: p1 ¹ p2Recuerda que la H1 también puede plantearse de forma unilateral.5.1 PRUEBA Z PARA LA DIFERENCIA ENTRE DOS PROPORCIONES.En algunos diseños de investigación, el plan muestral requiere seleccionar dos muestrasindependientes, calcular las proporciones muestrales y usar la diferencia de las dosproporciones para estimar o probar una diferencia entre las mismas.Las aplicaciones son similares a la diferencia de medias, por ejemplo si dos empresasconsultoras ofrecen datos de proporciones de personas que van a votar por el PRI y alhacer dos estudios diferentes salen resultados ligeramente diferentes ¿pero qué tantadiferencia se requiere para que sea estadísticamente significativo? De eso se pruebasestadísticas de diferencias de proporciones.El estadístico Z para estos casos se calcula de la siguiente manera:Ejemplo: Una muestra de 87 mujeres trabajadoras profesionales mostró que la cantidadpromedio que pagan a un fondo de pensión privado el 5% de su sueldo. Una muestra de76 hombres trabajadores profesionales muestra que la cantidad que paga un fondo depensión privado es 6.1% de su sueldo. Un grupo activista de mujeres desea demostrarque las mujeres no pagan tanto como los hombres en fondos de pensión privados. Si seusa alfa = 0.01 ¿Se confirma lo que el grupo activista de mujeres desea demostrar o no?Paso 1. Determinar la hipótesis Nula “Ho” y Alternativa “Ha”Nótese que este problema es de una cola.TRABAJO EN EQUIPO
  27. 27. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSHo: Lo que pagan las mujeres en el fondo de pensión es igual o mayor a lo que paganlos hombres (algunos autores solo le colocan igual).Ha: _______________________________________(El estudiante debe describir la Ha)La hipótesis alternativa es lo que las mujeres del grupo activista desean demostrar.Paso 2.Determinar el nivel de significancia. Definida por el analista, en este casi se desea usar α= 0.01Gráficamente el nivel de significancia se distribuye en la curva de distribución normalcomo se muestra en la figura:Paso 3.Calcular los intervalos que implican ese nivel de significanciaPara dicho nivel de significancia el valor de Z es: Z=-2.326Gráficamente queda de la siguiente manera:TRABAJO EN EQUIPO
  28. 28. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSPaso 4TRABAJO EN EQUIPO
  29. 29. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSEjemplo: En un estudio de infección de vías urinarias no complicadas, los pacientesfueron asignados para ser tratados con trimetoprim / sulfametoxazol o fosfomicina /trometamol.92% de los 100 tratados con fosfomicina/ trometamol mostraron curación bacteriológicamientras que el 61% de los 100 manejados con trimetoprim / sulfametoxazol se curó lainfección.Cuando comparamos proporciones de muestras independientes, debemos primerocalcular la diferencia en proporciones. El análisis para comparar dos proporcionesindependientes es similar al usado para dos medias independientes. Calculamos unintervalo de confianza y una prueba de hipótesis para la diferencia en proporciones.La notación que usamos para el análisis de dos proporciones es el mismo que para unaproporción. Los números inferiores son para distinguir los dos grupos.Parámetros Población1 2Muestra1 2Proporción π1 π2 p1 p2TRABAJO EN EQUIPO
  30. 30. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSDesviaciónestándar√π1(1-π2) √π2(1-π2)√p1(1-p1) √p2(1-p2)El cuadrado del error estándar de una proporción es conocido como la varianza de laproporción La varianza de la diferencia entre las dos proporciones independientes es iguala la suma de las varianzas de las dos proporciones de las muestras. Las varianzas sonsumadas debido a que cada muestra contribuye al error de muestreo en la distribución delas diferencias.ES = √p(1-p)/n Varianza = p(1-p)/np1(1- p1) p2(1- p2)Varianza (p1-p2)= varianza de p1 + varianza de p2 = --------- + ----------n1 n2El error estándar de la diferencia entre dos proporciones es dado por la raíz cuadrada dela varianza.ES (p1-p2)= √[p1(1-p1)/n1 + p2(1-p2)/n2]Para calcular el intervalo de confianza necesitamos conocer el error estándar de ladiferencia entre dos proporciones.El error estándar de la diferencia entre dos proporciones es la combinación del errorestándar de las dos distribuciones independientes, ES (p1) y ES (p2).Hemos estimado la magnitud de la diferencia de dos proporciones de las muestras; ahoracalcularemos el intervalo de confianza para esa estimación.La fórmula general para el intervalo de confianza al 95% es:Estimado ±1.96 x ESLa fórmula para 95% IC de dos proporciones sería:(p1-p2) ± 1.96 ES(p1-p2)En el estudio de infección de vías urinarias, la proporción en el grupo de fosfomicina/trometamol fue 0.92 y para trimetoprim/ sulfametoxazol fue 0.61Diferencia en proporciones = 0.92-0.61=0.31ES = √[(0.92(1-0.92)/100 + 0.61(1-0.61)/100] = 0.056El intervalo de confianza al 95% sería:0.31 ± 1.96 (0.056) = 0.31±0.11 = 0.2 a 0.42El intervalo de confianza al 95% sería:1.96 (0.056) = 0.31±0.11 = 0.2 a 0.42TRABAJO EN EQUIPO
  31. 31. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSTengo 95% de confianza de que la diferencia en las proporciones en la población estaríaentre 0.2 y 0.42. Como la diferencia no incluye 0, estamos confiados que en la poblaciónla proporción de curados con fosfomicina/trometamol es diferente que con trimetoprimsulfametoxazol.Una prueba de hipótesis usa la diferencia observada y el error estándar de la diferencia.Sin embargo, usamos un error estándar ligeramente diferente para calcular la prueba dehipótesis. Esto se debe a que estamos evaluando la probabilidad de que los datosobservados asumen que la hipótesis nula es verdad. La hipótesis nula es que no haydiferencia en las proporciones de las dos poblaciones y ambas grupos tienen unaproporción común, π.El mejor estimado que podemos obtener de π es la proporción común, p, de las dosproporciones de la muestra.P=r1+r2/n1+n2Donde:r1 y r2 son los números de respuestas positivas en cada muestran1 y n2 son los tamaños de muestra en cada muestra.La proporción común siempre estará entre las dos proporciones individuales.El error estándar puede ser calculado sustituyendo p, por p1 y p2. ES(p1-p2)=√p(1-p)(1/n1+1/n2) Esto se conoce como error estándar agrupado.En el estudio de infección de vías urinarias, la proporción en el grupo de fosfomicina/trometamol fue 0.92 y para trimetoprim/ sulfametoxazol fue 0.61 Fueron 100 intregrantesen cada grupo.Proporción común, p= 92 + 61/100+100 = 153/200 = 0.765ES(p1-p2)=√0.77(1-0.77)(1/100 +1/100)= √0.1771 x 0.002 = 0.019Si asumimos una aproximación a la Normalidad para la distribución Binomial, calculamosla prueba de z , como antes. Para calcular la prueba de hipótesis, debemos:1.- Señalar la hipótesis nula Ho2.- Señalar la hipótesis alternativa H13.- Calcular la prueba de hipótesis z.Hipótesis nula:Cuando comparamos dos proporciones de poblaciones independientes es usualmenteque las dos proporciones son iguales.Ho: π1 = π2Es lo mismo que si la diferencia en las proporciones de las dos poblaciones es igual a 0.Ho: π1 - π2 = 0TRABAJO EN EQUIPO
  32. 32. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSHipótesis alternativa:Es usualmente que las dos proporciones no son iguales.H1: π1 ≠ π2Es lo mismo que la diferencia en proporciones no es igual a cero.H1: π1 – π2 ≠ 00.92 de éxito para fosfomicina / trometamol y 0.61 para trimetoprim / sulfametoxazolES = 0.019(p1-p2) – 0 0.31 - 0z= -------------- = -----------= 16.3ES(p1-p2) 0.019P<0.05Rechazamos la hipótesis nula de que las dos proporciones son iguales y aceptamos lahipótesis alternativa de que son diferentes.5.2 PRUEBA PARA LA DIFERENCIA ENTRE DOS PROPORCIONES.Las pruebas de hipótesis a partir de proporciones se realizan casi en la misma formautilizada cuando nos referimos a las medias, cuando se cumplen las suposicionesnecesarias para cada caso. Pueden utilizarse pruebas unilaterales o bilateralesdependiendo de la situación particular.La proporción de una poblaciónLas hipótesis se enuncian de manera similar al caso de la media.Ho: p = p0H1: p ¹ p0En caso de que la muestra sea grande n>30, el estadígrafo de prueba es: se distribuyenormal estándar.Regla de decisión: se determina de acuerdo a la hipótesis alternativa (si es bilateral ounilateral. En el caso de muestras pequeñas se utiliza la distribución Binomial. No loabordaremos por ser complicado y poco frecuente su uso.Diferencia entre las proporciones de dos poblacionesLa situación más frecuente es suponer que existen diferencias entre las proporciones dedos poblaciones, para ello suelen enunciarse las hipótesis de forma similar al caso de lasmedias:Ho: p1 = p2 Þ p1 - p2 = 0TRABAJO EN EQUIPO
  33. 33. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSH1: p1 ¹ p2Puede la hipótesis alternativa enunciarse unilateralmente.El estadígrafo de prueba para el caso de muestras independientes: dondeSiendo a1 y a2, el número de sujetos con la característica objeto de estudio en lasmuestras 1 y 2 respectivamente, es decir, en vez de calcular la varianza para cadamuestra, se calcula una p conjunta para ambas muestras bajo el supuesto que no haydiferencias entre ambas proporciones y así se obtiene la varianza conjunta. Recuerda queq = 1-p.Está de más que te diga que este estadígrafo se distribuye normal estándar.La regla de decisión se determina de manera similar a los casos ya vistos anteriormente.El objetivo de la prueba es comparar estas dos proporciones, como estimadoresH1: p1 ¹ p2Recuerda que la H1 también puede plantearse de forma unilateral. En algunos diseños deinvestigación, el plan muestral requiere seleccionar dos muestras independientes, calcularlas proporciones muéstrales y usar la diferencia de las dos proporciones para estimaraprobar una diferencia entre las mismas .Las aplicaciones son similares a la diferencia demedias, por ejemplo si dos empresas consultoras ofrecen datos de proporciones depersonas que van a votar por el PRI y al hacer dos estudios diferentes salen resultadosligeramente diferentes ¿pero qué tanta diferencia se requiere para que seaestadísticamente significativo? De eso se tratan las Pruebas estadísticas de diferenciasde proporciones.Estimación de la Diferencia de dos ProporcionesEn la sección anterior se vio el tema de la generación de las distribuciones muestrales, endonde se tenía el valor de los parámetros, se seleccionaban dos muestras y podíamoscalcular la probabilidad del comportamiento de los estadísticos. Para este caso enparticular se utilizará la distribución muestral de diferencia de proporciones para laestimación de las mismas. Recordando la formula:Despejando P1-P2 de esta ecuación:Aquí se tiene el mismo caso que en la estimación de una proporción, ya que al hacer eldespeje nos queda las dos proporciones poblacionales y es precisamente lo queTRABAJO EN EQUIPO
  34. 34. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSqueremos estimar, por lo que se utilizarán las proporciones de la muestra comoestimadores puntuales:Ejemplo: Se considera cierto cambio en un proceso de fabricación de partescomponentes. Se toman muestras del procedimiento existente y del nuevo paradeterminar si éste tiene como resultado una mejoría. Si se encuentra que 75 de 1500artículos del procedimiento actual son defectuosos y 80 de 2000 artículos delprocedimiento nuevo también lo son, encuentre un intervalo de confianza de 90% para ladiferencia real en la fracción de defectuosos entre el proceso actual y el nuevo.Solución:Sean P1 y P2 las proporciones reales de defectuosos para los procesos actual y nuevo,respectivamente. De aquí, p1=75/1500 = 0.05 y p2 = 80/2000 = 0.04. con el uso de la tablaencontramos que z para un nivel de confianza del 90% es de 1.645.-0.0017<P1-P2<0.0217Como el intervalo contiene el valor de cero, no hay razón para creer que el nuevoprocedimiento producirá una disminución significativa en la proporción de artículosdefectuosos comparado con el método existente.Un artículo relacionado con la salud, reporta los siguientes datos sobre la incidencia dedisfunciones importantes entre recién nacidos con madres fumadoras de marihuana y demadres que no la fumaban:Usuaria No UsuariaTamaño Muestral 1246 11178Número dedisfunciones42 294Proporción muestral 0.0337 0.0263Encuentre el intervalo de confianza del 99% para la diferencia de proporciones.Solución:Representemos P1 la proporción de nacimientos donde aparecen disfunciones entre todaslas madres que fuman marihuana y definamos P2, de manera similar, para las nofumadoras. El valor de z para un 99% de confianza es de 2.58.TRABAJO EN EQUIPO
  35. 35. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOS-0.0064<P1-P2<0.0212Este intervalo es bastante angosto, lo cual sugiere que P1-P2 ha sido estimado de maneraprecisa.Determinación de Tamaños de Muestra para EstimacionesAl iniciar cualquier investigación, la primer pregunta que surge es: ¿de qué tamaño debeser la o las muestras?. La respuesta a esta pregunta la veremos en esta sección, conconceptos que ya se han visto a través de este material.EJEMPLO: Oficiales escolares comparan el coeficiente intelectual entre niños de dosgrupos.De una muestra de 159 niños del grupo 1 78 califican con más de 100 puntos, de unamuestra de 250 niños del grupo 2 123 califican con más de 100 puntos.Construya un intervalo de confianza par a la diferencia entre las dos proporciones delgrupo 1 y 2 de los niños con califican con más de 100.Ejemplo: Algunas veces estamos interesados en analizar la diferencia entre lasproporciones de poblaciones de grupos con distintas características. Por ejemplo,pensemos que la administración de las tiendas Oxxo cree, sobre la base de unainvestigación, que el porcentaje de hombres que visitan sus tiendas 9 o más veces al mes(clientes frecuentes) es mayor que el porcentaje de mujeres que hacen lo mismo. Lasespecificaciones requeridas y el procedimiento para probar esta hipótesis es la siguiente:1. Las hipótesis nula y alternativa son las siguientes:TRABAJO EN EQUIPO
  36. 36. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOS0≤−= MHo PPH, la proporción de hombres que reportan 9 o más visitas por meses la misma o menor que la proporción de mujeres que hacen lo mismo.0>−= MHa PPH, la proporción de hombres que reportan 9 o más visitas por meses mayor a la proporción de mujeres que hacen lo mismo.La información proporcionada es:45=Hn 71=Mn58.=HP 42.=MP16.42.58. =−=− MH PP2. Especifica el nivel de significación de05.=α. El valor crítico para la prueba deuna sola cola es de 1.64.3. Estima el error estándar de la diferencia de las dos proporciones:+−=−MHpnnPPs mh11)1(donde:MHMMHHnnPnPnP++=TRABAJO EN EQUIPO
  37. 37. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSPH = proporción muestra de hombres (H)PM = proporción muestra de mujeres (M)NH = tamaño de muestra hombresNM = tamaño de muestra mujeresPor lo tanto:48.07145)42(.71)58(.45=++=Py10.0711451)48.1(48. =+−=−mhps4. Calcula de prueba estadística:mhposHesproporcionentrediferenciaobservadasesproporcionentrediferenciaZ−−=)___()___(60.110.)0()42.58(.=−−=ZLa hipótesis nula es aceptada porque el valor de la Z calculada es menor que el valorcrítico Z. La administración no puede concluir con un 95 por ciento de confianza que laproporción de hombres que visita 9 o más veces los Oxxo es mayor que la proporción demujeres.5.3 PRUEBA PARA LA DIFERENCIA EN n PROPORCIONES Z.Una distribución poblacional representa la distribución de valores de una población y unadistribución muestral representa la distribución de los valores de una muestra. Encontraste con las distribuciones de mediciones individuales, una distribución muestral esuna distribución de probabilidad que se aplica a los valores posibles de una estadísticamuestral. Así, la distribución muestral de la media es la distribución de probabilidad de losvalores posibles de la media muestral con base en un determinado tamaño de muestra.Para cualquier tamaño de muestra dado n, tomado de una población con media , losvalores de la media muestralvarían de una muestra a otra. Esta variabilidad sirve de baseTRABAJO EN EQUIPO
  38. 38. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSpara la distribución muestral. La distribución muestral de la media se describedeterminando el valor esperado E () o media, de la distribución y la desviación estándarde la distribución de las medias, . Como esta desviación estándar indica la precisión de lamedia muestral como estimador puntual, por lo general se le denomina error estándar dela media.Ejemplo: Un fabricante de reproductores de discos compactos utiliza un conjunto depruebas amplias para evaluar la función eléctrica de su producto. Todos los reproductoresde discos compactos deben pasar todas las pruebas antes de venderse. Una muestraaleatoria de 500 reproductores tiene como resultado 15 que fallan en una o más pruebas.Encuentre un intervalo de confianza de 90% para la proporción de los reproductores dediscos compactos de la población que no pasan todas las pruebas.Solución:n=500p = 15/500 = 0.03z(0.90) = 1.6450.0237<P<0.0376Se sabe con un nivel de confianza del 90% que la proporción de discosdefectuosos que no pasan la prueba en esa población está entre 0.0237 y 0.0376.Ejemplo: En una muestra de 400 pilas tipo B fabricadas por la Everlast Company, seencontraron 20 defectuosas. Si la proporción p de pilas defectuosas en esa muestra seusa para estimar P, que vendrá a ser la proporción verdadera de todas las pilasdefectuosas tipo B fabricadas por la Everlast Company, encuentre el máximo error deestimación tal que se pueda tener un 95% de confianza en que P dista menos dede p.Solución:p=x/n = 20/400=0.05z(0.95)=1.96Si p=0.05 se usa para estimar P,podemos tener un 95% de confianza en que P dista menos de 0.021 de p. En otraspalabras, si p=0.05 se usa para estimar P, el error máximo de estimación seráaproximadamente 0.021 con un nivel de confianza del 95%Para calcular el intervalo de confianza se tendría:Esto da por resultado dos valores, (0.029, 0.071). Con un nivel de confianza del 95% sesabe que la proporción de pulas defectuosas de esta compañía está entre 0.029 y 0.071.TRABAJO EN EQUIPO
  39. 39. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSSi se requiere un menor error con un mismo nivel de confianza sólo se necesita aumentarel tamaño de la muestra.5.4 PRUEBA DE INDEPENDENCIA (ji-CUADRADA).Cuando comparamos dos situaciones podemos esperar que sean ya bien dependientes oindependientes esto quiere decir que pueden o no estar relacionados sus datos debido amuchos factores que pueden influir en ellos o bien, un problema no tenga relación conotro.La prueba de independencia trata sobre esto, ya que su objetivo es determinar si algunasituación es afectada por otra, basándose en datos estadísticos y valores probabilísticoobtenidos de la fabulación de datos o de pronósticos por medio de fórmulas y tablas, paraesto se basa en un nivel de significancia en un caso y en el otro a comparar, valiéndonosde tablas de contingencia para obtener frecuencias esperadas y poder aplicarlas, para asíobtener datos comparativos que son determinantes en la decisión de independencia.La estadística de prueba que será utilizada en la toma de una decisión acerca de lahipótesis nula es ji cuadrado, X2(X es la letra griega ji minúscula. Los valores de jicuadrado se obtienen con las siguientes formula:X2= Σ (Oi – ei)2i eiGrados de libertadV = (r-1)*(c-1)Frecuencia Esperada = Total de la columna * Total del renglónGran totalCaracterísticasX2toma valores no negativos; es decir, puede ser cero o positiva.X2no es simétrica; es asimétrica hacia la derecha.Existen muchas distribuciones X2como en el caso de la distribución t, hay unadistribución, X2diferente para cada valor de los grados de libertad.Nos dan una tabla de contingencia.Una tabla de contingencia es una disposición de datos en una clasificación de dobleentrada. Los datos se ordenan en celdas y se reporta él número de datos en cada una. Enla tabla de contingencia están implicados dos factores (o variables), y la pregunta comúnen relación con tales tablas es si los datos indican que las dos variables sonindependientes o dependientes.Para ilustrar la utilización y análisis de una tabla de contingencia, considérese laclasificación por sexo de los estudiantes de una escuela y su área académica favorita.Ejemplo: Cada persona de un grupo de 300 estudiantes fue identificada como hombre omujer, preguntándosele si prefería recibir cursos en el área de matemáticas, cienciassociales o humanidades. La siguiente tabla es una de contingencia que indica lasfrecuencias encontradas para esas categorías. ¿Presenta esta tabla la evidenciasuficiente para rechazar la hipótesis nula “la preferencia por las matemáticas, cienciassociales o humanidades es independiente del sexo de un alumno”, al nivel de significanciadel 0.05?TRABAJO EN EQUIPO
  40. 40. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSSolución:Paso 1Ho: La preferencia por matemáticas, ciencias sociales o humanidades es independientedel sexo de los estudiantes de la escuela.Ha: La preferencia por las áreas es no independiente del sexo de los estudiantes.Pasó 2Para determinar el valor crítico de la ji cuadrada debe conocerse los grados de libertad,implicado. En el caso de tablas de contingencia, este número es exactamente el númerode celdas en la tabla que puede ser llenadas libremente cuando se conocen los totales.Estos últimos se indican en la tabla siguiente.12217872 113 115 300Dados estos totales, solo pueden llenarse dos celdas antes que las restantes quedendeterminadas. (por supuesto, los totales deben ser los mismos.) Por ejemplo, una vez quese seleccionen dos valores arbitrarios (por ejemplo, 50 y 60) para las dos primerasceldas de la primera fila (véase la tabla siguiente), quedan fijos los otros cuatro valores.50 60 C 122D E F 17872 113 115 300Dichos valores deben ser C=12, D=22, E=53 y F=103. De otra manera los totales noserán correctos. En consecuencia, para este problema existen dos selecciones libres.Cada una de estas corresponde a un grado de libertad. Así, el número de grados delibertada en este ejemplo es 2 (v=2). Por esta razón, si se utiliza =0.05, el valor criticoes X2(2, 0.05) = 6. Véase la siguiente figura.Pasó 3Antes de poder hallar el valor calculado de ji cuadrada, es necesario examinar los valoresesperados E para cada celda. Para tal fin debe recordarse la hipótesis nula, la cualTRABAJO EN EQUIPO
  41. 41. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSasevera que estos factores son independientes. En consecuencia, se espera que losvalores estén distribuidos en proporción a los totales marginales. Hay 122 hombres; seespera que estén distribuidos entre M, CS y H proporcionalmente a los totales 72, 113 y115. Así, para los hombres las cuentas esperadas de celda son:72/300 x 122 113/300 x 122 115/300 x 122Similarmente, se esperan:72/300 x 178 113/300 x 178 115/300 x 178Para las mujeres. Entonces los valores esperados son como se indica en la tablasiguiente (siempre verifíquense los totales nuevos contra los antiguos.)M CS H Total29.28 45.95 46.77 12242.72 67.05 68.23 178Total 72.00 113.00 115.00 300.00NotaEl cálculo de los valores esperados puede verse de manera alternativa. Recuérdese quela hipótesis nula se supone cierta en tanto no haya evidencia para rechazarla. Habiendohecho este supuesto en el ejemplo, de hecho sé está afirmando que son independienteslos eventos un estudiante seleccionado aleatoriamente es hombre, y un estudianteelegido al azar prefiere cursos de matemáticas. El estimador puntual para la probabilidadde que un estudiante sea hombre es 122/300, y para la probabilidad de que un estudianteprefiera los cursos de matemática es 72/300. En consecuencia, la probabilidad de queocurran ambos eventos es el producto de las probabilidades.Para estudiar la dependencia entre la práctica de algún deporte y la depresión, seseleccionó una muestra aleatoria simple de 100 jóvenes, con los siguientes resultados:Sin depresión Con depresiónDeportista 38 9 47No deportista 31 22 5369 31 100L = (38 – 32,43)2/32,43 + (31 – 36,57)2/36,57 + (9 – 14,57)2/14,57 + (22 – 16,43)2/16,43= 0,9567 + 0,8484 + 2,1293 + 1,8883 = 5,8227El valor que alcanza el estadístico L es 5,8227. Buscando en la tabla teórica de ChiCuadrado para 1 grado de libertad se aprecia Lt = 3,84146 < 5,8227 lo que permiterechazar la hipótesis de independencia de caracteres con un nivel de significación del 5%,admitiendo por tanto que la práctica deportiva disminuye el riesgo de depresión.Ejemplo: Ilustraremos esta técnica con el estudio que realizó Cervecería Modelo, la cualfabrica y distribuye tres tipos de cerveza: ligera, clara y oscura. En un análisis deTRABAJO EN EQUIPO
  42. 42. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSsegmentación de mercado para las tres cervezas, el grupo de investigación encargado haplanteado la duda de si la preferencia para las tres cervezas es diferente entre losconsumidores hombres y mujeres. Si la preferencia de las cervezas fuera independientedel género del consumidor, se iniciaría una campaña de publicidad para todas lascervezas Modelo. Sin embargo, si la preferencia depende del género del consumidor, seajustarían las promociones para tener en cuenta los distintos mercados meta.Una prueba de independencia usa la pregunta de si la preferencia de la cerveza (ligera,clara y oscura) es independiente del género del consumidor (hombre, mujer). Lashipótesis para esta prueba de independencia son:Ho: La preferencia de la cerveza es independiente del género del consumidorHa: La preferencia de la cerveza no es independiente del género del consumidorPodemos usar una tabla como la 1 para describir el caso que se estudia. Después deidentificar a la población, consumidores hombres y mujeres, se puede tomar una muestray preguntar a cada persona que diga su preferencia entre las cervezas modelo.Cada persona de la muestra se clasificará en una de las seis celdas de la tabla. Porejemplo una persona puede ser hombre y prefiera la cerveza clara [celda (1,2)], una mujerque prefiere la cerveza ligera [celda (2,1)], una mujer que prefiere la cerveza oscura[celda (2,3)] y así sucesivamente. Como en la lista aparecen todas las combinacionesposibles de predilección de cerveza y género, en otras palabras aparecen todas lascontingenciasposibles, a la tabla sele llama tabla decontingencia.Supongamos que se ha tomado una muestra aleatoria simple de 150 bebedores decerveza. Después de saborear cada una, se les pide expresar su preferencia o primeraalternativa. La tabulación cruzada de la siguiente tabla 2 resume las respuestasobtenidas. Observamos que, los datos para la prueba de independencia se agrupan entérminos de cantidades o frecuencias para cada celda o categoría. De las 150 personasde la muestra, 20 fueron hombres que prefirieron la cerveza ligera, 40 fueron mujeres queprefirieron la cerveza clara, 20 fueron hombres que prefirieron la cerveza oscura, y asísucesivamente.Los datos de la tabla 2 constituyen las frecuencias observadas para las seis clases ocategorías.TRABAJO EN EQUIPOCerveza preferidaLigera Clara OscuraGénero Hombre Celda (1,1) Celda (1,2) Celda (1,3)Mujer Celda (2,1) Celda (2,2) Celda (2,3)
  43. 43. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSSi podemos determinar lasfrecuencias esperadas bajo lahipótesis de independencia entre lapreferencia de cerveza y el génerodel consumidor, podemos usar ladistribución ji cuadrada paradeterminar si existe una diferenciasignificativa entre la frecuenciaobservada y la esperada.Las frecuencias esperadas en las celdas de la tabla de contingencia se basan en elsiguiente razonamiento. Primero suponemos que es verdadera la hipótesis nula, deindependencia entre la cerveza preferida y el género del consumidor. A continuaciónobservamos que en toda la muestra de 150 consumidores, hay 50 que prefieren lacerveza ligera, 70 la cerveza clara y 30 la cerveza oscura. Expresada en fracción, laconclusión es que de 50/150 = 1/3 de los consumidores de cerveza prefieren la ligera;70/150 = 7/15 la clara y 30/150 = 1/5 la oscura. Si es válida la hipótesis de independencia,decimos que estas fracciones se deben de aplicar por igual a los consumidores hombres ymujeres. Así bajo la hipótesis de independencia, esperaríamos que la muestra de 80consumidores hombres indicara que (1/3) 80 = 26.7 prefieren cerveza ligera, (7/15) 80 =37.33 la clara y (1/5) 80 = 16 la oscura. La aplicación de las mismas fracciones a las 70consumidoras mujeres produce las frecuencias esperadas que aparecen en la tabla.Seaijela frecuencia esperada enla categoría del renglón i y lacolumna j de la tabla decontingencia. Con esta notaciónreconsideremos el cálculo de lafrecuencia esperada para loshombres (renglón i = 1) queprefieren la cerveza clara (columna j= 2) esto es, la frecuencia esperada2,1e. Apegándonos al esquema anterior para el cálculo de las frecuencias esperadas,podemos demostrar que2,1e= (7/15) 80 = 37.33Esta ecuación se puede escribir como sigue2,1e= (7/15) 80 = (70/150) 80 = 37.33TRABAJO EN EQUIPOCerveza preferidaGéneroLigera Clara Oscura TotalHombre 20 40 20 80Mujer 30 30 10 70Total 50 70 30 150Cerveza preferidaGéneroLigera Clara Oscura TotalHombre 26.67 37.33 16.00 80Mujer 23.33 32.67 14.00 70Total 50.00 70.00 30.00 150
  44. 44. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSObserve que 80 es la cantidad total de hombres (total del renglón 1), 70 es la cantidadtotal de individuos (hombres y mujeres) que prefieren la cerveza clara (total de la columna2) y 150 es el tamaño de la muestra total. En consecuencia vemosmuestraladetamañocolumnaladetotalrenglóndeltotale)2()1(2,1 =Al generalizar la ecuación vemos que la fórmula siguiente determina las frecuenciasesperadas de una tabla de contingencias para la prueba de independencia.Frecuencias esperadas en la tabla de contingencia suponiendo independenciamuestraladetamañojcolumnaladetotalirenglóndelTotaleij)()(=El procedimiento de prueba para comparar frecuencias observadas con las frecuenciasesperadas, se parece a los cálculos de bondad de ajuste. Específicamente, el valor de2χbasados en las frecuencias observadas y esperadas se calcula como sigue:Oi = Valor observado en la i-ésimo celda.Ei = Valor esperado en la i-ésimo celda.K = Categorías o celdas.Con n renglones y m columnas en la tabla de contingencia, el estadístico de prueba tieneuna distribución ji cuadrada con (n – 1) (m – 1) grados de libertad, siempre y cuando lasTRABAJO EN EQUIPO[ ]∑=−=ki eeoiiifff122χ
  45. 45. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSfrecuencias esperadas sean 5 o más para todas las categorías. En consecuenciaproseguimos con el cálculo de la estadística de prueba ji cuadrada.Los cálculos necesarios para determinar el estadística ji cuadrada y ver si la preferenciade cerveza es independiente del género de quien la bebe se ven en la tabla.La cantidad de grados de libertad para la distribución ji cuadrada adecuada se determinamultiplicando la cantidad de renglones menos 1 por la cantidad de columnas menos 1.Como tenemos dos renglones y tres columnas, entonces (2 – 1) (3 – 1) = (1) (2) = 2grados de libertad para la prueba de independencia entre cerveza y género delconsumidor. Conα= .05 como nivel de significancia de la prueba, buscamos en la tablade ji cuadrada y nos da un valor205.χ= 5.99. Observe que estamos usando el valor de lacola superior, porque rechazaremos la hipótesis nula sólo si las diferencias entrefrecuencias observadas y esperadas producen un valor grande de2χ. En el ejemplo2χ=6.13 es mayor que2χ= 5.99. Por consiguiente, rechazaremos la hipótesis nula deindependencia y concluimos que la, la preferencia cerveza preferida no es independientedel género del consumidor, es decir para las tres cervezas es diferente entre losconsumidores hombres y mujeres y por lo tanto la Cervecería Modelo deberá estratificar alos consumidores para ajustar las promociones y la publicidad, teniendo en cuenta estasdiferencias.5.5 PRUEBAS DE CONTINGENCIA (ji-CUDRADA).La prueba chi-cuadrado de contingencia sirve para comprobar la independencia defrecuencias entre dos variables aleatorias, X e Y.TRABAJO EN EQUIPOGénero Cervezaof ef )( eo ff − 2)( eo ff − ijeo eff /)( 2−Hombre ligera 20 26.67 -6.67 44.4889 1.66812523Hombre clara 40 37.33 2.67 7.1289 0.19096973Hombre Oscura 20 16 4 16 1Mujer ligera 30 23.33 6.67 44.4889 1.90693956Mujer clara 30 32.67 -2.67 7.1289 0.21820937Mujer Oscura 10 14 -4 16 1.142857142χ6.12710104
  46. 46. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSLas hipótesis contrastadas en la prueba son:Hipótesis nula: X e Y son independientes.Hipótesis alternativa: X e Y no son independientes (No importa cuál sea la relación quemantengan ni el grado de esta.La condición de independencia, tal como fue definida en la página anterior era: X e Y sonindependientes si y sólo si para cualquier pareja de valores x e y la probabilidad de que Xtome el valor x e Y el valor y, simultáneamente, es igual al producto de las probabilidadesde que cada una tome el valor correspondiente.Por tanto, todo lo que necesitamos serán unas estimas de las funciones de probabilidadde ambas variables por separado (f(x) y f(y)) y de la función de probabilidad conjunta(f(x,y))Empezaremos la prueba tomando una muestra de parejas de valores sobre la quecontaremos la frecuencia absoluta con la que aparece cada combinación de valores (xi,yj)o de grupos de valores (i,j) (Oij) La tabla siguiente, en la que se recogen estos datos, esen realidad nuestra estimación de la función de probabilidad conjunta multiplicada por elnúmero total de datos (T).Para obtener las estimas de las funciones de probabilidad marginales debemos sumar porfilas y por columnas los valores de las frecuencias conjuntas. Las sumas de filas (Fi) son,en cada caso, el número de veces que hemos obtenido un valor de X (xi) en cualquiercombinación con distintos valores de Y, es decir, son nuestra estima de la función deprobabilidad de X multiplicada por el número total de observaciones; análogamente, lassumas de columnas (Cj) son nuestra estima de la función de probabilidad de Ymultiplicada por el número total de observaciones.El número total de observaciones lo podemos obtener como la suma de todas lasfrecuencias observadas o, también, como la suma de las sumas de filas o de las sumasde columnas:TRABAJO EN EQUIPO
  47. 47. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSAsí pues, si las variables fueran independientes debería cumplirse queNaturalmente, nadie espera que esta condición se cumpla exactamente debido al efectode los errores de muestreo aleatorio. Por tanto, nuestro problema consiste en distinguirentre las diferencias producidas por efecto del muestreo y diferencias que revelen falta deindependencia.Podemos convertir la ecuación anterior a frecuencias absolutas multiplicando por T:Si X e Y son independientes, Oij debe ser igual a y, por tanto,Bajo la hipótesis de independencia, es el valor esperado de Oij (Eij)Tal como pasaba en la prueba anterior, si las variables son independientes, es decir, si lasfrecuencias Eij son realmente los valores esperados de las frecuencias Oij, se puedecalcular un parámetro que depende de ambas que tiene distribución chi-cuadrado,Por otra parte, si las variables no son independientes, las diferencias entre las series defrecuencias observadas y esperadas serán mayores que las atribuibles al efecto del azary, al estar elevadas al cuadrado en el numerador de la expresión anterior, ésta tenderá aser mayor que lo que suele ser el valor de una variable chi-cuadrado.Por tanto, el parámetro anterior ser el estadístico de la prueba de hipótesis y la regióncrítica se encontrar siempre en la cola derecha de la distribución chi-cuadrado.Nuevamente, esta prueba será siempre de una sola cola.Estadístico de contrasteSe acepta la hipótesis nula si , el percentil 1 – α de la distribución chi-cuadrado con grados de libertad.TRABAJO EN EQUIPO
  48. 48. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSTal como ocurría en la prueba anterior lo corriente es que queramos demostrar que dosvariables son independientes, es decir, que, habitualmente, nos veremos obligados acolocar nuestra hipótesis en la hipótesis nula. El número de grados de libertad de la chi-cuadrado que sirve de contraste se calcula de la siguiente forma:A priori tendremos tantos grados de libertad como combinaciones de valores xi, yjtengamos (I J)A este número tendremos que restarle I debido a que, para calcular las frecuenciasesperadas, necesitamos calcular las I sumas de filas en la tabla anterior. Conocidas lassumas de filas obtenemos el número total de observaciones sin perder ningún grado delibertad.A continuación, necesitaremos calcular, a partir de las frecuencias observadas J - 1 de lassumas de columnas; la restante podemos obtenerla restando la suma de las anterioresdel total de observaciones (T).En resumen, el número de grados de libertad de la prueba es el producto del número defilas menos uno por el número de columnas menos uno.En cuanto a la magnitud mínima necesaria de las frecuencias observadas y esperadas,rigen las mismas normas que en el caso de la prueba de ajuste. En este caso, si nosviéramos obligados a juntar valores para sumar frecuencias, debemos unir columnas ofilas completas (y contiguas). Obviamente, los grados de libertad no deben calcularsehasta que no se hayan realizado todas las agrupaciones necesarias y quede claro cuál esel número de filas y columnas de la tabla definitiva.Como hemos visto, esta prueba no hace ninguna suposición acerca del tipo dedistribución de ninguna de las variables implicadas y utiliza únicamente información de lamuestra, es decir, información contingente. Esta es la razón por la que, habitualmente, sele llama chi-cuadrado de contingencia.5.6 PRUEBAS DE BONDAD DE AJUSTE.Las pruebas de bondad de ajuste tienen por objetivo determinar si los datos se ajustan auna determinada distribución, esta distribución puede estar completamente especificada(hipótesis simple) o perteneciente a una clase paramétrica (hipótesis compuesta).Una hipótesis estadística se definió como una afirmación o conjetura acerca de ladistribución f(x,q) de una o más variables aleatorias. Igualmente se planteó que ladistribución podía tener uno o más parámetros desconocidos, que denotamos por q y quela hipótesis se relaciona con este parámetro o conjunto de parámetros En otros casos, sedesconoce por completo la forma de la distribución y la hipótesis entonces se relacionacon una distribución específica f(x,q) que podamos asignarle al conjunto de datos de lamuestra. El primer problema, relacionado con los parámetros de una distribución conocidao supuesta es el problema que hemos analizado en los párrafos anteriores. Ahoraexaminaremos el problema de verificar si el conjunto de datos se puede ajustar o afirmarque proviene de una determinada distribución. Las pruebas estadísticas que tratan esteproblema reciben el nombre general de “Pruebas de Bondad de Ajuste”.Se analizarán dos pruebas básicas que pueden aplicarse: La prueba Chi - Cuadrado y laprueba de Smirnov-Kolmogorov. Ambas pruebas caen en la categoría de lo que enestadística se denominan pruebas de “Bondad de Ajuste” y miden, como el nombre loindica, el grado de ajuste que existe entre la distribución obtenida a partir de la muestra yTRABAJO EN EQUIPO
  49. 49. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSla distribución teórica que se supone debe seguir esa muestra. Ambas pruebas estánbasadas en la hipótesis nula de que no hay diferencias significativas entre la distribuciónmuestral y la teórica. Ambas pruebas están basadas en las siguientes hipótesis:H0: f(x,q) = f0(x,q)H1: f(x,q) ¹ f0(x,q)Donde f0(x, q) es la distribución que se supone sigue la muestra aleatoria. La hipótesisalternativa siempre se enuncia como que los datos no siguen la distribución supuesta. Sise desea examinar otra distribución específica, deberá realizarse de nuevo la otra pruebasuponiendo que la hipótesis nula es esta nueva distribución. Al especificar la hipótesisnula, el conjunto de parámetros definidos por q puede ser conocido o desconocido. Encaso de que los parámetros sean desconocidos, es necesario estimarlos mediante algunode los métodos de estimación analizados con anterioridad.Para formular la hipótesis nula deberán tenerse en cuenta los siguientes aspectos ocriterios:a) La naturaleza de los datos a analizar. Por ejemplo, si tratamos de investigar ladistribución que siguen los tiempos de falla de unos componentes, podríamos pensar enuna distribución exponencial, o una distribución gama o una distribución Weibull, pero enprincipio no consideraríamos una distribución normal. Si estamos analizando los caudalesde un río en un determinado sitio, podríamos pensar en una distribución logarítmicanormal, pero no en una distribución normal.b) Histograma. La forma que tome el histograma de frecuencia es quizás la mejorindicación del tipo de distribución a considerar.5.7 APLICACIONES.Para la ocurrencia de dos eventos, en la cual se desea observar si son dependientes oindependientes.La distribución ji cuadrada sirve para todas las inferencias sobre la variancia de unapoblación.Existen muchos problemas para los cuales los datos son categorizados y los resultadosexpuestos en forma de conteos o cuentas.Se pueden aplicar en: un conjunto de calificaciones de un examen final puede serrepresentado como una distribución de frecuencias. Estos valores son cuentas: él numerade datos que caen en cada celda.En una encuesta determinada se podría preguntar a unas personas si votarían por loscandidatos A, B o C, por lo general, los resultados se indican en una gráfica que informaacerca del número de votantes para cada categoría posible.TRABAJO EN EQUIPO
  50. 50. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMÉRICOSTRABAJO EN EQUIPO

×