Apuntes Clase Estadistica I(Itsz)
Upcoming SlideShare
Loading in...5
×
 

Like this? Share it with your network

Share

Apuntes Clase Estadistica I(Itsz)

el

  • 47,672 reproducciones

Estadistica Basica

Estadistica Basica

Estadísticas

reproducciones

reproducciones totales
47,672
reproducciones en SlideShare
47,410
reproducciones incrustadas
262

Actions

Me gusta
13
Descargas
1,063
Comentarios
5

4 insertados 262

http://vdmeducar.cl 199
http://www.slideshare.net 60
http://webcache.googleusercontent.com 2
http://www.vdmeducar.cl 1

Accesibilidad

Categorias

Detalles de carga

Uploaded via as Microsoft PowerPoint

Derechos de uso

© Todos los derechos reservados

Report content

Marcada como inapropiada Marcar como inapropiada
Marcar como inapropiada

Seleccione la razón para marcar esta presentación como inapropiada.

Cancelar
  • Full Name Full Name Comment goes here.
    ¿Está seguro?
    Tu mensaje aparecerá aquí
    Processing...
  • a) ¿Cuáles son los límites de confianza de 95% para la estimación de la media de las 200 calificaciones?. Considerar el valor de Z para un 95% de confianza en 1.96
    ¿Está seguro?
    Tu mensaje aparecerá aquí
    Processing...
  • Me podrías ayudar a resolver este problema?:
    La información que se representa en la tabla, representa una muestra sobre el numero de refrescos que consumen mensualmente alumnos de cierta escuela. Realiza la estimación puntual para determinar el verdadero promedio en el consumo de refrescos:
    intervalo de clase
    2-6
    7-11
    12-16
    17-21
    22-26
    27-31
    32-36

    frecuencia
    5
    9
    19
    28
    17
    10
    4
    ¿Está seguro?
    Tu mensaje aparecerá aquí
    Processing...
  • buenas tardes ya revise el material y resolvi los eejercicios de rapaso, pero no se si estan bien........ donde puedo revisar sus resultados???, para saber si comprendi bien los temas...
    ¿Está seguro?
    Tu mensaje aparecerá aquí
    Processing...
  • muy importantes las presentaciones. Gracias
    ¿Está seguro?
    Tu mensaje aparecerá aquí
    Processing...
  • me gusta
    ¿Está seguro?
    Tu mensaje aparecerá aquí
    Processing...
Publicar comentario
Edite su comentario

Apuntes Clase Estadistica I(Itsz) Presentation Transcript

  • 1. MII. ING. EDGAR JAVIER SILVA
  • 2. Forma de calificar:  Examen. 70%  Practicas, tareas, avance proyecto final 30% Para poder aprobar, necesariamente debes pasar los tres parciales con calificación mínima de 70, en caso de reprobar alguno se registra cero de calificación en el parcial correspondiente. Unidades aprobadas necesarias para presentar examen de NIVELACION / REGULARIZACION 2 Unidades aprobadas necesarias para presentar examen de EXTRAORDINARIO 4
  • 3. Bibliografía Probabilidad y Estadística Douglas C. Montgomery Mc Graw Hill Probabilidad y Estadística para Ingeniería y Ciencias Mendenhall Prentice Hall Estadística para Administradores Levin Rubin Limusa http://mathworld.wolfram.com/classroom/classes/Probabilityand Statistics.html
  • 4. Haber aprobado, necesariamente las materias de :  Calculo Integral  Calculo diferencial  Probabilidad.
  • 5.  Distribuciones de probabilidad de una variable aleatoria continua.  Media y varianza de una variable aleatoria continua.  Distribución de probabilidad t-student.  Distribución de probabilidad tipo Gamma.  Distribución de probabilidad tipo Beta.  Distribución de probabilidad X2 y F  Distribución de probabilidad Weibull
  • 6.  Distinguir entre las variables aleatorias continuas y discretas y sus respectivas distribuciones de probabilidad; presentar algunas distribuciones de probabilidad continuas útiles y mostrar cómo se pueden utilizar para resolver problemas prácticos.
  • 7.  ¿Qué es una distribución probabilística? 0.7 0.6 blanco 0.5 0.4 Serie1 0.3 Serie2 0.2 azul amarillo 0.1 0 0 1 2 3 4
  • 8.  Son aquellas en las que la variable puede pude tomar un número determinado de valores:  Ejemplo: si se lanza una moneda al aire puede salir cara o cruz; si se tira un dado puede salir un número de 1 al 6; en una ruleta el número puede tomar un valor del 1 al 32.
  • 9.  Son aquellas que presentan un número infinito de posibles soluciones:  Ejemplo: El peso medio de los alumnos de una clase puede tomar infinitos valores dentro de cierto intervalo (42,37 Kg., 42,3764 Kg., 42, 376541kg, etc.); la esperanza media de vida de una población (72,5 años, 7,513 años, 72, 51234 años).
  • 10.  La distribución de probabilidad de este tipo de distribución sigue el siguiente modelo:
  • 11.  ¿Cuál es la probabilidad de obtener 6 caras al lanzar una moneda 10 veces?  quot; k quot; es el número de aciertos  quot; nquot; es el número de ensayos  quot; p quot; es la probabilidad de éxito
  • 12.  quot; k quot; es el número de aciertos. En este ejemplo quot; k quot; igual a 6 (en cada acierto decíamos que la variable toma el valor 1: como son 6 aciertos, entonces k = 6)  quot; nquot; es el número de ensayos. En nuestro ejemplo son 10  quot; p quot; es la probabilidad de éxito, es decir, que salga quot;caraquot; al lanzar la moneda. Por lo tanto p = 0,5  La fórmula quedaría:
  • 13.  Solución:
  • 14.  ¿Cuál es la probabilidad de obtener cuatro veces el número 3 al lanzar un dado ocho veces?  Solución  n=  K=  p=
  • 15.  quot; k quot; (número de aciertos) toma el valor 4  quot; nquot; toma el valor 8  quot; p quot; (probabilidad de que salga un 3 al tirar el dado) es 1 / 6 (= 0,1666)  P (x = 4) = 0,026
  • 16.  Las distribución de Poisson parte de la distribución binomial:  Cuando en una distribución binomial se realiza el experimento un número quot;nquot; muy elevado de veces y la probabilidad de éxito quot;pquot; en cada ensayo es reducida, entonces se aplica el modelo de distribución de Poisson:  Se tiene que cumplir que:  quot; p quot; < 0,10  quot; p * n quot; < 10
  • 17.  La distribución de Poisson sigue el siguiente modelo.
  • 18.  Percentil: por ejemplo, si su calificación en un curso de ingeniería industrial estuvo en el 84° percentil, entonces el 84% de las calificaciones fueron inferiores a la suya y el 16% fueron mayores.  Cuartil inferior: Ql, de un conjunto de datos es el 25° percentil.  Cuartil superior: Qu, de un conjunto de datos es el 75° percentil  Rango intercuartilico: es la distancia entre los cuartiles superior e inferior. (IQR)
  • 19.  La función de densidad normal (o gausiana) fue propuesta por C. F. Gauss (1777-1855) como modelo para la distribución de frecuencia relativa de errores, como los errores de medición. Resulta sorprendente que esta curva con forma de campana sea un modelo adecuado para las distribuciones de frecuencia relativa de datos recabados de muchas áreas científicas diferentes.
  • 20.  Esta distribución es frecuentemente utilizada en las aplicaciones estadísticas. Su propio nombre indica su extendida utilización, justificada por la frecuencia o normalidad con la que ciertos fenómenos tienden a parecerse en su comportamiento a esta distribución.
  • 21. La nueva variable z se distribuye como una NORMAL con media  = 0 y desviación típica  = 1 Una regla empírica indica que en cualquier distribución normal las probabilidades delimitadas entre :  1  68 %  2  95 %  3  99 % 68% 95% 99% z -3 -2 -1 0 1 2 3
  • 22.  Caracteres morfológicos de individuos (personas, animales, plantas,...) de una especie, p.ejm. tallas, pesos, envergaduras, diámetros, perímetros,...  Caracteres fisiológicos, por ejemplo: efecto de una misma dosis de un fármaco, o de una misma cantidad de abono.  Caracteres sociológicos, por ejemplo: consumo de cierto producto por un mismo grupo de individuos, puntuaciones de examen.  Caracteres psicológicos, por ejemplo: cociente intelectual, grado de adaptación a un medio,...
  • 23. Distribución de edades 19 20 23 24 25 26 27 28 29 30 31 32 33 36 41 45 47 14 29 12 10 Frecuencia 28 30 8 31 6 27 25 4 24 26 32 2 19 20 41 47 23 3336 45 0 Edades
  • 24.  En un salón de clases la media del grupo es de 29 años y su desviación estándar es de 4 años ¿Cuál es la probabilidad de encontrar alumnos de mas de 34 años?
  • 25.  Primero entender que la distribución normal se asemeja a la distribución de las edades.  Para esto hay que convertir los valores que te dan a valores estándar.  ¿Cómo hacemos esto? Z=(X-µ) /σ
  • 26. X = valor dado a convertir Z=(X-µ) /σ µ = media σ = desviación estándar 14 29 12 10 28 30 8 31 6 27 25 4 24 26 32 2 19 20 41 47 23 33 36 45 0 Edades
  • 27.  En un salón de clases la media del grupo es de 29 años y su desviación estándar es de 4 años ¿Cuál es la probabilidad de encontrar alumnos de mas de 34 años?  X = valor dado a convertir =  µ = media =  σ = desviación estándar =
  • 28. 29
  • 29.  Después de cometido un delito la media en horas de encontrar al responsable del delito es de 45 hrs. Con un desviación estándar de 10 hrs.¿Encontrar la probabilidad de encontrar al responsable del delito a mas tardar 24 hrs. después de realizado este?  X = valor dado a convertir  µ = media  σ = desviación estándar
  • 30. 45
  • 31.  El tiempo promedio que emplea un empleado para atender una demanda es de 42 minutos, suponga que la desviación estándar es de 16 minutos, y que los tiempos de atención tienen una distribución normal.  ¿Cuál es la probabilidad de que una persona tarde cuando menos 1 hora en poner su demanda?  ¿Cuál es la probabilidad de que una persona no tarde mas de 30 minutos en poner su demanda?
  • 32.  Suponga que “y” es una variable aleatoria de distribución normal con media de 10 y desviación estándar de 2.1 ◦ Calcule P (y≥11) ◦ Calcule P(7.6 ≤ y≤ 12.2)
  • 33.  Un tubo fluorescente estándar tiene una duración distribuida normalmente con una media de 7,000 horas y una desviación estándar de 1,000 horas. Un competidor ha inventado un sistema de iluminación fluorescente compacto que se puede insertar en los receptáculos de lámparas incandescentes.  El competidor asegura que el nuevo tubo compacto tiene una duración distribuida normalmente con una media de 7500 horas y una desviación estándar de 1200 horas. ◦ ¿Cuál tubo fluorescente tiene mayor probabilidad de tener una duración mayor de 9000 horas? ◦ ¿Cuál tubo tiene mayor probabilidad de tener una duración de menos de 5000 horas?
  • 34.  Calcule el intervalo intercuartilico IQR y la desviación estándar, s, para la muestra, y luego calcule el cociente IQR/s.  Si los datos son aproximadamente normales, IQR/s ≈1.3
  • 35.  Variable aleatoria discreta  Variable aleatoria continuo
  • 36.  Muchas variables aleatorias que se observan en la vida real no son variables aleatorias discretas porque la cantidad de valores que pueden asumir no se puede contar.  Por ejemplo, el tiempo de espera y (en minutos) para completar un trabajo de procesamiento de datos 0 < y < infinito.
  • 37.  La función de densidad para una variable aleatoria continua “y” , que modela alguna población de datos de la vida real, por lo regular es una curva continua como lo que se muestra la siguiente figura: y F ( y)   f ( t ) dt  El área acumulativa bajo la curva entre menos infinito y un punto y0 es igual a F(y0)
  • 38. f(y) ≥ 0   f ( y ) dy  F (  )  1  b P (a  y  b)   f ( y ) dy Donde a y b son constantes. a
  • 39.  Ejemplo 1:  Sea c una constante y consideremos la función de densidad.  cy _ si _ 0  y  1  f ( y)     0 ___ en _ cualquier _ otro _ caso  a.- Calcule el valor de c b.- Calcule P (0.2 < y < 0.5
  • 40.  1 2 1 y  f ( y ) dy   0 cydy  c 2 1  0 C=2 0 .5 P ( 0 .2  y  0 .5 )  0 .2 f ( y ) dy = 0.21
  • 41.  Ejemplo2: Obtenga la función de distribución acumulativa para la variable aleatoria y. Después, calcule F(0.2) y F(0.7)
  • 42. y y F ( y)   f ( t ) dt   2 tdt  y 2  0 Entonces la integral es de cero a y F(0.2) = P( , porque el problema así lo plantea y>0
  • 43.  Ejercicios 1: 1.- Sea c una constante y consideremos la función de densidad  cy 2 _ si _ 0  y  2  f ( y)     0 ___ en _ cualquier _ otro _ caso  a.- Calcule el valor de c. b.- Obtenga la función de distribución acumulativa F(y) c.- Calcule F(1) d.- Calcule F(0.5) e.- Calcule P (1 ≤y≤ 1.5)
  • 44.  Ejercicio2  Sea c una constante y consideremos la función de densidad  c ( 2  y ) _ si _ 0  y  1  f ( y)     0 ___ en _ cualquier _ otro _ caso  a.-Calcule el valor de c b.-Obtenga la función de distribución acumulativa F(y) c.-Calcule F(0.4) d.-Calcule P (0.1 ≤y≤ 0.6)
  • 45.  Ejercicio3  Sea c una constante y consideremos la función de densidad  ce  y _ si _ y  0  f ( y)     0 ___ en _ cualquier _ otro _ caso  a.-Calcule el valor de c b.-Obtenga la función de distribución acumulativa F(y) c.-Calcule F(2.6) = d.-Calcule P (1 ≤y≤ 5)
  • 46.  En estudios anteriores se inicio el estudio de las pruebas de hipótesis. Se utilizo la distribución normal estándar, la distribución z, como estadístico de prueba. Para emplear dicha distribución la población debe ser normal y conocerse la desviación estándar poblacional. En muchas situaciones del mundo real, la población es aproximadamente normal, pero se desconoce la desviación estándar de la población. En este caso “s” se utiliza la desviación estándar muestral en vez de σ .  Si el tamaño de la muestra es de al menos de 30, los resultados se consideran satisfactorios. (Tamaño de muestra de menor o igual a 30, n≤30)
  • 47.  Esta distribución tiene la característica de que puede ser usada en aquellos casos en los que el tamaño de muestra esta limitado, debido a las características del experimento a realizar.  Por ejemplo. En la industria es común encontrarse con productos que debido a los materiales y/o proceso son sumamente caros y para realizar la prueba es necesario destruirlos.  En estos casos el tamaño de la muestra debe ser pequeño cinco a ocho partes.  Una limitación en la aplicación de este estadístico es que la población de la que se toma la muestra tiene una distribución normal.
  • 48.  Para estos proyectos de investigación , la distribución z no es el estadístico de prueba adecuado. La t de Student, o la distribución t, como se denomina comúnmente se utiliza como estadístico de prueba.
  • 49. La siguiente figura presenta la gráfica de varias distribuciones t. La apariencia general de la distribución t es similar a la de la distribución normal estándar: ambas son simétricas y unimodales, y el valor máximo de la ordenada se alcanza en la media = 0. Sin embargo, la distribución t tiene colas más amplias que la normal; esto es, la probabilidad de las colas es mayor que en la distribución normal. A medida que el número de grados de libertad tiende a infinito, la forma límite de la distribución t es la distribución normal estándar.
  • 50. Probabilidad de una sola cola. Valores t de Student y probabilidad P asociada en función de los grados de libertad gl. Si deseas, la probabilidad de dos colas, multiplica por dos esta fila
  • 51. 1. Como la distribución z, es una distribución continua. 2. Como la distribución z, es de forma de campana y simétrica. 3. No hay una distribución t, sino mas bien una “familia” de distribuciones t, todas tienen la misma media igual a cero, pero sus desviaciones estándares difieren de acuerdo con el tamaño de muestra (n). Hay una distribución t para un tamaño de muestra 20, otra para un tamaño de muestra 22, y así sucesivamente. 4. La distribución t es más extendida y menos aguda en el centro que la distribución normal. Sin embargo, a medida que aumenta el tamaño de la muestra, la curva de la distribución t se aproxima a la distribución normal estándar.
  • 52.  La experiencia en la investigación de demandas por accidente en una institución aseguradora revela que en promedio cuesta $60 dólares la realización de todos los trámites. Este costo se considero exorbitante comparado con el de otras compañías aseguradoras y se instauraron medidas para abatir los costos. A fin de evaluar el impacto de estas nuevas medidas se selecciono aleatoriamente una muestra de 26 demandas recientes y se realizó un estudio de costos. Se encontró que la media muestral de $57 y una desviación estándar de la muestra de 10. En el nivel de significación 0.01, ¿hay una reducción en el costo promedio, o la diferencia de $3 ($60 -$57) puede atribuirse al azar?
  • 53.  Paso 1: plantear la hipótesis nula y la hipótesis alternativa. . hipótesis nula, Ho, es que la media poblacional es 60. La hipótesis alternativa, H1 es que la media poblacional vale menos de 60. Esto se expresa como sigue:  Ho: μ=60  H1: μ<60  La prueba es de una cola, ya que sólo interesa si hay o no una reducción en el costo. Esta desigualdad en la hipótesis alternativa señala hacia la región de rechazo en la cola o extremidad izquierda de la distribución.
  • 54.  Paso 2: Seleccionar el nivel de significación: se usará un nivel 0.01  Paso 3: Proporcionar el estadístico de prueba, tal estadístico es la distribución t de student, ya que 1) no se conoce la desviación estándar de la población, y 2) el tamaño de la muestra es pequeño (menos de 30)  Paso 4: Formular la regla de decisión, los valores críticos, de t se encuentran en la tabla. La columna del lado izquierdo de la tabla se titula grados de libertad. Para esta prueba hay n-1 grados de libertad (26-1=25), una prueba de una cola y el nivel de 0.01 es de 2.485. La regla de decisión para esta prueba de una cola es rechazar la hipótesis nula si el valor calculado de t queda en cualquier parte de la extremidad, a la izquierda de -2.485. De otra manera se acepta la hipótesis nula de que la media poblacional es $60.
  • 55. Zona de aceptación Zona de rechazo -2.485 Paso 5: Calcular t y tomar una decisión Media muestral=57 Media poblacional hipotética=60 Desviación estándar de la muestra=10 Numero de elementos de la muestra=26 t=(57-60)/10/√26 t=-1.53
  • 56.  Un fabricante de motocicletas, anuncia que su vehículo rendirá en promedio 87 millas por galón en viajes largos. La distancia recorrida (en millas) en ocho viajes largos fue 88, 82, 81, 87, 80, 78, 79 y 89. Pruebe al nivel 0.05 que el recorrido medio es menor que el anunciado.
  • 57. Ho: μ=87 H1: μ<87 Calcular t y tomar una decisión Media muestral= Media poblacional hipotética=87 Desviación estándar de la muestra= Numero de elementos de la muestra=
  • 58.  Se han propuesto dos procedimientos para armar un componente pequeño. La pregunta es : ¿qué método es más eficaz, el desarrollado Ford (que se designa como el n°1) o el desarrollado por Nissan (que se designa como n°2) Para evaluar objetivamente los dos métodos propuestos, se decidió realizar estudios de movimientos y tiempos para algunos componentes. El objetivo de estos estudios es comparar los tiempos medios de ensamblado por unidad para los dos procedimientos. Usar un nivel de significancia de 0.10
  • 59.  La hipótesis nula plantea que no hay diferencia en el tiempo medio de armado entre los procedimientos n°1 y n°2  Ho: µ1=µ2  H1: µ1≠µ2 1   2 t ( n1  1) s1  ( n 2  1) s 2 1 2 2 1 .(  ) n1  n 2  2 n1 n 2 µ1= es el valor medio aritmético del tiempo, con el procedimiento 1 µ2= … procedimiento 2 n1= es el número en la muestra 1 n2= es el número en la muestra 2 s12 = es la variancia de la primera muestra. s22 = es la variancia de la segunda muestra
  • 60. Procedimiento 1 Procedimiento2 Tiempos Tiempos 2 3 4 7 9 5 3 8 2 4 3  El objetivo es determinar si existe diferencia entre los dos métodos de armado. Por tanto se emplea una prueba de dos colas. Los grados de libertad se obtienen  n1+n2-2 = 5 + 6 -2= 9
  • 61. t= -0.662 minutos -1.833 1.833
  • 62.  Muchas variables aleatorias, como la duración de la vida útil de una computadora, sólo pueden asumir valores no negativos. Las distribuciones de frecuencia relativa de datos de este tipo a menudo se pueden modelar mediante funciones de densidad tipo gamma.
  • 63. La función de densidad de probabilidad para una variable aleatoria tipo gamma está dada por:  y  1 e  y /  Si 0≤y≤∞; α>0; β>0    f ( y )      ( )     0 ___ en _ cualquier _ otro _ punto   Donde α  1 y  ( )   y e dy 0 La media y la varianza de una variable aleatoria tipo gamma son, respectivamente: μ=αβ σ2 =αβ2 Algunas propiedades  ( )  (  1)  (  1)  ( )  (  1)! Cuando α es un entero positivo
  • 64. Ejercicio para laboratorio Dibujar la función de distribución Gamma, para para valores enteros de α Considera los valores de y, a partir de 1 en adelante. Realizarla con formula, para que cuando cambie el valor de alfa o beta, cambie automáticamente la grafica. y f(y) α= β= г=
  • 65. Aplicación 1 (distribución Gamma) Investigadores han descubierto que el nivel creciente máximo (en millones de pies cúbicos por segundo) durante un periodo de cuatro años para el Rio Susquehanna, Pennsylvania, sigue aproximadamente una distribución gamma con α=3 y β=0.07 Calcule la media y la varianza del nivel creciente máximo durante un periodo de cuatro años para el Rio Susquehanna. Los investigadores llegaron a sus conclusiones acerca de la distribución de nivel creciente máximo observando los niveles de creciente máximos durante 20 periodos de cuatro años, desde 1890 hasta 1969. Suponga que durante el periodo de cuatro años 1982- 1985 se observo que el nivel de creciente máximo fue de y=0.60 millones de pies cúbicos por segundo. Esperaría usted observar un nivel tan alto en una distribución gamma con α=3 y β=0.07 ¿Qué puede usted inferir acerca de la distribución del nivel de creciente máximo para el periodo de cuatro años 1982-1985?
  • 66. La media y la varianza de una variable aleatoria tipo gamma son, respectivamente: μ=αβ =3(0.07)= 0.21 σ2 =αβ2 =3(0.07)2 =0.0147 σ=0.1212 μ+ 3σ =0.21 +3(0.1212)=0.57 Se puede inferir que 0.60 es un valor que se sale del modelo matemático.
  • 67.  Por experiencia anterior, un fabricante sabe que la distribución de frecuencia relativa del tiempo (en meses) que transcurre entre dos quejas de clientes importantes insatisfechos con sus productos se puede modelar mediante una función de densidad gamma con α=2 y β=4. Quince meses después de que el fabricante hizo más estrictos sus requisitos de control de calidad, llego la primera queja. ¿sugiere esto que el tiempo medio entre quejas de clientes importantes podría haber aumentado?
  • 68.  μ =αβ = (2)(4)  σ2 =αβ2 =(2)(4)2 =32  σ=5.7  Puesto que y =15 meses queda un poco más de una desviación estándar de la media (8 + 5.7=13.7), no podemos considerar a 15 meses como un valor desusadamente grande de y. Conclusión, no hay suficientes pruebas que indiquen que el programa de control de calidad de la compañía ha logrado incrementar el tiempo medio entre quejas.
  • 69.  Una variable aleatoria tipo gamma que desempeña un papel importante en estadística es la variable aleatoria ji cuadrada.  Una variable aleatoria ji cuadrada (X2) es una variable aleatoria tipo gamma con α=v/2 y β=2  2 v 1 f ( )  c( ) 0   2 2 2 2 2 e La media y la varianza de una variable 1 aleatoria ji cuadrada son, c v respectivamente. v μ=v σ2=2v 2 ( ) 2 2 El parámetro v es el número de grados de libertad de la distribución ji cuadrada.
  • 70. Aplicaciones:  Ji cuadrada como prueba de independencia.  Ji cuadrada como prueba de la bondad de ajuste: prueba de lo apropiado de una distribución.
  • 71.  Esta distribución se aplica en los análisis de fiabilidad, para establecer, por ejemplo, el periodo de vida de un componente hasta que presenta una falla. La ecuación para la función de distribución acumulada de Weibull es:  La función de densidad de probabilidad es:  Cuando α= 1 la distribución de Weibull devuelve la distribución exponencial con:  La función de densidad Weibull contiene dos parámetros α y β.. es parámetro de escala, β, refleja el tamaño de las unidades en que se mide la variable aleatoria y el parámetro α, es el parámetro de forma. Si se cambia el valor del parámetro α, es posible generar un conjunto con una amplia variedad de curvas que modelan distribuciones de tiempo hasta falla de la vida real.  A demás de proporcionar un buen modelo para las distribuciones del tiempo hasta falla de muchos componentes fabricados, la distribución Weibull es fácil de usar.
  • 72.  “y” es el tiempo  y  entre fallas,  Si 0≤y<∞ ; α>0 ; β>0  1   y e cuanto tiempo   transcurre de una   falla a otra. f ( y)    0  En cualquier otro punto        1 1    2  2    1  2               2             La función de densidad Weibull contiene dos parámetros,α y β, el parámetro de escala β, refleja el tamaño de las unidades en que se mide la variable aleatoria “y”. El parámetro α es el parámetro de forma. Si se cambia el valor del parámetro de forma α, es posible generar un conjunto con una amplia variedad de curvas que modelan distribuciones de tiempo hasta falla de vida real.
  • 73. Tarea. Dibujar en Excel 1.- La función de densidad Gamma 2.- La función de densidad Weibull 3.- La función de densidad Beta Para entregar vía mail la próxima clase.
  • 74.  La duración (en horas) de una broca de taladro que se emplea en una operación de fabricación tiene una distribución de Weibull con α=2 y β=100. Calcule la probabilidad de que una broca de taladro fallará antes de 8 horas de uso.
  • 75.  y0 y0 y   1  F ( y0 )   f ( y ) dy   y e dy 0 0 Integrar esta función haciendo el siguiente cambio de variable z = yα Ya que la integras te debe quedar lo siguiente:  z  y0   F ( y0 )  1  e  1 e Resp: 0.473
  • 76. Aplicación 2 (Weibull) Un fabricante de lavadoras garantiza sus productos contra cualquier defecto durante el primer año de uso normal. El fabricante ha estimado un costo por reparación de 75$ durante el periodo de garantía. Con base en la experiencia, se sabe que el tiempo en que ocurre la primera falla es una variable aleatoria de Weibull con parámetros de forma y escala iguales a 2 y 40, respectivamente. Si el fabricante espera vender 100 mil unidades y si para una misma unidad, se descuenta el valor de las reparaciones, se determina el costo esperado de la garantía para el fabricante. Sea X la variable aleatoria que representa el tiempo que transcurre hasta que se presenta la primera avería.
  • 77. Por hipótesis, la función de densidad de probabilidad de X es: La probabilidad de que la primera avería ocurra durante el periodo de garantía es igual a la probabilidad de que X sea menor o igual a 12. Mediante el empleo de la fórmula cerrada de distribución: Por lo tanto, si se supone que la operación de las lavadoras es independiente entre sí, se pueden esperar (100.000)(Probabilidad) = n fallas durante el período de garantía con un costo total de n por el costo de reparación
  • 78. Para el problema anterior, calcule la vida media de las brocas para el taladro y la varianza de la distribución del tiempo hasta falla.
  • 79. Capsula cultural
  • 80.  Anteriormente dijimos que la función de densidad gamma proporciona un modelo para la distribución de frecuencia relativa de una variable aleatoria que tiene un limite inferior fijo pero que puede hacerse infinitamente grande.  La función de densidad beta, también caracterizada por dos parámetros, tiene limites inferior y superior finitos (0 y 1)  y  1 (1  y )  1  Si 0≤y≤1; α>0; β>0   f ( y)   B ( ,  )   0 __ en _ cualquier _ otro _ punto   
  • 81. 1  1  1       B ( ,  )   0 y (1  y ) dy       La media y la varianza de una variable aleatoria beta son, respectivamente:       2           1  2
  • 82. Aplicación 1 (Distribución de probabilidad Beta) Los sensores de infrarrojo de un sistema robótico computarizado envían información a otros sensores en diferentes formatos. El porcentaje y de las señales que se envían y que son directamente compatibles para todos los sensores del sistema sigue una distribución beta con α=β=2 a.- Calcule la probabilidad de que más de 30% de las señales de infrarrojo enviadas en el sistema sean directamente compatibles para todos los sensores. b.- Calcule la media y la varianza de y
  • 83. Aplica esta formula e intégrala de 0.30 a 1  y  1 (1  y )  1  f ( y)     B ( ,  )  1 P ( y  0 . 30 )   6 y (1  y ) dy  0 . 514 0 . 30 Media =0.5 Varianza= 0.05
  • 84. Aplicación 2 (Distribución de probabilidad beta) Se determino que datos recabados a lo largo del tiempo sobre el aprovechamiento de un núcleo de computadora (como una proporción de la capacidad total) tenían una distribución de frecuencia relativa que se podía aproximar mediante una función de densidad beta con α=2 y β=4. Calcule la probabilidad de que la proporción del núcleo que se utiliza en un momento dado sea menor que 0.20.
  • 85. p  1  1 y (1  y ) F ( p)   B ( ,  ) dy 0 p=0.20
  • 86. Cuadro comparativo de distribuciones de probabilidad, te ayudará, a conocer los usos. (realiza esto como tarea) Nombre Función de Media Varianza Característica, o densidad cuando se aplica. En que situaciones se aplica. Binomial Normal Poisson Gamma t student Beta Ji cuadrada Weibull
  • 87.  Introducción  Teorema de combinación lineal de variables aleatorias y teorema del limite central.  Muestreo: introducción al muestreo y tipos de muestreo.  Teorema del limite central  Distribución Muestral de la media.  Distribución Muestral de la diferencia de medias.  Distribución Muestral de la proporción
  • 88.  Distribución muestral de la diferencia de proporciones.  Distribución muestral de la varianza.  Distribución muestral de la relación de varianzas.
  • 89.  En estudios pasados de Estadísticas centramos nuestra atención en técnicas que describen los datos, tales como organizar datos en distribuciones de frecuencias y calcular diferentes promedios y medidas de variabilidad. Estábamos concentrados en describir algo que ya ocurrió. También comenzamos a establecer los fundamentos de la estadística inferencial, con el estudio de los conceptos básicos de la probabilidad, las distribuciones de probabilidad discretas y continuas. Distribuciones que son principalmente generadas para evaluar algo que podría ocurrir. Ahora veremos otro tipo de distribución de probabilidad, que se llaman distribuciones muestrales.  ¿Por qué muestrear? Muestrear es una forma de evaluar la calidad de un producto, la opinión de los consumidores, la eficacia de un medicamento o de un tratamiento. Muestra es una parte de la población. Población es el total de resultados de un experimento. Hacer una conclusión sobre el grupo entero (población) basados en información estadística obtenida de un pequeño grupo (muestra) es hacer una inferencia estadística. A menudo no es factible estudiar la población entera.
  • 90. Algunas de las razones por lo que es necesario muestrear son: 1. La naturaleza destructiva de algunas pruebas 2. La imposibilidad física de checar todos los elementos de la población. 3. El costo de estudiar a toda la población es muy alto. 4. El resultado de la muestra es muy similar al resultado de la población. 5. El tiempo para contactar a toda la población es inviable.  Distribución Muestral de las Medias El ejemplo de los ratings de eficiencia muestra como las medias de muestras de un tamaño específico varían de muestra a muestra. La media de la primera muestra fue 101 y la media de la segunda fue 99.5. En una tercera muestra probablemente resultaría una media diferente. Si organizamos las medias de todas las posibles muestras de tamaño 2 en una distribución de probabilidad, obtendremos la distribución muestral de las medias.  Distribución muestral de las medias. Es una distribución de probabilidad de todas las posibles medias muestrales, de un tamaño de muestra dado, seleccionadas de una población.
  • 91. Muestreo Aleatorio Si se seleccionan n elementos de una población de modo tal que cada conjunto de n elementos de la población tenga la misma probabilidad de ser seleccionado, se dice que los n elementos constituyen una muestra aleatoria.
  • 92. Distribuciones de muestreo La distribución de muestreo de una estadística es su distribución de probabilidad El error estándar de una estadística es la desviación estándar de sus distribución de muestreo.
  • 93. Aplicación 1 Suponga que la variable aleatoria y tiene una función de densidad y    e  Si 0≤y<∞        f ( y)    0  En cualquier otro punto         Y sea w(y)=y2 . Obtenga la función de densidad para la variable aleatoria w.
  • 94. w0 F ( y 0 )  F ( w0 )   f ( y ) dy   Termínala de integrar, finalmente te va ha quedar la función de distribución acumulativa para w: w ( )  G (w)  1  e Derívala con respecto de w, y obtendrás la función de densidad para w
  • 95. Teorema del límite central Si se extrae una muestra aleatoria de n observaciones, y1, y2,…,yn, de una población que tiene una media finita μ y una varianza σ2, entonces si n es lo bastante grande, la distribución de muestreo de la media de la muestra Ý se puede aproximar con una función de densidad normal. La distribución de muestreo de la media de la muestra Ý se puede aproximar con una función de densidad normal.
  • 96. Sea y1, y2, … , yn una muestra aleatoria de n observaciones de una población con media finita μ y una desviación estándar finita σ. Entonces, la media y la desviación estándar de la distribución de muestreo de Ý, denotada por:  y  m edia m uestral  y  desviación es tan dar m uestral y    y  / n La importancia del teorema del limite central y lo que acabamos de escribir, es que podemos aproximar la distribución de muestreo de la media de la muestra , en tanto la población tenga una media y varianza finitas.
  • 97. Sean a1 , a 2 , ..., a n cons tan tes y sean y 1 , y 2 , ..., y n n var iables aleatorias n orm alm ente distribuidas con E  y i    i , V ( y i )   i 2 i  1, 2, 3, 4, ..., n E ntonces la distribución de m uestreo de com bin ación lineal de las var iables aleatorias norm a les . l  a1 y1  a 2 y 2  ...  a n y n T iene una función de densidad norm al con m edia E ( l )    a1  1  a 2  2  ...  a n  n
  • 98. Aplicación: Los ingenieros encargados del diseño y mantenimiento de pavimentos para aviones tradicionalmente utilizan concreto con calidad de pavimento. Se realizó un estudio en el aeropuerto con el fin de evaluar la idoneidad de bloques de concreto como superficie para pavimento de aviones. El concreto original con calidad de pavimento del extremo occidental de la pista se cubrió con bloques de concreto con un espesor de 80mm. Se realizo una serie de pruebas de soporte de plancha para determinar el número de clasificación de carga (LCN)-una medida de resistencia a la ruptura-de la superficie. Sea y el LCN medio de una muestra de 25 secciones de bloques de concreto del extremo occidental de la pista.
  • 99. Antes del recubrimiento, se sabía que el LCN medio del concreto original con calidad de pavimento del extremo occidental de la pista era μ=60 y la desviación estándar era σ=10. Si la resistencia media de al nueva superficie de bloques de concreto no es diferente de aquella de la superficie original, describa la distribución de muestreo de Y (Encuentra la media y la desviación estándar de la muestra) Si la resistencia media de la nueva superficie de bloques de concreto no es diferente de aquella de la superficie original, calcule la probabilidad de que Y , el LCN medio de la muestra de 25 secciones de bloques de concreto, sea mayor que 65. Las pruebas de soporte de plancha realizadas con al nueva superficie de bloques de concreto dieron como resultado Y =73. Con base en este resultado, ¿Qué puede usted inferir acerca del verdadero LCN medio de la nueva superficie?
  • 100. Antes de ver la solución, inténtale primero.
  • 101.  y    60  10    2 n 25 65  60 Z   2 .5 2 Es poco probable que suceda una media de 73
  • 102. Reafirmando: Teoría elemental del muestreo La teoría del muestreo estudia la relación entre una población y las muestras tomadas de ella es de gran utilidad en muchos campos. Por ejemplo, para estimar magnitudes desconocidas de una población, tales como media y varianza, llamadas a menudo parámetros de la población o simplemente parámetros, a partir del conocimiento de esas magnitudes sobre muestras, que se llaman estadísticos de la muestra simplemente estadísticos.
  • 103. Distribuciones de muestreo Consideremos todas las posibles muestras de tamaño N en una población dada (con o sin reposición). Para cada muestra, podemos calcular un estadístico (tal como la media o la desviación típica) que variará de muestra a muestra. De esta manera obtenemos una distribución del estadístico que se llama su “distribución de muestreo”. Si por ejemplo, el estadístico utilizado es la media muestral, entonces la distribución se llama “la distribución de muestreo de medias”. Análogamente podríamos tener una distribución de muestreo de la desviación típica, de la varianza, de la mediana, de las proporciones, etc.
  • 104. Distribución de Muestreo de Medias Supongamos que se toman todas las posibles muestras de tamaño N, sin reposición, de una población finita de tamaño Np >N, si denotamos la media y la desviación típica de la distribución de muestreo de medias por μx , σx y las de la poblaciones por μ y σ  Np  N x   x  N N p 1 Si la población es infinita o si el muestreo es con reposición, los resultados anteriores se reducen a: μx =μ σx =σ/√N Para valores grandes de N ( N ≥ 30) la distribución de muestreo de medias es aproximadamente normal con media μx y la desviación típica σx , independientemente de la población (en tanto en cuanto la media poblacional y la varianza sean finitas y el tamaño de la población sea al menos el doble que el de la muestra)
  • 105. Distribución de muestreo de medias (comprobación) Una población consta de los números 2,3, 6, 8 y 11. Consideremos todas las posibles muestras de tamaño 2 que pueden tomarse con reposición de esa población. Hallar La media de la población. La desviación típica de la población La media de la distribución de muestreo de medias La desviación típica de la distribución de muestreo de media.
  • 106. Antes de ver la respuesta inténtalo.
  • 107. 1. Para el primer inciso , sumas los valores y los divides entre el numero de datos que tienes. 2. Para la desviación típica Para datos aislados S = √ ( Σ(xj – x-)2 / N ) j = 1,2,…N Xj = cada dato x- = media N = total de datos Para N ≤ 30 se sustituye N por N-1 3. Para las muestras de tamaño dos , toma todas la combinaciones que puedas (2,2 ) (2,3) (2,6) (2,8) (2,11) luego le siguen con el 3 y así sucesivamente, son 25 muestras en total, de estas 25 muestras obtén la media 4. σx =σ/√N
  • 108. Aplicación. Estamos interesados en una población de 20 compañías textiles del mismo tamaño, todas estas fábricas experimentan una producción excesiva de trabajo. Nuestro estudio indica que la desviación estándar de la distribución de la producción anual es igual a 75 empleados. Si muestreamos cinco de estas compañías textiles, sin reemplazo, y deseamos calcular el error estándar de la media:
  • 109.  Np  N x  N N p 1 Np tamaño población 20 N tamaño de la muestra 5 σ desviación estándar de la población 75
  • 110. Aplicación 2 Las alturas de 3000 estudiantes varones de una Universidad están normalmente distribuidas con media de 68 in y desviación típica 3 in. Si se toman 80 muestras de 25 estudiantes cada una, ¿cuáles serán la media y la desviación típica esperada de la resultante distribución de muestreo de medias, si el muestreo se hizo: a.-) Con reposición b.-) Sin reposición
  • 111. No veas la respuesta hasta que le intentes primero.
  • 112. El número de muestras de tamaño 25 que podrían elegirse de un grupo de 3000 estudiantes con y sin reposición son 300025 Y la combinación de 3000 tomados de 25 3000C25  x    68  3 x    0.6 N 25  Np  N 3 3000  25 x   N N p 1 25 3000  1
  • 113. Aplicación 3 500 bolas de cojinete tienen un peso medio de 5.02 gramos cada una y una desviación típica de 0.30 g. Hallar la probabilidad de que una muestra al azar de 100 bolas de este conjunto tengan un peso total: a.-) Menor a 5 gramos. b.-) Menor a 4.96 gramos. c.-) Más de 5.10 gramos. d.-)Entre 4.96 y 5 gramos. e.-) Más de 5.10 g.
  • 114.  Np  N 0.3 500  100 x   =0.027 N N p 1 100 500  1 4.96 en unidades estándar z= (X – μ)/σ z=(4.96-5.02)/0.027 =-2.22 5.00 en unidades estándar z=
  • 115. Distribución de muestreo de proporciones Supongamos que una población es infinita y que la probabilidad de ocurrencia de un suceso, su éxito es p, mientras que la probabilidad de que no ocurra es q=1-p. Por ejemplo, la población puede ser la de todas las posibles tiradas de una moneda, en la que la probabilidad del suceso cara es p=1/2. Consideremos todas las posibles muestras de tamaño N de tal población, y para cada una de ellas determinemos la proporción de éxitos P Estas ecuaciones son validas, también p  p para una población finita en la que se hace un muestreo con reposición. pq  p  N
  • 116. Aplicación 1 En unas elecciones uno de los candidatos obtuvo el 46% de los votos. Hallar la probabilidad de que en un muestreo de: a. 200 votantes elegidos al azar, saliera la mayoría a su favor. b. 1000 votantes elegidos al azar, saliera mayoría a su favor. Utiliza, 4 decimales, para este problema. Nota: de una muestra de 200, la mayoría sería, la mitad mas 1 esto es la proporción sería 101/200
  • 117. μp =p = 0.46 σp =√ 0.46x0.54/200 = 0.0352 La mayoría se obtiene cuando la proporción es 101/200 =0.505 z= (0.505-0.46 )/0.0352 = 1.27 Probabilidad de que sea mayoría, el área que esta a la derecha. 9.68% 1.27
  • 118. Distribución de muestreo de diferencias y sumas Sean dadas dos poblaciones. Para cada muestra de tamaño N1 de la primera, calculamos un estadístico S1; eso da una distribución de muestreo para S1, cuya media y desviación típica denotaremos por μs1 y σs1. Del mismo modo para cada muestra de tamaño N2 de la segunda población, calculamos un estadístico S2; eso nos da una distribución de muestreo para S2, cuya media y desviación típica denotaremos por μs2 y σs2. De todas las posibles combinaciones de estas muestras de estas dos poblaciones podemos obtener una distribución de las diferencias, S1-S2, que se llama distribución de muestreo de las diferencias de los estadísticos. La media y la desviación típica de esta distribución de muestreo, denotadas respectivamente por:
  • 119.  s1 s 2   s1   s 2  s 1 s 2    2 2 s1 s2 Damos por supuesto que las muestras escogidas no dependan en absoluto una de otra(o sea que sean independientes)
  • 120. Si S1 y S2 son las medias muéstrales de ambas poblaciones, cuyas medias denotamos por : X1 y X 2 Respectivamente, entonces la distribución de muestreo de las diferencias de medias viene dada para poblaciones infinitas con medias y desviaciones típicas (μ1,σ1) y (μ2,σ2)  x 1 x 2   x 1   x 2   1   2   2 2  x 1 x 2   x1   x 2   2 2 1 2 N1 N2 El resultado es valido también para poblaciones finitas si el muestreo es con reposición. Análogos resultados pueden alcanzarse para poblaciones finitas en que el muestreo sea sin reposición.
  • 121. Aplicación Las lámparas de un fabricante A tienen vida media de 1400 h con desviación típica de 200 h, mientras que las de otro fabricante B tienen vida media de 1200 h con desviación típica de 100 h. Si se toma una muestra de 125 lámparas de cada clase, ¿cuál es la probabilidad de que las de A tengan una vida media que sea al menos a.- de 160 horas, más que las de B? b.- de 250 horas, más que las de B?
  • 122.  x 1 x 2   x 1   x 2   1   2  1400  1200   2 2 2 2 100 200  x 1 x 2   x1   x 2      20 2 2 1 2 N1 N2 125 125 ( x A  xB )  200 z  20 a.- 160-200/20 b.- 250-200/20
  • 123. Aplicación: Las bolas de rodamientos de cierto fabricante pesan 0.50 g de media, con desviación típica de 0.02 g. ¿Cuál es la probabilidad de que dos lotes de 1000 bolas cada uno difieran en peso en más de 0.002 g?
  • 124.  x 1 x 2   x 1   x 2   1   2  0.50  0.50   2 2 2 2 0.02 0.02  x 1 x 2   x1   x 2      0.000895 2 2 1 2 N1 N2 1000 1000 (X1  X 2)  0 z 0.000895 0 .0 0 2  0  0 .0 0 2  0 z  2 .2 3 z   2 .2 3 0 .0 0 0 8 9 5 0 .0 0 0 8 9 5
  • 125.  Introducción  Características de un buen estimador.  Estimación puntual Métodos Máxima verosimilitud Momentos.  Intervalo de confianza para la media.  Intervalo de confianza para la diferencia de medias.
  • 126.  Intervalo de confianza para la proporción.  Intervalo de confianza para la diferencia de proporciones.  Intervalo de confianza para la varianza.  Intervalo de confianza para la relación de varianzas.  Determinación del tamaño de muestra. Basado en la media de la población. Basado en la proporción de la población. Basado en la diferencia entre las medias de la población.
  • 127.  Anteriormente vimos cómo se puede emplear la teoría del muestreo para recabar información acerca de muestras aleatorias tomadas de una población conocida. Desde un punto de vista practico, no obstante , suele resultar más importante ser capaz de inferir información sobre la población a partir de muestras suyas. Con tal situación trata la inferencia estadística, que usa los principios de la teoría del muestreo.  Un problema importante de la inferencia estadística es la estimación de parámetros de la población, o brevemente parámetros (tales como la media o la varianza de la población) de los correspondientes estadísticos muéstrales, o simplemente estadísticos (tales como la media y la varianza de la muestra)
  • 128.  Si la media de las distribuciones de muestreo de un estadístico es igual que la del correspondiente parámetro de población, el estadístico se llama un estimador sin sesgo del parámetro, si no se llama un estimador sesgado. Los correspondientes valores de tales estadísticos se llaman estimaciones sin sesgo y sesgadas, respectivamente. Ejemplo: La media de las distribuciones de muestreo de medias  x   , la media de la población. Por tanto la media muestral x es una estimación sin sesgo de la media de la población μ
  • 129.  Si las distribuciones de muestreo de dos estadísticos tienen la misma media (o esperanza), el de menor varianza se llama un estimador eficiente de la media, mientras que el otro se llama un estimador ineficiente. Los valores correspondientes de los estadísticos se llaman estimación eficiente o estimación ineficiente, respectivamente.  Si consideramos todos los posibles estadísticos cuyas distribuciones de muestreo tienen la misma media, aquel de varianza mínima se llama a veces “estimador de máxima eficiencia” o sea el mejor estimador.
  • 130.  Si el estadístico S es la media x de la muestra, entonces los limites de confianza. Si el muestreo es de una población infinita o de una finita con reposición. x +/- Zc * σ/√N Si el muestreo es sin reposición de una población finita de tamaño Np x +/- Zc* (σ/√N)*(√(Np-N)/(Np-1) A la segunda parte de la formula, después del +/- , se le llama error de la estimación
  • 131. Aplicación: Las medidas de los diámetros de una muestra aleatoria de 200 bolas de rodamientos producidas por una maquina en una semana, dieron una media de 0.824 cm y una desviación típica de 0.042 cm. Hallar los limites de confianza. a.- 95% b.- 99% para el diámetro medio de todas las bolas.
  • 132. los limites de confianza 95% son: 0.824 +/- 1.96* 0.042/√200 el valor de 1.96 lo encuentras con la tabla de distribución normal, como es 95% y es de dos colas, entonces se busca un área de 0.95 + 0.05/2=0.975, este valor lo buscas en la tabla y su correspondiente valor de z es igual a 1.96 ¿Por qué es dos colas? Ya que es un intervalo de confianza, buscas el valor hacia arriba y abajo. LS = 0.8298 limite superior LI =0.8181 limite inferior
  • 133. Aplicación Al medir el tiempo de reacción, un psicólogo estima que la desviación típica es 0.05 segundos. ¿De qué tamaño ha de tomarse una muestra de medidas para tener una confianza del : a.- 95% y b.- 99% de que el error de la estimación no supera 0.01 segundos (o sea que sea menor a 0.01 segundos). +/- Zc * σ/√N Esto se considera como error de estimación
  • 134. (1.96)(0.05)/√N < 0.01 Mismo caso para el 99% donde z=2.58
  • 135. Aplicación: Una muestra al azar de 50 calificaciones de matemáticas de entre un total de 200, revela una media de 75 y una desviación típica de 10. a.- ¿Cuáles son los limites de confianza 95% para estimaciones de la media de las 200 calificaciones? b.- ¿Con qué grado de confianza podríamos decir que la media de las 200 es 75+/-1?
  • 136. Como la población no es muy grande comparada con el tamaño de muestra, debemos tenerlo en cuenta. 75 +/- (1.64*(10)/√50)(√(200-50)/(200-1) 75 +/- 1.23Zc 1.23Zc =1 Encuentra el Zc y luego encuentras el área con la tabla de distribución normal
  • 137.  Si el estadístico S es la proporción de éxitos en una muestra de tamaño N sacada de una población binomial en la que p es la proporción de éxitos (o sea, la probabilidad de éxitos), entonces los limites de confianza para p vienen dados por:  p +/- Zc σp , donde p es la proporción de éxitos en la muestra de tamaño N.  Si el muestreo es de una población infinita o finita con reposición  p +/- Zc √(pq/N)  Si el muestreo es de una población finita de tamaño Np y sin reposición.  p +/- Zc √(pq/N) * √(Np-N)/(Np-1)
  • 138. Aplicación: Un sondeo de 100 votantes elegidos al azar en un distrito indica que el 55% de ellos estaban a favor de un cierto candidato. Hallar los limites de confianza. a.- 95% b.- 99% c.- 99.73% para la proporción de todos los votantes favorables a ese candidato.
  • 139. 0.55 +/- 1.96√(0.55)(0.45)/100
  • 140. Aplicación: En 40 lanzamientos de una moneda, han salido 24 caras. Hallar los límites de confianza. a.- 95% b.- 99.73% para la proporción de caras que se obtendrían en un numero ilimitado de lanzamientos de esa moneda.
  • 141. Si el muestreo es de una población infinita o finita con reposición p +/- Zc √(pq/N) P=24/40 N=40 Zc buscar en la tabla.
  • 142.  Si S1 y S2 son dos estadísticos muéstrales con distribuciones de muestreo aproximadamente normales, los límites de confianza para la diferencia de los parámetros de población correspondientes a S1 y S2 vienen dados por: S 1  S 2  Z c s 1 s 2  S 1  S 2  Z c  s 1   s 2 2 2 Mientras que los limites de confianza para la suma de los parámetros de población vienen dados por S 1  S 2  Z c s 1 s 2  S 1  S 2  Z c  s 1   s 2 2 2 Los limites de confianza para la diferencia de dos medias poblacionales, en el caso de poblaciones infinitas, se calculan como: 1 2 2 2 X 1  X 2  Z c x 1 x 2  X 1  X 2  Z c  N1 N2
  • 143. Los limites de confianza para la diferencia de dos proporciones poblacionales, con poblaciones infinitas, están dados por: p1(1  p1) p 2(1  p 2) P1  P2  Z c p 1 p 2  P1  P2  Z c  N1 N2
  • 144. Aplicación Tienda en el centro Tienda en el centro de la ciudad comercial Tamaño de muestra N1=36 N2=49 Media muestral 40 años 35 años Desviación estándar 9 años 10 años poblacional 1 2 2 2 X 1  X 2  Z c x 1 x 2  X 1  X 2  Z c  N1 N2 En promedio los clientes del centro de la ciudad 2 2 son 5 años mayores que 9 10 los del centro comercial, 40  35  1 . 96  pero con un 95% de 36 49 confianza esta la diferencia entre 0.94 y 5  4 . 06 9.06 años. El margen de error es de 4.06 años y la estimación por intervalo de 95% de confianza de la diferencia entre las medias poblacionales va de 5-4.06=0.94 años a 5+4.06=9.06 años.
  • 145. Aplicación: Una muestra de 150 lámparas del tipo A ha dado una vida media de 1400 hrs. Y una desviación típica de 120 hrs. Una muestra de 200 lámparas del tipo B dan vida media de 1200 h y desviación típica de 80 horas. Hallar los límites de confianza: a.- 95% y b.- 99% para la diferencia de las vidas medias de las poblaciones de ambos tipos.
  • 146. 1400-1200 +/- 1.96√(120)2/150 + (80)2/100
  • 147. Aplicación: En una muestra aleatoria de 400 adultos y 600 jóvenes que vieron un cierto programa de televisión, 100 adultos y 300 jóvenes reconocieron que les había gustado. Determinar los limites de confianza a.- 95% b.- 99% para la diferencia en proporciones de todos los adultos y jóvenes que vieron con agrado el programa.
  • 148. P1=300/600 =0.50 P2=100/400=0.25 0.50-0.25 +/- 1.96√(0.50)(0.50)/600 +(0.25)(0.75)/400
  • 149. Intervalos de confianza para desviaciones típicas Los límites de confianza para la desviación típica σ de una población normalmente distribuida, estimados con una muestra con desviación típica s, vienen dados por:  s  z c s  s  z c 2N
  • 150. Aplicación La desviación típica de las vidas medias de una muestra de 200 bombillas es de 100 horas. Hallar los límites de confianza. a.- 95% b.- 99% para la desviación típica de ese tipo de bombillas.
  • 151. 100 +/- 1.96(100)/√400
  • 152. Inferencias acerca de la diferencia entre medias poblacionales:σ1 y σ2 desconocidas (desviaciones estándar poblacionales desconocidas) La inferencia sobre la diferencia entre dos medias poblacionales se extiende al caso en el que las dos desviaciones estándar poblacionales, σ1 y σ2 no se conocen . En este caso para estimar las desviaciones estándar poblacionales desconocidas se emplean las desviaciones estándar muéstrales, s1 y s2. Cuando se usan las desviaciones estándar muéstrales en las estimaciones por intervalo y en las pruebas de hipótesis, se emplea la distribución t en lugar de la distribución normal estándar. x1  media muestra 1 2 2 s1 s2 x 2  media muestra 2 x1  x 2  t  / 2  n1 n2 t  / 2  valor de la t student s1  desviación es tan dar de la muestra 1 s 2  desviación es tan dar de la muestra 2
  • 153. Ejemplo: Encontrar el valor de la t student, con un 95% de confianza y 7 grados de libertad. (2 colas) t=2.36
  • 154. Ejemplo: Bancomer, realiza un estudio para identificar diferencias entre las cuentas de cheques de sus clientes en dos de sus sucursales; toma una muestra aleatoria simple de 28 cuentas de la sucursal Sauz y otra muestra aleatoria simple e independiente de 22 cuentas de cheques de la sucursal Patria. A continuación se presenta un resumen de los saldos en esas cuentas. Sauz Patria Tamaño de la n1=28 n2=22 muestra Media muestral x1=$1025 x2=$910 Desviación s1=$150 s2=$125 estándar muestral El banco desea estimar la diferencia entre el saldo medio en las cuentas de cheques de clientes del Sauz y el saldo medio en las cuentas de cheques de la sucursal Patria.
  • 155. 2 s 2 s2 2   1    n n2   1  gl  2 2  1  s 12   1  s 2 2         n  1  n   n  1  n   1  1   2  2  Grados de libertad: distribución t , con dos muestras aleatorias independientes. 47.8 se redondea a 47 115 +/- 78
  • 156. Estimación por intervalo de la media poblacional: ¿ Se puede considerar que se SI conoce la desviación NO estándar poblacional σ? Use la desviación estándar muestral s para estimar σ s  xt x  Zc n n
  • 157. Aplicación: Las primeras semanas del 2004 fueron buenas para el mercado de acciones. En una muestra de 25 fondos abiertos se encontraron las siguientes ganancias obtenidas desde el principio del año al 24 de enero del 2004. 7.0 3.2 1.4 5.4 8.5 2.5 2.5 1.9 5.4 1.6 1.0 2.1 8.5 4.3 6.2 1.5 1.2 2.7 3.8 2.0 1.2 2.6 4.0 2.6 0.6 a.-¿Cuál es la estimación puntual de la media poblacional de las ganancias en fondos abiertos desde principio del año hasta esa fecha? b.-Puesto que la población tiene una distribución normal, calcule un intervalo de confianza de 95% para la media poblacional de las ganancias en fondos abiertos desde el principio del año hasta esa fecha.
  • 158. Probabilidad de una sola cola. Valores t de Student y probabilidad P asociada en función de los grados de libertad gl. Si la prueba es de dos colas, el valor de α lo divides entre dos y lo buscas en esta fila
  • 159. Si deseas, buscar el valor de la t student en Excel, puedes usar la función DISTR.T.INV, te pedirá la probabilidad esto es el nivel de significancia, tu se lo pones dependiendo si es una cola o dos colas, acuérdate que si es dos colas, divides el valor de α entre dos.
  • 160. Repaso: La media y desviación típica de las cargas máximas soportadas por 60 cables, son 11.09 y 0.73 toneladas, respectivamente. Hallar los limites de confianza. a.-95% b.-99% para la media de las cargas máximas soportadas por los cables de este tipo.
  • 161. Repaso: Se espera que una elección entre dos candidatos sea muy reñida. ¿Cual es el mínimo número de votantes a sondear si se quiere tener un 95% de confianza sobre la decisión a favor uno de otro?
  • 162.  Introducción  Errores tipo I y tipo II  Potencia de la prueba.  Formulación de hipótesis estadísticas.  Prueba de hipótesis para la media.  Prueba de hipótesis para la diferencia de medias.  Prueba de hipótesis para la proporción.  Prueba de hipótesis para la diferencia de proporciones.  Prueba de hipótesis para la varianza.  Prueba de hipótesis para la relación de varianzas.
  • 163. La prueba de hipótesis comienza con una suposición, llamada hipótesis, que hacemos con respecto a un parámetro de población. Después recolectamos datos de muestra, producimos estadísticas de muestra y usamos esta información para decidir qué tan probable es que sea correcto nuestro parámetro de población acerca del cual hicimos la hipótesis. Digamos que suponemos cierto valor para una media de la población. Para probar la validez de nuestra suposición recolectamos datos de muestra y determinamos la diferencia entre el valor real de la media de dicha muestra. Después juzgamos si la diferencia obtenida es significativa o no. Mientras mas pequeña sea la dicha diferencia, mayor será la probabilidad de que nuestro valor hipotetizado para la media sea correcto. Mientras mayor sea la diferencia, más pequeña será la probabilidad.
  • 164. Elaboración de las hipótesis nula y alternativa En algunas aplicaciones no parece obvio cómo formular la hipótesis nula y la hipótesis alternativa. Se debe tener cuidado en estructurar las hipótesis apropiadamente de manera que la conclusión de la prueba de hipótesis proporcione la información que el investigador o la persona encargada de tomar decisiones desea.
  • 165. Prueba de una hipótesis de investigación Considere un determinado modelo de automóvil en el que el rendimiento de la gasolina es 24 millas por galón. Un grupo de investigación elabora un nuevo sistema de inyección de combustible diseñado para dar un mejor rendimiento en millas por galón de gasolina. Para evaluar el nuevo sistema se fabrican varios de éstos, se instalan en los automóviles y se someten a pruebas controladas de manejo. En este caso, el grupo de investigación busca evidencias para concluir que el nuevo sistema aumenta la media del rendimiento. La hipótesis de investigación es, entonces que el nuevo sistema de inyección de combustible proporciona un rendimiento medio mayor a 24 millas por galón de combustible; es decir, μ>24. Como lineamiento general, una hipótesis de investigación se debe plantear como hipótesis alternativa. Ho: μ≤24 Ha: μ>24 (la hipótesis que tu quieres probar la pones como alternativa)
  • 166. Prueba de la validez de una afirmación: A manera de ejemplo de la prueba de validez de una afirmación, considere una situación en la que un fabricante de refrescos asegura que los envases de dos litros de refresco contienen en promedio, por lo menos 67.6 onzas de liquido. Se selecciona una muestra de envases de dos litros y se mide su contenido para confirmar lo que asegura el fabricante. En este tipo de situaciones de prueba de hipótesis, se suele suponer que el dicho del fabricante es verdad a menos que las evidencias muéstrales indiquen lo contrario. Ho: μ≥67.6 Ha: μ<67.6 En toda situación en la que se desee probar la validez de una afirmación, la hipótesis nula se suele basar en la suposición de que la afirmación sea verdadera
  • 167. Prueba en situaciones de toma de decisión: Cuando se prueba una hipótesis de investigación o la validez de una afirmación, se toman medidas si se rechaza Ho; sin embargo, en algunas situaciones se toman tanto si no se puede rechazar Ho como si se puede rechazar Ho. En general, este tipo de situaciones se presentan cuando la persona debe tomar una decisión tiene que elegir entre dos líneas de acción, una relacionada con la hipótesis nula y otra con la hipótesis alternativa. Por ejemplo, con base en una muestra de las piezas de un pedido recibido, el inspector de control de calidad tiene que decidir si acepta el pedido o si lo regresa al proveedor debido a que no satisface las especificaciones. Suponga que una especificación para unas piezas determinadas sea que su longitud deba ser de 2 pulgadas. Si la longitud media es menor o mayor a dos pulgadas, las piezas ocasionarán problemas de calidad en la operación de ensamblado. Ho: μ=2 Ha: μ≠2
  • 168. Ejemplo: Una línea de operación está diseñada para llenar empaques de 32 onzas de detergente para lavar. Con periodicidad se selecciona una muestra de los empaques y se pesan para determinar si no se están llenando con un peso mayor o menor al indicado. Si los datos muéstrales llevan a la conclusión de que hay exceso o falta de llenado, se suspende la producción y se ajusta al llenado correcto. a.-Formule las hipótesis nula y alternativa que ayudarán a determinar si se debe detener la producción y ajustar el peso. Comente.
  • 169. Errores tipo I y II Las hipótesis nula y alternativa son afirmaciones opuestas acerca de la población. Una de las dos, ya sea la hipótesis nula o la hipótesis alternativa es verdadera, pero no ambas. Lo ideal es que la prueba de hipótesis lleve a la aceptación de Ho cuando Ho sea verdadera y al rechazo de Ho cuando Ha sea verdadera. Por desgracia, las conclusiones correctas no siempre son posibles. Como la prueba de hipótesis se basa en una información muestral debe tenerse en cuenta que existe la posibilidad de error. Situación en la población Ho es verdadera Ha es verdadera Conclusión Se acepta Ho Conclusión Error tipo II correcta Se rechaza Ho Error tipo I Conclusión correcta
  • 170. Síntesis de las pruebas de hipótesis para la media poblacional caso σ conocida. Prueba de la cola Prueba de la cola Prueba de dos colas inferior superior Hipótesis Ho:μ≥μo Ho:μ≤μo Ho:μ=μo Ha: μ<μo Ha: μ>μo Ha: μ≠μo Estadístico de x  o x  o x  o prueba z  z  z     n n n Regla de rechazo: Rechazar Ho si Rechazar Ho si Rechazar Ho si método del valor-p valor-p≤α valor-p≤α valor-p≤α Regla de rechazo: Rechazar Ho Rechazar Ho Rechazar Ho método del valor si z≤-zα si z≥-zα si z≤-zα/2 crítico o si z ≥zα/2
  • 171. Aplicación 1 Un fabricante suministra los ejes traseros para los camiones correo del Servicio Postal. Estos ejes deben soportar 80,000 lb por pulg2 en pruebas de carga, pero un eje excesivamente fuerte eleva los costos de producción de manera significativa. La larga experiencia indica que la desviación estándar de la fuerza de sus ejes es 4,000 lb por pulg2. El fabricante selecciona una muestra de 100 ejes de la producción, los prueba y encuentra que la capacidad de carga media de la muestra es 79,600 lb por pulg2 Media población= 80,000 σ= desviación estándar población= 4,000 n= 100 tamaño de muestra Media de muestra= 79,600
  • 172. Ho: μ=80,000 hipótesis nula: la media real es 80,000 lb por pulg2 H1: μ≠ 80,000 hipótesis alternativa: la media real no es 80,000 α= 0.05 nivel de significancia para probar esta hipótesis. σx = σ/raiz n x  o z   n
  • 173. Aplicación 2 Una empresa de investigación sobre bienes raíces, vigila los montos de las rentas de departamentos en Estados Unidos. A mediados de 2002, la renta promedio de un departamento era $895, por mes. Suponga que según los estudios trimestrales anteriores, es razonable suponer que la desviación estándar poblacional es σ=$225. En un estudio reciente, en una muestra de 180 departamentos en todo el país se obtuvo una media de 1025. ¿Estos datos muéstrales permiten que se concluya que la media de la renta actual de departamentos es superior a la media encontrada en 2002? 1. Dé la hipótesis nula y alternativa 2. ¿Cuál es el valor-p? 3. Con α=0.01, ¿cuál es su conclusión?
  • 174. Ho: μ≤895 Ha: μ>895 (la hipótesis que tu quieres probar la pones como alternativa) x  o z   n
  • 175. La diferencia en tamaño entre muestras grandes y pequeñas es importante cuando no se conoce la desviación estándar de la población σ y se hace necesario estimarla a partir de la desviación estándar de la muestra. Si el tamaño de la muestra n es de 30 o menor y σ se desconoce, debemos utilizar la distribución t. La distribución t apropiada tiene n-1 grados de libertad. Estas reglas también se aplican a la prueba de hipótesis.  x  n
  • 176. Aplicación 3 Una empresa sostiene que el salario medio por hora de sus trabajadores es de 500 pesos. El sindicato sospecha que la empresa exagera el valor del salario medio por hora. En una muestra de 400 trabajadores, el sindicato encuentra que el salario medio por hora es de 490 pesos con una desviación estándar de 60 pesos. a. Plantear la hipótesis nula y alterna b. Llegar a una conclusión respecto a la afirmación de la empresa, con un 5% de nivel de significación. x  o z   n
  • 177. Ho: media= Ha: media < 500 490  500 z  60 400
  • 178. Aplicación 4 (Tarea) El departamento de control de calidad de “Tigre Toñi” especifica que el peso promedio por paquete de cereal debe ser de 20 onzas. Periódicamente se selecciona una muestra de cajas llenas, que se pesan para determinar si están faltas o sobradas de llenado. Si los datos de la muestra llevan a la conclusión de que les falta o sobra cereal, se debe parar la línea de producción y hacer los ajustes necesarios para que el llenado sea correcto. a) Formule las hipótesis nula y alternativa que ayuden a decidir si es conveniente parar y ajustar la línea de producción o no. b) ¿Cuál es el error de tipo I en este caso? ¿Cuáles son las consecuencias de cometerlo?
  • 179. Aplicación 5 (Tarea) En una encuesta, un investigador obtuvo la estimación de que la media del número de horas de ver TV por familia es de 7.25 horas diarias. Suponga que en esta encuesta participaron 200 familias y que la desviación estándar de la muestra fue de 2.5 horas diarias. Hace 10 años, la media de la población de horas de TV era de 6.70 por familia. Si =la media de la población del número de horas de ver TV por familia hace 10 años, pruebe la hipótesis H 0 :   6 .70 y H a :   6 .70 Use =0.01. ¿Cuál es el valor crítico del estadístico de prueba y cuál es la regla de rechazo? Calcule el valor del estadístico de prueba. ¿cuál es su conclusión?
  • 180. Pruebas de hipótesis para proporciones: p  p0 p 0  proporción hipotetica z p  proporción muestral p 0 (1  p 0 ) n  tamaño de muestra n Ejemplo: En años anteriores 20% de los jugadores del campo eran mujeres. Para aumentar la proporción de mujeres se realizó una promoción especial. Un mes después de realizada la promoción, el administrador del campo solicita un estudio estadístico para determinar si la proporción de jugadoras ha aumentado. p 0  0 . 20 0 . 25  0 . 20 z  2 .5 p  0 . 25 0 . 20 (1  0 . 20 ) n  400 400 H 0  p  0 . 20 para un 95 % confianza Ha  p  0 . 20 prueba una cola z  1 . 64 por lo tan to se rechaza la Ho
  • 181. Aplicación 2 En un estudio acerca de la rotación de puestos, un investigador entrevista a una muestra aleatoria de 200 empleados de alto nivel que cambiaron de trabajo el año anterior. Treinta afirman haberlo hecho a causa de la ausencia de perspectivas de ascenso en sus anteriores trabajos. a) Empleando un nivel de significancia de 0.05, ¿ofrecen estos datos suficiente evidencia que indique que menos del 20% de esos empleados cambian de trabajo por ese motivo? b) Cuál es el valor p-value? p  p0 z p 0 (1  p 0 ) n
  • 182. n  200 30 p   0 . 15 El p-value, es el valor del 200 17 p0   0 . 85 área de la colita 20 0 . 15  0 . 20 z   0 . 15 ( 0 . 85 ) 200
  • 183. Pruebas de hipótesis acerca µ1 - µ2 Estadístico de prueba para pruebas de hipótesis acerca de µ1 y µ2 σ1 y σ2 desconocidas. Nota: considerar a Do=0, esto quiere decir que no hay ( x1  x 2 )  D 0 diferencia entre las medias t  poblacionales. 2 2 s s 1  2 n1 n2 2 s s 2 2   1  2   n n2   1  gl  2 2  1  s 12   1  s 2 2         n  1  n   n  1  n   1  1   2  2 
  • 184. Tecnología existente Software nuevo 300 274 280 220 344 308 385 336 372 198 360 300 288 315 321 258 376 318 290 310 301 332 283 263 Tamaño de muestra n1=12 n2=12 Media Muestral X1=325 X2=286 Desviación estándar muestral s1=40 s2=44
  • 185. El investigador encargado de la evaluación del nuevo software espera poder demostrar que con el nuevo software se necesita menos tiempo para el proyecto del sistema de información. De manera que el investigador tratará de hallar evidencias que le permitan concluir que µ2 es menor que µ1 Ho: µ1-µ2≤0 Ha: µ1-µ2>0 Nivel de significancia α=0.05
  • 186. Probabilidad de una sola cola. Valores t de Student y probabilidad P asociada en función de los grados de libertad gl. α Nivel de significancia
  • 187. Inferencias acerca de la diferencia entre dos medias poblacionales: muestras pareadas. Trabajador Tiempo para Tiempo para Diferencia entre (di – Media de las realizar la tarea realizar la tarea los tiempos (di) diferencias)^2 con el método 1 con el método 2 (minutos) (minutos) 1 6.0 5.4 0.6 (0.6-0.30)^2= 2 5.0 5.2 -0.2 3 7.0 6.5 0.5 4 6.2 5.9 0.3 5 6.0 6.0 0 6 6.4 5.8 0.6 Media de las ∑ diferencias=0.30
  • 188. d  d i n d  0 . 30 media de las diferencia s 0 . 56 sd   0 . 335  (d d) 2 sd  i 5 n 1 desviación es tan dar
  • 189. Estadístico de prueba para pruebas de hipótesis con muestras pareadas. d  d t calculada  sd n d  0 . 30 d  0 sd  0 . 335 n6 t calculada=2.20
  • 190. Para el problema anterior: Ho: µd=0 Ha: µd≠0 α=0.05 Para dos colas α/2 = 0.025 n-1= grados de libertad=6-1 t= ¿? Conclusión, se acepta Ho que no hay diferencia entre las medias. t critica=2.571
  • 191. Regla de decisión, usando el método de p- value. p-value ≤ α nivel significación, se rechaza la hipótesis nula, caso contrario se acepta la hipótesis nula.
  • 192. Prueba de hipótesis acerca de p1-p2 Error estándar: p 1 (1  p 1 ) p 2 (1  p 2 )  p 1 p 2   n1 n2 Estadístico de prueba para pruebas de hipótesis acerca de p1- p2 ( p1  p 2 ) z  1 1 p (1  p )(  ) n1 n2 n1 p 1  n 2 p 2 p  n1  n 2
  • 193. Aplicación: Una empresa se dedica a elaborar declaraciones de impuestos, suponga que la empresa desea realizar una prueba de hipótesis para determinar si las proporciones de errores de las dos oficinas son diferentes. Ho: p1-p2=0 Ha: p1-p2≠0 α=0.10 p1=0.14 n1=250 p2=0.09 n2=300
  • 194. Aplicación: Durante el partido Chivas, Atlas, un comercial de la cervecería, conocido como las Chicas Sol, fue uno de los tres más efectivos televisados durante el evento. Una encuesta para ver la efectividad de los comerciales, empleó muestras por grupos de edades para ver el efecto de la publicidad en el partido Chivas, Atlas sobre los distintos grupos de edades. A continuación se presentan los resultados muéstrales respecto del comercial de la marca cerveza. Edad Tamaño de muestra Le gustó mucho el comercial Menos de 30 años 100 49 De 30 a 49 años 150 54 a.- Formule una prueba de hipótesis para determinar si las proporciones poblacionales de los dos grupos de edades difieren. b.-Dé la estimación puntual de la diferencia entre las dos proporciones poblacionales. c.-Realice la prueba de hipótesis y dé el valor-p. Con α=0.05, ¿cuál es su conclusión? d.-Analice la forma en que el comercial llama la atención del grupo de menor y de mayor edad. ¿Le parecerá a la empresa cervecera que los resultados de esta encuesta le son favorables?
  • 195. Ho: p1-p2=0 Ha: p1-p2≠0 α= p1= n1= p2= n2=
  • 196. Inferencias acerca de varianzas poblacionales En los temas de los capítulos anteriores se vieron métodos de inferencia estadística para medias y proporciones poblacionales. Ahora se extiende dicho estudio a las varianzas poblacionales. Un ejemplo en que la varianza brinda una información importante para tomar una decisión es el caso de un proceso en el que se llenan recipientes con un detergente líquido. La maquina de llenado se ajusta de manera que logre un llenado medio de 16 onzas por envase. Aunque la media de llenado es importante, la varianza en los pesos de llenado también es relevante.
  • 197. Es decir, aun cuando la máquina de llenado tenga un ajuste adecuado para una media de llenado de 16 onzas, no es de esperar que todos los envases tengan exactamente 16 onzas. Para calcular la varianza muestral de la cantidad de onzas en cada envase se toma una muestra de envases llenos. El valor de la varianza muestral sirve como una estimación de la varianza en la población de envases que están siendo llenados en el proceso de producción. Si la varianza muestral es moderada, el proceso continua. Pero si la varianza muestral es grande, puede estar ocurriendo por exceso o defecto de llenado, aunque la media sea correcta, en este caso habrá de reajustar la maquina.
  • 198. Estimación por intervalo para la varianza poblacional: 2 2 ( n  1) s ( n  1) s  2   /2  (1   / 2 ) 2 2 Donde los valores de X2 están basados en una distribución chi-cuadrada con n-1 grados de libertad y donde 1-α es el coeficiente de confianza.
  • 199. Pruebas de hipótesis para la varianza poblacional Prueba de la cola Prueba de la cola Prueba de dos colas inferior superior Hipótesis Ho: σ2 ≥σ2o Ho: σ2 ≤σ2o Ho: σ2 =σ2o Ho: σ2 <σ2o Ho: σ2 >σ2o Ho: σ2 ≠σ2o Estadístico de prueba X2=(n-1)s2/σ2o X2=(n-1)s2/σ2o X2=(n-1)s2/σ2o Regla de rechazo: Rechazar Ho si valor- Rechazar Ho si valor- Rechazar Ho si valor- método del valor-p p≤α p≤α p≤α Regla de rechazo: Rechazar Ho si Rechazar Ho si Rechazar Ho si método del valor crítico X2≤X2 (1-α) X2≤X2 α X2≤X2 (1-α/2) o si X2≥X2 α/2
  • 200. Aplicación: En la industrial farmacéutica la varianza en los pesos de los medicamentos es trascendental. Considere un medicamento cuyo peso está dado en gramos y una muestra de 18 unidades de este medicamento, la varianza muestral es s2 =0.36 a.- Dé un intervalo de 90% de confianza para estimar la varianza poblacional de los pesos de este medicamento.
  • 201. Aplicación 2 Una pieza para automóviles debe fabricarse con medidas de tolerancia muy estrechas para que sea aceptada por el cliente. Las especificaciones de producción indican que la varianza máxima en la longitud de la pieza debe ser 0.0004. Suponga que en 30 piezas la varianza muestral encontrada es s2=0.0005. Use α=0.05 para probar si se está violando la especificación para la varianza poblacional. X2=(n-1)s2/σ2o n= tamaño de muestra s2=varianza muestral= σ2o= varianza de población gl=n-1= X2calculada= x2critica=
  • 202.  Prueba X2  Prueba de Kolmogorov Sminov  Prueba de Anderson Daring
  • 203. Distinción entre las pruebas paramétricas y las no paramétricas
  • 204.  Cuando se analizan datos medidos por una variable cuantitativa continua, las pruebas estadísticas de estimación y contraste frecuentemente empleadas se basan en suponer que se ha obtenido una muestra aleatoria de una distribución de probabilidad de tipo normal o de Gauss.  Pero en muchas ocasiones esta suposición no resulta válida, y en otras la sospecha de que no sea adecuada no resulta fácil de comprobar, por tratarse de muestras pequeñas. En estos casos disponemos de dos posibles mecanismos: los datos se pueden transformar de tal manera que sigan una distribución normal, o bien se puede acudir a pruebas estadísticas que no se basan en ninguna suposición en cuanto a la distribución de probabilidad a partir de la que fueron obtenidos los datos, y por ello se denominan pruebas no paramétricas (distribution free), mientras que las pruebas que suponen una distribución de probabilidad determinada para los datos se denominan pruebas paramétricas
  • 205. Se denominan pruebas no paramétricas aquellas que no presuponen una distribución de probabilidad para los datos, por ello se conocen también como de distribución libre (distribution free). En la mayor parte de ellas los resultados estadísticos se derivan únicamente a partir de procedimientos de ordenación y recuento, por lo que su base lógica es de fácil comprensión. Cuando trabajamos con muestras pequeñas (n < 10) en las que se desconoce si es válido suponer la normalidad de los datos, conviene utilizar pruebas no paramétricas, al menos para corroborar los resultados obtenidos a partir de la utilización de la teoría basada en la normal.
  • 206. Las pruebas z y t son ejemplos de pruebas paramétricas. Por ejemplo en la prueba z es necesario especificar la media y la desviación estándar de la población de la hipótesis nula y, además los datos de la población deben tener una distribución normal (la media y la desviación estándar son parámetros). Aunque todas las pruebas de inferencia dependen en cierta medida de las características de la población, los requisitos de las pruebas no paramétricas son mínimas. Como las pruebas de inferencia no paramétricas tienen menos requisitos o supuestos relacionados con las características de población, surge la duda de si no deberíamos utilizarlas todo el tiempo, olvidándonos de las pruebas paramétricas. Muchas de la pruebas paramétricas son robustas con respecto a la violación de los supuestos subyacentes.
  • 207. JI-CUADRADA EXPERIMENTOS CON UNA VARIABLE Hasta este momento, hemos presentado pruebas de inferencia que han sido utilizadas principalmente con datos ordinales, de intervalo o razón. La prueba de inferencia que se emplea más a menudo con los datos nominales es una prueba no paramétrica que se conoce como ji-cuadrada
  • 208. Aplicación 1 Preferencia por las diversas marcas de cerveza ligera Supongamos que usted quiere determinar si los consumidores de cerveza que viven en Guadalajara difieren con respecto a sus preferencias por las diferentes marcas de cerveza ligera. Para eso decide realizar un experimento en el cual elige al azar a 150 consumidores de cerveza y los invita a probar las tres marcas principales de esa bebida. Suponga que se han observado todas las precauciones de un buen diseño experimental, como no mostrar los nombres de las marcas a los sujetos del experimento y otros cuidados similares. Los datos resultantes se presentan en la tabla. Marca A Marca B Marca C Total 45 40 65 150 Los datos de cada celda son el número o la frecuencia de los sujetos que corresponde a esa celda. Así, 45 sujetos prefirieron la marca A, 40 prefirieron la marca B y 65 prefirieron la marca C. ¿Podemos concluir, a partir de estos datos, que existe alguna diferencia en las preferencias de la población?
  • 209. Hipótesis nula: No existe diferencia alguna en la preferencia de la población por las diversas marcas de cerveza ligera. ( fo  fe ) 2    2 obt fe Ecuación para determinar la Ji cuadrada fo= frecuencia observada en la celda fe= frecuencia esperada en la celda Marca A Marca B Marca C Total 45 40 65 150 frecuencia observada 50 50 50 150 frecuencia esperada
  • 210. ( 45  50 ) ( 40  50 ) ( 65  50 ) 2 2 2    50 50 50  0 . 50  2 . 00  4 . 50  7 . 00 t critica: 5.991 Buscar en la tabla con k-1 grados de libertad, donde k es el numero de grupos o categorías, para este caso k=3 y un nivel de significación de 0.05 Zona t obs= 7 aceptación zona de rechazo t conclusión: se rechaza criti nuestra hipótesis nula ca
  • 211. Aplicación 2: Un investigador cree que la composición étnica de la ciudad donde él vive ha cambiado durante los últimos años. Las cifras más recientes (recopiladas hace unos cuantos años) muestran que los habitantes de dicha ciudad presentaban la siguiente composición étnica: 53% noruegos, 32% suecos, 8% irlandeses, 5% hispanos y 2% italianos. Para poner a prueba su idea, el científico social obtiene una muestra aleatoria de 750 habitantes. Los resultados que obtuvo se presentan en la siguiente tabla: Noruegos Suecos Irlandeses Hispanos Italianos Total 399 193 63 82 13 750 a.-¿Cuál es la hipótesis nula? b.-¿Cuál es la conclusión de usted? Utilice α=0.05
  • 212. Hipótesis nula: La composición étnica de la ciudad no ha cambiado, Por lo tanto, la muestra de 750 individuos es una muestra aleatoria extraída de una población compuesta por 53% de noruegos, 32% suecos, 8% de irlandeses, 5% de hispanos y 2% de italianos. Completa la siguiente tabla: fo Proporción fe (fo – fe)2 / fe esperada 399 399/750=0.53 0.53(750)=397.5 0.006 193 193/750= 9.204 63 0.150 82 52.807 13 Total 750 Total: X2 obt =62.43 Los grados de libertad son 5-1=4 con un α=0.05, buscas en la tabla y te debe dar un valor de 9.488 como X2obt =62.43 > 9.488 se rechaza
  • 213. Pruebas de bondad del ajuste. Antes de poder utilizar un generador de proceso en un estudio de simulación, debe mostrarse primero que es posible representar los datos empíricos a través de una distribución probabilística teórica conocida. Por ejemplo en los modelos de líneas de espera debe demostrarse que la tasa de llegadas tiene una distribución Poisson y el tiempo de servicio una distribución exponencial. Es posible emplear diversas pruebas estadísticas para probar la bondad del ajuste de una distribución teórica a conjunto determinado de datos. Una de las que mas se usan con mayor frecuencia es la prueba Ji cuadrada X2
  • 214. La prueba de X2 pretende determinar si existe diferencia significativa entre las frecuencias esperadas (las que se basan en la distribución teórica) y las frecuencias reales (las de los datos). Los pasos que se utilizan en el proceso de prueba son los siguientes: 1. Plantear la hipótesis de prueba, Ho, que señala que los datos observados se extrajeron de una población que puede describirse a través de una distribución teórica conocida. 2. Plantear la hipótesis alternativa, H1, que señala que los datos observados no se extrajeron de la población planteada en el paso 1. 3. Identificar el nivel de significación, α, con el que se llevará a cabo la prueba. (Recordar que 1-α es el nivel de confianza de una prueba estadística.) 4. Utilizando la siguiente relación matemática.
  • 215. 2 ( fo  fe )   2 cal  fe en donde X2cal = valor calculado de X2 fo = frecuencias observadas fe = frecuencias teóricas o esperadas. Si X2cal > X2 tablas , entonces se rechaza Ho (se acepta H1) Nota: La distribución continua chi cuadrada puede aproximarse razonablemente a la distribución discreta ( fo  fe ) 2   2 cal  fe siempre y cuando todos los valores de fe sean de al menos 5. (Hay formas para evitar el problema de una frecuencia que se espera menor que 5, como combinar categorías de manera que todas las frecuencias que se esperan sean al menos 5)
  • 216. Ejemplo: Suponga que los datos que aparecen en las dos primeras columnas, corresponden al número de clientes que entran a un banco cada hora. Estos datos se recolectaron al azar para 204 periodos de una hora. Con base en estos datos, plantearíamos la hipótesis (Ho) de que los datos pueden representarse por medio de una distribución de Poisson. Número de llegadas por hora Frecuencia observada (fo) (x) 0 70 1 84 2 34 3 12 4 4
  • 217. en donde λT= número promedio de llegadas por periodo T  T ( T ) e x x = número de llegadas en el intervalo de p( x)  , 0 x tiempo x! Número Frecuenc Probabilidad esperada de Frecuencia esperada (fo-fe)2 / fe de ia acuerdo a Poisson (fe) llegadas observad por hora a (fo) (x) 0 70 p(x=0)=(1)(e- 0.36788 x 204= (70-75.05)2/75.05 1)/0!=0.36788 75.05 =0.3398 1 84 p(x=1)=(1)(e- 0.36788 x 204= 1)/1!=0.36788 75.05 2 34 p(x=2)=(1)(e- 1)/2!=_______ 3 12 p(x=3)=________________ =0.0088 (agrupando 3 y 4, porque la frecuencia esperada de 4 debe ser al menos 5) 4 4 p(x≥4)=________________ ojo, probabilidad mayor o igual a 4= 1- (suma de las otras probabilidades) Total= X2cal = 1.7461 204
  • 218. Grados de libertad= Numero de categorías – 1= 4-1=3 α = 0.05 95% de confianza Si X2cal > X2 tablas , entonces se rechaza Ho (se acepta H1) Región aceptación Región de rechazo Chi-critica, que se busca con las tablas = 7.815
  • 219. Llega Don Poisson Lo atiende Doña Exponencial
  • 220. Notas, técnicas (respecto a la dualidad en las distribuciones de probabilidad Many of the distributions discussed in this chapter are related to one another in various ways. For example, the geometric distribution is related to the binomial distribution. The geometric distribution represents the number of trials until the next success while the binomial represents the number of successes in a fixed number of trials. Similarly, the Poisson distribution is related to the exponential distribution. The exponential distribution represents the amount of time until the next occurrence of an event while the Poisson distribution represents http://www.elmundo.es/traductor/ the number of times an event occurs within a given period of time.
  • 221. In some situations, as when the number of trials for the binomial distribution becomes very large, the normal and binomial distributions become very similar. For these two distributions, as the number of binomial trials approaches infinity, the probabilities become identical for any given interval. For this reason, you can use the normal distribution to approximate the binomial distribution when the number of trials becomes too large for Crystal Ball to handle (more than 1000 trials). You also can use the Poisson distribution to approximate the binomial distribution when the number of trials is large, but there is little advantage to this since Crystal Ball takes a comparable amount of time to compute both distributions. Likewise, the normal and Student’s t distributions are related. With Degrees of Freedom > 30, Student’s t closely approximates the normal distribution.
  • 222. Prueba de independencia entre dos variables: Una de las principales aplicaciones de la Ji-cuadrada consiste en determinar si dos variables categóricas son independientes o están relacionadas entre sí. Para ilustrar este punto veamos el siguiente ejemplo: Afiliación política y actitud Supongamos que en la legislatura local está en estudio un proyecto de ley cuyo propósito es reducir la edad legal a fin de permitir el consumo de bebidas alcohólicas a las personas de 18 años. Un diputado (que trabaja) que vive en esa ciudad quiere determinar si existe alguna relación entre la afiliación política y la actitud frente al proyecto de ley. Para averiguarlo, este diputado envía cartas a dos muestras aleatorias, una de ellas formada por 200 miembros del PRD y la otra por 200 miembros del PAN. En la carta el diputado explica su interés por el proyecto de ley y pregunta a los destinatarios si están a favor, indecisos o en contra de esa iniciativa de ley. Les asegura la plena confidencialidad de sus respuestas. En la carta incluye un sobre con el porte pagado para facilitar la respuesta.
  • 223. El diputado investigador, recibe respuesta de los 400, los resultados obtenidos se muestran en la tabla: Actitud A favor Indecisos En contra Total por reglón Afiliación PRD 68 22 110 200 política PAN 92 18 90 200 Total por 160 40 200 400 columna Este tipo de arreglo se conoce como tabla de contingencia. Una tabla de contingencia se compone de dos vías o entradas y muestra la relación contingente entre dos variables, cuando éstas han sido clasificadas en categorías mutuamente excluyentes y cuando los datos de cada celda son frecuencias.
  • 224. Hipótesis nula: En la población, la actitud hacia el proyecto y la afiliación política son independientes. Si lo anterior es cierto, entonces los del PRD y PAN en la población deberán tener la misma proporción de personas “a favor”, “indecisas” y “en contra” del proyecto.
  • 225. Actitud A favor Indecisos En contra Total por reglón Afiliación PRD 68 22 110 200 política PAN 92 18 90 200 Total por 160 40 200 400 columna
  • 226. fo Proporción esperada de fe (fo – fe)2 / fe la población que esta “a……..” PRD 68 a favor (68+92)/400=160/400 (160/400)200=80 (68-80)2/80= 1.80 proporción de personas en total que están a favor 22 indecisos (22+18)/400= 40/400 110 en contra PAN 92 a favor (68+92)/400=160/400 18 indecisos 90 en contra Total 400 Total: X2 obt =6.00
  • 227. Hipótesis nula: En la población, la actitud hacia el proyecto y la afiliación política son independientes. grados de libertad=(r-1)(c-1)=(2-1)(3-1)=2 con un α=0.05, buscando en la tabla de la ji cuadrada encuentras: X2critica = 5.991, como la observada es mayor que la critica se rechaza la hipótesis nula.
  • 228. Aplicación 3: En universidad estudia la posibilidad de implantar uno de los tres sistemas de calificaciones. Se realiza una encuesta para determinar si existe alguna relación entre el área de licenciatura que estudia cada alumno y la preferencia que manifiesta por algún sistema de calificación en particular. Entonces se elige una muestra aleatoria constituida por 200 estudiantes del área de ingenierías, 200 de artes y ciencias y 100 de bellas artes. Se pregunta a cada alumno cuál de los tres sistemas prefiere. Los resultados se presentan en la siguiente tabla de contingencia. a.-¿Cuál es la hipótesis nula? b.-¿Cuál es tu conclusión? Sistema de calificación Sistema 1 Sistema 2 Sistema 3 Total por renglón Bellas artes 26 55 19 100 Artes y 24 118 58 200 ciencias Ingeniería 20 112 68 200 Total por 70 285 145 500 columna
  • 229. Hipótesis nula: El área de estudio de los estudiantes y su preferencia por algún sistema de calificación son independientes entre sí. La frecuencia obtenida en cada celda se debe al muestreo aleatorio realizado en una población donde las proporciones de estudiantes de bellas artes, artes y ciencias, e ingeniería, que prefieren cada sistema de calificación son iguales. Celda número fo fe (fo – fe)2 /fe 1 26 (70/500)x100=14 10.286 2 55 (285/500)x100 3 19 4 5 6 7 8 9 ∑=18.56 Grados de libertad (r-1)(c-1)
  • 230. Aplicación 4 Un investigador esta interesado en determinar si existe alguna relación entre el nivel de educación de los padres y el número de hijos que tienen. Para averiguarlo, realiza una encuesta y así obtiene los siguientes resultados. Número de hijos Dos o menos Más de dos Suma por renglón Educación 53 22 75 universitaria Solamente 37 38 75 bachillerato Suma por 90 60 150 columna a.-¿Cuál es la hipótesis nula? b.-¿Cuál es la conclusión? Utilice α=0.05
  • 231. Supuestos subyacentes a Ji cuadrada Un supuesto básico para utilizar Ji cuadrada consiste en que cada una de las observaciones registradas en la tabla de contingencia es independiente de las demás. Esto significa que cada sujeto puede tener sólo un dato en la tabla. No se permite realizar varias mediciones con el mismo sujeto e introducirlas como frecuencia separadas en la misma celda o en otra distinta. Este error produciría una N mayor que el número de observaciones independientes realizadas. Un segundo supuesto establece que el tamaño de muestra deberá ser lo suficientemente grande para que la frecuencia esperada en cada celda sea de 5, por lo menos, para las tablas en las que r o c es mayor que 2. Si la tabla es de 1x2 o de 2x2, entonces cada frecuencia esperada tendrá que ser de 10 cuando menos.
  • 232. LA PRUEBA DE RANGOS CON SIGNO Y PARES IGUALADOS DE WILCOXON La prueba de rangos con signo de Wilcoxon se utiliza en combinación con el diseño de grupos correlacionados, el cual debe contener datos que tengan por lo menos una escala ordinal. Se trata de una prueba relativamente potente que a veces se emplea en lugar de la prueba t para grupos correlacionados, cuando hay una violación extrema del supuesto de normalidad o cuando los datos no tienen la escala adecuada.
  • 233. Aplicación 1 (Ecología) Promoción de actitudes más favorables hacia la conservación de la vida silvestre: Un destacado grupo ecológico planea realizar una campaña activa para fomentar la conservación de la flora y la fauna silvestres en su país. Como parte de la campaña, piensan exhibir una película producida con el fin de promover actitudes más favorables hacia la conservación de la vida silvestre. Antes de exhibirla a todo el público, los promotores de la campaña desean evaluar los efectos de la película. Para eso se elige al azar a un grupo de 10 sujetos y se les proporciona un cuestionario que mide la actitud individual hacia la conservación de la vida silvestre. A continuación, se les proyecta la película y después de la exhibición contestan de nuevo el cuestionario de actitudes. Este tiene 50 puntos posibles y cuanto mas alta sea la puntuación, tanto mas favorable será la actitud hacia la conservación de la vida silvestre. Los resultados se presentan en la tabla. a.-¿Cuál es la hipótesis nula? b.-¿Cuál es la conclusión? Utilice α=0.05 (2 colas)
  • 234. Hipótesis nula: La hipótesis nula se enuncia sin especificar los parámetros de población. Para este ejemplo establece que la película no influye en las actitudes hacia la conservación de la vida silvestre. Voy ha comparar el después con el antes Realizare la diferencia Después - Antes
  • 235. Actitud A B C D E F Primer Segundo Tercer paso Cuarto paso Quinto paso Sexto paso paso paso Sujeto Antes Después Diferencia Valor Ordenar los valores Rango con signo de la Suma de los Suma de (Después – absoluto de absolutos de los valores de diferencia rangos positivos los rangos Antes) la diferencia la diferencia de menor a Asignar a los rangos (En esta columna negativos mayor. resultantes el signo del colocas los (De la columna B al mas puntaje de diferencia cuyo números de la chico le asignas el 1 y así te valor absoluto produjo ese columna D que vas al que sigue el 2 y así rango. sean positivos) sucesivamente) (En esta columna son los números de la columna C, pero con los signos de la columna A) 1 40 44 4 4 4 4 4 2 33 40 7 7 6 6 6 3 36 49 13 13 10 10 10 4 34 36 2 2 2 2 2 5 40 39 -1 1 1 -1 -1 6 31 40 9 9 8 8 8 7 30 27 -3 3 3 -3 -3 8 36 42 6 6 5 5 5 9 24 35 11 11 9 9 9 10 20 28 8 8 7 7 7 Σ=55 Σ=51 Σ=4 Las tres primeras columnas son los datos del problema, las siguientes columnas son los pasos para llegar a la solución. Para llegar a la conclusión determinamos Tobt calculando la suma de los rangos positivos y la suma de los rangos negativos, Tobt es la menor de esas sumas, para nuestro caso Tobt=4. Para N=10 y con α=0.05 (2 colas) buscando en la tabla de Wilcoxon, vemos que Tcrit =8 Si Tobt ≤ Tcrit deberá rechazarse la hipótesis nula Ho
  • 236. Aplicación 2 Un investigador quiere determinar si la dificultad del material que han de aprender afecta el nivel de ansiedad de los estudiantes universitarios. A cada uno de los miembros de una muestra aleatoria de 12 alumnos se le asignan ciertas tareas de aprendizaje que se clasifican como fáciles o difíciles. Antes de que los estudiantes inicien cada tarea, se les presentan algunos ejemplos como muestra del material que van ha aprender. A continuación se mide el nivel de ansiedad que mostraron los alumnos, mediante un cuestionario adecuado. De esta manera, se mide el nivel de ansiedad antes de cada tarea de aprendizaje. Los datos se muestran en la tabla siguiente. Mientras mas alta sea la calificación, mayor será el nivel de ansiedad. ¿Cuál es la conclusión, utilizando la prueba de rangos de Wilcoxon y α=0.05 (2 colas) Hipótesis nula: ---- La dificultad del material no influye en el nivel de ansiedad Voy ha comparar la ansiedad cuando el material es difícil con la ansiedad cuando el material es fácil Difícil - Fácil
  • 237. Ansiedad A B C D E F Estudiant Tareas Tareas Diferencia Valor Ordenar los valores Rango con signo de la Suma de los Suma de los e número difíciles fáciles (Difíciles – absoluto absolutos de los valores diferencia rangos rangos fáciles) de la de la diferencia de Asignar a los rangos positivos negativos diferencia menor a mayor. resultantes el signo del (En esta (De la columna B al mas puntaje de diferencia cuyo columna chico le asignas el 1 y valor absoluto produjo ese colocas los así te vas al que sigue el rango. números de la 2 y así sucesivamente) (En esta columna son los columna D números de la columna C, que sean pero con los signos de la positivos) columna A) 1 48 40 8 8 7 2 33 27 6 6 5 3 46 34 12 12 11 4 42 28 14 14 12 5 40 30 10 10 9.5 6 27 24 3 3 Segundo y tercero están empatados entonces se saca la media (2°+3°)/2=2.5 y se asigna este valor a los empates 7 31 33 -2 2 1 8 42 39 3 3 2.5 9 38 31 7 7 6 10 34 39 -5 5 4 11 38 29 9 9 8 12 44 34 10 10 Noveno y decimo están empatados (9+10)/2=9.5
  • 238. Aplicaciones de repaso1: Una investigadora cree que la estatura de las mujeres ha aumentado en años recientes. Ella sabe que hace 10 años, en la ciudad donde vive, el promedio de estatura de una mujer adulta joven era de 63 pulgadas. No se conoce la desviación estándar. La investigadora toma una muestra aleatoria de 8 mujeres jóvenes adultas que residen en dicha ciudad y mide sus estaturas. Así obtiene los siguientes datos: Estatura en pulgadas 64 66 68 60 62 65 66 63 Encuentra lo siguiente:  Media de los datos de muestra  Desviación estándar de los datos de muestra.  Plantear la hipótesis nula:  Aplicar la formula para la t student  Decidir si se acepta o se rechaza la hipótesis nula
  • 239. Aplicaciones de repaso2 (Ji cuadrada): Se llevo a cabo un estudio para determinar si los habitantes de las grandes ciudades y de poblados pequeños difieren en su disposición para ayudar a los desconocidos. En este estudio, llamaban a la puerta de personas que vivían en Nueva York o en los pequeños poblados cercanos. Los investigadores les explicaban que no encontraban la dirección de un amigo que vivía cerca de ahí y les pedían permiso para utilizar el teléfono. Los siguientes datos muestran la cantidad de individuos que admitieron a los desconocidos (los investigadores) en sus casas y los que no los admitieron: Admitieron al No admitieron al desconocido en su desconocido en su casa casa Habitante de una gran 60 90 150 ciudad Habitante de un 70 30 100 pequeño poblado 130 120 250 Contesta lo siguiente:  ¿Difieren los habitantes de la gran ciudad y los habitantes de poblados pequeños en su disposición para ayudar a los desconocidos? Utilice un α=0.05 para tomar su decisión.