E s t a d í s t i c a - T e r c e r s e m e s t r e Página 1
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Universidad de Estudios Superiores de La Paz
Carrera: Licenciatura en Informática
Asignatura: Estadística
Temario
Nombre del alumno:
Hernández Mejía Brayan Alfredo
Grupo:
Grupo: LI-131
“Es mejor morir de pie, que vivir siempre de rodillas” – Emiliano Zapata
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 2
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
ÍNDICE:
I. Información general de la asignatura.
a)Ficha de identificación
b)Descripción
c)Propósito
II. Competencias a desarrollar
III. Temario
IV. Metodología de trabajo
V. Evaluación
VI. Material de apoyo
VII. Desarrollo de contenidos por unidad
a) Unidad 1: Estadística descriptiva
b) Unidad 2: Distribuciones Muestrales Introducción
c) Unidad 3: Teoría de la Estimación Introducción
d) Unidad 4: Pruebas de hipótesis
Anexo: Formularios (archivos PDF y Tablas Z y gl.)
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 3
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Presentación:
I. Información general de la asignatura.
a) Ficha de identificación:
Nombre de la licenciatura o ingeniería Licenciatura en informática
Nombre del curso o asignatura Estadística
Clave de asignatura Estadística LI-131
Seriación Sin seriación
Semestre 3er semestre
Profesor Reynaga
b) Descripción:
Dentro de una sociedad que está en constante cambio y reestructuración existen variables
que permiten un cambio, sea mínimo o grande, dentro de la misma. Estos cambios, así
como la constante forma en que cambia el entorno en todo sentido y estratos (cultural,
social, tecnológico, político, educativo) hacen que los elementos cuantitativos cambien de
la misma manera, es por eso que se debe tener en cuenta la precisión con que éstos datos
actuaran sobre las decisiones que se tomen a futuro.
La estadística, como un elemento de utilería básico para poder llevar a cabo la tarea de
recopilar, analizar, sistematizar, sintetizar e interpretar los datos o elementos que son
cuantificables para poder interpretarlos de forma sencilla, clara y tangible para poder
sustentar una decisión a posteriori y saber desde donde podemos tomar medidas
estratégicas para la solución óptima de un problema.
En la Universidad de Estudios Superiores de La Paz, nos comprometemos a mejorar la
calidad integral de los alumnos y profesores que requieran, sin duda alguna, del soporte,
por ejemplo, con éste material de apoyo académico. Asimismo, inculcar una costumbre por
la búsqueda incesante del conocimiento, de trazar la trayectoria académica con excelencia y
carácter para formar profesionales éticos y visionarios para afrontar, primero de forma
personal, cualquier clase de problema que se presente teniendo la franqueza, elementos y
visión periférica de cómo optimizar sus opciones.
La materia de Estadística se compone de las unidades básicas necesarias para poder
entender, sin disyuntivas, los elementos más característicos y herramientas usadas,
expresándolo matemáticamente la síntesis de los datos y así, sembrar en el estudiante la
costumbre por la toma de decisiones, el análisis e interpretación de las posibles soluciones,
visión ante situaciones de bifurcación y la solución de problemas y eventos que interactúen
con el entorno en donde nos desenvolvemos.
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 4
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
c) Propósito:
Los propósitos de la asignatura en relación al tronco básico son que los estudiantes:
1. La capacidad de interpretar y manejar los elementos gráficos (tablas, gráficos,
diagramas) para su análisis y manejo adecuado.
2. La aplicación correcta de la estadística dentro de nuestro entorno y del cómo la misma ha
beneficiado al entorno donde se aplica, así como su importancia.
3. Visualicen e identifiquen el valor de uso de la estadística en el entorno y su trascendencia
en la toma de decisiones.
4. Equiparar la ética y la profesión para el manejo y análisis adecuado de cualquier clase de
información.
II. Competencia.
Competencia general:
- Ejecutar los métodos y procesos de análisis estadístico para verificar los eventos dentro de
un contexto.
- Contrastar y entender la paridad entre las posibles soluciones a un problema o problemas
en específico, esto para poder brindar una respuesta más sustentable enfocado a la búsqueda
de la solución del problema.
Competencias específicas:
- Hacer uso de las herramientas y conceptos indispensables para la representación numérica
y gráfica de los datos recopilados y analizados dentro de un entorno.
- Generar soluciones concretas a partir del análisis de datos compilados.
- Aplicar los conocimientos estadísticos a través de pruebas aleatorias en diferentes
entornos y contextos.
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 5
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
III. Temario.
Unidad 1 Estadística descriptiva
1.1 Definición y Campo Estadística
1.2 Planteamiento de un caso especifico
1.3 Organización de Datos Estadísticos
1.4 Medidas Tendencia Central
1.5 Medidas Dispersión
Unidad 2 Distribuciones Muestrales Introducción
2.1 Distribución Muestral de Media Varianza Conocida y Desconocida
2.2 Teorema del Límite Central
2.3 Distribución Muestral de Proporción
2.4Distribucion Muestral Diferencia de Medias y de diferencia de proporciones
2.5 Distribución Muestral Diferencia Medias
2.6 Distribución Muestral de la Varianza
2.7 Distribución Muestral Razón de Varianzas
Unidad 3 Teoría de la Estimación Introducción
3.1 Estimación y Propiedades Estimadores
3.2 Estimación por Intervalo
3.3 Intervalo de Confianza Media con varianza conocida y desconocida
3.4 Intervalo de Confianza Proporción y diferencia de proporciones
3.5 Intervalo de Confianza Diferencias de Medias con varianza conocida y desconocida
3.6 Intervalo Confianza Varianza
3.7 Intervalo Confianza Razón Varianzas
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 6
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Unidad 4 Pruebas de hipótesis
4.1 Conceptos Prueba de Hipótesis
4.2 Errores Tipo I y II
4.3 Prueba Hipótesis para Media con varianza conocida y desconocida
4.4 Prueba Hipótesis para Proporción y diferencia de proporciones
4.5 Prueba Hipótesis Diferencia Medias con varianzas conocidas y desconocidas
4.6 Prueba Hipótesis Varianza
4.7 Prueba de Bondad de Ajuste
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 7
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
IV. Metodología de trabajo.
Las personas perciben y adquieren los conocimientos de manera distinta. Además, tienen
preferencias hacia determinadas estrategias cognitivas que son las que finalmente les
ayudarán a dar significado a la nueva información. Por ejemplo, unos prefieren hacerlo en
grupos, otros individualmente, algunos optan por la experimentación y otros requieren
asesoría.
.
El concepto estilos de aprendizaje se refiere a esas estrategias preferidas por los estudiantes
y que se relacionan con formas de recopilar, interpretar, organizar y pensar sobre la nueva
información.
El estilo de aprendizaje consiste en definitiva en cómo nuestra mente procesa la
información, cómo es influida por las percepciones de cada individuo, con el fin de
alcanzar aprendizajes eficaces y significativos. Por ejemplo, cuando se aprende un nuevo
concepto, algunos estudiantes se centran en los detalles, otros en los aspectos lógicos, otros
prefieren hacerlo leyendo o llevándolos a la práctica a través de actividades.
Por ello es necesario planificar actividades ajustadas a los estilos de aprendizaje de los
participantes de manera que sean más receptivos cuando perciban que los objetivos del
programa de formación responden a sus necesidades y expectativas.
Durante el periodo de aprendizaje en la asignatura de Estadística, se implementaran los
elementos necesarios para el correcto aprendizaje, adaptación y retención de los conceptos
básicos, así como las herramientas informáticas y matemáticas que nos permitan ejecutar
prácticas con una mayor calidad y fluidez para el entendimiento de la asignatura.
Los procesos a modelar con técnicas estadísticas suelen ser altamente complejos y son
difíciles de caracterizar pues es habitual que dependan de muchas variables, que es lo usual
al trabajar con datos reales.
Como nuestro deseo es que el alumno adquiera un aprendizaje significativo nos hemos
propuesto incidir en nuevas metodologías didácticas en la impartición de esta asignatura de
Estadística en la UES. Los alumnos, previamente, reciben materiales que les permiten
conocer los principios que establece la Estadística y colecciones de datos experimentales
para su análisis. De esta manera van a adquirir una información teórica y práctica, objetiva
y científica sobre el tema, para así conseguir los objetivos cognoscitivos que nos
proponemos.
Por tanto, para trabajar con datos reales se tienen en cuenta los conocimientos que poseen
los estudiantes de informática y en el manejo y utilización de programas de ordenador
(como son, por ejemplo, MINITAB, EXCEL, MATLAB o MAPLE), conocimientos y
habilidades que han adquirido en asignaturas ya cursadas previamente, como son
programación y Matemáticas.
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 8
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
El objetivo es incidir en la enseñanza de la Estadística basada en la resolución de problemas
y casos prácticos con datos reales de diversos aspectos del ámbito de la tecnología y las
ciencias, para así potenciar los factores que condicionan positivamente el aprendizaje al
colocar a los estudiantes ante casos y problemas relativos al mundo de la Informática.
Se intenta así mejorar aspectos que inciden en la calidad en la enseñanza y en el aprendizaje
como son la motivación, los modos de aprendizaje, las metas y objetivos que los
estudiantes se plantean.
V. Evaluación.
Para que el alumno pueda aprobar la asignatura de Estadística, deberá cumplir con todos y
cada uno de los lineamientos e imperativos acordados a principio del semestre, para poder
obtener, sin mayor dificultad, la calificación mínima que estipula la UES.
Que el alumno entregue en tiempo y con las característica necesarias, todos y cada uno de
los ejercicios que se les pida subir al blog y los que se hacen durante la clase.
Asistir puntual a las cátedras e impulsar el interés del alumno en la interacción durante la
clase, esto a partir de la relación alumno-profesor.
También deberán trabajar en equipos para poder obtener un mayor rendimiento entre
alumnos, así como la interacción con los demás compañeros de clase, esto, con el objetivo
de tener una mejor relación y aprendan a trabajar en equipos.
Los puntos que se tomarán en cuenta para evaluar serán:
Actividad Porcentaje
Prácticas 50%
Examen 50%
Total 100%
VI. Material de apoyo.
Bibliografía básica:
Alatorre F., S., et.al. Introducción a los Métodos Estadísticos. Universidad Pedagógica
Nacional. México. (3 volúmenes. Sistema de Educación a Distancia.)
Castañeda J., J. Métodos de Investigación 2. Editorial McGraw-Hill. México.
Johnson, R. Estadística Elemental. Editorial Trillas. México.
Mendenhall, W.; D.D. Wackerly y R.L. Scheaffer. Estadística Matemática con
Aplicaciones. Grupo Editorial Iberoamérica. México.
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 9
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Freund, John E. y Gary A. Simon. Estadística elemental. Prentice-Hall Hispanoamericana,
SA. México, 1994. (8ª edición.)
Spiegel, M.R. Estadística. McGraw-Hill. México. (Serie Schaum.)
García, P., A. Elementos de Método Estadístico. Universidad Nacional Autónoma de
México. México. (Textos Universitarios.)
Bibliografía complementaria:
Arias G., F. (comp). Lecturas para el Uso de Metodología de la Investigación. Capítulo 5
"Procesamiento de datos". Editorial Trillas. México.
Schmelkes, C. Manual para la Presentación de Anteproyectos e Informes de
Investigaciones. Capítulo 25 "Análisis de resultados". Editorial Harla. México.
Kline, M. Matemáticas para Estudiantes de Humanidades. Capítulo XXII "Métodos
estadísticos en las ciencias sociales y las biológicas" y capítulo XXIII "La teoría de las
probabilidades". Fondo de Cultura Económica. México.
Bergamini, D. Matemáticas. Capítulo 6 "El cálculo de las posibilidades en un mundo
inseguro". Editado por Offset Multicolor. México. (Colección Científica de Time-Life.)
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 10
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
VII. Desarrollo de contenidos por unidad.
Unidad 1: Estadística descriptiva
Propósito:
 Que el alumno aprenda a identificar los conceptos básicos de la estadística.
 Visualizar el campo e importancia de la estadística.
 Aplicar el conocimiento con prácticas y experimentos aleatorios.
Competencia específica:
Hacer uso de las herramientas y conceptos indispensables para la representación numérica y
gráfica de los datos recopilados y analizados dentro de un entorno.
Introducción:
La estadística como un concepto básico entre la sociedad, representa a la manera con que se
frecuenta e incide en un evento o la forma en que se cuantifica un hecho de cualquier
índole. Así que para un mejor entendimiento de lo que es en esencia la estadística,
aplicaremos los elementos y herramientas básicas para su entendimiento.
Asimismo, aprenderemos y conoceremos cuáles son los campos donde se puede aplicar la
estadística y cómo interactúa, sobre todo, a nivel social.
1.1 Definición y Campo Estadística
Estadística
“Ciencia que se ocupa del estudio de fenómenos de tipo genérico, normalmente complejos
y enmarcados en un universo variable, mediante el empleo de modelos de reducción de la
información y de análisis de validación de los resultados en términos de representatividad”.
La información puede ser numérica, alfabética o simbólica. Consta de las fases de recogida
de información, de análisis y de presentación e interpretación de los resultados y
elaboración de métodos.
La estadística es una ciencia referente a la recolección, análisis e interpretación de datos, ya
sea para ayudar en la resolución de la toma de decisiones o para explicar condiciones
regulares o irregulares de algún fenómeno o estudio aplicado, de ocurrencia en forma
aleatoria o condicional. Sin embargo estadística es mucho más que eso, dado que en otras
palabras es el vehículo que permite llevar a cabo el proceso relacionado con la
investigación científica.
Definida así la Estadística se evita hacer mención a sí es o no una rama de las matemáticas,
visión que consideramos innecesariamente limitada, al tiempo que se establece su carácter
genérico y su campo de acción en el estudio de fenómenos complejos ubicados en un
universo amplio y variable. Con esta afirmación, de complejidad, se introduce el factor de
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 11
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
incertidumbre que acompaña a los fenómenos aleatorios pero sin limitar el campo de la
Estadística de forma que puede aplicarse también a fenómenos determinísticos.
La estadística se divide en dos grandes áreas:
 La estadística descriptiva, que se dedica a los métodos de recolección, descripción,
visualización y resumen de datos originados a partir de los fenómenos en estudio.
Los datos pueden ser resumidos numérica o gráficamente. Ejemplos básicos de
parámetros estadísticos son: la media y la desviación estándar. Algunos ejemplos
gráficos son: histograma, pirámide poblacional, clústers, entre otros.
 La estadística inferencial, que se dedica a la generación de los modelos, inferencias
y predicciones asociadas a los fenómenos en cuestión teniendo en cuenta la
aleatoriedad de las observaciones. Se usa para modelar patrones en los datos y
extraer inferencias acerca de la población bajo estudio. Estas inferencias pueden
tomar la forma de respuestas a preguntas si/no (prueba de hipótesis), estimaciones
de características numéricas (estimación), pronósticos de futuras observaciones,
descripciones de asociación (correlación) o modelamiento de relaciones entre
variables (análisis de regresión). Otras técnicas de modelamiento incluyen anova,
series de tiempo y minería de datos.
Ambas ramas (descriptiva e inferencial) comprenden la estadística aplicada. Hay también
una disciplina llamada estadística matemática, la cual se refiere a las bases teóricas de la
materia. La palabra «estadísticas» también se refiere al resultado de aplicar un algoritmo
estadístico a un conjunto de datos, como en estadísticas económicas, estadísticas
criminales, entre otros.
Etimología:
El término alemán statistik, que fue primeramente introducido por Gottfried Achenwall
(1749), designaba originalmente el análisis de datos del Estado, es decir, la "ciencia del
Estado" (también llamada aritmética política de su traducción directa del inglés). No fue
hasta el siglo XIX cuando el término estadística adquirió el significado de recolectar y
clasificar datos. Este concepto fue introducido por el inglés John Sinclair.
En su origen, por tanto, la Estadística estuvo asociada a los Estados, para ser utilizados por
el gobierno y cuerpos administrativos (a menudo centralizados). La colección de datos
acerca de estados y localidades continúa ampliamente a través de los servicios de
estadística nacionales e internacionales. En particular, los censos suministran información
regular acerca de la población.
Ya se utilizaban representaciones gráficas y otras medidas en pieles, rocas, palos de madera
y paredes de cuevas para controlar el número de personas, animales o ciertas mercancías.
Hacia el año 3000 a. C. los babilonios usaban ya pequeños envases moldeados de arcilla
para recopilar datos sobre la producción agrícola y de los géneros vendidos o cambiados.
Los egipcios analizaban los datos de la población y la renta del país mucho antes de
construir las pirámides en el siglo XI a. C. Los libros bíblicos de Números y Crónicas
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 12
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
incluyen en algunas partes trabajos de estadística. El primero contiene dos censos de la
población de Israel y el segundo describe el bienestar material de las diversas tribus judías.
En China existían registros numéricos similares con anterioridad al año 2000 a. C. Los
antiguos griegos realizaban censos cuya información se utilizaba hacia el 594 a. C. para
cobrar impuestos.
Orígenes:
Los métodos estadístico-matemáticos emergieron desde la teoría de probabilidad, la cual
data desde la correspondencia entre Blaise Pascal y Pierre de Fermat (1654). Christian
Huygens (1657) da el primer tratamiento científico que se conoce a la materia. El Ars
coniectandi (póstumo, 1713) de Jakob Bernoulli y la Doctrina de posibilidades (1718) de
Abraham de Moivre estudiaron la materia como una rama de las matemáticas. En la era
moderna, el trabajo de Kolmogórov ha sido un pilar en la formulación del modelo
fundamental de la Teoría de Probabilidades, el cual es usado a través de la estadística.
La teoría de errores se puede remontar a la Ópera miscellánea (póstuma, 1722) de Roger
Cotes y al trabajo preparado por Thomas Simpson en 1755 (impreso en 1756) el cual aplica
por primera vez la teoría de la discusión de errores de observación. La reimpresión (1757)
de este trabajo incluye el axioma de que errores positivos y negativos son igualmente
probables y que hay unos ciertos límites asignables dentro de los cuales se encuentran todos
los errores; se describen errores continuos y una curva de probabilidad.
Pierre-Simon Laplace (1774) hace el primer intento de deducir una regla para la
combinación de observaciones desde los principios de la teoría de probabilidades. Laplace
representó la ley de probabilidades de errores mediante una curva y dedujo una fórmula
para la media de tres observaciones. También, en 1871, obtiene la fórmula para la ley de
facilidad del error (término introducido por Lagrange, 1744) pero con ecuaciones
inmanejables. Daniel Bernoulli (1778) introduce el principio del máximo producto de las
probabilidades de un sistema de errores concurrentes.
El método de mínimos cuadrados, el cual fue usado para minimizar los errores en
mediciones, fue publicado independientemente por Adrien-Marie Legendre (1805), Robert
Adrain (1808), y Carl Friedrich Gauss (1809). Gauss había usado el método en su famosa
predicción de la localización del planeta enano Ceres en 1801. Pruebas adicionales fueron
escritas por Laplace (1810, 1812), Gauss (1823), James Ivory (1825, 1826), Hagen (1837),
Friedrich Bessel (1838), W.F. Donkin (1844, 1856), John Herschel (1850) y Morgan
Crofton (1870). Otros contribuidores fueron Ellis (1844), Augustus De Morgan (1864),
Glaisher (1872) y Giovanni Schiaparelli (1875). La fórmula de Peters para r, el probable
error de una observación simple es bien conocido.
El siglo XIX incluye autores como Laplace, Silvestre Lacroix (1816), Littrow (1833),
Richard Dedekind (1860), Helmert (1872), Hermann Laurent (1873), Liagre, Didion y Karl
Pearson. Augustus De Morgan y George Boole mejoraron la presentación de la teoría.
Adolphe Quetelet (1796-1874), fue otro importante fundador de la estadística y quien
introdujo la noción del «hombre promedio» (l’homme moyen) como un medio de entender
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 13
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
los fenómenos sociales complejos tales como tasas de criminalidad, tasas de matrimonio o
tasas de suicidios
Christiaan Huygens Pierre Simon Laplace Gottfried Achenwall
Padre de la estadística
Carl Fredrich Gauss Karls Pearson George Boole
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 14
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Disciplinas especializadas y campos de aplicación:
Algunos campos de investigación usan la estadística tan extensamente que tienen
terminología especializada. Estas disciplinas incluyen:
 Ciencias actuariales
 Física estadística
 Estadística industrial
 Estadística Espacial
 Matemáticas Estadística
 Estadística en Medicina
 Estadística en Medicina Veterinaria y Zootecnia
 Estadística en Nutrición
 Estadística en Agronomía
 Estadística en Planificación
 Estadística en Investigación
 Estadística en Restauración de Obras
 Estadística en Literatura
 Estadística en Astronomía
 Estadística en la Antropología (Antropometría)
 Estadística en Historia
 Estadística militar
 Geoestadística
 Bioestadística
 Estadísticas de Negocios
 Estadística Computacional
 Estadística en las Ciencias de la Salud
 Investigación de Operaciones
 Estadísticas de Consultoría
 Estadística de la educación, la enseñanza, y la formación
 Estadística en la comercialización o mercadotecnia
 Cienciometría
 Estadística del Medio Ambiente
 Estadística en Epidemiología
 Minería de datos (aplica estadística y reconocimiento de patrones para el
conocimiento de datos)
 Econometría (Estadística económica)
 Estadística en Ingeniería
 Geografía y Sistemas de información geográfica, más específicamente en Análisis
espacial
 Demografía
 Estadística en psicología (Psicometría)
 Calidad y productividad
 Estadísticas sociales (para todas las ciencias sociales)
 Cultura estadística
 Encuestas por Muestreo
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 15
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
 Análisis de procesos y quimiometría (para análisis de datos en química analítica e
ingeniería química)
 Confiabilidad estadística
 Procesamiento de imágenes
 Estadísticas Deportivas
La estadística es una herramienta básica en negocios y producción. Es usada para entender
la variabilidad de sistemas de medición, control de procesos (como en control estadístico de
procesos o SPC (CEP)), para compilar datos y para tomar decisiones. En estas aplicaciones
es una herramienta clave, y probablemente la única herramienta disponible.
Importancia:
La estadística es comúnmente considerada como una colección de hechos numéricos
expresados en términos de una relación sumisa, y que han sido recopilado a partir de otros
datos numéricos.
Kendall y Buckland definen la estadística como un valor resumido, calculado, como base
en una muestra de observaciones que generalmente, aunque no por necesidad, se considera
como una estimación de parámetro de determinada población; es decir, una función de
valores de muestra.
La importancia que tiene está relacionada con el área o áreas en las que se puede aplicar,
debido a que está presente en todas las áreas del saber.
La estadística es una ciencia de aplicación práctica casi universal en todos los campos
científicos:
* En las ciencias naturales: se emplea con profusión en la descripción de modelos
termodinámicos complejos (mecánica estadística), en física cuántica, en mecánica de
fluidos o en la teoría cinética de los gases, entre otros muchos campos.
* En las ciencias sociales y económicas: es un pilar básico del desarrollo de la demografía y
la sociología aplicada.
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 16
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
* En economía: suministra los valores que ayudan a descubrir interrelaciones entre
múltiples parámetros macro y microeconómicos.
* En las ciencias médicas: permite establecer pautas sobre la evolución de las enfermedades
y los enfermos, los índices de mortalidad asociados a procesos morbosos, el grado de
eficacia de un medicamento, etcétera.
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 17
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 18
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Estadística
Es la basedeuna buena
planificación
Reune y organiza datos
numéricos para la toma de
desiciones
Se vale de métodos gráficos para
su comprensión
Hace más llamativa la
información.
Permitea las personas no
especializadas entender los
resultados de uninforme
Solo es válido enlos datos
existentes enel momento de
sacar los datos,comouna
fotografía
Tipos de gráficos yutilidad:
Barras:comparar elementos.
Pastel y barra de 100%:compararlas
fracciones de untodo.
Lineal:Comparacionesde crecimiento
a través de un tiempodeterminado.
Pictograasymapasestadísticos:para
comparar datos geográficos yde
distribución.
Características generales:
- Conciso
- Replicabilidad
- Comunicabilidad
- Simple, apto y fácilde
interpretar.
Es una herramienta
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 19
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
1.2 Planteamiento de un caso especifico
Planteamiento del problema
Suele iniciarse con una fijación de objetivos o algunas preguntas como ¿cuál será la media
de esta población respecto a tal característica?, ¿se parecen estas dos poblaciones?, ¿hay
alguna relación entre... ?
En el planteamiento se definen con precisión la población, la característica a estudiar, las
variables, etcétera.
Se analizan también en este punto los medios de los que se dispone y el procedimiento a
seguir.
Elaboración de un modelo
Se establece un modelo teórico de comportamiento de la variable de estudio. En ocasiones
no es posible diseñar el modelo hasta realizar un estudio previo.
Los posibles modelos son distribuciones de probabilidad.
Extracción de la muestra
Se usa alguna técnica de muestreo o un diseño experimental para obtener información de
una pequeña parte de la población.
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 20
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
1.3 Organizaciónde Datos Estadísticos.
¿Se han preguntado alguna vez para qué sirven las encuestas que a veces se hacen en la
calle?, ¿Cómo saber si una estación de radio es mejor que otra? , ¿Cuál candidato puede
ganar? Bueno, en realidad todo comienza con la recaudación de datos.
Los datos es información que se recoge, esto puede ser opinión de las personas sobre un
tema, edad o sexo de encuestados, dónde viven, cuántas personas viven en una casa, qué
tipo de sangre tiene un grupo de personas, etc.
Hay tanta información que puede servirle a diferentes profesionales para sacar datos que
son útiles en la toma de decisiones, para resolver problemas, o cualquier otro elemento que
así lo amerite.
Se preguntarán qué hacen estas personas con la información que han recogido. Se te
explicará. Una vez que se haya recogido toda la información, se procede a crear una base de
datos, donde se registran todos los datos obtenidos. Algunas veces, si los datos son muy
complicados, se codifican, esto quiere decir que se le coloca una palabra clave que
identifica un título muy largo. Cuando ya está elaborada la base de datos se parece a una
tabla.
Núm.
(número del
sujeto)
Edad
Color
(color preferido)
Inas
(Inasistencia a
clase en un mes)
Ani
(Tipo de animal que
tiene en casa)
1 8 azul 3 Perro
2 6 verde 0 Perro
3 7 rojo 7 Gato
4 7 amarillo 4 Perro
5 9 verde 3 ninguno
6 8 azul 1 gato
7 9 rojo 0 pez
8 8 morado 2 perro
9 6 azul 3 pez
10 7 verde 1 ninguno
Con esta tabla no se puede hacer mucho, pero es importante para registrar los datos. A
partir de esta base de datos se puede hacer una tabla de frecuencias. Para determinar la
frecuencia de "algo" o el número de veces que se produce un fenómeno (el fenómeno puede
ser "el color preferido de los niños de un salón", "la edad de un grupo de sujetos", "el tipo
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 21
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
de animal que tiene en casa", "la cantidad de inasistencias a clase", o cualquier otro
fenómeno). Vemos ahora qué pasa con nuestra base de datos:
Con los datos obtenidos elaboramos una serie de tablas. Con los datos de las tablas
fabricamos unos gráficos (también llamados figuras) de frecuencia que podrás observar al
lado de cada tabla.
Pero esto no nos dice nada si no "analizamos" los datos. Analizar significa sacar
conclusiones de la información expuesta. Este análisis está debajo de la tabla y el gráfico.
Tabla 1.
Frecuencia de colores preferidos del grupo estudiado
Color Frecuencia
Rojo 2
Azul 3
Verde 3
Morado 1
Amarillo 1
Figura 1.
Frecuencia de colores preferidos del grupo estudiado.
Se puede observar que los colores preferidos de me mayor frecuencia son el Azul y el
Verde, cada uno con una frecuencia de 3.
Tabla 2.
Frecuencia de inasistencia a clase del grupo estudiado
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 22
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Inasistencia por días Frecuencia
0 días 2
1 día 2
2 días 1
3 días 3
4 días 1
5 días 0
6 días 0
7 días 1
Figura 2.
Frecuencia de inasistencia a clase del grupo estudiado
Se puede observar de la Figura 2, que en la muestra de sujetos estudiados, tres días es la
mayor frecuencia de inasistencia.
 Ahora, recuerden lo siguiente, los investigadores nunca colocan las tablas y los
gráficos juntos, porque en realidad dicen lo mismo, corrientemente se utiliza o una
tabla y su análisis, o un gráfico y su análisis.
Nota: también que el título de la tabla va encima de ésta, mientras que el título de la
figura va por debajo. El título, de ambas, sólo lleva la primera palabra en mayúscula
y no va subrayado.
 Creemos que ha sido fácil lo que les enseñamos, ahora les toca a ustedes hacer una
tabla de frecuencias y su respectiva figura.
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 23
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Tabla 3.
Frecuencia del tipo de animal que tiene el grupo estudiado
Tipo de animal Frecuencia
Ninguno
Perro
Pez
Gato
Figura 3.
Frecuencia del tipo de animal que tiene el grupo estudiado
Vamos a ver, por ejemplo, la edad de los niños y el tipo de animal que tienen en casa, o el
tipo de animal que tienen en casa y la edad de los niños. Utilizaremos la misma base de
datos de antes.
Núm.
(número del
sujeto)
Edad Color
(color
preferido)
Inas
(Inasistencia a clase
en un mes)
Ani
(Tipo de animal que
tiene en casa)
1 8 azul 3 perro
2 6 verde 0 perro
3 7 rojo 7 gato
4 7 amarillo 4 perro
5 9 verde 3 ninguno
6 8 azul 1 gato
7 9 rojo 0 pez
8 8 morado 2 perro
9 6 azul 3 pez
10 7 verde 1 Ninguno
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 24
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Tabla 4.
Frecuencia del tipo de animal que tiene el grupo estudiado según su edad
Edad de los niños Tipo de animal que tienen en casa
Ninguno Perro Pez Gato
6 años 0 1 1 0
7años 1 1 0 1
8 años 0 2 0 1
9 años 1 0 1 0
Figura 4.
Frecuencia del tipo de animal que tiene el grupo estudiado según su edad
Tabla 5.
Frecuencia del tipo de animal que tiene el grupo estudiado según su edad
Tipo de animal que
tienen en casa
Edad de los niños
6
años
7 años 8 años
9
años
Ninguno 0 1 0 1
Perro 1 1 2 0
Pez 1 0 0 1
Gato 0 1 1 0
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 25
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Figura 5.
Frecuencia del tipo de animal que tiene el grupo estudiado según su edad.
Responde las siguientes preguntas:
¿Cuántos niños de 6 años tienen perros?
¿Cuántos niños de 8 años tienen peces?
¿Cuántos niños de 7 años tienen peces?
¿Cuántos niños de 9 años tienen gatos?
¿Cuántos niños de 8 años tienen perros?
Con la elaboración de las tablas y gráficos se facilita obtener información. Podemos hasta
decir que la mayoría de los niños de 8 años tienen perros en su casa.
Intervalos o clases:
Un intervalo o clase está determinado por dos números
a y b de manera que todos los mayores o iguales que a
y menores que b pertenecen a dicho intervalo. Se simboliza por [a,b), donde a y b son los
extremos del intervalo.
La frecuencia absoluta de un intervalo o clase es el número de datos que pertenecen al
mismo.
La marca de clase de un intervalo, ci , es el punto medio del intervalo. Su cálculo nos lo da
la expresión:
2
b
a
ci


E s t a d í s t i c a - T e r c e r s e m e s t r e Página 26
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Población o Universo Objetivo.
Es el conjunto (finito o infinito) de unidades de análisis que conforman a la población
que se desea describir simplemente o sobre la cual se desea hacer inferencias y
conocer sus parámetros característicos (promedio, totales proporciones, etc.).
Población Finita
Es el conjunto finito de unidades de análisis donde se puede identificar a un elemento
inicial y/o a un elemento final. Por ejemplo, la población de hoteles de Lima
Metropolitana, población de agencias de viajes existentes en la ciudad de
Cajamarca. Turistas de nacionalidad alemana que ingresaron al Perú en el a o 2000.
Población Infinita.
Conjunto infinito de elementos donde no se podría identificar a una unidad inicial
ni a la unidad final. Ejemplo, la población de los peces del mar, lo árboles de la selva
peruana, etc.
Muestra
Es un subconjunto de unidades de análisis extraída de la población objetivo buscando que
las unidades seleccionadas sean representativas con el fin de permitir que a través de
la información recabada con la muestra se realicen inferencias para toda la población.
Muestra No Probabilística
Corresponde a un subconjunto de observaciones elegidas siguiendo aquellos criterios
de representatividad que fueran establecidos arbitrariamente por el investigador.
Muestra Probabilística
Comprende a las observaciones realizadas en unidades que han sido elegidas
siguiendo un criterio probabilístico, esto es, a cada unidad de la población se
asigna probabilidad conocida (puede ser igual) para estar incluida como parte de la
muestra, por tanto, las unidades de la muestra son elegidas de la población respetando
estrictamente estas probabilidades que les han sido asignadas. Las muestra probabilísticas
permiten aplicar los métodos de la estadística inferencial y construir límites de confianza
para las estimaciones de los parámetros que se desean estudiar. La representatividad
de éstas muestras se sustenta en el hecho que son las leyes de las probabilidades las que
determinan si una unidad será incluida o no en la muestra.
Unidad de Análisis
Es el elemento que conforma a la población objetivo y de la cual se extrae la
información que se desea estudiar. Ejemplo: Se desea estudiar la capacidad hotelera en la
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 27
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
ciudad de Lima y se define la unidad de análisis “hotel”, en cada uno de los hoteles
de la ciudad, se solicita la siguiente información:
• Número de habitaciones del hotel.
• Número de empleados del hotel.
• Total de clientes atendidos durante el mes de Julio.
• Ingresos totales en el mes de Julio.
• Tiene servicio de agencia de viaje (Si=1; No=0)
• Tiene servicio de restaurante (Si=1; No=0)
Recopilando la información especificada en los N hoteles de la ciudad de Lima se formar1a
la base de datos siguiente:
Unidad
(Hotel) ( i )
Numero
habitaciones
Xi
Numero
Empleados
Yi
Clientes En
Julio Zi
Ingresos en
Julio Vi
Agencia
Viaje Wi
Servicio
Restaurante Ri
1 55 12 200 14000 1 1
2 30 8 250 16000 0 1
3 20 6 100 7000 0 0
....
....
N 60 20 309 25000 0 1
Variable
Es todo factor o característica que en forma conjunta e integral conforma la
información que se solicita a cada unidad de análisis. Cada variable tomará valores
diferentes entre las unidades de análisis que se están investigando.
Variables Cualitativas
Son aquellas variables que expresan categorías o atributos y que por tanto su medida
no tiene un carácter numérico, por su naturaleza, estas variables pueden ser:
NOMINALES: Sus valores sólo representan un atributo a manera de etiqueta y no contiene
información sobre ordenamiento. Ejemplo: Sexo del cliente; Nacionalidad del entrevistado.
ORDINALES: Sus valores si representan un ordenamiento del atributo. Ejemplo: Grado
de educación del entrevistado, Grado de satisfacción sobre la atención recibida por el
cliente…
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 28
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Variables Cuantitativas
Comprender aquellos conceptos que sí pueden ser expresados en forma numérica
por que corresponde a criterios de cantidad. Éstas son de tipo discreto o de tipo
Continuo.
Variables Cuantitativas discretas
Son variables que toman valores que se expresan en números enteros. Ejemplo:
• Número de habitaciones.
• Número de empleados.
• Total de clientes atendidos durante el mes de Julio.
Se aprecia que estas variables no pueden tomar valores fraccionarios.
Variables Cuantitativas Continuas
Son aquellas variables que sus cantidades se expresan con números reales, es decir,
tienen parte fraccionaria. Ejemplo:
• Ingresos totales en el mes de Julio.
• Costo de servicio diario del hotel
• Monto pagado por el servicio de electricidad de un hotel en el mes de Julio
Observación
Es un valor particular que toma la variable estudiada en la unidad de análisis i-ésima
Parámetro:
Es el indicador resultante de consolidar toda la información referida a la población que
se está estudiando, por tanto corresponde a un resultado de una enumeración completa
donde: Xi es el valor de la variable y N es el tamaño de la población
Ejemplo:
• Número de habitaciones promedio en los hoteles de la ciudad de Lima.
• Número de empleados promedio de los hoteles de la ciudad de Lima.
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 29
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
• Promedio de clientes atendidos por los hoteles de Lima durante el mes de Julio.
• Ingresos promedio de los hoteles de la ciudad de Lima en el mes de Julio.
Estadístico:
Es el indicador resultante de consolidar la información obtenida sólo de una
muestra representativa de unidades de análisis en la población. Es un valor que estima
al parámetro
donde: Xi es el valor de la variable y n es el tamaño de la muestra
Ejemplo: Se elige una muestra de los hoteles existente en la ciudad de Lima
• Número de habitaciones promedio en la muestra de hoteles.
• Número de empleados promedio en la muestra de hoteles.
• Promedio de clientes atendidos en la muestra de hoteles.
• Ingresos promedio de los hoteles elegidos en la muestra.
ORGANIZACION Y PRESENTACION DE
DATOS: Tablas de Información Estadística
Comprende a resúmenes y consolidaciones de informaciones dispersas que se efectúan con
fines de realizar una presentación ordenada y clasificada de resultados de modo que se
facilite su análisis e interpretación para la toma de decisiones. Las tablas de información
resultan de identificar las necesidades de información por tanto es necesario que para su
elaboración se consideren las características que puedan cumplir su objetivo final:
Informar. La estructura general de una tabla de información estadística es la siguiente:
1. Número de cuadro
Es un código de identificación que permite citarlo cuantas veces sea necesario a lo largo
de los comentarios de un informe.
2. Título
Corresponde a una descripción resumida de la información estadística que contiene, en
general debería responder a las clásicas preguntas: QUÉ, DÓNDE, CÓMO Y CUÁNDO
• Qué: ¿Qué información contiene el cuadro?
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 30
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
• Dónde: ¿A dónde corresponde la información tabulada?
• Cómo: ¿Cómo está arreglada o clasificada la información?
• Cuándo: ¿A qué período de tiempo se refiere la
información?
3. Encabezamiento
Es la descripción resumida sobre contenido de las filas y columnas que contiene el cuadro
de información.
4. Cuerpo del cuadro
Comprende al contenido numérico de la información del
cuadro
5. Notas de pié o llamadas
Anote las aclaraciones sobre términos, siglas, abreviaturas usadas. También precisar
las unidades de medida y equivalencias que se están utilizando para expresar cantidades.
6. Fuente
Se debe anotar el nombre de la institución o de la investigación de donde se han tomado
los datos individuales.
7. Elaboración
Se anotará el nombre de la unidad responsable de la formulación y presentación
del tabulado de información estadística.
8. Fecha
Registre la fecha en que se realizó el cuadro para dejar constancia del evento y
poder actualizar de ser pertinente
Ejemplo: Según información preliminar de la Oficina de Admisión del hotel
CONFORT, en el mes de Febrero de 2006 el hotel atendió a los turistas extranjeros
siguientes:
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 31
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Turista Nacionalidad Sexo
1 Argentina (*) Masculino
2 Argentina (*) Masculino
3 Argentina Masculino
4 Argentina Femenino
5 Argentina Femenino
6 Argentina Femenino
7 Boliviana Masculino
8 Boliviana Masculino
9 Boliviana Femenino
10 Chilena Masculino
11 Chilena Femenino
(*) El cliente no acreditó su nacionalidad
Elabore una tabla de resultados que consolide la información dispersa en esta base
de datos construida por la Oficina de Admisión del hotel CONFORT
NÚMERO Cuadro No 01
TÍTULO
¿Qué? Número de turistas extranjeros que fueron atendidos
¿Dónde? en el hotel CONFORT
¿Cómo? según nacionalidad por
sexo (1)
¿Cuándo? ( Periodo: Febrero 2006)
Nacionalidad
Número de Turistas
Extranjeros
Sexo
Masculino Femenino
Numero
(fi)
%
(hi)
Numero
(fi)
%
(hi)
Numero
(fi)
%
(hi)
Argentina (2) 6 54.5 3 50.0 3 60.0
Boliviana 3 27.3 2 33.3 1 20.0
Chilena 2 18.2 1 16.7 1 20.0
Total General 11 100.0 6 100.0 5 100.0
NOTAS DE PIE (1) Cifras preliminares registradas al 01.03.2006
(2) Comprende a ciudadanos con nacionalización no acreditada
FUENTE Oficina de Admisión del hotel
CONFORT
RESPONSABLE Elaborado por: Asesores y Consultores
S.A.
FECHA 01.03.2006
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 32
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
1.4 Medidas de tendencia central.
Al describir grupos de observaciones, con frecuencia es conveniente resumir la información
con un solo número. Este número que, para tal fin, suele situarse hacia el centro de la
distribución de datos se denomina medida o parámetro de tendencia central o de
centralización. Cuando se hace referencia únicamente a la posición de estos parámetros
dentro de la distribución, independientemente de que ésta esté más o menos centrada, se
habla de estas medidas como medidas de posición. En este caso se incluyen también los
cuantiles entre estas medidas.
Son estadígrafos de posición que son interpretados como valores que permiten resumir a un
conjunto de datos dispersos, podría asumirse que estas medidas equivalen a un centro de
gravedad que adoptan un valor representativo para todo un conjunto de datos
predeterminados. Estas medidas son:
1. Promedio Aritmético (Media o simplemente promedio)
2. Mediana
3. Moda
Otras medidas de posición son: Cuartiles, Deciles y Percentiles
La media aritmética:
La media aritmética es el valor obtenido por la suma de todos sus valores dividida entre el
número de sumandos.
La media resume en un valor las características de una variable teniendo en cuenta todos
los casos. Solamente puede utilizarse con variables cuantitativas.
Para Datos No Agrupados.
El promedio aritmético de un conjunto de valores ( x1
x2 x3
..... xn )
es:
Ejemplo: Durante los últimos 32 días el valor de las compras en periódicos fue:
{ 5.2, 10.2, 7.0, 7.1, 10.2, 8.3, 9.4, 9.2, 6.5, 7.1, 6.6, 7.8,
6.8, 7.2, 8.4, 9.6, 8.5, 5.7, 6.4, 10.1,
8.2, 9.0, 7.8, 8.2, 5.3, 6.2, 9.1, 8.6, 7.0, 7.7, 8.3, 7.5 }
El promedio aritmético del valor de las compras de
periódicos es:
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 33
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Donde: fi = Frecuencia en la clase k-ésima
Xi = Marca de clase en la intervalo k-ésimo
Ejemplo: Para los gastos diarios en periódicos del hotel agrupados en una tabla de
frecuencia:
Intervalo
Xi fi hi Fi Hi
10
8
5.2 - 6.1 5.65 3 0.094 3 0.094
6
6.1 - 7.0 6.55 5 0.156 8 0.250
4
7.0 - 7.9 7.45 9 0.281 17 0.531
2
7.9 - 8.8 8.35 7 0.219 24 0.750
0
8.8 - 9.7 9.25 5 0.156 29 0.906
6.55
7.4
5
8.3
5 9.25
10.1
5
5.65
9.7 - 10.6 10.15 3 0.094 32 1.000
TOTAL 32 1.000
7.87
El promedio aritmético
es:
Durante los 32 días el hotel tuvo un gasto promedio en periódicos de 7.87 soles
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 34
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Las principales propiedades de la media aritmética son:
 Su cálculo es muy sencillo y en él intervienen todos los datos.
 Su valor es único para una serie de datos dada.
 Se usa con frecuencia para comparar poblaciones, aunque es más apropiado
acompañarla de una medida de dispersión.
 Se interpreta como "punto de equilibrio" o "centro de masas" del conjunto de datos,
ya que tiene la propiedad de equilibrar las desviaciones de los datos respecto de su
propio valor:
 Minimiza las desviaciones cuadráticas de los datos respecto de cualquier valor
prefijado,

 esto es, el valor de es mínimo cuando . Este resultado se
conoce como Teorema de König. Esta propiedad permite interpretar uno de los
parámetros de dispersión más importantes: la varianza.
 Se ve afectada por transformaciones afines (cambios de origen y escala), esto es, si
xi' = axi + b entonces , donde es la media aritmética de los xi', para
i = 1, ..., n y a y b números reales.
 Es poco sensible a fluctuaciones muestrales, por lo que es un parámetro muy útil en
inferencia estadística.
Inconvenientes de su uso
 Este parámetro, aún teniendo múltiples propiedades que aconsejan su uso en
situaciones muy diversas, tiene también algunos inconvenientes, como son:
Para datos agrupados en intervalos (variables continuas) su valor oscila en función
de la cantidad y amplitud de los intervalos que se consideren.
 Es una medida a cuyo significado afecta sobremanera la dispersión, de modo que
cuanto menos homogéneos sean los datos, menos información proporciona. Dicho
de otro modo, poblaciones muy distintas en su composición pueden tener la misma
media.[4] Por ejemplo, un equipo de baloncesto con cinco jugadores de igual
estatura, 1,95 m, evidentemente, tendría una estatura media de 1,95 m, valor que
representa fielmente a esta población homogénea. Sin embargo, un equipo de
jugadores de estaturas más heterogéneas, 2,20 m, 2,15 m, 1,95 m, 1,75 m y 1,70 m,
por ejemplo, tendría también, como puede comprobarse, una estatura media de 1,95
m, valor que no representa a casi ninguno de sus componentes.
 En el cálculo de la media no todos los valores contribuyen de la misma manera. Los
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 35
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
valores altos tienen más peso que los valores cercanos a cero. Por ejemplo, en el
cálculo del salario medio de un empresa, el salario de un alto directivo que gane
1.000.000 de € tiene tanto peso como el de diez empleados "normales" que ganen
1.000 €. En otras palabras, se ve muy afectada por valores extremos.
 No se puede determinar si en una distribución de frecuencias hay intervalos de clase
abiertos.
La mediana
Es el valor que ocupa la posición central de un conjunto de observaciones ordenadas. El
50% de las observaciones son mayores que este valor y el otro 50% son menores.
Para Datos No agrupados.
Para Datos Agrupados.
Donde:
Li = Límite Inferior del intervalo que contiene a la Mediana
Fi-1 = Frecuencia Acumulada en la clase anterior i-ésima
fi = Frecuencia en la clase que contiene a la mediana
Hi-1 = Frecuencia Relativa Acumulada en la clase anterior i-ésima
hi = Frecuencia Relativa en la clase que contiene a la mediana
c =Tamaño del intervalo de clase.
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 36
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Ejemplo: Para los gastos diarios en periódicos del hotel en una tabla de frecuencia:
Intervalo
Xi fi hi Fi Hi
10
8
5.2 - 6.1 5.65 3 0.094 3 0.094
6
6.1 - 7.0 6.55 5 0.156 8 0.250
4
7.0 - 7.9 7.45 9 0.281 17 0.531
2
7.9 - 8.8 8.35 7 0.219 24 0.750
0
8.8 - 9.7 9.25 5 0.156 29 0.906
6.55 7.45 8.35 9.25
10.1
5
5.65
9.7 - 10.6 10.15 3 0.094 32 1.000
TOTAL 32 1.000
Me=7.8
El gasto diario en periódicos más frecuente es 7.6 soles
Las principales propiedades de la mediana son:
 Es menos sensible que la media a oscilaciones de los valores de la variable. Un error
de transcripción en la serie del ejemplo anterior en, pongamos por caso, el último
número, deja a la mediana inalterada.
 Como se ha comentado, puede calcularse para datos agrupados en intervalos,
incluso cuando alguno de ellos no está acotado.
 No se ve afectada por la dispersión. De hecho, es más representativa que la media
aritmética cuando la población es bastante heterogénea. Suele darse esta
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 37
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
circunstancia cuando se resume la información sobre los salarios de un país o una
empresa. Hay unos pocos salarios muy altos que elevan la media aritmética
haciendo que pierda representatividad respecto al grueso de la población. Sin
embargo, alguien con el salario "mediano" sabría que hay tanta gente que gana más
dinero que él, como que gana menos.
Sus principales inconvenientes son que en el caso de datos agrupados en intervalos, su
valor varía en función de la amplitud de estos. Por otra parte, no se presta a cálculos
algebraicos tan bien como la media aritmética.
La moda
Es el valor, clase o categoría que ocurre con mayor frecuencia y sus características son:
- Puede no existir o existir más de una moda
- Su valor no se ve afectado por los valores extremos en los datos
- Se utiliza para analizar tanto la información cualitativa como la cuantitativa
- Es una medida “inestable” cuando en número de datos es reducido.
· Para Datos No Agrupados.
Para Datos Agrupados.
Donde:
d1=(fi - fi-1) y d1=(fi - i+1)
fi=Valor de la mayor
frecuencia
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 38
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Ejemplo: El gasto diario en periódicos del hotel “AAA” agrupados en una tabla de
frecuencia:
Intervalo
Xi fi hi Fi Hi
10
8
5.2 - 6.1 5.65 3 0.094 3 0.094
6
6.1 - 7.0 6.55 5 0.156 8 0.250
4
7.0 - 7.9 7.45 9 0.281 17 0.531
2
7.9 - 8.8 8.35 7 0.219 24 0.750
0
8.8 - 9.7 9.25 5 0.156 29 0.906 10.1
5
5.65 6.55 7.45 8.35
9.25
9.7 - 10.6 10.15 3 0.094 32 1.000
TOTAL 32 1.000
Mo=7.6
d1= 9-5 = 4
d2= 9-7 =
2
c= 0.9 = Tamaño de Intervalo de
Clase
La moda estimada utilizando estos datos agrupados es:
Utilizando las frecuencias relativas, la moda estimada es:
7.6
Sus principales propiedades son:
 Cálculo sencillo.
 Interpretación muy clara.
 Al depender sólo de las frecuencias, puede calcularse para variables cualitativas. Es
por ello el parámetro más utilizado cuando al resumir una población no es posible
realizar otros cálculos, por ejemplo, cuando se enumeran en medios periodísticos las
características más frecuentes de determinado sector social. Esto se conoce
informalmente como "retrato robot".
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 39
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Inconvenientes
 Su valor es independiente de la mayor parte de los datos, lo que la hace muy
sensible a variaciones muestrales. Por otra parte, en variables agrupadas en
intervalos, su valor depende excesivamente del número de intervalos y de su
amplitud.
 Usa muy pocas observaciones, de tal modo que grandes variaciones en los datos
fuera de la moda, no afectan en modo alguno a su valor.
 No siempre se sitúa hacia el centro de la distribución.
 Puede haber más de una moda en el caso en que dos o más valores de la variable
presenten la misma frecuencia (distribuciones bimodales o multimodales).
1.5 Medidas de dispersión.
Las medidas de dispersión, también llamadas medidas de variabilidad, muestran la
variabilidad de una distribución, indicando por medio de un número, si las diferentes
puntuaciones de una variable están muy alejadas de la media. Cuanto mayor sea ese valor,
mayor será la variabilidad, cuanto menor sea, más homogénea será a la media. Así se sabe
si todos los casos son parecidos o varían mucho entre ellos.
Para calcular la variabilidad que una distribución tiene respecto de su media, se calcula la
media de las desviaciones de las puntuaciones respecto a la media aritmética. Pero la suma
de las desviaciones es siempre cero, así que se adoptan dos clases de estrategias para salvar
este problema. Una es tomando las desviaciones en valor absoluto (Desviación media) y
otra es tomando las desviaciones al cuadrado (Varianza).
Rango estadístico
El rango o recorrido estadístico es la diferencia entre el valor mínimo y el valor máximo en
un grupo de números aleatorios. Se le suele simbolizar con R.
Requisitos del rango
Ordenamos los números según su tamaño.
Restamos el valor mínimo del valor máximo.
Ejemplo
Para una muestra (8,7,6,9,4,5), el dato menor es 4 y el dato mayor es 9 (Valor unitario
inmediatamente posterior al dato mayor menos el dato menor). Sus valores se encuentran
en un rango de:
Rango = (9-4) =5
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 40
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Varianza
La varianza (también denominada variancia, aunque esta denominación es menos utilizada)
es una medida estadística que mide la dispersión de los valores respecto a un valor central
(media), es decir, la media de las diferencias cuadráticas de las puntuaciones respecto a su
media aritmética. Suele ser representada con la letra griega σ o una V en mayúscula.
Para datos no agruapados Para datos agrupados
Propiedades
 La varianza es siempre positiva o 0:
 Si a los datos de la distribución les sumamos una cantidad constante la varianza no
se modifica.
Yi = Xi + k c
 Si a los datos de la distribución les multiplicamos una constante, la varianza queda
multiplicada por el cuadrado de esa constante.
 Propiedad distributiva: V(X + Y) = V(X) + V(Y)
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 41
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Ejemplos:
Datos no agrupados:
Para datos agrupados:
Desviación típica
La varianza a veces no se interpreta claramente, ya que se mide en unidades cuadráticas.
Para evitar ese problema se define otra medida de dispersión, que es la desviación típica, o
desviación estándar, que se halla como la raíz cuadrada positiva de la varianza. La
desviación típica informa sobre la dispersión de los datos respecto al valor de la media;
cuanto mayor sea su valor, más dispersos estarán los datos. Esta medida viene representada
en la mayoría de los casos por S, dado que es su inicial de su nominación en inglés.
Desviación típica muestral
=== Desviación típica poblacional === anal.x
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 42
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Ejemplo
Con Scilab este cálculo se hace de la siguiente manera: QUE
-->x= [17 14 2 5 8 7 6 8 5 4 3 15 9]
x =
17. 14. 2. 5. 8. 7. 6. 8. 5. 4. 3.
15. 9.
-->stdev(x)
ans =
4.716311
-->
Primero hemos declarado un vector con nombre X, donde introduzco los números de la
serie. Luego con el comando stdev se hallará la desviación típica.
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 43
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Unidad 2: Distribuciones muestrales
Propósito:
 Que el alumno aplique el conocimiento básico para aplicarlo en el estudio de las
poblaciones y las muestras.
 Identificar dentro de un caso, los datos agrupados y no agrupados para su
concentración y estudio
Competencia específica:
Hacer uso de las herramientas y conceptos indispensables para la representación numérica y
gráfica de los datos recopilados y analizados dentro de un entorno.
Introducción:
En estudios pasados de Estadísticas centramos nuestra atención en técnicas que describen
los datos, tales como organizar datos en distribuciones de frecuencias y calcular diferentes
promedios y medidas de variabilidad. Estábamos concentrados en describir algo que ya
ocurrió.
También comenzamos a establecer los fundamentos de la estadística inferencial, con el
estudio de los conceptos básicos de la probabilidad, las distribuciones de probabilidad
discretas y continuas. Distribuciones que son principalmente generadas para evaluar algo
que podría ocurrir. Ahora veremos otro tipo de distribución de probabilidad, que se laman
distribuciones muestrales.
¿Por qué muestrear?
Muestrear es una forma de evaluar la calidad de un producto, la opinión de los
consumidores, la eficacia de un medicamento o de un tratamiento. Muestra es una parte de
la población. Población es el total de resultados de un experimento. Hacer una conclusión
sobre el grupo entero (población) basados en información estadística obtenida de un
pequeño grupo (muestra) es hacer una inferencia estadística.
A menudo no es factible estudiar la población entera. Algunas de las razones por lo que es
necesario muestrear son:
1. La naturaleza destructiva de algunas pruebas
2. La imposibilidad física de checar todos los elementos de la población.
3. El costo de estudiar a toda la población es muy alto.
4. El resultado de la muestra es muy similar al resultado de la población.
5. El tiempo para contactar a toda la población es inviable.
Distribución Muestral de las Medias
El ejemplo de los ratings de eficiencia muestra como las medias de muestras de un tamaño
específico varían de muestra a muestra. La media de la primera muestra fue 101 y la media
de la segunda fue 99.5. En una tercera muestra probablemente resultaría una media
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 44
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
diferente. Si organizamos las medias de todas las posibles muestras de tamaño 2 en una
distribución de probabilidad, obtendremos la distribución muestral de las medias.
Distribución muestral de las medias. Es una distribución de probabilidad de todas las
posibles medias muestrales, de un tamaño de muestra dado, seleccionadas de una
población.
2.1 Distribución muestral de medias de varianza desconocida
Si recordamos a la distribución normal, esta es una distribución continua, en forma de
campana en donde la media, la mediana y la moda tienen un mismo valor y es simétrica.
Con esta distribución podíamos calcular la probabilidad de algún evento relacionado con la
variable aleatoria, mediante la siguiente fórmula:
En donde z es una variable estandarizada con media igual a cero y varianza igual a uno.
Con esta fórmula se pueden a hacer los cálculos de probabilidad para cualquier ejercicio,
utilizando la tabla de la distribución z.
Sabemos que cuando se extraen muestras de tamaño mayor a 30 o bien de cualquier tamaño
de una población normal, la distribución muestral de medias tiene un comportamiento
aproximadamente normal, por lo que se puede utilizar la formula de la distribución normal
con y , entonces la fórmula para calcular la probabilidad del
comportamiento del estadístico, en este caso la media de la muestra , quedaría de la
siguiente manera:
y para poblaciones finitas y muestro con reemplazo:
Ejemplo:
Una empresa eléctrica fabrica focos que tienen una duración que se distribuye
aproximadamente en forma normal, con media de 800 horas y desviación estándar de 40
horas. Encuentre la probabilidad de que una muestra aleatoria de 16 focos tenga una vida
promedio de menos de 775 horas.
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 45
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Solución:
Este valor se busca en la tabla de z
La interpretación sería que la probabilidad de que la media de la muestra de 16 focos sea
menor a 775 horas es de 0.0062.
Ejemplo:
Las estaturas de 1000 estudiantes están distribuidas aproximadamente en forma normal con
una media de 174.5 centímetros y una desviación estándar de 6.9 centímetros. Si se extraen
200 muestras aleatorias de tamaño 25 sin reemplazo de esta población, determine:
a. El número de las medias muestrales que caen entre 172.5 y 175.8 centímetros.
b. El número de medias muestrales que caen por debajo de 172 centímetros.
Solución:
Como se puede observar en este ejercicio se cuenta con una población finita y un muestreo
sin reemplazo, por lo que se tendrá que agregar el factor de corrección. Se procederá a
calcular el denominador de Z para sólo sustituirlo en cada inciso.
a.
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 46
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
(0.7607)(200)=152 medias muestrales
b.
(0.0336)(200)= 7 medias muestrales
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 47
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Con varianza conocida:
Suponga que la tabla siguiente muestra la antiguedad en años en el trabajo de tres maestros
universitarios de matemáticas:
Maestro de matemáticas Antiguedad
A 6
B 4
C 2
Suponga además que se seleccionan muestras aleatorias de tamaño 2 sin reemplazo.
Calcule la antigüedad media para cada muestra, la media de la distribución muestral y el
error estándar, o la desviación estándar de la distribución muestral.
Solución:
Se pueden tener 3C2 =3 muestras posibles. La tabla lista todas las muestras posibles de
tamaño 2, con sus respectivas medias muestrales.
Muestras Antigüedad Media
Muestral
A,B (6,4) 5
A,C (6,2) 4
B,C (4,2) 3
La media poblacional es:
La media de la distribución muestral es:
La desviación estándar de la población es:
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 48
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
El error estándar o la desviación estándar de la distribución muestral es:
Si utilizamos la fórmula del error estándar sin el factor de correción tendriamos que:
Por lo que observamos que este valor no es el verdadero. Agregando el factor de corrección
obtendremos el valor correcto:
El diagrama de flujo resume las decisiones que
deben tomarse cuando se calcula el valor del error
estándar:
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 49
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
2.2 Teorema del límite central.
Un importante resultado en Probabilidades y Estadística es el llamado Teorema del
Límite Central que dice que si de una población infinita con media  y varianza  2 se
extraen muestras aleatorias de tamaño n, entonces la media muestral se
comporta aproximadamente como una variable aleatoria normal con media igual
a la media poblacional y con varianza igual a la varianza poblacional dividida por el
tamaño de la muestra, siempre que n sea grande. Lo importante de este
resultado es que es independiente de la forma de la distribución de la población. Es
decir,
Cuando n es grande. Estandarizando, esto es equivalente a:
Si la población es bastante simétrica entonces, un tamaño de muestra n de
aproximadamente 30 es suficiente para una buena aproximación a la normal. Si
la población es bastante asimétrica, entonces el tamaño de muestra debe ser mucho
más grande.
En MINITAB se puede tratar de corroborar el Teorema del Límite Central a través
de un proceso de simulación.
Ejemplo Considerar una población que consiste de 3, 4, 6, 8, 10, 11, 12, 15, 20.
Primero calculamos la media y desviación estándar de dicha población.
Tr Mean StDev SE Mean
9.89 5.42 1.81
Variable Min Max Q1 Q3
C1 3.00 20.00 5.00 13.50
Notar que   9.89 y   5.42.
Segundo, extraemos 30 muestras de tamaño 4 de dicha población, ejecutando 4 veces la
siguiente secuencia CalcRandom DataSample from columns. Guardar cada una de
las 4 observaciones de las muestras en 4 columnas distintas: Obs1, Obs2, Obs3, y Obs4.
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 50
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
2.3 Distribución muestral de proporción.
Existen ocasiones en las cuales no estamos interesados en la media de la muestra, sino que
queremos investigar la proporción de artículos defectuosos o la proporción de alumnos
reprobados en la muestra. La distribución muestral de proporciones es la adecuada para dar
respuesta a estas situaciones. Esta distribución se genera de igual manera que la
distribución muestral de medias, a excepción de que al extraer las muestras de la población
se calcula el estadístico proporción (p=x/n en donde "x" es el número de éxitos u
observaciones de interés y "n" el tamaño de la muestra) en lugar del estadístico media.
Una población binomial está estrechamente relacionada con la distribución muestral de
proporciones; una población binomial es una colección de éxitos y fracasos, mientras que
una distribución muestral de proporciones contiene las posibilidades o proporciones de
todos los números posibles de éxitos en un experimento binomial, y como consecuencia de
esta relación, las afirmaciones probabilísticas referentes a la proporción muestral pueden
evaluarse usando la aproximación normal a la binomial, siempre que np 5 y
n(1-p) 5. Cualquier evento se puede convertir en una proporción si se divide el número
obtenido entre el número de intentos.
Generación de la Distribución Muestral de Proporciones
Suponga que se cuenta con un lote de 12 piezas, el cual tiene 4 artículos defectuosos. Se
van a seleccionar 5 artículos al azar de ese lote sin reemplazo. Genere la distribución
muestral de proporciones para el número de piezas defectuosas.
Como se puede observar en este ejercicio la Proporción de artículos defectuosos de esta
población es 4/12=1/3. Por lo que podemos decir que el 33% de las piezas de este lote están
defectuosas.
El número posible de muestras de tamaño 5 a extraer de una población de 12 elementos es
12C5=792, las cuales se pueden desglosar de la siguiente manera:
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 51
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Artículos
Buenos
Artículos Malos
Proporción de
artículos
defectuoso
Número de
maneras en las
que se puede
obtener la muestra
1 4 4/5=0.8 8C1*4C4=8
2 3 3/5=0.6 8C2*4C3=112
3 2 2/5=0.4 8C3*4C2=336
4 1 1/5=0.2 8C4*4C1=280
5 0 0/5=0 8C5*4C0=56
Total 792
Para calcular la media de la distribución muestral de proporciones se tendría que hacer la
sumatoria de la frecuencia por el valor de la proporción muestral y dividirla entre el número
total de muestras. Esto es:
Como podemos observar la media de la distribución muestral de proporciones es igual a la
Proporción de la población.
p = P
También se puede calcular la desviación estándar de la distribución muestral de
proporciones:
La varianza de la distribución binomial es 2= npq, por lo que la varianza de la
distribución muestral de proporciones es 2
p =(Pq)/n. Si se sustituten los valores en esta
fórmula tenemos que:
, este valor no coincide con el de 0.1681, ya
que nos falta agregar el factor de corrección para una población finita y un muestreo sin
reemplazo:
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 52
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
La fórmula que se utilizará para el cálculo de probabilidad en una distribución muestral de
proporciones está basada en la aproximación de la distribución normal a la binomial . Esta
fórmula nos servirá para calcular la probabilidad del comportamiento de la proporción en la
muestra.
A esta fórmula se le puede agregar el factor de corrección de si se cumple con
las condiciones necesarias.
Ejemplo:
Se ha determinado que 60% de los estudiantes de una universidad grande fuman cigarrillos.
Se toma una muestra aleatoria de 800 estudiantes. Calcule la probabilidad de que la
proporción de la muestra de la gente que fuma cigarrillos sea menor que 0.55.
Solución:
Este ejercicio se puede solucionar por dos métodos. El primero puede ser con la
aproximación de la distribución normal a la binomial y el segundo utilizando la fórmula de
la distribución muestral de proporciones.
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 53
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Aproximación de la distribución normal a la binomial:
Datos:
n=800 estudiantes
p=0.60
x= (.55)(800) = 440 estudiantes
p(x< 440) = ?
Media= np= (800)(0.60)= 480
p(x< 440) = 0.0017. Este valor significa que existe una probabilidad del 0.17% de que al
extraer una muestra de 800 estudiantes, menos de 440 fuman cigarrillos.
Distribución Muestral de Proporciones
Datos:
n=800 estudiantes
P=0.60
p= 0.55
p(p< 0.55) = ?
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 54
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Observe que este valor es igual al obtenido en el método de la aproximación de la
distribución normal a la binomial, por lo que si lo buscamos en la tabla de "z" nos da la
misma probabilidad de 0.0017. También se debe de tomar en cuenta que el factor de
corrección de 0.5 se esta dividiendo entre el tamaño de la muestra, ya que estamos
hablando de una proporción.
La interpretación en esta solución, estaría enfocada a la proporción de la muestra, por lo
que diríamos que la probabilidad de que al extraer una muestra de 800 estudiantes de esa
universidad, la proporción de estudiantes que fuman cigarrillos sea menor al 55% es del
0.17%.
Ejemplo:
Un medicamento para malestar estomacal tiene la advertencia de que algunos usuarios
pueden presentar una reacción adversa a él, más aún, se piensa que alrededor del 3% de los
usuarios tienen tal reacción. Si una muestra aleatoria de 150 personas con malestar
estomacal usa el medicamento, encuentre la probabilidad de que la proporción de la
muestra de los usuarios que realmente presentan una reacción adversa, exceda el 4%.
a. Resolverlo mediante la aproximación de la normal a la binomial
b. Resolverlo con la distribución muestral de proporciones
a. Aproximación de la distribución normal a la binomial:
Datos:
n=150 personas
p=0.03
x= (0.04)(150) = 6 personas
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 55
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
p(x>6) = ?
Media = np= (150)(0.03)= 4.5
p(x>6) = 0.1685. Este valor significa que existe una probabilidad del 17% de que al
extraer una muestra de 150 personas, mas de 6 presentarán una reacción adversa.
b. Distribución Muestral de Proporciones
Datos:
n=150 personas
P=0.03
p= 0.04
p(p>0.04) = ?
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 56
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Observe que este valor es igual al obtenido y la interpretación es: existe una probabilidad
del 17% de que al tomar una muestra de 150 personas se tenga una proporción mayor de
0.04 presentando una reacción adversa.
Ejemplo:
Se sabe que la verdadera proporción de los componentes defectuosos fabricados por una
firma es de 4%, y encuentre la probabilidad de que una muestra aleatoria de tamaño 60
tenga:
a. Menos del 3% de los componentes defectuosos.
b. Más del 1% pero menos del 5% de partes defectuosas.
Solución:
a. Datos:
n= 60 artículos
P=0.04
p= 0.03
p(p<0.03) = ?
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 57
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
La probabilidad de que en una muestra de 60 artículos exista una proporción menor
de 0.03 artículos defectuosos es de 0.2327.
b. Datos:
n= 60 artículos
P=0.04
p= 0.01 y 0.05
p(0.01<p<0.05) = ?
2.3 Distribución muestral diferencia de medias y de proporciones.
Distribución Muestral de Diferencia de Medias
Suponga que se tienen dos poblaciones distintas, la primera con media 1 y desviación
estándar 1, y la segunda con media 2 y desviación estándar 2. Más aún, se elige una
muestra aleatoria de tamaño n1 de la primera población y una muestra independiente
aleatoria de tamaño n2 de la segunda población; se calcula la media muestral para cada
muestra y la diferencia entre dichas medias. La colección de todas esas diferencias se llama
distribución muestral de las diferencias entre medias o la distribución muestral del
estadístico
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 58
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
La distribución es aproximadamente normal para n1 30 y n2 30. Si las poblaciones son
normales, entonces la distribución muestral de medias es normal sin importar los tamaños
de las muestras.
En ejercicios anteriores se había demostrado que y que , por lo que no es
difícil deducir que y que .
La fórmula que se utilizará para el cálculo de probabilidad del estadístico de diferencia de
medias es:
Ejemplo:
En un estudio para comparar los pesos promedio de niños y niñas de sexto grado en una
escuela primaria se usará una muestra aleatoria de 20 niños y otra de 25 niñas. Se sabe que
tanto para niños como para niñas los pesos siguen una distribución normal. El promedio de
los pesos de todos los niños de sexto grado de esa escuela es de 100 libras y su desviación
estándar es de 14.142, mientras que el promedio de los pesos de todas las niñas del sexto
grado de esa escuela es de 85 libras y su desviación estándar es de 12.247 libras. Si
representa el promedio de los pesos de 20 niños y es el promedio de los pesos de una
muestra de 25 niñas, encuentre la probabilidad de que el promedio de los pesos de los 20
niños sea al menos 20 libras más grande que el de las 25 niñas.
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 59
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Solución:
Datos:
1 = 100 libras
2 = 85 libras
1 = 14.142 libras
2 = 12.247 libras
n1 = 20 niños
n2 = 25 niñas
= ?
Por lo tanto, la probabilidad de que el promedio de los pesos de la muestra de niños sea al
menos 20 libras más grande que el de la muestra de las niñas es 0.1056.
Ejemplo:
Uno de los principales fabricantes de televisores compra los tubos de rayos catódicos a dos
compañías. Los tubos de la compañía A tienen una vida media de 7.2 años con una
desviación estándar de 0.8 años, mientras que los de la B tienen una vida media de 6.7 años
con una desviación estándar de 0.7. Determine la probabilidad de que una muestra aleatoria
de 34 tubos de la compañía A tenga una vida promedio de al menos un año más que la de
una muestra aleatoria de 40 tubos de la compañía B.
Solución:
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 60
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Datos:
A = 7.2 años
B = 6.7 años
A = 0.8 años
B = 0.7 años
nA = 34 tubos
nB = 40 tubos
= ?
Ejemplo:
Se prueba el rendimiento en km/L de 2 tipos de gasolina, encontrándose una desviación
estándar de 1.23km/L para la primera gasolina y una desviación estándar de 1.37km/L para
la segunda gasolina; se prueba la primera gasolina en 35 autos y la segunda en 42 autos.
a. ¿Cuál es la probabilidad de que la primera gasolina de un rendimiento promedio
mayor de 0.45km/L que la segunda gasolina?
b. ¿Cuál es la probabilidad de que la diferencia en rendimientos promedio se encuentre
entre 0.65 y 0.83km/L a favor de la gasolina 1?.
Solución:
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 61
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
En este ejercicio no se cuenta con los parámetros de las medias en ninguna de las dos
poblaciones, por lo que se supondrán que son iguales.
Datos:
1 = 1.23 Km/Lto
2 = 1.37 Km/Lto
n1 = 35 autos
n2 = 42 autos
a. = ?
b. ?
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 62
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
La probabilidad de que la diferencia en rendimientos promedio en las muestras se encuentre
entre 0.65 y 0.83 Km/Lto a favor de la gasolina 1 es de 0.0117.
Distribución Muestral de Diferencia de Proporciones
Muchas aplicaciones involucran poblaciones de datos cualitativos que deben compararse
utilizando proporciones o porcentajes. A continuación se citan algunos ejemplos:
 Educación.- ¿Es mayor la proporción de los estudiantes que aprueban matemáticas
que las de los que aprueban inglés?
 Medicina.- ¿Es menor el porcentaje de los usuarios del medicamento A que
presentan una reacción adversa que el de los usuarios del fármaco B que también
presentan una reacción de ese tipo?
 Administración.- ¿Hay diferencia entre los porcentajes de hombres y mujeres en
posiciones gerenciales.
 Ingeniería.- ¿Existe diferencia entre la proporción de artículos defectuosos que
genera la máquina A a los que genera la máquina B?
Cuando el muestreo procede de dos poblaciones binomiales y se trabaja con dos
proporciones muestrales, la distribución muestral de diferencia de proporciones es
aproximadamente normal para tamaños de muestra grande (n1p1 5, n1q1 5,n2p2 5 y n2q2
5). Entonces p1 y p2 tienen distribuciones muestrales aproximadamente normales, así que
su diferencia p1-p2 también tiene una distribución muestral aproximadamente normal.
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 63
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Cuando se estudió a la distribución muestral de proporciones se comprobó que y
que , por lo que no es difícil deducir que y que
.
La fórmula que se utilizará para el calculo de probabilidad del estadístico de diferencia de
proporciones es:
Ejemplo:
Los hombres y mujeres adultos radicados en una ciudad grande del norte difieren en sus
opiniones sobre la promulgación de la pena de muerte para personas culpables de asesinato.
Se cree que el 12% de los hombres adultos están a favor de la pena de muerte, mientras que
sólo 10% de las mujeres adultas lo están. Si se pregunta a dos muestras aleatorias de 100
hombres y 100 mujeres su opinión sobre la promulgación de la pena de muerte, determine
la probabilidad de que el porcentaje de hombres a favor sea al menos 3% mayor que el de
las mujeres.
Solución:
Datos:
PH = 0.12
PM = 0.10
nH = 100
nM = 100
p(pH-pM 0.03) = ?
Se recuerda que se está incluyendo el factor de corrección de 0.5 por ser una distribución
binomial y se está utilizando la distribución normal.
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 64
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Se concluye que la probabilidad de que el porcentaje de hombres a favor de la pena de
muerte, al menos 3% mayor que el de mujeres es de 0.4562.
Ejemplo:
Una encuesta del Boston College constó de 320 trabajadores de Michigan que fueron
despedidos entre 1979 y 1984, encontró que 20% habían estado sin trabajo durante por lo
menos dos años. Supóngase que tuviera que seleccionar otra muestra aleatoria de 320
trabajadores de entre todos los empleados despedidos entre 1979 y 1984. ¿Cuál sería la
probabilidad de que su porcentaje muestral de trabajadores sin empleo durante por lo
menos dos años, difiera del porcentaje obtenido en la encuesta de Boston College, en 5% o
más?
Solución:
En este ejercicio se cuenta únicamente con una población, de la cual se están extrayendo
dos muestras y se quiere saber la probabilidad de la diferencia de los porcentajes en esas
dos muestras, por lo que se debe de utilizar la distribución muestral de proporciones con
P1= P2, ya que es una misma población.
Otra de las situaciones con la cual nos topamos es que desconocemos la proporción de
trabajadores despedidos entre 1979 y 1984 que estuvieron desempleados por un período de
por lo menos dos años, sólo se conoce la
p1= 0.20 ya que al tomar una muestra de 320 trabajadores se observó esa proporción.
En la fórmula de la distribución muestral de proporciones para el cálculo de probabilidad se
necesita saber las proporciones de las poblaciones, las cuales en este ejercicio las
desconocemos, por lo que se utilizará el valor de 0.20 como una estimación puntual de P.
En el siguiente tema se abordará el tema de estimación estadística y se comprenderá el
porque estamos utilizando de esa manera el dato.
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 65
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
También debe de comprenderse la pregunta que nos hace este problema, ¿cuál sería la
probabilidad de que su porcentaje muestral de trabajadores sin empleo durante por lo
menos dos años, difiera del porcentaje obtenido en la encuesta de Boston College, en 5% o
más?, la palabra difiera quiere decir que puede existir una diferencia a favor de la muestra
uno, o a favor de la muestra dos, por lo que se tendrán que calcular dos áreas en la
distribución y al final sumarlas.
Datos:
p1 = 0.20
n1 = 320 trabajadores
n2 = 320 trabajadores
P1 = P2
La probabilidad de que su proporcion muestral de trabajadores sin empleo durante por lo
menos dos años, difiera del porcentaje obtenido en la encuesta de Boston College, en 0.05 o
más es de 0.1260.
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 66
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Ejemplo:
Se sabe que 3 de cada 6 productos fabricados por la máquina 1 son defectuosos y que 2 de
cada 5 objetos fabricados por la máquina 2 son defectuosos; se toman muestras de 120
objetos de cada máquina:
a. ¿cuál es la probabilidad de que la proporción de artículos defectuosos de la máquina
2 rebase a la máquina 1 en por lo menos 0.10?
b. ¿cuál es la probabilidad de que la proporción de artículos defectuosos de la máquina
1 rebase a la máquina 2 en por lo menos 0.15?
Solución:
Datos:
P1 = 3/6 = 0.5
P2 = 2/5 = 0.4
n1 = 120 objetos
n2 = 120 objetos
a. p(p2-p1 0.10) = ?
Otra manera de hacer este ejercicio es poner P1-P2:
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 67
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
La probabilidad de que exista una diferencia de proporciones de artículos
defectuosos de por lo menos 10% a favor de la máquina 2 es de 0.0011.
b. p(p1-p2
0.15)=?
La probabilidad de que exista una diferencia de proporciones de artículos defectuosos de
por lo menos 15% a favor de la máquina 1 es de 0.2357.
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 68
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
2.5 Distribución Muestral Diferencia Medias.
Suponga que se tienen dos poblaciones distintas, la primera con media 1 y desviación
estándar 1, y la segunda con media 2 y desviación estándar 2. Más aún, se elige una
muestra aleatoria de tamaño n1 de la primera población y una muestra independiente
aleatoria de tamaño n2 de la segunda población; se calcula la media muestral para cada
muestra y la diferencia entre dichas medias. La colección de todas esas diferencias se llama
distribución muestral de las diferencias entre medias o la distribución muestral del
estadístico
La distribución es aproximadamente normal para n1 30 y n2 30. Si las poblaciones son
normales, entonces la distribución muestral de medias es normal sin importar los tamaños
de las muestras.
En ejercicios anteriores se había demostrado que y que , por lo que no es
difícil deducir que y que .
La fórmula que se utilizará para el calculo de probabilidad del estadístico de diferencia de
medias es:
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 69
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Ejemplo:
En un estudio para comparar los pesos promedio de niños y niñas de sexto grado en una
escuela primaria se usará una muestra aleatoria de 20 niños y otra de 25 niñas. Se sabe que
tanto para niños como para niñas los pesos siguen una distribución normal. El promedio de
los pesos de todos los niños de sexto grado de esa escuela es de 100 libras y su desviación
estándar es de 14.142, mientras que el promedio de los pesos de todas las niñas del sexto
grado de esa escuela es de 85 libras y su desviación estándar es de 12.247 libras. Si
representa el promedio de los pesos de 20 niños y es el promedio de los pesos de una
muestra de 25 niñas, encuentre la probabilidad de que el promedio de los pesos de los 20
niños sea al menos 20 libras más grande que el de las 25 niñas.
Solución:
Datos:
1 = 100 libras
2 = 85 libras
1 = 14.142 libras
2 = 12.247 libras
n1 = 20 niños
n2 = 25 niñas
= ?
Por lo tanto, la probabilidad de que el promedio de los pesos de la muestra de niños sea al
menos 20 libras más grande que el de la muestra de las niñas es 0.1056.
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 70
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Ejemplo:
Uno de los principales fabricantes de televisores compra los tubos de rayos catódicos a dos
compañías. Los tubos de la compañía A tienen una vida media de 7.2 años con una
desviación estándar de 0.8 años, mientras que los de la B tienen una vida media de 6.7 años
con una desviación estándar de 0.7. Determine la probabilidad de que una muestra aleatoria
de 34 tubos de la compañía A tenga una vida promedio de al menos un año más que la de
una muestra aleatoria de 40 tubos de la compañía B.
Solución:
Datos:
A = 7.2 años
B = 6.7 años
A = 0.8 años
B = 0.7 años
nA = 34 tubos
nB = 40 tubos
= ?
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 71
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Ejemplo:
Se prueba el rendimiento en km/L de 2 tipos de gasolina, encontrándose una desviación
estándar de 1.23km/L para la primera gasolina y una desviación estándar de 1.37km/L para
la segunda gasolina; se prueba la primera gasolina en 35 autos y la segunda en 42 autos.
a. ¿Cuál es la probabilidad de que la primera gasolina de un rendimiento promedio
mayor de 0.45km/L que la segunda gasolina?
b. ¿Cuál es la probabilidad de que la diferencia en rendimientos promedio se encuentre
entre 0.65 y 0.83km/L a favor de la gasolina 1?.
Solución:
En este ejercicio no se cuenta con los parámetros de las medias en ninguna de las dos
poblaciones, por lo que se supondrán que son iguales.
Datos:
1 = 1.23 Km/Lto
2 = 1.37 Km/Lto
n1 = 35 autos
n2 = 42 autos
a. = ?
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 72
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
b.
?
La probabilidad de que la diferencia en rendimientos promedio en las muestras se encuentre
entre 0.65 y 0.83 Km/Lto a favor de la gasolina 1 es de 0.0117.
2.6 Distribución Muestral de la Varianza.
A veces lo que nos interesa es estudiar la variabilidad de las medidas. La variabilidad se
suele medir con la varianza o con la desviación típica y el estadístico empleado es la
varianza muestral:

 


n
i
i
n
x
x
S
1
2
2
1
)
(
Para poder trabajar con ella necesitamos conocer la función de distribución asociada, para
esto estudiaremos la distribución chi cuadrado.
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 73
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Se dice que una variable aleatoria X sigue una distribución ji cuadrado con k grados de
libertad, cuando su función de densidad está dada por la fórmula:
Dado lo complicado de la expresión utilizaremos una tabla para conocer los valores que nos
interesen.
Propiedades de esta distribución:
1. Si X es una variable con distribución ji cuadrado con k grados de libertad, su media
es k y su varianza 2k.
2. Una variable ji cuadrado no toma valores negativos.
3. Su gráfica es de las de tipo de curvas sesgadas a la derecha.
4. A medida que aumentan los grados de libertad la curva se va haciendo más
simétrica y su cola derecha se va extendiendo.
5. Por cada valor de k hay una distribución distinta.
6. k es el único parámetro asociado a la distribución.










caso
otro
cualquier
en
six
e
x
k
x
f
x
k
x
0
0
)
2
/
1
(
)
2
/
(
1
)
(
)
2
/
1
(
1
2
/
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 74
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 75
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 76
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 77
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
2.7 Distribución Muestral Razónde Varianzas
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 78
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Unidad 3: Teoría de la estimación
Propósito:
 Aprender cómo acoplar los elementos de una población o una muestra
 Inferir en los parámetros de un problema
 Conocer los métodos y formas de presentar dicha información
Competencia específica:
Hacer uso de las herramientas y conceptos indispensables para la representación numérica y
gráfica de los datos recopilados y analizados dentro de un entorno.
Introducción:
En todo este tema vamos a suponer que estamos estudiando una población cuya
distribución es conocida excepto en un parámetro (,  , ,. ..) al que llamaremos . A
la distribución de la población la denotaremos por f(x).
Diremos que nos encontramos ante un problema de estimación cuando, dada una
población con una distribución f(x) donde  es un parámetro desconocido, aventuremos o
infiramos en base a los datos muestrales X , X ,..., X el valor de  . Si al inferir el
parámetro damos un único valor estaremos ante un problema de estimación puntual.
Estimador puntual  
$ , ,...,
 X X Xn
1 2 : será una función de la muestra aleatoria (un
estadístico) que utilizaremos para estimar el valor del parámetro.
Estimación $
 : valor obtenido del estimador al sustituir por los valores de una muestra
completa.
Cuando no haya lugar para la confusión designaremos al estimador simplemente por $
 .
Un estimador es, por tanto, un estadístico y, por ello, es una v.a. con una determinada
distribución de probabilidad llamada distribución muestral.
Dado un parámetro, podríamos utilizar distintos estimadores puntuales para estimarlo. Por
ejemplo, para estimar la varianza de la población podemos utilizar la varianza muestral o la
cuasi-varianza muestral. ¿Cuál es mejor? Veamos a continuación como comprobar si un
estadístico es un buen estimador de un parámetro. Para ello le exigiremos una serie de
propiedades. Como el estadístico es una variable aleatoria, las propiedades se las tenemos
que exigir a su distribución de probabilidad.
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 79
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
3.1 Estimacióny Propiedades Estimadores.
Insesgado.- Se dice que un estimador puntual es un estimador insesgado de si
, para todo valor posible de . En otras palabras, un estimador insesgado es aquel para el
cual la media de la distribución muestral es el parámetro estimado. Si se usa la media
muestral para estimar la media poblacional , se sabe que la , por lo tanto la
media es un estimador insesgado.
Eficiente o con varianza mínima.- Suponga que 1 y 2 son dos estimadores insesgados
de . Entonces, aun cuando la distribución de cada estimador esté centrada en el valor
verdadero de , las dispersiones de las distribuciones alrededor del valor verdadero pueden
ser diferentes.
Entre todos los estimadores de que son insesgados, seleccione al que tenga varianza
mínima. El resultante recibe el nombre de estimador insesgado con varianza mínima
(MVUE, minimum variance unbiased estimator) de .
En otras palabras, la eficiencia se refiere al tamaño de error estándar de la estadística. Si
comparamos dos estadísticas de una muestra del mismo tamaño y tratamos de decidir cual
de ellas es un estimador mas eficiente, escogeríamos la estadística que tuviera el menor
error estándar, o la menor desviación estándar de la distribución de muestreo.
Tiene sentido pensar que un estimador con un error estándar menor tendrá una mayor
oportunidad de producir una estimación mas cercana al parámetro de población que se esta
considerando.
Como se puede observar las dos distribuciones tienen un mismo valor en el parámetro sólo
que la distribución muestral de medias tiene una menor varianza, por lo que la media se
convierte en un estimador eficiente e insesgado.
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 80
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Coherencia.- Una estadística es un estimador coherente de un parámetro de población, si al
aumentar el tamaño de la muestra se tiene casi la certeza de que el valor de la estadística se
aproxima bastante al valor del parámetro de la población. Si un estimador es coherente se
vuelve mas confiable si tenemos tamaños de muestras mas grandes.
Suficiencia.- Un estimador es suficiente si utiliza una cantidad de la información contenida
de la muestra que ningún otro estimador podría extraer información adicional de la muestra
sobre el parámetro de la población que se esta estimando.
Es decir se pretende que al extraer la muestra el estadístico calculado contenga toda la
información de esa muestra. Por ejemplo, cuando se calcula la media de la muestra, se
necesitan todos los datos. Cuando se calcula la mediana de una muestra sólo se utiliza a un
dato o a dos. Esto es solo el dato o los datos del centro son los que van a representar la
muestra. Con esto se deduce que si utilizamos a todos los datos de la muestra como es en el
caso de la media, la varianza, desviación estándar, etc; se tendrá un estimador suficiente.
3.2 Estimaciónpor Intervalo.
Estimación Puntual
La inferencia estadística está casi siempre concentrada en obtener algún tipo de conclusión
acerca de uno o más parámetros (características poblacionales). Para hacerlo, se requiere
que un investigador obtenga datos muestrales de cada una de las poblaciones en estudio.
Entonces, las conclusiones pueden estar basadas en los valores calculados de varias
cantidades muestrales . Po ejemplo, representamos con (parámetro) el verdadero
promedio de resistencia a la ruptura de conexiones de alambres utilizados para unir obleas
de semiconductores. Podría tomarse una muestra aleatoria de 10 conexiones para
determinar la resistencia a la ruptura de cada una, y la media muestral de la resistencia a la
ruptura se podía emplear para sacar una conclusión acerca del valor de . De forma
similar, si es la varianza de la distribución de resistencia a la ruptura, el valor de la
varianza muestral s2 se podría utilizar pra inferir algo acerca de .
Cuando se analizan conceptos generales y métodos de inferencia es conveniente tener un
símbolo genérico para el parámetro de interés. Se utilizará la letra griega para este
propósito. El objetivo de la estimación puntual es seleccionar sólo un número, basados en
datos de la muestra, que represente el valor más razonable de .
Una muestra aleatoria de 3 baterías para calculadora podría presentar duraciones
observadas en horas de x1=5.0, x2=6.4 y x3=5.9. El valor calculado de la duración media
muestral es = 5.77, y es razonable considerar 5.77 como el valor más adecuado de .
Una estimación puntual de un parámetro es un sólo número que se puede considerar
como el valor más razonable de . La estimación puntual se obtiene al seleccionar una
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 81
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
estadística apropiada y calcular su valor a partir de datos de la muestra dada. La estadística
seleccionada se llama estimador puntual de .
El símbolo (theta sombrero) suele utilizarse para representar el estimador de y la
estimación puntual resultante de una muestra dada. Entonces se lee como "el
estimador puntual de es la media muestral ". El enunciado "la estimación puntual de
es 5.77" se puede escribir en forma abreviada .
Ejemplo:
En el futuro habrá cada vez más interés en desarrollar aleaciones de Mg de bajo costo, para
varios procesos de fundición. En consecuencia, es importante contar con métodos prácticos
para determinar varias propiedades mecánicas de esas aleaciones. Examine la siguiente
muestra de mediciones del módulo de elasticidad obtenidos de un proceso de fundición a
presión:
44.2 43.9 44.7 44.2 44.0 43.8 44.6 43.1
Suponga que esas observaciones son el resultado de una muestra aleatoria. Se desea estimar
la varianza poblacional . Un estimador natural es la varianza muestral:
En el mejor de los casos, se encontrará un estimador para el cual siempre. Sin
embargo, es una función de las Xi muestrales, por lo que en sí misma una variable
aleatoria.
+ error de estimación
entonces el estimador preciso sería uno que produzca sólo pequeñas diferencias de
estimación, de modo que los valores estimados se acerquen al valor verdadero.
Estimación por Intervalos
Un estimado puntual, por ser un sólo número, no proporciona por sí mismo información
alguna sobre la precisión y confiabilidad de la estimación. Por ejemplo, imagine que se usa
el estadístico para calcular un estimado puntual de la resistencia real a la ruptura de
toallas de papel de cierta marca, y suponga que = 9322.7. Debido a la variabilidad de la
muestra, nunca se tendrá el caso de que = . El estimado puntual nada dice sobre lo
cercano que esta de . Una alternativa para reportar un solo valor del parámetro que se
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 82
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
esté estimando es calcular e informar todo un intervalo de valores factibles, un estimado de
intervalo o intervalo de confianza (IC). Un intervalo de confianza se calcula siempre
seleccionando primero un nivel de confianza, que es una medida de el grado de fiabilidad
en el intervalo. Un intervalo de confianza con un nivel de confianza de 95% de la
resistencia real promedio a la ruptura podría tener un límite inferior de 9162.5 y uno
superior de 9482.9. Entonces, en un nivel de confianza de 95%, es posible tener cualquier
valor de entre 9162.5 y 9482.9. Un nivel de confianza de 95% implica que 95% de todas
las muestras daría lugar a un intervalo que incluye o cualquier otro parámetro que se esté
estimando, y sólo 5% de las muestras producirá un intervalo erróneo. Cuanto mayor sea el
nivel de confianza podremos creer que el valor del parámetro que se estima está dentro del
intervalo.
Una interpretación correcta de la "confianza de 95%" radica en la interpretación frecuente
de probabilidad a largo plazo: decir que un evento A tiene una probabilidad de 0.95, es
decir que si el experimento donde A está definido re realiza una y otra vez, a largo plazo A
ocurrirá 95% de las veces. Para este caso
el 95% de los intervalos de confianza calculados contendrán a .
Esta es una construcción repetida de intervalos de confianza de 95% y se puede observar
que de los 11 intervalos calculados sólo el tercero y el último no contienen el valor de .
De acuerdo con esta interpretación, el nivel de confianza de 95% no es tanto un enunciado
sobre cualquier intervalo en particular, más bien se refiere a lo que sucedería si se tuvieran
que construir un gran número de intervalos semejantes.
Encontrar z a partir de un nivel de confianza
Existen varias tablas en las cuales podemos encontrar el valor de z, según sea el área
proporcionada por la misma. En esta sección se realizará un ejemplo para encontrar el valor
de z utilizando tres tablas diferentes.
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 83
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Ejemplo:
Encuentre el valor de z para un nivel de confianza del 95%.
Solución 1:
Se utilizará la tabla que tiene el área bajo la curva de - hasta z. Si lo vemos gráficamente
sería:
El nivel de confianza bilateral está dividido en partes iguales bajo la curva:
En base a la tabla que se esta utilizando, se tendrá que buscar el área de 0.975, ya que cada
extremo o cola de la curva tiene un valor de 0.025.
Por lo que el valor de z es de 1.96.
Solución 2:
Si se utiliza una tabla en donde el área bajo la curva es de 0 a z:
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 84
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
En este caso sólo se tendrá que buscar adentro de la tabla el área de 0.475 y el resultado del
valor de z será el mismo, para este ejemplo 1.96.
Solución 3:
Para la tabla en donde el área bajo la curva va desde z hasta :
Se busca el valor de 0.025 para encontrar z de 1.96.
Independientemente del valor del Nivel de Confianza este será el procedimiento a seguir
para localizar a z. En el caso de que no se encuentre el valor exacto se tendrá que interpolar.
3.3 Intervalo de Confianza Media con varianza conocida y desconocida.
Se llama intervalo de confianza en estadística a un par de números entre los cuales se
estima que estará cierto valor desconocido con una determinada probabilidad de acierto.
Formalmente, estos números determinan un intervalo, que se calcula a partir de datos de
una muestra, y el valor desconocido es un parámetro poblacional. La probabilidad de éxito
en la estimación se representa por 1 - α y se denomina nivel de confianza. En estas
circunstancias, α es el llamado error aleatorio o nivel de significación, esto es, una medida
de las posibilidades de fallar en la estimación mediante tal intervalo.[1]
El nivel de confianza y la amplitud del intervalo varían conjuntamente, de forma que un
intervalo más amplio tendrá más posibilidades de acierto (mayor nivel de confianza),
mientras que para un intervalo más pequeño, que ofrece una estimación más precisa,
aumentan sus posibilidades de error.
Para la construcción de un determinado intervalo de confianza es necesario conocer la
distribución teórica que sigue el parámetro a estimar, θ. Es habitual que el parámetro se
distribuya normalmente. También pueden construirse intervalos de confianza con la
desigualdad de Chebyshov.
En definitiva, un intervalo de confianza al 1 - α % para la estimación de un parámetro
poblacional θ que sigue una determinada distribución de probabilidad, es una expresión del
tipo [θ1, θ2] tal que P[θ1 ≤ θ ≤ θ2] = 1 - α, donde P es la función de distribución de
probabilidad de θ.
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 85
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Intervalo de confianza para la media de una población
De una población de media μ y desviación típica σ se pueden tomar muestras de n
elementos. Cada una de estas muestras tiene a su vez una media ( ). Se puede demostrar
que la media de todas las medias muestrales coincide con la media poblacional:
Pero además, si el tamaño de las muestras es lo suficientemente grande, la distribución de
medias muestrales es, prácticamente, una distribución normal (o gaussiana) con media μ y
una desviación típica dada por la siguiente expresión: . Esto se representa como
sigue: . Si estandarizamos, se sigue que:
En una distribución Z ~ N(0, 1) puede calcularse fácilmente un intervalo dentro del cual
"caigan" un determinado porcentaje de las observaciones, esto es, es sencillo hallar z1 y z2
tales que P[z1 ≤ z ≤ z2] = 1 - α, donde (1 - α)·100 es el porcentaje deseado.
Se desea obtener una expresión tal que
En esta distribución normal de medias se puede calcular el intervalo de confianza donde se
encontrará la media poblacional si sólo se conoce una media muestral ( ), con una
confianza determinada. Habitualmente se manejan valores de confianza del 95% y 99%. A
este valor se le llamará 1 − α (debido a que α es el error que se cometerá, un término
opuesto).
Para ello se necesita calcular el punto Xα / 2 —o mejor dicho su versión estandarizada Zα /
2— junto con su "opuesto en la distribución" X − α / 2. Estos puntos delimitan la probabilidad
para el intervalo, como se muestra en la siguiente imagen:
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 86
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Dicho punto es el número tal que:
Y en la versión estandarizada se cumple que:
z − α / 2 = − zα / 2
Así:
Haciendo operaciones es posible despejar μ para obtener el intervalo:
Resultando el intervalo de confianza:
Si σ no es conocida y n es grande (habitualmente se toma n ≥ 30):
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 87
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
, donde s es la desviación típica de una muestra.
Aproximaciones para el valor zα / 2 para los niveles de confianza estándar son 1,96 para 1 −
α = 95% y 2,576 para 1 − α = 99%.[5]
Intervalo de confianza para una proporción
El intervalo de confianza para estimar una proporción p, conocida una proporción muestral
pn de una muestra de tamaño n, a un nivel de confianza del (1-α)·100% es:
En la demostración de estas fórmulas están involucrados el Teorema Central del Límite y la
aproximación de una binomial por una normal
INTERVALO DE CONFIANZA PARA ; CON DESCONOCIDA
Si y s son la media y la desviación estándar de una muestra aleatoria de una población
normal con varianza , desconocida, un intervalo de confianza de
( )100% para es:
donde /2 es el valor t con = n-1 grados de libertad, que deja un área de /2 a la
derecha.
Se hace una distinción entre los casos de conocida y desconocida al calcular las
estimaciones del intervalo de confianza. Se debe enfatizar que para el primer caso se utiliza
el teorema del límite central, mientras que para desconocida se hace uso de la
distribución muestral de la variable aleatoria t. Sin embargo, el uso de la distribución t se
basa en la premisa de que el muestreo se realiza de una distribución normal. En tanto que la
distribución tenga forma aproximada de campana, los intervalos de confianza se pueden
calcular cuando la varianza se desconoce mediante el uso de la distribución t y se puede
esperar buenos resultados.
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 88
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Con mucha frecuencia los estadísticos recomiendan que aun cuando la normalidad no se
pueda suponer, con desconocida y n 30, s puede reemplazar a y se puede utilizar el
intervalo de confianza:
Por lo general éste se denomina como un intervalo de confianza de muestra grande. La
justificación yace sólo en la presunción de que con una muestra grande como 30, s estará
muy cerca de la real y de esta manera el teorema del límite central sigue valiendo. Se
debe hacer énfasis en que esto es solo una aproximación y que la calidad de este enfoque
mejora a medida que el tamaño de la muestra crece más.
Ejemplos:
1. El contenido de siete contenedores similares de ácido sulfúrico son 9.8, 10.2, 10.4,
9.8, 10.0, 10.2, y 9.6 litros. Encuentre un intervalo de confianza del 95% para la
media de todos los contenedores si se supone una distribución aproximadamente
normal.
Solución:
La media muestral y la desviación estándar para los datos dados son:
10 y s= 0.283
En la tabla se encuentra que t0.025=2.447 con 6 grados de libertad, de aquí, el
intervalo de confianza de 95% para es:
Con un nivel de confianza del 95% se sabe que el promedio del contenido de los
contenedores está entre 9.47 y 10.26 litros.
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 89
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
2. Un artículo publicado en el Journal of Testing and Evaluation presenta las
siguientes 20 mediciones del tiempo de combustión residual en segundos de
especímenes tratados de ropa de dormir para niños:
9.85 9.93 9.75 9.77 9.67
9.87 9.67 9.94 9.85 9.75
9.83 9.92 9.74 9.99 9.88
9.95 9.95 9.93 9.92 9.89
Se desea encontrar un nivel de confianza del 95% para el tiempo de combustión
residual promedio. Supóngase que el tiempo de combustión residual sigue una
distribución normal.
Solución:
La media muestral y la desviación estándar para los datos dados son:
9.8525 y s= 0.0965
En la tabla se encuentra que t0.025=2.093 con 19 grados de libertad, de aquí, el intervalo de
confianza de 95% para es:
Por lo tanto, se tiene una confianza del 95% de que el tiempo de combustión residual
promedio se encuentra entre 9.8073 y 9.8977 segundos.
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 90
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
3.4 Intervalo de Confianza Proporcióny diferencia de proporciones.
Estimación de una Proporción
Un estimador puntual de la proporción P en un experimento binomial está dado por la
estadística P=X/N, donde x representa el número de éxitos en n pruebas. Por tanto, la
proporción de la muestra p =x/n se utilizará como estimador puntual del parámetro P.
Si no se espera que la proporción P desconocida esté demasiado cerca de 0 ó de 1, se puede
establecer un intervalo de confianza para P al considerar la distribución muestral de
proporciones.
Al despejar P de esta ecuación nos queda:
En este despeje podemos observar que se necesita el valor del parámetro P y es
precisamente lo que queremos estimar, por lo que lo sustituiremos por la proporción de la
muestra p siempre y cuando el tamaño de muestra no sea pequeño.
Cuando n es pequeña y la proporción desconocida P se considera cercana a 0 ó a 1, el
procedimiento del intervalo de confianza que se establece aquí no es confiable, por tanto,
no se debe utilizar. Para estar seguro, se debe requerir que np ó nq sea mayor o igual a 5.
El error de estimación será la diferencia absoluta entre p y P, y podemos tener el nivel de
confianza de que esta diferencia no excederá .
Ejemplos:
1. Un fabricante de reproductores de discos compactos utiliza un conjunto de pruebas
amplias para evaluar la función eléctrica de su producto. Todos los reproductores de
discos compactos deben pasar todas las pruebas antes de venderse. Una muestra
aleatoria de 500 reproductores tiene como resultado 15 que fallan en una o más
pruebas. Encuentre un intervalo de confianza de 90% para la proporción de los
reproductores de discos compactos de la población que no pasan todas las pruebas.
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 91
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Solución:
n=500
p = 15/500 = 0.03
z(0.90) = 1.645
0.0237<P<0.0376
Se sabe con un nivel de confianza del 90% que la proporción de discos defectuosos
que no pasan la prueba en esa población esta entre 0.0237 y 0.0376.
2. En una muestra de 400 pilas tipo B fabricadas por la Everlast Company, se
encontraron 20 defectuosas. Si la proporción p de pilas defectuosas en esa muestra
se usa para estimar P, que vendrá a ser la proporción verdadera de todas las pilas
defectuosas tipo B fabricadas por la Everlast Company, encuentre el máximo error
de estimación tal que se pueda tener un 95% de confianza en que P dista menos
de de p.
Solución:
p=x/n = 20/400=0.05
z(0.95)=1.96
Si p=0.05 se usa para estimar P, podemos tener un 95% de confianza en que P dista
menos de 0.021 de p. En otras palabras, si p=0.05 se usa para estimar P, el error
máximo de estimación será aproximadamente 0.021 con un nivel de confianza del
95%.
Para calcular el intervalo de confianza se tendría:
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 92
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Esto da por resultado dos valores, (0.029, 0.071). Con un nivel de confianza del
95% se sabe que la proporción de pilas defectuosas de esta compañía está entre
0.029 y 0.071.
Si se requiere un menor error con un mismo nivel de confianza sólo se necesita
aumentar el tamaño de la muestra.
3. En un estudio de 300 accidentes de automóvil en una ciudad específica, 60 tuvieron
consecuencias fatales. Con base en esta muestra, construya un intervalo del 90% de
confianza para aproximar la proporción de todos los accidentes automovilísticos que
en esa ciudad tienen consecuencias fatales.
Solución:
P= 60/300 = 0.20
Z(0.90) = 1.645
0.162<P<0.238
- Estimación de la Diferencia de dos Proporciones
En la sección anterior se vio el tema de la generación de las distribuciones muestrales, en
donde se tenía el valor de los parámetros, se seleccionaban dos muestras y podíamos
calcular la probabilidad del comportamiento de los estadísticos. Para este caso en particular
se utilizará la distribución muestral de diferencia de proporciones para la estimación de las
mismsas. Recordando la fórmula:
Despejando P1-P2 de esta ecuación:
Aquí se tiene el mismo caso que en la estimación de una proporción, ya que al hacer el
despeje nos queda las dos proporciones poblacionales y es precisamente lo que queremos
estimar, por lo que se utilizarán las proporciones de la muestra como estimadores
puntuales:
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 93
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Ejemplos:
1. Se considera cierto cambio en un proceso de fabricación de partes componentes. Se
toman muestras del procedimiento existente y del nuevo para determinar si éste
tiene como resultado una mejoría. Si se encuentra que 75 de 1500 artículos del
procedimiento actual son defectuosos y 80 de 2000 artículos del procedimiento
nuevo también lo son, encuentre un intervalo de confianza de 90% para la diferencia
real en la fracción de defectuosos entre el proceso actual y el nuevo.
Solución:
Sean P1 y P2 las proporciones reales de defectuosos para los procesos actual y
nuevo, respectivamente. De aquí, p1=75/1500 = 0.05 y p2 = 80/2000 = 0.04. con el
uso de la tabla encontramos que z para un nivel de confianza del 90% es de 1.645.
-0.0017<P1-P2<0.0217
Como el intervalo contiene el valor de cero, no hay razón para creer que el nuevo
procedimiento producirá una disminución significativa en la proporción de artículos
defectuosos comparado con el método existente.
2. Un artículo relacionado con la salud, reporta los siguientes datos sobre la incidencia
de disfunciones importantes entre recién nacidos con madres fumadoras de
marihuana y de madres que no la fumaban:
Usuaria No Usuaria
Tamaño Muestral 1246 11178
Número de disfunciones 42 294
Proporción muestral 0.0337 0.0263
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 94
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Encuentre el intervalo de confianza del 99% para la diferencia de
proporciones.
Solución:
Representemos P1 la proporción de nacimientos donde aparecen disfunciones entre todas las
madres que fuman marihuana y definamos P2, de manera similar, para las no fumadoras. El
valor de z para un 99% de confianza es de 2.58.
-0.0064<P1-P2<0.0212
Este intervalo es bastante angosto.
3.5 Intervalo de Confianza Diferencias de Medias convarianza conocida y
desconocida
Suponemos dos poblaciones independientes
X  N ( ,  ), Y  N( ,  )
Tomamos muestras de tamaño n y n , respectivamente.
a) Si  y  son conocidas, como X Y  N   ,

n


n





, el
intervalo de confianza será:
   X Y z



n


n
, X Y z



n


n






E s t a d í s t i c a - T e r c e r s e m e s t r e Página 95
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
b) Si  y  son desconocidas pero iguales, como
X Y   
 
n s n s
n n 2
1
n

1
n






 t  
, el intervalo de confianza será:
X Y t  


n s n s
n n 2
1
n

1
n







, X Y t  


n s n s
n n 2
1
n

1
n
















Ejemplo: Dos universidades públicas tienen dos métodos distintos para inscribir a sus
alumnos. Los dos desean comprobar el tiempo promedio que toma la inscripción de los
alumnos. En cada universidad se tomaron los tiempos de inscripción de 31 alumnos
tomados al azar. Las medias y desviaciones típicas muestrales fueron: x 20' 3, s 2' 5,
y 23 , s 3. Si se supone que el muestreo se llevó a cabo en dos poblaciones normales e
independientes, obtener los intervalos de confianza al nivel de riesgo 0'05 para la diferencia
entre las medias del tiempo de inscripción para las dos universidades,
a) suponiendo que las varianzas poblacionales son  9 ,  10 .
b) suponiendo que las varianzas poblacionales son desconocidas pero iguales.
Para el apartado a  0 05 1 0' 95 1 

2
0' 975  z

 1' 96
Sustituyendo los valores en el intervalo obtenemos:
   20 ' 3 23 1' 96
9
31

10
31
, 20' 3 23 1' 96
9
31

10
31









 2' 7 1' 53,2' 7 1' 53
  4' 23,1'17
 
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 96
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Para el apartado b, buscamos en la tabla de la t de Student t   2.
Sustituyendo los valores en el intervalo obtenemos:
20 ' 3 23 2
31 2' 3 31 3
31 31 2
1
31

1
31



, 20 ' 3 23 2
31 2' 3 
31 3
31 31 2
1
31

1
31










 
2' 7 
1' 4,
2' 7 
1' 4
 
4' 1,
1' 3
 
3.6 Intervalo Confianza Varianza.
Si tenemos una población X  N (,  ) con  2
desconocida, entonces
 
n sn
n




1 1
2
2 1
2


El intervalo de confianza para la varianza poblacional al nivel de confianza 1 lo
podemos obtener como sigue:
P
n s
n
n
n


 
 











  

1
2 1
2
2 1
2
2
1
2
1
1
( )
Despejando  2
tenemos:



 
























1
)
1
(
)
1
(
2
1
2
1
2
2
1
2
1
2
2
1
n
n
n
n s
n
s
n
P
Es decir,

 
 
2 1
2
1
2
1
2
1
2
1 1
1
2 2

 















( )
,
( )
n s n s
n
n
n
n
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 97
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Ejemplo: De acuerdo con las tablas de altura, los varones tienen una altura superior a las
mujeres en la población española. Según las últimas tablas en el servicio militar, los
varones entre 18 y 20 años presentan una varianza de 0'0529. de las mujeres no tenemos
información, por ello tomamos una muestra de 101 mujeres entre 18 y 20 años y obtenemos
18
'
0
1 

n
s ¿Entre qué valores se encontrará la verdadera varianza a un nivel de 0'95 de
confianza?
22
'
74
975
'
0
2
1
95
'
0
1 2
100 025
'
0






 


Sustituyendo en el intervalo tendremos:
 
0436
'
0
,
025
'
0
22
'
74
18
'
0
100
,
56
'
129
18
'
0
100 2
2






 

3.7 Intervalo Confianza Razón Varianzas.
La distribución muestral del cociente de varianzas muestrales, cuando teníamos dos
poblaciones normales e independientes era:
1
,
1
2
2
2
1
2
1
2
1




 m
n
m
n
F
s
s


A partir de aquí deducimos el intervalo de confianza para el cociente de varianzas
poblacionales al nivel de 

1 y obtenemos






















2
2
1
1
,
1
2
1
2
1
1
,
1
2
1
2
1
2
2
2
1 1
,
1




m
n
m
n
m
n
m
n
F
s
s
F
s
s
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 98
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Ejemplo: Con los datos del ejemplo de la pag. 11 , calcular el intervalo de confianza para el
cociente de varianzas al nivel de confianza 0'95. ¿Podríamos aceptar la suposición de que
las varianzas poblacionales son iguales?
07
'
2
975
'
0
2
1
95
'
0
1 975
'
0
30
,
30 





 F

 y
07
'
2
1
1
025
'
0
2 975
'
0
025
'
0
30
,
30
30
,
30 



F
F

47
'
5
3
'
2
30
31
1
2
2
2
1 



 n
n s
n
n
s 3
'
9
3
30
31
1
2
2
2
1 



 m
m s
m
m
s
Sustituyendo en el intervalo obtenemos
 
218
'
1
,
284
'
0
07
'
2
1
1
3
'
9
47
'
5
,
07
'
2
1
3
'
9
47
'
5









El intervalo contiene al 1 y los extremos están bastante próximos al 1. Hay mayor
diferencia por el extremo inferior, lo que indica que la varianza de la población X es menor
que la de la población Y.
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 99
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Unidad 4: Pruebas de hipótesis
Propósito:
 Aprender cómo acoplar los elementos de una población o una muestra
 Inferir en los parámetros de un problema
 Conocer los métodos y formas de presentar dicha información
Competencia específica:
Hacer uso de las herramientas y conceptos indispensables para la representación numérica y
gráfica de los datos recopilados y analizados dentro de un entorno.
Introducción:
Las secciones anteriores han mostrado cómo puede estimarse un parámetro a partir de los
datos contenidos en una muestra. Puede encontrarse ya sea un sólo número (estimador
puntual) o un intervalo de valores posibles (intervalo de confianza). Sin embargo, muchos
problemas de ingeniería, ciencia, y administración, requieren que se tome una decisión
entre aceptar o rechazar una proposición sobre algún parámetro. Esta proposición recibe el
nombre de hipótesis. Este es uno de los aspectos más útiles de la inferencia estadística,
puesto que muchos tipos de problemas de toma de decisiones, pruebas o experimentos en el
mundo de la ingeniería, pueden formularse como problemas de prueba de hipótesis.
Una hipótesis estadística es una proposición o supuesto sobre los parámetros de una o más
poblaciones.
Suponga que se tiene interés en la rapidez de combustión de un agente propulsor sólido
utilizado en los sistemas de salida de emergencia para la tripulación de aeronaves. El
interés se centra sobre la rapidez de combustión promedio. De manera específica, el interés
recae en decir si la rapidez de combustión promedio es o no 50 cm/s. Esto puede expresarse
de manera formal como
Ho; = 50 cm/s
H1; 50 cm/s
La proposición Ho; = 50 cm/s, se conoce como hipótesis nula, mientras que la
proposición H1; 50 cm/s, recibe el nombre de hipótesis alternativa. Puesto que la
hipótesis alternativa especifica valores de que pueden ser mayores o menores que 50
cm/s, también se conoce como hipótesis alternativa bilateral. En algunas situaciones, lo que
se desea es formular una hipótesis alternativa unilateral, como en
Ho; = 50 cm/s Ho; = 50 cm/s
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 100
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
ó
H1; < 50 cm/s H1; > 50 cm/s
Es importante recordar que las hipótesis siempre son proposiciones sobre la población o
distribución bajo estudio, no proposiciones sobre la muestra. Por lo general, el valor del
parámetro de la población especificado en la hipótesis nula se determina en una de tres
maneras diferentes:
1. Puede ser resultado de la experiencia pasada o del conocimiento del proceso,
entonces el objetivo de la prueba de hipótesis usualmente es determinar si ha
cambiado el valor del parámetro.
2. Puede obtenerse a partir de alguna teoría o modelo que se relaciona con el proceso
bajo estudio. En este caso, el objetivo de la prueba de hipótesis es verificar la teoría
o modelo.
3. Cuando el valor del parámetro proviene de consideraciones externas, tales como las
especificaciones de diseño o ingeniería, o de obligaciones contractuales. En esta
situación, el objetivo usual de la prueba de hipótesis es probar el cumplimiento de
las especificaciones.
Un procedimiento que conduce a una decisión sobre una hipótesis en particular recibe el
nombre de prueba de hipótesis. Los procedimientos de prueba de hipótesis dependen del
empleo de la información contenida en la muestra aleatoria de la población de interés. Si
esta información es consistente con la hipótesis, se concluye que ésta es verdadera; sin
embargo si esta información es inconsistente con la hipótesis, se concluye que esta es falsa.
Debe hacerse hincapié en que la verdad o falsedad de una hipótesis en particular nunca
puede conocerse con certidumbre, a menos que pueda examinarse a toda la población.
Usualmente esto es imposible en muchas situaciones prácticas. Por tanto, es necesario
desarrollar un procedimiento de prueba de hipótesis teniendo en cuenta la probabilidad de
llegar a una conclusión equivocada.
La hipótesis nula, representada por Ho, es la afirmación sobre una o más características de
poblaciones que al inicio se supone cierta (es decir, la "creencia a priori").
La hipótesis alternativa, representada por H1, es la afirmación contradictoria a Ho, y ésta es
la hipótesis del investigador.
La hipótesis nula se rechaza en favor de la hipótesis alternativa, sólo si la evidencia
muestral sugiere que Ho es falsa. Si la muestra no contradice decididamente a Ho, se
continúa creyendo en la validez de la hipótesis nula. Entonces, las dos conclusiones
posibles de un análisis por prueba de hipótesis son rechazar Ho o no rechazar Ho.
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 101
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
4.1 Conceptos prueba de hipótesis.
Concepto
Una prueba de hipótesis estadística es una conjetura de una o más poblaciones. Nunca se
sabe con absoluta certeza la verdad o falsedad de una hipótesis estadística, a no ser que se
examine la población entera. Esto por su puesto sería impráctico en la mayoría de las
situaciones. En su lugar, se toma una muestra aleatoria de la población de interés y se
utilizan los datos que contiene tal muestra para proporcionar evidencia que confirme o no la
hipótesis. La evidencia de la muestra que es un constante con la hipótesis planteada
conduce a un rechazo de la misma mientras que la evidencia que apoya la hipótesis
conduce a su aceptación.
Definición de prueba de hipótesis estadística es que cuantifica el proceso de toma de
decisiones.
Por cada tipo de prueba de hipótesis se puede calcular una prueba estadística apropiada.
Esta prueba estadística mide el acercamiento del calor de la muestra (como un promedio) a
la hipótesis nula. La prueba estadística, sigue una distribución estadística bien conocida
(normal, etc.) o se puede desarrollar una distribución para la prueba estadística particular.
La distribución apropiada de la prueba estadística se divide en dos regiones: una región de
rechazo y una de no rechazo. Si la prueba estadística cae en esta última región no se
puede rechazar la hipótesis nula y se llega a la conclusión de que el proceso funciona
correctamente.
Al tomar la decisión con respecto a la hipótesis nula, se debe determinar el valor crítico en
la distribución estadística que divide la región del rechazo (en la cual la hipótesis nula no se
puede rechazar) de la región de rechazo. A hora bien el valor crítico depende del tamaño de
la región de rechazo.
PASOS DE LA PRUEBA DE HIPÓTESIS
1. Expresar la hipótesis nula
2. expresar la hipótesis alternativa
3. especificar el nivel de significancía
4. determinar el tamaño de la muestra
5. establecer los valores criticos que establecen las regiones de rechazo de las de no rechazo.
6. determinar la prueba estadística.
7. coleccionar los datos y calcular el valor de la muestra de la prueba estadística apropiada.
8. determinar si la prueba estadística ha sido en la zona de rechazo a una de no rechazo.
9. determinar la decisión estadística.
10. expresar la decisión estadística en términos del problema.
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 102
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
4.2 Tipos de error y nivel de significancia
Si rechazamos una hipótesis cuando debiera ser aceptada diremos que se ha
cometido un error de tipo I. Por otra parte si aceptamos una hipótesis que debiera ser
rechazada, diremos que se ha cometido un error de tipo II. En ambos casos se ha producido
un juicio erróneo.
Para que las reglas de decisión sean buenas, deben diseñarse de modo que
minimicen los errores de decisión, y no es una cuestión sencilla, por que para cualquier
tamaño de la muestra, un intento de disminuir un tipo de error suele ir acompañado de un
crecimiento del otro tipo. En la práctica un tipo de error puede ser más grave que el otro, y
debe alcanzarse un compromiso que disminuya el error más grave , la única forma de
disminuir ambos a la vez es aumentar el tamaño de la muestra, que no siempre es posible.
El error tipo I se define como el rechazo de la hipótesis nula Ho cuando ésta es verdadera.
También es conocido como ó nivel de significancia.
Si tuviéramos un nivel de confianza del 95% entonces el nivel de significancia sería del
5%. Análogamente si se tiene un nivel de confianza del 90% entonces el nivel de
significancia sería del 10%.
Ahora supóngase que la verdadera rapidez promedio de combustión es diferente de 50
cm/s, aunque la media muestral caiga dentro de la región de aceptación. En este caso se
acepta Ho cuando ésta es falsa. Este tipo de conclusión recibe el nombre de error tipo II.
El error tipo II ó error se define como la aceptación de la hipótesis nula cuando ésta es
falsa.
Por tanto, al probar cualquier hipótesis estadística, existen cuatro situaciones diferentes que
determinan si la decisión final es correcta o errónea.
Decisión Ho es verdadera Ho es falsa
Aceptar Ho No hay error Error tipo II ó
Rechazar Ho Error tipo I ó No hay error
1. Los errores tipo I y tipo II están relacionados. Una disminución en la probabilidad
de uno por lo general tiene como resultado un aumento en la probabilidad del otro.
2. El tamaño de la región crítica, y por tanto la probabilidad de cometer un error tipo I,
siempre se puede reducir al ajustar el o los valores críticos.
3. Un aumento en el tamaño muestral n reducirá
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 103
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
y de forma simultánea.
4. Si la hipótesis nula es falsa,
es un máximo cuando el valor real del parámetro se aproxima al hipotético. Entre
más grande sea la distancia entre el valor real y el valor hipotético, será menor
NIVEL DE SIGNIFICANCIA
Al contrastar una cierta hipótesis, la máxima probabilidad con la que estamos
dispuestos a correr el riesgo de cometer un error de tipo I se llama nivel de significancia.
Esta probabilidad se denota por , se suele especificar antes de la muestra, de manera que
los resultados no influyan en nuestra elección.
En la práctica es frecuente un nivel de significancia de 0.05 ó 0.01, si bien se usan
otros valores. Si, por ejemplo, se escoge un nivel de significancia del 5% ó 0.05 al diseñar
una regla de decisión entonces hay unas cinco oportunidades entre cien de rechazar la
hipótesis cuando debiera haberse aceptado; es decir, tenemos un 95% de confianza de que
hemos adoptado la decisión correcta. En tal caso decimos que la hipótesis a sido rechazada
al nivel de significancia 0.05 lo cual quiere decir que la hipótesis tiene una probabilidad del
5% de ser falsa.
Curva característica operativa y curva de potencia
Podemos limitar un error de tipo I eligiendo adecuadamente el nivel de
significancia. Es posible evitar el riesgo de cometer el error tipo II simplemente no
aceptando nunca la hipótesis, pero en muchas aplicaciones prácticas esto es inviable. En
tales casos, se suele recurrir a curvas características de operación o curvas de potencia que
son gráficos que muestran las probabilidades de error de tipo II bajo diversas hipótesis.
Proporcionan indicaciones de hasta que punto un test dado nos permitirá evitar un error de
tipo II; es decir, nos indicarán la potencia de un test a la hora de prevenir decisiones
erróneas. Son útiles en el diseño de experimentos por que sugieren entre otras cosas el
tamaño de muestra a manejar.
Pruebas de hipótesis para la media y proporciones
Debido a la dificultad de explicar este tema se enfocará un problema basado en un estudio
en una fabrica de llantas.
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 104
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
En este problema la fabrica de llantas tiene dos turnos de operarios, turno de día y turno
mixto. Se selecciona una muestra aleatoria de 100 llantas producidas por cada turno para
ayudar al gerente a sacar conclusiones de cada una de las siguientes preguntas:
1.-¿ Es la duración promedio de las llantas producidas en el turno de día igual a 25 000
millas?
2.- ¿Es la duración promedio de las llantas producidas en el turno mixto menor de 25 000
millas?
3.-¿ Se revienta más de un 8% de las llantas producidas por el turno de día antes de las
10 000 millas?
4.3 Prueba de hipótesis para la media.
En la fábrica de llantas las hipótesis nula y alternativa para el problema se plantearon como
sigue:
Ho: μ = 25 000
H1: μ ≠ 25 000
Si se considera la desviación estándar σ las llantas producidas en el turno de día, entonces,
con base en el teorema de limite central, la distribución en el muestreo de la media seguiría
la distribución normal, y la prueba estadística que esta basada en la diferencia entre la
media de la muestra y la media μ hipotética se encontrara como sigue:
Si el tamaño de la región α de rechazo se estableciera en 5% entonces se podrían
determinar los valores críticos de la distribución. Dado que la región de rechazo esta
dividida en las dos colas de la distribución, el 5% se divide en dos partes iguales de 2.5%.
Dado que ya se tiene la distribución normal, los valores críticos se pueden expresar en
unidades de desviación. Una región de rechazo de 0.25 en cada cola de la distribución
normal, da por resultado un área de .475 entre la media hipotética y el valor crítico. Si se
busca está área en la distribución normal, se encuentra que los valores críticos que dividen
las regiones de rechazo y no rechazo son + 1.96 y - 1.96
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 105
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Por tanto, la regla para decisión sería:
Rechazar Ho si Z > + 1.96
o si Z < - 1.96
de lo contrario, no rechazar Ho
No obstante, en la mayor parte de los casos se desconoce la desviación estándar de la
población. La desviación estándar se estima al calcular S, la desviación estándar de la
muestra. Si se supone que la población es normal la distribución en el muestreo de la media
seguiría una distribución t con n-1 grados de libertad. En la práctica, se a encontrado que
siempre y cuando el tamaño de la muestra no sea muy pequeño y la población no este muy
sesgada, la distribución t da una buena aproximación a la distribución de muestra de la
media. La prueba estadística para determinar la diferencia entre la media de la muestra y
la media de la población cuando se utiliza la desviación estándar S de la muestra, se
expresa con:
=
Para una muestra de 100, si se selecciona un nivel de significancía de .05, los valores
críticos de la distribución t con 100-1= 99 grados de libertad se puede obtener como se
indica en la siguiente tabla:
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 106
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
como esta prueba de dos colas, la región de rechazo de .05 se vuelve a dividir en dos partes
iguales de .025 cada una. Con el uso de las tablas para t, los valores críticos son –1.984 y
+1.984. la regla para la decisión es:
Rechazar Ho si >+1.984
O si - 1.984
De lo contrario, no rechazar Ho
los resultados de la muestra para el turno de día fueron =25 430 millas, =4 000 millas
y = 100. Puesto que se esta probando si la media es diferente a 25 000 millas, se tiene
con la ecuación
=
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 107
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
=
= = + 1.075
Dado que = 1.075, se ve que -1.984 < +1.075 < + 1.984, entonces no se rechaza Ho.
Por ello, la de cisión de no rechazar la hipótesis nula Ho. En conclusión es que la duración
promedio de las llantas es 25 000 millas. A fin de tener en cuenta la posibilidad de un error
de tipo II , este enunciado se puede redactar como “no hay pruebas de que la duración
promedio de las llantas sea diferente a 25 000 millas en las llantas producidas en el turno de
día”.
4.4 Prueba de hipótesis para proporciones.
El concepto de prueba de hipótesis se puede utilizar para probar hipótesis en relación con
datos cualitativos. Por ejemplo, en el problema anterior el gerente de la fabrica de llantas
quería determinar la proporción de llantas que se reventaban antes de 10,000 millas. Este es
un ejemplo de una variable cualitativa, dado que se desea llegar a conclusiones en cuanto a
la proporción de los valores que tienen una característica particular.
El gerente de la fábrica de llantas quiere que la calidad de llantas producidas, sea lo
bastante alta para que muy pocas se revienten antes de las 10,000 millas. Si más de un 8%
de las llantas se revientan antes de las 10,000 millas, se llegaría a concluir que el proceso
no funciona correctamente. La hipótesis nula y alternativa se pueden expresar como sigue:
Ho: p .08 (funciona correctamente)
H1: p > .08 (no funciona correctamente)
La prueba estadística se puede expresar en términos de la proporción de éxitos como sigue:
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 108
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
En donde
= =
p = proporción de éxitos de la hipótesis nula
Ahora se determinará si el proceso funciona correctamente para las llantas producidas para
el turno de día. Los resultados del turno de día índican que cinco llantas en una muestra de
100 se reventaron antes de 10,000 millas para este problema, si se selecciona un nivel de
significancía de .05, las regiones de rechazo y no rechazo se establecerían como a
continuación se muestra:
y la regla de decisión sería:
Rechazar Ho si > + 1.645; de lo contrario no rechazar Ho.
Con los datos que se tienen,
= = .05
y entonces,
= = = = -1.107
Z -1.107 < + 1.645; por tanto no rechazar Ho.
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 109
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
La hipótesis nula no se rechazaría por que la prueba estadística no ha caído en la región de
rechazo. Se llegaría a la conclusión de que no hay pruebas de que más del 8% de las llantas
producidas en el turno de día se revienten antes de 10,000 millas. El gerente no ha
encontrado ninguna prueba de que ocurra un número excesivo de reventones en las llantas
producidas en el turno de día.
EJEMPLO 1: Se afirma que, de todas las familias que salen de Cumana por lo menos el
30 % se mudan a Maracaibo. Si una muestra de 600 mudanzas tomada al azar de los
registros de la Alcaldía de Cumana revela que de los permisos de mudanza autorizados 153
fueron para Maracaibo, pruebe la hipótesis nula p = 0.30 contra la hipótesis alternativa p <
30 con un nivel de significancia del 1 %.
SOLUCIÓN: Para calcular la proporción p lo primero que se ha de hacer es determinar la
proporción, luego se plantea una hipótesis unilateral con un nivel de significancia al 1%.
.
153
,.
33
.
2
,..
70
.
0
,..
30
.
0
,..
255
.
0
600
153
,..
800 






 x
Z
q
p
p
n 

Hipótesis:
30
.
0
:
30
.
0
:
1
0


p
H
p
H
Regla de decisión o Región crítica: Se rechaza la Hipótesis nula si: 
Z
Zc 
 es decir,
33
.
2


c
Z .
Aplicando formula se tiene:
O también Aplicando:
41
.
2
0187
.
0
045
.
0
00035
.
0
045
.
0
600
7
.
0
3
.
0
300
.
0
255
.
0
.










 c
c Z
x
n
q
p
p
p
Z

41
.
2
225
,
11
27
126
180
153
)
70
.
0
)(
30
.
0
(
600
)
30
.
0
(
600
153










npq
np
x
Z
Conclusión: Como c
Z es menor que 
Z , es decir, 33
.
2
41
.
2 



c
Z , se rechaza
30
.
0
:
0 
p
H con un nivel de significancia de 0.01. Esto se puede observar en la grafica
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 110
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
D en donde 41
.
2


c
Z cae fuera del área de aceptación, por lo tanto, se cumple que
30
.
0
:
1 
p
H , es decir, menos del 30 % de las familias que salen de Cumana, se mudan a
Maracaibo.
4.5 Prueba Hipótesis Diferencia Medias convarianzas conocidasy
desconocidas
PARA LA MEDIA
Cuando se van a realizar pruebas de hipótesis relativas a la media poblacional m se debe
saber si la varianza poblacional s
es conocida o desconocida, ya que la distribución subyacente al
estadístico de prueba será la normal estándar si la varianza es conocida,
y la distribución t en caso contrario.
Las diferentes hipótesis que se pueden presentar son las siguientes:
1) Ho: m = m0
H1: m > m0
2) Ho: m = m0
H1: m < m0
3) Ho: m = m0
H1: m ¹ m0
Las pruebas de hipótesis para la media se basan en el estadístico dado por la media muestral
cuya distribución tiende a la distribución normal (m, s
/n) para muestras grandes.
Prueba de hipótesis para la media con varianza conocida
Cuando la varianza s
es conocida, las pruebas de hipótesis se basan en el hecho de que la
variable aleatoria Z definida como , se distribuye normalmente con media
cero y varianza unitaria.
Para el caso de las hipótesis Ho: m = m0 contra H1: m > m0 vimos, al analizar las mejores
pruebas, que la mejor región crítica de tamaño a consistía en rechazar H0 si la media
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 111
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
muestral era mayor o igual que una constante c dada por . Por lo tanto, una vez tomada la
muestra y obtenidos los valores x1, x2,…, xn, se calcula la media muestral dada por:
y los criterios de decisión serían los siguientes:
a) Rechace Ho: m = m0 si ³ c, donde .
b) Calcule el “estadístico de prueba” y rechace Ho: m = m0 si Z ³ Za.
c) Calcule el “estadístico de prueba” y estime P como el área en la distribución normal
estándar a la derecha del valor Z calculado, y rechace Ho: m = m0 si P < a.
Para el caso de las hipótesis Ho: m = m0 contra H1: m < m0 la mejor región crítica de
tamaño a consiste en rechazar H0 si la media muestral es menor o igual que una constante c
dada por . Por lo tanto, una vez tomada la muestra y obtenidos los valores x1, x2,…, xn, se
calcula la media muestral , y los criterios de decisión sería los siguientes:
a) Rechace Ho: m = m0 si £ c, donde .
b) Calcule el “estadístico de prueba” y rechace Ho: m = m0 si Z £ Z1-a. Como Za = -Z1-a
se rechaza Ho si Z £ -Za o equivalentemente, si êZ ê³ Z a.
c) Calcule el “estadístico de prueba” y estime P como el área en la distribución normal
estándar a la izquierda del valor Z calculado, y rechace Ho: m = m0 si P < a.
Por último, si las hipótesis fueran Ho:m = m0 contra H1:m ¹ m0 la mejor región crítica de
tamaño a (aunque no es uniformemente más potente como en el caso de las dos anteriores)
consiste en rechazar H0 si la media muestral es menor o igual que una constante c1 ó
mayor igual que otra constante c2. Por lo tanto, una vez tomada la muestra y obtenidos los
valores x1, x2,…, xn, se calcula la media muestral , y los criterios de decisión serían los
siguientes:
a) Rechace Ho: m = m0 si £ c1 ó ³ c2, donde y .
b) Calcule el “estadístico de prueba” y rechace Ho: m = m0 si Z £ -Za/2 ó Z ³ Za/2, ó
simplemente, si êZ ê³ Z a/2.
c) Calcule el “estadístico de prueba” y estime P como el área en la distribución normal
estándar a la izquierda del valor Z calculado si Z es negativo, o a la derecha del valor de Z
si Z es positivo, y rechace Ho:m = m0 si P < a. También P se puede calcular como el área a
derecha del valor absoluto de Z.
En resumen, el estadístico de prueba se basa en:
Ejemplo. Un inspector de pesos y medidas visita una planta de empacado para verificar que
el peso neto de las cajas sea el indicado en la etiqueta. El gerente de la planta asegura al
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 112
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
inspector que el peso promedio de cada caja es de 750 gramos con una desviación estándar
de 5 gr. El inspector selecciona, al azar, 100 cajas y encuentra que el peso promedio es de
748 gr. Bajo estas condiciones y usando un nivel de significancia de 0.05,¿Qué actitud debe
tomar el inspector?.
Solución. Este problema lo podemos plantear como una prueba de hipótesis del siguiente
tipo:
1) Ho: m = m0 = 750
H1: m < m0 (hay preocupación si el peso medio es inferior al especificado)
con n = 100, a = 0.05, s = 5 gramos. Se tiene que Z0.05 = 1.645. Por lo tanto, la región
crítica está dada por = 750 - 1.645 x 5/10 =749.18. Por lo tanto como la media muestral es
748 gramos, se rechaza la hipótesis de que el promedio de cada caja sea 750 gramos. Por lo
tanto, deben tomarse las medias necesarias para corregir esta situación, que va en contra de
los intereses del consumidor. Usando los otros criterios de aceptación tenemos que Z = -
4.0 y el valor P es aproximadamente cero (P = 0.0).
Prueba de hipótesis para la media con varianza desconocida
Cuando la varianza s no es conocida, las pruebas de hipótesis se basan en el hecho de que la
variable aleatoria T definida como tiene una distribución t con n-1 grados de libertad. Por lo
tanto, al analizar los diferentes casos presentados anteriormente para las pruebas de
hipótesis con respecto a la media, bastará con cambiar la varianza poblacional s
por su estimativo muestral S
y la distribución normal estándar por la distribución t. En consecuencia los diferentes casos
a analizar serán los siguientes:
Si tenemos las hipótesis Ho:m = m0 contra H1:m > m0 la mejor región crítica de tamaño a
consiste en rechazar H0 si la media muestral es mayor o igual que la constante c, que en
este caso está dada por . Por lo tanto, una vez tomada la muestra y obtenidos los valores x1,
x2,…, xn, se calculan la media muestral y la varianza muestral s
dados por:
, y los criterios de decisión serían los siguientes:
a) Rechace Ho: m = m0 si ³ c, donde . b) Calcule el “estadístico de prueba” y rechace Ho:
m = m0 si T ³ tn - 1, a. c) Calcule el “estadístico de prueba” y estime P como el área en la
distribución t a la derecha del valor T calculado, y rechace Ho: m = m0 si P < a.
Para el caso de las hipótesis Ho: m = m0 contra H1: m < m0 la mejor región crítica de
tamaño a consiste en rechazar H0 si la media muestral es menor o igual que una constante c
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 113
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
dada por . Por lo tanto, una vez tomada la muestra y obtenidos los valores x1, x2,…, xn, se
calculan la media muestral y la varianza muestral S
, y los criterios de decisión sería los siguientes:
a) Rechace Ho: m = m0 si £ c, donde . b) Calcule el “estadístico de prueba” y rechace Ho:
m = m0 si êT ê³ tn - 1, a. c) Calcule el “estadístico de prueba” y estime P como el área en la
distribución t a la izquierda del valor T calculado, y rechace Ho: m = m0 si P < a.
Por último, si las hipótesis fueran Ho:m = m0 contra H1:m ¹ m0 la mejor región crítica de
tamaño a (aunque no es uniformemente más potente como en el caso de las dos anteriores)
consiste en rechazar H0 si la media muestral es menor o igual que una constante c1 ó
mayor igual que otra constante c2. Por lo tanto, una vez tomada la muestra y obtenidos los
valores x1, x2,…, xn, se calcula la media muestral , y los criterios de decisión serían los
siguientes:
a) Rechace Ho:m = m0 si £c1 ó ³c2, donde y . b) Calcule el “estadístico de prueba” y
rechace Ho: m = m0 si êT ê³ tn - 1, a/2. c) Calcule el “estadístico de prueba” y estime P
como el área en la distribución t a la izquierda del valor T calculado si T es negativo, o a la
derecha del valor de T si T es positivo, y rechace Ho: m = m0 si P < a. También P se puede
calcular como el área a derecha del valor absoluto de T. En resumen, el estadístico de
prueba se basa en
Ejemplo. Un modelo físico sugiere que el aumento medio de temperatura en el agua usada
como enfriador en una cámara de un compresor no debería ser mayor de 5°C. Los
aumentos de temperatura en el refrigerante medidos en 8 períodos de funcionamiento del
compresor fueron de 6.4, 4.3, 5.7, 4.9, 6.5, 5.9, 6.4 y 5.1 grados centígrados. Con un nivel
de significancia del 5%, cree Usted que los datos contradicen la información del modelo
físico?
Solución. Este problema lo podemos plantear como una prueba de hipótesis del siguiente
tipo:
Ho: m £ m0 = 5°C H1: m > 5°C
con n = 8, a = 0.05. La hipótesis nula se plantea como menor o igual a m0, que es una
hipótesis compuesta. Sin embargo, para la realización de la prueba, se tomará el máximo
aumento permisible en la temperatura que sería m = m0 = 5, con lo cual la hipótesis se
convierte en una hipótesis simple. Se tiene que: = 5.65, s
= 0.6571, S= 0.81, t7, 0.05 = 1.895. Por lo tanto, la región crítica
está dada por . Por lo tanto como la media muestral 5.65 es superior al
valor crítico de 5.54, se rechaza la hipótesis de que el aumento promedio
de la temperatura es 5 grados (o inferior), a favor de la hipótesis de
que es mayor.
Usando los otros criterios de aceptación tenemos que:
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 114
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
· . Como T = 2.27 > 1.895 se rechaza la hipótesis nula. · El valor P es aproximadamente
0.0287. Como P = 0.0287 es menor que a = 0.05, se rechaza de nuevo la hipótesis nula.
4.6 Prueba Hipótesis Varianza
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 115
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 116
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 117
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 118
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
4.7 Prueba de Bondad de Ajuste
Es considerada como una prueba no paramétrica que mide la discrepancia entre una
distribución observada y otra teórica, indicando en qué medida las diferencias existentes
entre ambas, de haberlas, se deben al azar.
La fórmula que da el estadístico es la siguiente:
Oi = Valor observado en la i-ésimo dato.
Ei = Valor esperado en la i-ésimo dato.
K = Categorías o celdas.
m = Parámetros estimados sobre la base de los datos de la muestra
Los grados de libertad vienen dados por : gl= K-m-1.
Criterio de decisión es el siguiente:
Se rechaza H0 cuando 2
1
;
2


 m
K
t

 . En caso contrario se acepta.
Donde t representa el valor proporcionado por las tablas, según el nivel de significación
elegido.
Cuanto más se aproxima a cero el valor de chi-cuadrado, más ajustadas están ambas
distribuciones.
Ejemplo:
Si un ingeniero de control de calidad toma una muestra de 10 neumáticos que salen de una
línea de ensamblaje y él desea verificar sobre la base de los datos que siguen, los números
 




k
i e
e
o
i
i
i
f
f
f
1
2
2

E s t a d í s t i c a - T e r c e r s e m e s t r e Página 119
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
de llantas con defectos observadas en 200 días, si es cierto que el 5% de todos los
neumáticos tienen defecto; es
decir, si el muestrea una
población binomial con n = 10 y
p = 0.05
Establecer la hipótesis
Ho: La población es binomial
Ha: La población no es binomial
Número de unidades con defecto Número de muestras
0 138
1 53
2 ó más 9
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 120
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Establecer la estadística de prueba
Oi = Valor observado en la i-ésimo dato.
Ei = Valor esperado en la i-ésimo dato.
K = Categorías o celdas.
m = Parámetros
1. 3. Definir el nivel de significancia y la zona de rechazo
g,l = k- m – 1 = (3 – 0- 1) =2
5.99
Nivel de significancia = 0.05
Zona de rechazo = { 5.99)
m = 0 porque no se necesito estimar ningún parámetro
Calculamos el estadístico de prueba
2
2
/ 
 
 




k
i e
e
o
i
i
i
f
f
f
1
2
2

 




k
i e
e
o
i
i
i
f
f
f
1
2
2

E s t a d í s t i c a - T e r c e r s e m e s t r e Página 121
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Para poder calcular las frecuencias esperadas tenemos que calcular las
probabilidades utilizaremos la formula de la binomial
x
n
x
p
p
x
n
x
P
x
f 










 )
1
(
)
(
)
(
donde n = 10 p = 0.05
= 0.599
= 0 .315
y la probabilidad
de 2 ó más = 1.0
-0.599 -0 .315 =
0.086
Ahora ya
podemos
encontrar las
frecuencias esperadas:
200 (0.599) = 119.8 200(0.315) = 63 200 (0.086) = 17.2
  0
10
0
10
0 )
05
.
0
1
(
05
.
0
)
0
( 


f
  1
10
1
10
1 )
05
.
0
1
(
05
.
0
)
1
( 


f
Número de unidades con defecto Número de muestras
Observadas
Valor
Esperado
0 138 119,8
1 53 63
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 122
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Al aplicar la formula se tiene:
= 8.26
Como 8.26 es mayor que 5.99, se rechaza la hipótesis nula con un nivel de significancia
de 0.05.
Conclusión
Se concluye que el porcentaje verdadero de neumáticos con defecto no es el 5%.
2
.
17
)
2
.
17
9
(
63
)
0
.
63
53
(
8
.
119
)
8
.
119
138
( 2
2
2
2 






2 ó más 9 17,2
Total 200 200
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 123
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Ejemplo. Si el número de errores que comete una secretaria al transcribir un documento es
una variable aleatoria que tiene una distribución de Poisson. Se reviso 440 transcripciones
hechas por ella y arrojo los siguientes resultados:
Variable = números de errores
Número de errores Frecuencia
0 18
1 53
2 103
3 107
4 82
5 46
6 18
7 10
8 2
9 1
Probar si los datos de los errores se ajustan a una distribución de Poisson. Use  = 0.05.
H0: La población se comporta como una distribución de Poisson
Ha: La población no se comporta como una distribución de Poisson.
El estadístico de prueba que usaremos es:



i
i
i
E
E
O
f
f
f 2
2
)
(

Nivel de significación  = 0,05
gl. = 9-1-1=7
067
,
14
2
7
;
05
,
0 

E s t a d í s t i c a - T e r c e r s e m e s t r e Página 124
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Región de rechazo = 
067
,
14
| 2
2



Para poder calcular las frecuencias esperadas tenemos que calcular las probabilidades
utilizaremos la formula de la distribución de Poisson:
!
)
;
(
x
e
x
p
x 




Como no se conoce la media de la distribución de Poisson la estimamos con la media de
los datos, que es 3,04 luego,  = 3,04
errores Frecuencia
observada
Prob. Frecuencia esperada
0 18 0,0478 21,032
1 53 0,1454 63,976
2 103 0,2210 97,240
3 107 0,2239 98,516
4 82 0,1702 74,888
5 46 0,1034 45,496
6 18 0,0524 23,056
7 ó mas 13 0,0359 15,796
Total 440 1 440
Aplicamos los datos al estadístico de prueba
6766
,
5
796
,
15
)
796
,
15
13
(
....
976
,
63
)
976
,
63
53
(
032
,
21
)
032
,
21
18
( 2
2
2
2









Como 6,7566 es menor 14,076 no se rechaza la hipótesis nula.
Conclusión: La población se comporta como una distribución de Poisson con media 3,04
Ejemplo 3.
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 125
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
El Departamento de Psicología, basándose en informaciones anteriores, al final del
semestre antepasado, el 80% de los alumnos aprobaron todas las materias inscritas, un 10%
aprobó la mitad, un 6% reprobó todas las materias y un 4% se retiro. Al final del semestre
pasado el departamento selecciono a 400 alumnos, resultado 287 aprobaron todas las
asignaturas, 49 aprobaron la mitad, 30 reprobaron todas las asignaturas y 34 se
retiraron.¿Podemos concluir, a raíz de los resultados, que la información del semestre
antepasado se ha vuelto a repetir el semestre pasado?
Hipótesis nula: de que los porcentajes del semestre pasado son los mismos que en el
semestre antepasado.
Atributos Datos observados Probabilidad Datos esperados
Aprobó todo 287 0,80 320
Aprobó la mitad 49 0,10 40
Reprobó todo 30 0,06 24
Se retiró 34 0,04 16
Total 400 1 400
2 = 27,178
Como tenemos 4 categorías y ningún parámetro estimado los grados de libertad serán: 4-0-
1= 3
84
,
12
2
3
;
05
,
0 

Como 27,178 es mayor que 12,84 se rechaza la hipótesis nula.
Conclusión: Los porcentajes no se repitieron el semestre pasado
Problema 4.-
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 126
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Problema 5.-
PASOS A SEGUIR EN UNA PRUEBA DE HIPOTESIS
1. Definir la Hipótesis estadística H0 y Ha
En la prueba de hipótesis, debemos establecer el valor supuesto o hipotetizado del
parámetro de población antes de comenzar a tomar la muestra. La suposición que
deseamos probar se conoce como hipótesis nula Ho.
Con base en los datos muestrales la hipótesis nula se rechaza o no rechaza. Nunca se
puede aceptar la hipótesis nula como verdadera para demostrar sin lugar a dudas que
la hipótesis es verdadera se tendría que conocer el parámetro de la población. El no
rechazo solamente significa que la evidencia muestral no es lo suficientemente
fuerte como para llevar a su rechazo.
Es importante recordar que, sin importar como se determina el problema, la
hipótesis nula siempre lleva el signo de igual ( = ).
Supongamos que deseamos probar la hipótesis de que la media de la población es
igual a 16. Lo simbolizaríamos y leeríamos “La hipótesis nula es que la media de la
población es igual a 16”.
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 127
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Ho: = 16
El término hipótesis nula surge de las primeras aplicaciones agrícolas y médicas de
la estadística. Con el fin de probar la efectividad un nuevo fertilizante o de una
nueva medicina, la hipótesis que se probaba es que no tuvo efecto, es decir no tuvo
diferencia entre las muestras tratadas y no tratadas.
La hipótesis alternativa describe la conclusión a la que se llegará si se rechaza a la
hipótesis nula. También se conoce como hipótesis de investigación. La hipótesis
alternativa se acepta si los datos de la muestra proporcionan suficiente evidencia
estadística de que la hipótesis nula es falsa.
Consideraremos tres hipótesis alternativas posibles:
Ha: 16
Ha: > 16
Ha: < 16
El signo de igual ( = ) nunca aparecerá en la hipótesis alternativa. Porque la
hipótesis nula es la declaración que se prueba, y es necesario incluir un valor
especifico en los cálculos. La hipótesis alternativa se observa sólo si se demuestra
que no es verdadera la hipótesis nula.
2. Establecer la estadística de prueba que sea apropiado.
Es un valor que se calcula con base a la información de la muestra, y que se utiliza
para determinar si se rechaza la hipótesis nula

 


E s t a d í s t i c a - T e r c e r s e m e s t r e Página 128
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Existen muchas estadísticas de prueba que pertenecen a una distribución muestral
con su propia forma, media y desviación estándar.
Z, t, 2, F
Por ejemplo en la prueba de hipótesis para la media, la estadística de prueba Z se
calcula por:
El valor z se basa en la distribución de muestreo de , que tiene una distribución
normal cuando la muestra es razonablemente grande con . Así, es posible
determinar si la diferencia entre la media muestral y la media poblacional es
importante desde el punto de viste estadístico.
3. Definir el nivel de significancia y la zona de rechazo
El nivel de significancia es la probabilidad de rechazar la hipótesis nula cuando es
verdadera es a lo que se llama error Tipo I.
El nivel de significancia se define con la letra griega alfa ( ).Se le llama también
nivel de riesgo.
No hay un nivel de significancia que se aplique a todas las pruebas. Se toma la
decisión de utilizar los niveles 0.05 ( que con frecuencia se conoce como un nivel
del 5%), .01, 0.10, o cualquiera entre 0 y 1 a elección de la persona que realiza la
prueba.
La zona de rechazo son los valores de la estadística de prueba para los cuales se
rechaza la hipótesis nula. La regla de decisión en la prueba de hipótesis, puede
establecerse de tres maneras:
Hacer liga con problema resuelto de prueba de hipótesis para la
( conocida ó )
1. Regla basada en la estadística de prueba.
n
X
z




X
n

 ,


2
 30

n
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 129
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
2. Regla basada en la probabilidad.
3. Regla basada en la distribución de probabilidad del estadístico utilizado en
la prueba.
La zona de rechazo tiene una magnitud dada por y una dirección dada por la
hipótesis alternativa.
El siguiente ejemplo es de acuerdo a la hipótesis nula que se planteo en base a la
media poblacional, y al primer ejemplo de hipótesis alternativa:
No rechazar
α/2 = 0.025 α/2 = 0.025
0.95
0.475 0.475
μ = 16
Zona de rechazo
Cola a la derecha
Zona de rechazo
Cola a la izquierda
-1.96 1.96
0
Zona de no rechazo
Existe un 95% de probabilidad deque los
resultados muestrales puedan caer entre
± 1.96 si la hipótesis nulaes verdadera
Si μ = 16, existe sólo un 2.5% de
oportunidad de que una media muestral
produzca un valor de Z < -1.96
Si μ = 16, existe sólo un 2.5% de
oportunidad de que una media
muestral produzca un valor de Z >
1.96
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 130
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
4. Calcular la estadística de prueba a partir de los datos muestrales considerando H0
como verdadera
5. Decidir si H0 se acepta o se rechaza.
6. Concluir en términos del contexto del problema.
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 131
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
E s t a d í s t i c a - T e r c e r s e m e s t r e Página 132
Universidadde Estudios Superioresde LaPaz 23 de noviembre
del 2010
Tabla Z:

Temario estadistica

  • 1.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 1 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Universidad de Estudios Superiores de La Paz Carrera: Licenciatura en Informática Asignatura: Estadística Temario Nombre del alumno: Hernández Mejía Brayan Alfredo Grupo: Grupo: LI-131 “Es mejor morir de pie, que vivir siempre de rodillas” – Emiliano Zapata
  • 2.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 2 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 ÍNDICE: I. Información general de la asignatura. a)Ficha de identificación b)Descripción c)Propósito II. Competencias a desarrollar III. Temario IV. Metodología de trabajo V. Evaluación VI. Material de apoyo VII. Desarrollo de contenidos por unidad a) Unidad 1: Estadística descriptiva b) Unidad 2: Distribuciones Muestrales Introducción c) Unidad 3: Teoría de la Estimación Introducción d) Unidad 4: Pruebas de hipótesis Anexo: Formularios (archivos PDF y Tablas Z y gl.)
  • 3.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 3 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Presentación: I. Información general de la asignatura. a) Ficha de identificación: Nombre de la licenciatura o ingeniería Licenciatura en informática Nombre del curso o asignatura Estadística Clave de asignatura Estadística LI-131 Seriación Sin seriación Semestre 3er semestre Profesor Reynaga b) Descripción: Dentro de una sociedad que está en constante cambio y reestructuración existen variables que permiten un cambio, sea mínimo o grande, dentro de la misma. Estos cambios, así como la constante forma en que cambia el entorno en todo sentido y estratos (cultural, social, tecnológico, político, educativo) hacen que los elementos cuantitativos cambien de la misma manera, es por eso que se debe tener en cuenta la precisión con que éstos datos actuaran sobre las decisiones que se tomen a futuro. La estadística, como un elemento de utilería básico para poder llevar a cabo la tarea de recopilar, analizar, sistematizar, sintetizar e interpretar los datos o elementos que son cuantificables para poder interpretarlos de forma sencilla, clara y tangible para poder sustentar una decisión a posteriori y saber desde donde podemos tomar medidas estratégicas para la solución óptima de un problema. En la Universidad de Estudios Superiores de La Paz, nos comprometemos a mejorar la calidad integral de los alumnos y profesores que requieran, sin duda alguna, del soporte, por ejemplo, con éste material de apoyo académico. Asimismo, inculcar una costumbre por la búsqueda incesante del conocimiento, de trazar la trayectoria académica con excelencia y carácter para formar profesionales éticos y visionarios para afrontar, primero de forma personal, cualquier clase de problema que se presente teniendo la franqueza, elementos y visión periférica de cómo optimizar sus opciones. La materia de Estadística se compone de las unidades básicas necesarias para poder entender, sin disyuntivas, los elementos más característicos y herramientas usadas, expresándolo matemáticamente la síntesis de los datos y así, sembrar en el estudiante la costumbre por la toma de decisiones, el análisis e interpretación de las posibles soluciones, visión ante situaciones de bifurcación y la solución de problemas y eventos que interactúen con el entorno en donde nos desenvolvemos.
  • 4.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 4 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 c) Propósito: Los propósitos de la asignatura en relación al tronco básico son que los estudiantes: 1. La capacidad de interpretar y manejar los elementos gráficos (tablas, gráficos, diagramas) para su análisis y manejo adecuado. 2. La aplicación correcta de la estadística dentro de nuestro entorno y del cómo la misma ha beneficiado al entorno donde se aplica, así como su importancia. 3. Visualicen e identifiquen el valor de uso de la estadística en el entorno y su trascendencia en la toma de decisiones. 4. Equiparar la ética y la profesión para el manejo y análisis adecuado de cualquier clase de información. II. Competencia. Competencia general: - Ejecutar los métodos y procesos de análisis estadístico para verificar los eventos dentro de un contexto. - Contrastar y entender la paridad entre las posibles soluciones a un problema o problemas en específico, esto para poder brindar una respuesta más sustentable enfocado a la búsqueda de la solución del problema. Competencias específicas: - Hacer uso de las herramientas y conceptos indispensables para la representación numérica y gráfica de los datos recopilados y analizados dentro de un entorno. - Generar soluciones concretas a partir del análisis de datos compilados. - Aplicar los conocimientos estadísticos a través de pruebas aleatorias en diferentes entornos y contextos.
  • 5.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 5 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 III. Temario. Unidad 1 Estadística descriptiva 1.1 Definición y Campo Estadística 1.2 Planteamiento de un caso especifico 1.3 Organización de Datos Estadísticos 1.4 Medidas Tendencia Central 1.5 Medidas Dispersión Unidad 2 Distribuciones Muestrales Introducción 2.1 Distribución Muestral de Media Varianza Conocida y Desconocida 2.2 Teorema del Límite Central 2.3 Distribución Muestral de Proporción 2.4Distribucion Muestral Diferencia de Medias y de diferencia de proporciones 2.5 Distribución Muestral Diferencia Medias 2.6 Distribución Muestral de la Varianza 2.7 Distribución Muestral Razón de Varianzas Unidad 3 Teoría de la Estimación Introducción 3.1 Estimación y Propiedades Estimadores 3.2 Estimación por Intervalo 3.3 Intervalo de Confianza Media con varianza conocida y desconocida 3.4 Intervalo de Confianza Proporción y diferencia de proporciones 3.5 Intervalo de Confianza Diferencias de Medias con varianza conocida y desconocida 3.6 Intervalo Confianza Varianza 3.7 Intervalo Confianza Razón Varianzas
  • 6.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 6 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Unidad 4 Pruebas de hipótesis 4.1 Conceptos Prueba de Hipótesis 4.2 Errores Tipo I y II 4.3 Prueba Hipótesis para Media con varianza conocida y desconocida 4.4 Prueba Hipótesis para Proporción y diferencia de proporciones 4.5 Prueba Hipótesis Diferencia Medias con varianzas conocidas y desconocidas 4.6 Prueba Hipótesis Varianza 4.7 Prueba de Bondad de Ajuste
  • 7.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 7 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 IV. Metodología de trabajo. Las personas perciben y adquieren los conocimientos de manera distinta. Además, tienen preferencias hacia determinadas estrategias cognitivas que son las que finalmente les ayudarán a dar significado a la nueva información. Por ejemplo, unos prefieren hacerlo en grupos, otros individualmente, algunos optan por la experimentación y otros requieren asesoría. . El concepto estilos de aprendizaje se refiere a esas estrategias preferidas por los estudiantes y que se relacionan con formas de recopilar, interpretar, organizar y pensar sobre la nueva información. El estilo de aprendizaje consiste en definitiva en cómo nuestra mente procesa la información, cómo es influida por las percepciones de cada individuo, con el fin de alcanzar aprendizajes eficaces y significativos. Por ejemplo, cuando se aprende un nuevo concepto, algunos estudiantes se centran en los detalles, otros en los aspectos lógicos, otros prefieren hacerlo leyendo o llevándolos a la práctica a través de actividades. Por ello es necesario planificar actividades ajustadas a los estilos de aprendizaje de los participantes de manera que sean más receptivos cuando perciban que los objetivos del programa de formación responden a sus necesidades y expectativas. Durante el periodo de aprendizaje en la asignatura de Estadística, se implementaran los elementos necesarios para el correcto aprendizaje, adaptación y retención de los conceptos básicos, así como las herramientas informáticas y matemáticas que nos permitan ejecutar prácticas con una mayor calidad y fluidez para el entendimiento de la asignatura. Los procesos a modelar con técnicas estadísticas suelen ser altamente complejos y son difíciles de caracterizar pues es habitual que dependan de muchas variables, que es lo usual al trabajar con datos reales. Como nuestro deseo es que el alumno adquiera un aprendizaje significativo nos hemos propuesto incidir en nuevas metodologías didácticas en la impartición de esta asignatura de Estadística en la UES. Los alumnos, previamente, reciben materiales que les permiten conocer los principios que establece la Estadística y colecciones de datos experimentales para su análisis. De esta manera van a adquirir una información teórica y práctica, objetiva y científica sobre el tema, para así conseguir los objetivos cognoscitivos que nos proponemos. Por tanto, para trabajar con datos reales se tienen en cuenta los conocimientos que poseen los estudiantes de informática y en el manejo y utilización de programas de ordenador (como son, por ejemplo, MINITAB, EXCEL, MATLAB o MAPLE), conocimientos y habilidades que han adquirido en asignaturas ya cursadas previamente, como son programación y Matemáticas.
  • 8.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 8 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 El objetivo es incidir en la enseñanza de la Estadística basada en la resolución de problemas y casos prácticos con datos reales de diversos aspectos del ámbito de la tecnología y las ciencias, para así potenciar los factores que condicionan positivamente el aprendizaje al colocar a los estudiantes ante casos y problemas relativos al mundo de la Informática. Se intenta así mejorar aspectos que inciden en la calidad en la enseñanza y en el aprendizaje como son la motivación, los modos de aprendizaje, las metas y objetivos que los estudiantes se plantean. V. Evaluación. Para que el alumno pueda aprobar la asignatura de Estadística, deberá cumplir con todos y cada uno de los lineamientos e imperativos acordados a principio del semestre, para poder obtener, sin mayor dificultad, la calificación mínima que estipula la UES. Que el alumno entregue en tiempo y con las característica necesarias, todos y cada uno de los ejercicios que se les pida subir al blog y los que se hacen durante la clase. Asistir puntual a las cátedras e impulsar el interés del alumno en la interacción durante la clase, esto a partir de la relación alumno-profesor. También deberán trabajar en equipos para poder obtener un mayor rendimiento entre alumnos, así como la interacción con los demás compañeros de clase, esto, con el objetivo de tener una mejor relación y aprendan a trabajar en equipos. Los puntos que se tomarán en cuenta para evaluar serán: Actividad Porcentaje Prácticas 50% Examen 50% Total 100% VI. Material de apoyo. Bibliografía básica: Alatorre F., S., et.al. Introducción a los Métodos Estadísticos. Universidad Pedagógica Nacional. México. (3 volúmenes. Sistema de Educación a Distancia.) Castañeda J., J. Métodos de Investigación 2. Editorial McGraw-Hill. México. Johnson, R. Estadística Elemental. Editorial Trillas. México. Mendenhall, W.; D.D. Wackerly y R.L. Scheaffer. Estadística Matemática con Aplicaciones. Grupo Editorial Iberoamérica. México.
  • 9.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 9 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Freund, John E. y Gary A. Simon. Estadística elemental. Prentice-Hall Hispanoamericana, SA. México, 1994. (8ª edición.) Spiegel, M.R. Estadística. McGraw-Hill. México. (Serie Schaum.) García, P., A. Elementos de Método Estadístico. Universidad Nacional Autónoma de México. México. (Textos Universitarios.) Bibliografía complementaria: Arias G., F. (comp). Lecturas para el Uso de Metodología de la Investigación. Capítulo 5 "Procesamiento de datos". Editorial Trillas. México. Schmelkes, C. Manual para la Presentación de Anteproyectos e Informes de Investigaciones. Capítulo 25 "Análisis de resultados". Editorial Harla. México. Kline, M. Matemáticas para Estudiantes de Humanidades. Capítulo XXII "Métodos estadísticos en las ciencias sociales y las biológicas" y capítulo XXIII "La teoría de las probabilidades". Fondo de Cultura Económica. México. Bergamini, D. Matemáticas. Capítulo 6 "El cálculo de las posibilidades en un mundo inseguro". Editado por Offset Multicolor. México. (Colección Científica de Time-Life.)
  • 10.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 10 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 VII. Desarrollo de contenidos por unidad. Unidad 1: Estadística descriptiva Propósito:  Que el alumno aprenda a identificar los conceptos básicos de la estadística.  Visualizar el campo e importancia de la estadística.  Aplicar el conocimiento con prácticas y experimentos aleatorios. Competencia específica: Hacer uso de las herramientas y conceptos indispensables para la representación numérica y gráfica de los datos recopilados y analizados dentro de un entorno. Introducción: La estadística como un concepto básico entre la sociedad, representa a la manera con que se frecuenta e incide en un evento o la forma en que se cuantifica un hecho de cualquier índole. Así que para un mejor entendimiento de lo que es en esencia la estadística, aplicaremos los elementos y herramientas básicas para su entendimiento. Asimismo, aprenderemos y conoceremos cuáles son los campos donde se puede aplicar la estadística y cómo interactúa, sobre todo, a nivel social. 1.1 Definición y Campo Estadística Estadística “Ciencia que se ocupa del estudio de fenómenos de tipo genérico, normalmente complejos y enmarcados en un universo variable, mediante el empleo de modelos de reducción de la información y de análisis de validación de los resultados en términos de representatividad”. La información puede ser numérica, alfabética o simbólica. Consta de las fases de recogida de información, de análisis y de presentación e interpretación de los resultados y elaboración de métodos. La estadística es una ciencia referente a la recolección, análisis e interpretación de datos, ya sea para ayudar en la resolución de la toma de decisiones o para explicar condiciones regulares o irregulares de algún fenómeno o estudio aplicado, de ocurrencia en forma aleatoria o condicional. Sin embargo estadística es mucho más que eso, dado que en otras palabras es el vehículo que permite llevar a cabo el proceso relacionado con la investigación científica. Definida así la Estadística se evita hacer mención a sí es o no una rama de las matemáticas, visión que consideramos innecesariamente limitada, al tiempo que se establece su carácter genérico y su campo de acción en el estudio de fenómenos complejos ubicados en un universo amplio y variable. Con esta afirmación, de complejidad, se introduce el factor de
  • 11.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 11 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 incertidumbre que acompaña a los fenómenos aleatorios pero sin limitar el campo de la Estadística de forma que puede aplicarse también a fenómenos determinísticos. La estadística se divide en dos grandes áreas:  La estadística descriptiva, que se dedica a los métodos de recolección, descripción, visualización y resumen de datos originados a partir de los fenómenos en estudio. Los datos pueden ser resumidos numérica o gráficamente. Ejemplos básicos de parámetros estadísticos son: la media y la desviación estándar. Algunos ejemplos gráficos son: histograma, pirámide poblacional, clústers, entre otros.  La estadística inferencial, que se dedica a la generación de los modelos, inferencias y predicciones asociadas a los fenómenos en cuestión teniendo en cuenta la aleatoriedad de las observaciones. Se usa para modelar patrones en los datos y extraer inferencias acerca de la población bajo estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas si/no (prueba de hipótesis), estimaciones de características numéricas (estimación), pronósticos de futuras observaciones, descripciones de asociación (correlación) o modelamiento de relaciones entre variables (análisis de regresión). Otras técnicas de modelamiento incluyen anova, series de tiempo y minería de datos. Ambas ramas (descriptiva e inferencial) comprenden la estadística aplicada. Hay también una disciplina llamada estadística matemática, la cual se refiere a las bases teóricas de la materia. La palabra «estadísticas» también se refiere al resultado de aplicar un algoritmo estadístico a un conjunto de datos, como en estadísticas económicas, estadísticas criminales, entre otros. Etimología: El término alemán statistik, que fue primeramente introducido por Gottfried Achenwall (1749), designaba originalmente el análisis de datos del Estado, es decir, la "ciencia del Estado" (también llamada aritmética política de su traducción directa del inglés). No fue hasta el siglo XIX cuando el término estadística adquirió el significado de recolectar y clasificar datos. Este concepto fue introducido por el inglés John Sinclair. En su origen, por tanto, la Estadística estuvo asociada a los Estados, para ser utilizados por el gobierno y cuerpos administrativos (a menudo centralizados). La colección de datos acerca de estados y localidades continúa ampliamente a través de los servicios de estadística nacionales e internacionales. En particular, los censos suministran información regular acerca de la población. Ya se utilizaban representaciones gráficas y otras medidas en pieles, rocas, palos de madera y paredes de cuevas para controlar el número de personas, animales o ciertas mercancías. Hacia el año 3000 a. C. los babilonios usaban ya pequeños envases moldeados de arcilla para recopilar datos sobre la producción agrícola y de los géneros vendidos o cambiados. Los egipcios analizaban los datos de la población y la renta del país mucho antes de construir las pirámides en el siglo XI a. C. Los libros bíblicos de Números y Crónicas
  • 12.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 12 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 incluyen en algunas partes trabajos de estadística. El primero contiene dos censos de la población de Israel y el segundo describe el bienestar material de las diversas tribus judías. En China existían registros numéricos similares con anterioridad al año 2000 a. C. Los antiguos griegos realizaban censos cuya información se utilizaba hacia el 594 a. C. para cobrar impuestos. Orígenes: Los métodos estadístico-matemáticos emergieron desde la teoría de probabilidad, la cual data desde la correspondencia entre Blaise Pascal y Pierre de Fermat (1654). Christian Huygens (1657) da el primer tratamiento científico que se conoce a la materia. El Ars coniectandi (póstumo, 1713) de Jakob Bernoulli y la Doctrina de posibilidades (1718) de Abraham de Moivre estudiaron la materia como una rama de las matemáticas. En la era moderna, el trabajo de Kolmogórov ha sido un pilar en la formulación del modelo fundamental de la Teoría de Probabilidades, el cual es usado a través de la estadística. La teoría de errores se puede remontar a la Ópera miscellánea (póstuma, 1722) de Roger Cotes y al trabajo preparado por Thomas Simpson en 1755 (impreso en 1756) el cual aplica por primera vez la teoría de la discusión de errores de observación. La reimpresión (1757) de este trabajo incluye el axioma de que errores positivos y negativos son igualmente probables y que hay unos ciertos límites asignables dentro de los cuales se encuentran todos los errores; se describen errores continuos y una curva de probabilidad. Pierre-Simon Laplace (1774) hace el primer intento de deducir una regla para la combinación de observaciones desde los principios de la teoría de probabilidades. Laplace representó la ley de probabilidades de errores mediante una curva y dedujo una fórmula para la media de tres observaciones. También, en 1871, obtiene la fórmula para la ley de facilidad del error (término introducido por Lagrange, 1744) pero con ecuaciones inmanejables. Daniel Bernoulli (1778) introduce el principio del máximo producto de las probabilidades de un sistema de errores concurrentes. El método de mínimos cuadrados, el cual fue usado para minimizar los errores en mediciones, fue publicado independientemente por Adrien-Marie Legendre (1805), Robert Adrain (1808), y Carl Friedrich Gauss (1809). Gauss había usado el método en su famosa predicción de la localización del planeta enano Ceres en 1801. Pruebas adicionales fueron escritas por Laplace (1810, 1812), Gauss (1823), James Ivory (1825, 1826), Hagen (1837), Friedrich Bessel (1838), W.F. Donkin (1844, 1856), John Herschel (1850) y Morgan Crofton (1870). Otros contribuidores fueron Ellis (1844), Augustus De Morgan (1864), Glaisher (1872) y Giovanni Schiaparelli (1875). La fórmula de Peters para r, el probable error de una observación simple es bien conocido. El siglo XIX incluye autores como Laplace, Silvestre Lacroix (1816), Littrow (1833), Richard Dedekind (1860), Helmert (1872), Hermann Laurent (1873), Liagre, Didion y Karl Pearson. Augustus De Morgan y George Boole mejoraron la presentación de la teoría. Adolphe Quetelet (1796-1874), fue otro importante fundador de la estadística y quien introdujo la noción del «hombre promedio» (l’homme moyen) como un medio de entender
  • 13.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 13 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 los fenómenos sociales complejos tales como tasas de criminalidad, tasas de matrimonio o tasas de suicidios Christiaan Huygens Pierre Simon Laplace Gottfried Achenwall Padre de la estadística Carl Fredrich Gauss Karls Pearson George Boole
  • 14.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 14 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Disciplinas especializadas y campos de aplicación: Algunos campos de investigación usan la estadística tan extensamente que tienen terminología especializada. Estas disciplinas incluyen:  Ciencias actuariales  Física estadística  Estadística industrial  Estadística Espacial  Matemáticas Estadística  Estadística en Medicina  Estadística en Medicina Veterinaria y Zootecnia  Estadística en Nutrición  Estadística en Agronomía  Estadística en Planificación  Estadística en Investigación  Estadística en Restauración de Obras  Estadística en Literatura  Estadística en Astronomía  Estadística en la Antropología (Antropometría)  Estadística en Historia  Estadística militar  Geoestadística  Bioestadística  Estadísticas de Negocios  Estadística Computacional  Estadística en las Ciencias de la Salud  Investigación de Operaciones  Estadísticas de Consultoría  Estadística de la educación, la enseñanza, y la formación  Estadística en la comercialización o mercadotecnia  Cienciometría  Estadística del Medio Ambiente  Estadística en Epidemiología  Minería de datos (aplica estadística y reconocimiento de patrones para el conocimiento de datos)  Econometría (Estadística económica)  Estadística en Ingeniería  Geografía y Sistemas de información geográfica, más específicamente en Análisis espacial  Demografía  Estadística en psicología (Psicometría)  Calidad y productividad  Estadísticas sociales (para todas las ciencias sociales)  Cultura estadística  Encuestas por Muestreo
  • 15.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 15 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010  Análisis de procesos y quimiometría (para análisis de datos en química analítica e ingeniería química)  Confiabilidad estadística  Procesamiento de imágenes  Estadísticas Deportivas La estadística es una herramienta básica en negocios y producción. Es usada para entender la variabilidad de sistemas de medición, control de procesos (como en control estadístico de procesos o SPC (CEP)), para compilar datos y para tomar decisiones. En estas aplicaciones es una herramienta clave, y probablemente la única herramienta disponible. Importancia: La estadística es comúnmente considerada como una colección de hechos numéricos expresados en términos de una relación sumisa, y que han sido recopilado a partir de otros datos numéricos. Kendall y Buckland definen la estadística como un valor resumido, calculado, como base en una muestra de observaciones que generalmente, aunque no por necesidad, se considera como una estimación de parámetro de determinada población; es decir, una función de valores de muestra. La importancia que tiene está relacionada con el área o áreas en las que se puede aplicar, debido a que está presente en todas las áreas del saber. La estadística es una ciencia de aplicación práctica casi universal en todos los campos científicos: * En las ciencias naturales: se emplea con profusión en la descripción de modelos termodinámicos complejos (mecánica estadística), en física cuántica, en mecánica de fluidos o en la teoría cinética de los gases, entre otros muchos campos. * En las ciencias sociales y económicas: es un pilar básico del desarrollo de la demografía y la sociología aplicada.
  • 16.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 16 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 * En economía: suministra los valores que ayudan a descubrir interrelaciones entre múltiples parámetros macro y microeconómicos. * En las ciencias médicas: permite establecer pautas sobre la evolución de las enfermedades y los enfermos, los índices de mortalidad asociados a procesos morbosos, el grado de eficacia de un medicamento, etcétera.
  • 17.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 17 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010
  • 18.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 18 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Estadística Es la basedeuna buena planificación Reune y organiza datos numéricos para la toma de desiciones Se vale de métodos gráficos para su comprensión Hace más llamativa la información. Permitea las personas no especializadas entender los resultados de uninforme Solo es válido enlos datos existentes enel momento de sacar los datos,comouna fotografía Tipos de gráficos yutilidad: Barras:comparar elementos. Pastel y barra de 100%:compararlas fracciones de untodo. Lineal:Comparacionesde crecimiento a través de un tiempodeterminado. Pictograasymapasestadísticos:para comparar datos geográficos yde distribución. Características generales: - Conciso - Replicabilidad - Comunicabilidad - Simple, apto y fácilde interpretar. Es una herramienta
  • 19.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 19 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 1.2 Planteamiento de un caso especifico Planteamiento del problema Suele iniciarse con una fijación de objetivos o algunas preguntas como ¿cuál será la media de esta población respecto a tal característica?, ¿se parecen estas dos poblaciones?, ¿hay alguna relación entre... ? En el planteamiento se definen con precisión la población, la característica a estudiar, las variables, etcétera. Se analizan también en este punto los medios de los que se dispone y el procedimiento a seguir. Elaboración de un modelo Se establece un modelo teórico de comportamiento de la variable de estudio. En ocasiones no es posible diseñar el modelo hasta realizar un estudio previo. Los posibles modelos son distribuciones de probabilidad. Extracción de la muestra Se usa alguna técnica de muestreo o un diseño experimental para obtener información de una pequeña parte de la población.
  • 20.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 20 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 1.3 Organizaciónde Datos Estadísticos. ¿Se han preguntado alguna vez para qué sirven las encuestas que a veces se hacen en la calle?, ¿Cómo saber si una estación de radio es mejor que otra? , ¿Cuál candidato puede ganar? Bueno, en realidad todo comienza con la recaudación de datos. Los datos es información que se recoge, esto puede ser opinión de las personas sobre un tema, edad o sexo de encuestados, dónde viven, cuántas personas viven en una casa, qué tipo de sangre tiene un grupo de personas, etc. Hay tanta información que puede servirle a diferentes profesionales para sacar datos que son útiles en la toma de decisiones, para resolver problemas, o cualquier otro elemento que así lo amerite. Se preguntarán qué hacen estas personas con la información que han recogido. Se te explicará. Una vez que se haya recogido toda la información, se procede a crear una base de datos, donde se registran todos los datos obtenidos. Algunas veces, si los datos son muy complicados, se codifican, esto quiere decir que se le coloca una palabra clave que identifica un título muy largo. Cuando ya está elaborada la base de datos se parece a una tabla. Núm. (número del sujeto) Edad Color (color preferido) Inas (Inasistencia a clase en un mes) Ani (Tipo de animal que tiene en casa) 1 8 azul 3 Perro 2 6 verde 0 Perro 3 7 rojo 7 Gato 4 7 amarillo 4 Perro 5 9 verde 3 ninguno 6 8 azul 1 gato 7 9 rojo 0 pez 8 8 morado 2 perro 9 6 azul 3 pez 10 7 verde 1 ninguno Con esta tabla no se puede hacer mucho, pero es importante para registrar los datos. A partir de esta base de datos se puede hacer una tabla de frecuencias. Para determinar la frecuencia de "algo" o el número de veces que se produce un fenómeno (el fenómeno puede ser "el color preferido de los niños de un salón", "la edad de un grupo de sujetos", "el tipo
  • 21.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 21 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 de animal que tiene en casa", "la cantidad de inasistencias a clase", o cualquier otro fenómeno). Vemos ahora qué pasa con nuestra base de datos: Con los datos obtenidos elaboramos una serie de tablas. Con los datos de las tablas fabricamos unos gráficos (también llamados figuras) de frecuencia que podrás observar al lado de cada tabla. Pero esto no nos dice nada si no "analizamos" los datos. Analizar significa sacar conclusiones de la información expuesta. Este análisis está debajo de la tabla y el gráfico. Tabla 1. Frecuencia de colores preferidos del grupo estudiado Color Frecuencia Rojo 2 Azul 3 Verde 3 Morado 1 Amarillo 1 Figura 1. Frecuencia de colores preferidos del grupo estudiado. Se puede observar que los colores preferidos de me mayor frecuencia son el Azul y el Verde, cada uno con una frecuencia de 3. Tabla 2. Frecuencia de inasistencia a clase del grupo estudiado
  • 22.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 22 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Inasistencia por días Frecuencia 0 días 2 1 día 2 2 días 1 3 días 3 4 días 1 5 días 0 6 días 0 7 días 1 Figura 2. Frecuencia de inasistencia a clase del grupo estudiado Se puede observar de la Figura 2, que en la muestra de sujetos estudiados, tres días es la mayor frecuencia de inasistencia.  Ahora, recuerden lo siguiente, los investigadores nunca colocan las tablas y los gráficos juntos, porque en realidad dicen lo mismo, corrientemente se utiliza o una tabla y su análisis, o un gráfico y su análisis. Nota: también que el título de la tabla va encima de ésta, mientras que el título de la figura va por debajo. El título, de ambas, sólo lleva la primera palabra en mayúscula y no va subrayado.  Creemos que ha sido fácil lo que les enseñamos, ahora les toca a ustedes hacer una tabla de frecuencias y su respectiva figura.
  • 23.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 23 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Tabla 3. Frecuencia del tipo de animal que tiene el grupo estudiado Tipo de animal Frecuencia Ninguno Perro Pez Gato Figura 3. Frecuencia del tipo de animal que tiene el grupo estudiado Vamos a ver, por ejemplo, la edad de los niños y el tipo de animal que tienen en casa, o el tipo de animal que tienen en casa y la edad de los niños. Utilizaremos la misma base de datos de antes. Núm. (número del sujeto) Edad Color (color preferido) Inas (Inasistencia a clase en un mes) Ani (Tipo de animal que tiene en casa) 1 8 azul 3 perro 2 6 verde 0 perro 3 7 rojo 7 gato 4 7 amarillo 4 perro 5 9 verde 3 ninguno 6 8 azul 1 gato 7 9 rojo 0 pez 8 8 morado 2 perro 9 6 azul 3 pez 10 7 verde 1 Ninguno
  • 24.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 24 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Tabla 4. Frecuencia del tipo de animal que tiene el grupo estudiado según su edad Edad de los niños Tipo de animal que tienen en casa Ninguno Perro Pez Gato 6 años 0 1 1 0 7años 1 1 0 1 8 años 0 2 0 1 9 años 1 0 1 0 Figura 4. Frecuencia del tipo de animal que tiene el grupo estudiado según su edad Tabla 5. Frecuencia del tipo de animal que tiene el grupo estudiado según su edad Tipo de animal que tienen en casa Edad de los niños 6 años 7 años 8 años 9 años Ninguno 0 1 0 1 Perro 1 1 2 0 Pez 1 0 0 1 Gato 0 1 1 0
  • 25.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 25 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Figura 5. Frecuencia del tipo de animal que tiene el grupo estudiado según su edad. Responde las siguientes preguntas: ¿Cuántos niños de 6 años tienen perros? ¿Cuántos niños de 8 años tienen peces? ¿Cuántos niños de 7 años tienen peces? ¿Cuántos niños de 9 años tienen gatos? ¿Cuántos niños de 8 años tienen perros? Con la elaboración de las tablas y gráficos se facilita obtener información. Podemos hasta decir que la mayoría de los niños de 8 años tienen perros en su casa. Intervalos o clases: Un intervalo o clase está determinado por dos números a y b de manera que todos los mayores o iguales que a y menores que b pertenecen a dicho intervalo. Se simboliza por [a,b), donde a y b son los extremos del intervalo. La frecuencia absoluta de un intervalo o clase es el número de datos que pertenecen al mismo. La marca de clase de un intervalo, ci , es el punto medio del intervalo. Su cálculo nos lo da la expresión: 2 b a ci  
  • 26.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 26 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Población o Universo Objetivo. Es el conjunto (finito o infinito) de unidades de análisis que conforman a la población que se desea describir simplemente o sobre la cual se desea hacer inferencias y conocer sus parámetros característicos (promedio, totales proporciones, etc.). Población Finita Es el conjunto finito de unidades de análisis donde se puede identificar a un elemento inicial y/o a un elemento final. Por ejemplo, la población de hoteles de Lima Metropolitana, población de agencias de viajes existentes en la ciudad de Cajamarca. Turistas de nacionalidad alemana que ingresaron al Perú en el a o 2000. Población Infinita. Conjunto infinito de elementos donde no se podría identificar a una unidad inicial ni a la unidad final. Ejemplo, la población de los peces del mar, lo árboles de la selva peruana, etc. Muestra Es un subconjunto de unidades de análisis extraída de la población objetivo buscando que las unidades seleccionadas sean representativas con el fin de permitir que a través de la información recabada con la muestra se realicen inferencias para toda la población. Muestra No Probabilística Corresponde a un subconjunto de observaciones elegidas siguiendo aquellos criterios de representatividad que fueran establecidos arbitrariamente por el investigador. Muestra Probabilística Comprende a las observaciones realizadas en unidades que han sido elegidas siguiendo un criterio probabilístico, esto es, a cada unidad de la población se asigna probabilidad conocida (puede ser igual) para estar incluida como parte de la muestra, por tanto, las unidades de la muestra son elegidas de la población respetando estrictamente estas probabilidades que les han sido asignadas. Las muestra probabilísticas permiten aplicar los métodos de la estadística inferencial y construir límites de confianza para las estimaciones de los parámetros que se desean estudiar. La representatividad de éstas muestras se sustenta en el hecho que son las leyes de las probabilidades las que determinan si una unidad será incluida o no en la muestra. Unidad de Análisis Es el elemento que conforma a la población objetivo y de la cual se extrae la información que se desea estudiar. Ejemplo: Se desea estudiar la capacidad hotelera en la
  • 27.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 27 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 ciudad de Lima y se define la unidad de análisis “hotel”, en cada uno de los hoteles de la ciudad, se solicita la siguiente información: • Número de habitaciones del hotel. • Número de empleados del hotel. • Total de clientes atendidos durante el mes de Julio. • Ingresos totales en el mes de Julio. • Tiene servicio de agencia de viaje (Si=1; No=0) • Tiene servicio de restaurante (Si=1; No=0) Recopilando la información especificada en los N hoteles de la ciudad de Lima se formar1a la base de datos siguiente: Unidad (Hotel) ( i ) Numero habitaciones Xi Numero Empleados Yi Clientes En Julio Zi Ingresos en Julio Vi Agencia Viaje Wi Servicio Restaurante Ri 1 55 12 200 14000 1 1 2 30 8 250 16000 0 1 3 20 6 100 7000 0 0 .... .... N 60 20 309 25000 0 1 Variable Es todo factor o característica que en forma conjunta e integral conforma la información que se solicita a cada unidad de análisis. Cada variable tomará valores diferentes entre las unidades de análisis que se están investigando. Variables Cualitativas Son aquellas variables que expresan categorías o atributos y que por tanto su medida no tiene un carácter numérico, por su naturaleza, estas variables pueden ser: NOMINALES: Sus valores sólo representan un atributo a manera de etiqueta y no contiene información sobre ordenamiento. Ejemplo: Sexo del cliente; Nacionalidad del entrevistado. ORDINALES: Sus valores si representan un ordenamiento del atributo. Ejemplo: Grado de educación del entrevistado, Grado de satisfacción sobre la atención recibida por el cliente…
  • 28.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 28 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Variables Cuantitativas Comprender aquellos conceptos que sí pueden ser expresados en forma numérica por que corresponde a criterios de cantidad. Éstas son de tipo discreto o de tipo Continuo. Variables Cuantitativas discretas Son variables que toman valores que se expresan en números enteros. Ejemplo: • Número de habitaciones. • Número de empleados. • Total de clientes atendidos durante el mes de Julio. Se aprecia que estas variables no pueden tomar valores fraccionarios. Variables Cuantitativas Continuas Son aquellas variables que sus cantidades se expresan con números reales, es decir, tienen parte fraccionaria. Ejemplo: • Ingresos totales en el mes de Julio. • Costo de servicio diario del hotel • Monto pagado por el servicio de electricidad de un hotel en el mes de Julio Observación Es un valor particular que toma la variable estudiada en la unidad de análisis i-ésima Parámetro: Es el indicador resultante de consolidar toda la información referida a la población que se está estudiando, por tanto corresponde a un resultado de una enumeración completa donde: Xi es el valor de la variable y N es el tamaño de la población Ejemplo: • Número de habitaciones promedio en los hoteles de la ciudad de Lima. • Número de empleados promedio de los hoteles de la ciudad de Lima.
  • 29.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 29 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 • Promedio de clientes atendidos por los hoteles de Lima durante el mes de Julio. • Ingresos promedio de los hoteles de la ciudad de Lima en el mes de Julio. Estadístico: Es el indicador resultante de consolidar la información obtenida sólo de una muestra representativa de unidades de análisis en la población. Es un valor que estima al parámetro donde: Xi es el valor de la variable y n es el tamaño de la muestra Ejemplo: Se elige una muestra de los hoteles existente en la ciudad de Lima • Número de habitaciones promedio en la muestra de hoteles. • Número de empleados promedio en la muestra de hoteles. • Promedio de clientes atendidos en la muestra de hoteles. • Ingresos promedio de los hoteles elegidos en la muestra. ORGANIZACION Y PRESENTACION DE DATOS: Tablas de Información Estadística Comprende a resúmenes y consolidaciones de informaciones dispersas que se efectúan con fines de realizar una presentación ordenada y clasificada de resultados de modo que se facilite su análisis e interpretación para la toma de decisiones. Las tablas de información resultan de identificar las necesidades de información por tanto es necesario que para su elaboración se consideren las características que puedan cumplir su objetivo final: Informar. La estructura general de una tabla de información estadística es la siguiente: 1. Número de cuadro Es un código de identificación que permite citarlo cuantas veces sea necesario a lo largo de los comentarios de un informe. 2. Título Corresponde a una descripción resumida de la información estadística que contiene, en general debería responder a las clásicas preguntas: QUÉ, DÓNDE, CÓMO Y CUÁNDO • Qué: ¿Qué información contiene el cuadro?
  • 30.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 30 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 • Dónde: ¿A dónde corresponde la información tabulada? • Cómo: ¿Cómo está arreglada o clasificada la información? • Cuándo: ¿A qué período de tiempo se refiere la información? 3. Encabezamiento Es la descripción resumida sobre contenido de las filas y columnas que contiene el cuadro de información. 4. Cuerpo del cuadro Comprende al contenido numérico de la información del cuadro 5. Notas de pié o llamadas Anote las aclaraciones sobre términos, siglas, abreviaturas usadas. También precisar las unidades de medida y equivalencias que se están utilizando para expresar cantidades. 6. Fuente Se debe anotar el nombre de la institución o de la investigación de donde se han tomado los datos individuales. 7. Elaboración Se anotará el nombre de la unidad responsable de la formulación y presentación del tabulado de información estadística. 8. Fecha Registre la fecha en que se realizó el cuadro para dejar constancia del evento y poder actualizar de ser pertinente Ejemplo: Según información preliminar de la Oficina de Admisión del hotel CONFORT, en el mes de Febrero de 2006 el hotel atendió a los turistas extranjeros siguientes:
  • 31.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 31 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Turista Nacionalidad Sexo 1 Argentina (*) Masculino 2 Argentina (*) Masculino 3 Argentina Masculino 4 Argentina Femenino 5 Argentina Femenino 6 Argentina Femenino 7 Boliviana Masculino 8 Boliviana Masculino 9 Boliviana Femenino 10 Chilena Masculino 11 Chilena Femenino (*) El cliente no acreditó su nacionalidad Elabore una tabla de resultados que consolide la información dispersa en esta base de datos construida por la Oficina de Admisión del hotel CONFORT NÚMERO Cuadro No 01 TÍTULO ¿Qué? Número de turistas extranjeros que fueron atendidos ¿Dónde? en el hotel CONFORT ¿Cómo? según nacionalidad por sexo (1) ¿Cuándo? ( Periodo: Febrero 2006) Nacionalidad Número de Turistas Extranjeros Sexo Masculino Femenino Numero (fi) % (hi) Numero (fi) % (hi) Numero (fi) % (hi) Argentina (2) 6 54.5 3 50.0 3 60.0 Boliviana 3 27.3 2 33.3 1 20.0 Chilena 2 18.2 1 16.7 1 20.0 Total General 11 100.0 6 100.0 5 100.0 NOTAS DE PIE (1) Cifras preliminares registradas al 01.03.2006 (2) Comprende a ciudadanos con nacionalización no acreditada FUENTE Oficina de Admisión del hotel CONFORT RESPONSABLE Elaborado por: Asesores y Consultores S.A. FECHA 01.03.2006
  • 32.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 32 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 1.4 Medidas de tendencia central. Al describir grupos de observaciones, con frecuencia es conveniente resumir la información con un solo número. Este número que, para tal fin, suele situarse hacia el centro de la distribución de datos se denomina medida o parámetro de tendencia central o de centralización. Cuando se hace referencia únicamente a la posición de estos parámetros dentro de la distribución, independientemente de que ésta esté más o menos centrada, se habla de estas medidas como medidas de posición. En este caso se incluyen también los cuantiles entre estas medidas. Son estadígrafos de posición que son interpretados como valores que permiten resumir a un conjunto de datos dispersos, podría asumirse que estas medidas equivalen a un centro de gravedad que adoptan un valor representativo para todo un conjunto de datos predeterminados. Estas medidas son: 1. Promedio Aritmético (Media o simplemente promedio) 2. Mediana 3. Moda Otras medidas de posición son: Cuartiles, Deciles y Percentiles La media aritmética: La media aritmética es el valor obtenido por la suma de todos sus valores dividida entre el número de sumandos. La media resume en un valor las características de una variable teniendo en cuenta todos los casos. Solamente puede utilizarse con variables cuantitativas. Para Datos No Agrupados. El promedio aritmético de un conjunto de valores ( x1 x2 x3 ..... xn ) es: Ejemplo: Durante los últimos 32 días el valor de las compras en periódicos fue: { 5.2, 10.2, 7.0, 7.1, 10.2, 8.3, 9.4, 9.2, 6.5, 7.1, 6.6, 7.8, 6.8, 7.2, 8.4, 9.6, 8.5, 5.7, 6.4, 10.1, 8.2, 9.0, 7.8, 8.2, 5.3, 6.2, 9.1, 8.6, 7.0, 7.7, 8.3, 7.5 } El promedio aritmético del valor de las compras de periódicos es:
  • 33.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 33 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Donde: fi = Frecuencia en la clase k-ésima Xi = Marca de clase en la intervalo k-ésimo Ejemplo: Para los gastos diarios en periódicos del hotel agrupados en una tabla de frecuencia: Intervalo Xi fi hi Fi Hi 10 8 5.2 - 6.1 5.65 3 0.094 3 0.094 6 6.1 - 7.0 6.55 5 0.156 8 0.250 4 7.0 - 7.9 7.45 9 0.281 17 0.531 2 7.9 - 8.8 8.35 7 0.219 24 0.750 0 8.8 - 9.7 9.25 5 0.156 29 0.906 6.55 7.4 5 8.3 5 9.25 10.1 5 5.65 9.7 - 10.6 10.15 3 0.094 32 1.000 TOTAL 32 1.000 7.87 El promedio aritmético es: Durante los 32 días el hotel tuvo un gasto promedio en periódicos de 7.87 soles
  • 34.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 34 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Las principales propiedades de la media aritmética son:  Su cálculo es muy sencillo y en él intervienen todos los datos.  Su valor es único para una serie de datos dada.  Se usa con frecuencia para comparar poblaciones, aunque es más apropiado acompañarla de una medida de dispersión.  Se interpreta como "punto de equilibrio" o "centro de masas" del conjunto de datos, ya que tiene la propiedad de equilibrar las desviaciones de los datos respecto de su propio valor:  Minimiza las desviaciones cuadráticas de los datos respecto de cualquier valor prefijado,   esto es, el valor de es mínimo cuando . Este resultado se conoce como Teorema de König. Esta propiedad permite interpretar uno de los parámetros de dispersión más importantes: la varianza.  Se ve afectada por transformaciones afines (cambios de origen y escala), esto es, si xi' = axi + b entonces , donde es la media aritmética de los xi', para i = 1, ..., n y a y b números reales.  Es poco sensible a fluctuaciones muestrales, por lo que es un parámetro muy útil en inferencia estadística. Inconvenientes de su uso  Este parámetro, aún teniendo múltiples propiedades que aconsejan su uso en situaciones muy diversas, tiene también algunos inconvenientes, como son: Para datos agrupados en intervalos (variables continuas) su valor oscila en función de la cantidad y amplitud de los intervalos que se consideren.  Es una medida a cuyo significado afecta sobremanera la dispersión, de modo que cuanto menos homogéneos sean los datos, menos información proporciona. Dicho de otro modo, poblaciones muy distintas en su composición pueden tener la misma media.[4] Por ejemplo, un equipo de baloncesto con cinco jugadores de igual estatura, 1,95 m, evidentemente, tendría una estatura media de 1,95 m, valor que representa fielmente a esta población homogénea. Sin embargo, un equipo de jugadores de estaturas más heterogéneas, 2,20 m, 2,15 m, 1,95 m, 1,75 m y 1,70 m, por ejemplo, tendría también, como puede comprobarse, una estatura media de 1,95 m, valor que no representa a casi ninguno de sus componentes.  En el cálculo de la media no todos los valores contribuyen de la misma manera. Los
  • 35.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 35 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 valores altos tienen más peso que los valores cercanos a cero. Por ejemplo, en el cálculo del salario medio de un empresa, el salario de un alto directivo que gane 1.000.000 de € tiene tanto peso como el de diez empleados "normales" que ganen 1.000 €. En otras palabras, se ve muy afectada por valores extremos.  No se puede determinar si en una distribución de frecuencias hay intervalos de clase abiertos. La mediana Es el valor que ocupa la posición central de un conjunto de observaciones ordenadas. El 50% de las observaciones son mayores que este valor y el otro 50% son menores. Para Datos No agrupados. Para Datos Agrupados. Donde: Li = Límite Inferior del intervalo que contiene a la Mediana Fi-1 = Frecuencia Acumulada en la clase anterior i-ésima fi = Frecuencia en la clase que contiene a la mediana Hi-1 = Frecuencia Relativa Acumulada en la clase anterior i-ésima hi = Frecuencia Relativa en la clase que contiene a la mediana c =Tamaño del intervalo de clase.
  • 36.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 36 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Ejemplo: Para los gastos diarios en periódicos del hotel en una tabla de frecuencia: Intervalo Xi fi hi Fi Hi 10 8 5.2 - 6.1 5.65 3 0.094 3 0.094 6 6.1 - 7.0 6.55 5 0.156 8 0.250 4 7.0 - 7.9 7.45 9 0.281 17 0.531 2 7.9 - 8.8 8.35 7 0.219 24 0.750 0 8.8 - 9.7 9.25 5 0.156 29 0.906 6.55 7.45 8.35 9.25 10.1 5 5.65 9.7 - 10.6 10.15 3 0.094 32 1.000 TOTAL 32 1.000 Me=7.8 El gasto diario en periódicos más frecuente es 7.6 soles Las principales propiedades de la mediana son:  Es menos sensible que la media a oscilaciones de los valores de la variable. Un error de transcripción en la serie del ejemplo anterior en, pongamos por caso, el último número, deja a la mediana inalterada.  Como se ha comentado, puede calcularse para datos agrupados en intervalos, incluso cuando alguno de ellos no está acotado.  No se ve afectada por la dispersión. De hecho, es más representativa que la media aritmética cuando la población es bastante heterogénea. Suele darse esta
  • 37.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 37 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 circunstancia cuando se resume la información sobre los salarios de un país o una empresa. Hay unos pocos salarios muy altos que elevan la media aritmética haciendo que pierda representatividad respecto al grueso de la población. Sin embargo, alguien con el salario "mediano" sabría que hay tanta gente que gana más dinero que él, como que gana menos. Sus principales inconvenientes son que en el caso de datos agrupados en intervalos, su valor varía en función de la amplitud de estos. Por otra parte, no se presta a cálculos algebraicos tan bien como la media aritmética. La moda Es el valor, clase o categoría que ocurre con mayor frecuencia y sus características son: - Puede no existir o existir más de una moda - Su valor no se ve afectado por los valores extremos en los datos - Se utiliza para analizar tanto la información cualitativa como la cuantitativa - Es una medida “inestable” cuando en número de datos es reducido. · Para Datos No Agrupados. Para Datos Agrupados. Donde: d1=(fi - fi-1) y d1=(fi - i+1) fi=Valor de la mayor frecuencia
  • 38.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 38 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Ejemplo: El gasto diario en periódicos del hotel “AAA” agrupados en una tabla de frecuencia: Intervalo Xi fi hi Fi Hi 10 8 5.2 - 6.1 5.65 3 0.094 3 0.094 6 6.1 - 7.0 6.55 5 0.156 8 0.250 4 7.0 - 7.9 7.45 9 0.281 17 0.531 2 7.9 - 8.8 8.35 7 0.219 24 0.750 0 8.8 - 9.7 9.25 5 0.156 29 0.906 10.1 5 5.65 6.55 7.45 8.35 9.25 9.7 - 10.6 10.15 3 0.094 32 1.000 TOTAL 32 1.000 Mo=7.6 d1= 9-5 = 4 d2= 9-7 = 2 c= 0.9 = Tamaño de Intervalo de Clase La moda estimada utilizando estos datos agrupados es: Utilizando las frecuencias relativas, la moda estimada es: 7.6 Sus principales propiedades son:  Cálculo sencillo.  Interpretación muy clara.  Al depender sólo de las frecuencias, puede calcularse para variables cualitativas. Es por ello el parámetro más utilizado cuando al resumir una población no es posible realizar otros cálculos, por ejemplo, cuando se enumeran en medios periodísticos las características más frecuentes de determinado sector social. Esto se conoce informalmente como "retrato robot".
  • 39.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 39 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Inconvenientes  Su valor es independiente de la mayor parte de los datos, lo que la hace muy sensible a variaciones muestrales. Por otra parte, en variables agrupadas en intervalos, su valor depende excesivamente del número de intervalos y de su amplitud.  Usa muy pocas observaciones, de tal modo que grandes variaciones en los datos fuera de la moda, no afectan en modo alguno a su valor.  No siempre se sitúa hacia el centro de la distribución.  Puede haber más de una moda en el caso en que dos o más valores de la variable presenten la misma frecuencia (distribuciones bimodales o multimodales). 1.5 Medidas de dispersión. Las medidas de dispersión, también llamadas medidas de variabilidad, muestran la variabilidad de una distribución, indicando por medio de un número, si las diferentes puntuaciones de una variable están muy alejadas de la media. Cuanto mayor sea ese valor, mayor será la variabilidad, cuanto menor sea, más homogénea será a la media. Así se sabe si todos los casos son parecidos o varían mucho entre ellos. Para calcular la variabilidad que una distribución tiene respecto de su media, se calcula la media de las desviaciones de las puntuaciones respecto a la media aritmética. Pero la suma de las desviaciones es siempre cero, así que se adoptan dos clases de estrategias para salvar este problema. Una es tomando las desviaciones en valor absoluto (Desviación media) y otra es tomando las desviaciones al cuadrado (Varianza). Rango estadístico El rango o recorrido estadístico es la diferencia entre el valor mínimo y el valor máximo en un grupo de números aleatorios. Se le suele simbolizar con R. Requisitos del rango Ordenamos los números según su tamaño. Restamos el valor mínimo del valor máximo. Ejemplo Para una muestra (8,7,6,9,4,5), el dato menor es 4 y el dato mayor es 9 (Valor unitario inmediatamente posterior al dato mayor menos el dato menor). Sus valores se encuentran en un rango de: Rango = (9-4) =5
  • 40.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 40 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Varianza La varianza (también denominada variancia, aunque esta denominación es menos utilizada) es una medida estadística que mide la dispersión de los valores respecto a un valor central (media), es decir, la media de las diferencias cuadráticas de las puntuaciones respecto a su media aritmética. Suele ser representada con la letra griega σ o una V en mayúscula. Para datos no agruapados Para datos agrupados Propiedades  La varianza es siempre positiva o 0:  Si a los datos de la distribución les sumamos una cantidad constante la varianza no se modifica. Yi = Xi + k c  Si a los datos de la distribución les multiplicamos una constante, la varianza queda multiplicada por el cuadrado de esa constante.  Propiedad distributiva: V(X + Y) = V(X) + V(Y)
  • 41.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 41 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Ejemplos: Datos no agrupados: Para datos agrupados: Desviación típica La varianza a veces no se interpreta claramente, ya que se mide en unidades cuadráticas. Para evitar ese problema se define otra medida de dispersión, que es la desviación típica, o desviación estándar, que se halla como la raíz cuadrada positiva de la varianza. La desviación típica informa sobre la dispersión de los datos respecto al valor de la media; cuanto mayor sea su valor, más dispersos estarán los datos. Esta medida viene representada en la mayoría de los casos por S, dado que es su inicial de su nominación en inglés. Desviación típica muestral === Desviación típica poblacional === anal.x
  • 42.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 42 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Ejemplo Con Scilab este cálculo se hace de la siguiente manera: QUE -->x= [17 14 2 5 8 7 6 8 5 4 3 15 9] x = 17. 14. 2. 5. 8. 7. 6. 8. 5. 4. 3. 15. 9. -->stdev(x) ans = 4.716311 --> Primero hemos declarado un vector con nombre X, donde introduzco los números de la serie. Luego con el comando stdev se hallará la desviación típica.
  • 43.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 43 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Unidad 2: Distribuciones muestrales Propósito:  Que el alumno aplique el conocimiento básico para aplicarlo en el estudio de las poblaciones y las muestras.  Identificar dentro de un caso, los datos agrupados y no agrupados para su concentración y estudio Competencia específica: Hacer uso de las herramientas y conceptos indispensables para la representación numérica y gráfica de los datos recopilados y analizados dentro de un entorno. Introducción: En estudios pasados de Estadísticas centramos nuestra atención en técnicas que describen los datos, tales como organizar datos en distribuciones de frecuencias y calcular diferentes promedios y medidas de variabilidad. Estábamos concentrados en describir algo que ya ocurrió. También comenzamos a establecer los fundamentos de la estadística inferencial, con el estudio de los conceptos básicos de la probabilidad, las distribuciones de probabilidad discretas y continuas. Distribuciones que son principalmente generadas para evaluar algo que podría ocurrir. Ahora veremos otro tipo de distribución de probabilidad, que se laman distribuciones muestrales. ¿Por qué muestrear? Muestrear es una forma de evaluar la calidad de un producto, la opinión de los consumidores, la eficacia de un medicamento o de un tratamiento. Muestra es una parte de la población. Población es el total de resultados de un experimento. Hacer una conclusión sobre el grupo entero (población) basados en información estadística obtenida de un pequeño grupo (muestra) es hacer una inferencia estadística. A menudo no es factible estudiar la población entera. Algunas de las razones por lo que es necesario muestrear son: 1. La naturaleza destructiva de algunas pruebas 2. La imposibilidad física de checar todos los elementos de la población. 3. El costo de estudiar a toda la población es muy alto. 4. El resultado de la muestra es muy similar al resultado de la población. 5. El tiempo para contactar a toda la población es inviable. Distribución Muestral de las Medias El ejemplo de los ratings de eficiencia muestra como las medias de muestras de un tamaño específico varían de muestra a muestra. La media de la primera muestra fue 101 y la media de la segunda fue 99.5. En una tercera muestra probablemente resultaría una media
  • 44.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 44 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 diferente. Si organizamos las medias de todas las posibles muestras de tamaño 2 en una distribución de probabilidad, obtendremos la distribución muestral de las medias. Distribución muestral de las medias. Es una distribución de probabilidad de todas las posibles medias muestrales, de un tamaño de muestra dado, seleccionadas de una población. 2.1 Distribución muestral de medias de varianza desconocida Si recordamos a la distribución normal, esta es una distribución continua, en forma de campana en donde la media, la mediana y la moda tienen un mismo valor y es simétrica. Con esta distribución podíamos calcular la probabilidad de algún evento relacionado con la variable aleatoria, mediante la siguiente fórmula: En donde z es una variable estandarizada con media igual a cero y varianza igual a uno. Con esta fórmula se pueden a hacer los cálculos de probabilidad para cualquier ejercicio, utilizando la tabla de la distribución z. Sabemos que cuando se extraen muestras de tamaño mayor a 30 o bien de cualquier tamaño de una población normal, la distribución muestral de medias tiene un comportamiento aproximadamente normal, por lo que se puede utilizar la formula de la distribución normal con y , entonces la fórmula para calcular la probabilidad del comportamiento del estadístico, en este caso la media de la muestra , quedaría de la siguiente manera: y para poblaciones finitas y muestro con reemplazo: Ejemplo: Una empresa eléctrica fabrica focos que tienen una duración que se distribuye aproximadamente en forma normal, con media de 800 horas y desviación estándar de 40 horas. Encuentre la probabilidad de que una muestra aleatoria de 16 focos tenga una vida promedio de menos de 775 horas.
  • 45.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 45 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Solución: Este valor se busca en la tabla de z La interpretación sería que la probabilidad de que la media de la muestra de 16 focos sea menor a 775 horas es de 0.0062. Ejemplo: Las estaturas de 1000 estudiantes están distribuidas aproximadamente en forma normal con una media de 174.5 centímetros y una desviación estándar de 6.9 centímetros. Si se extraen 200 muestras aleatorias de tamaño 25 sin reemplazo de esta población, determine: a. El número de las medias muestrales que caen entre 172.5 y 175.8 centímetros. b. El número de medias muestrales que caen por debajo de 172 centímetros. Solución: Como se puede observar en este ejercicio se cuenta con una población finita y un muestreo sin reemplazo, por lo que se tendrá que agregar el factor de corrección. Se procederá a calcular el denominador de Z para sólo sustituirlo en cada inciso. a.
  • 46.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 46 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 (0.7607)(200)=152 medias muestrales b. (0.0336)(200)= 7 medias muestrales
  • 47.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 47 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Con varianza conocida: Suponga que la tabla siguiente muestra la antiguedad en años en el trabajo de tres maestros universitarios de matemáticas: Maestro de matemáticas Antiguedad A 6 B 4 C 2 Suponga además que se seleccionan muestras aleatorias de tamaño 2 sin reemplazo. Calcule la antigüedad media para cada muestra, la media de la distribución muestral y el error estándar, o la desviación estándar de la distribución muestral. Solución: Se pueden tener 3C2 =3 muestras posibles. La tabla lista todas las muestras posibles de tamaño 2, con sus respectivas medias muestrales. Muestras Antigüedad Media Muestral A,B (6,4) 5 A,C (6,2) 4 B,C (4,2) 3 La media poblacional es: La media de la distribución muestral es: La desviación estándar de la población es:
  • 48.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 48 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 El error estándar o la desviación estándar de la distribución muestral es: Si utilizamos la fórmula del error estándar sin el factor de correción tendriamos que: Por lo que observamos que este valor no es el verdadero. Agregando el factor de corrección obtendremos el valor correcto: El diagrama de flujo resume las decisiones que deben tomarse cuando se calcula el valor del error estándar:
  • 49.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 49 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 2.2 Teorema del límite central. Un importante resultado en Probabilidades y Estadística es el llamado Teorema del Límite Central que dice que si de una población infinita con media  y varianza  2 se extraen muestras aleatorias de tamaño n, entonces la media muestral se comporta aproximadamente como una variable aleatoria normal con media igual a la media poblacional y con varianza igual a la varianza poblacional dividida por el tamaño de la muestra, siempre que n sea grande. Lo importante de este resultado es que es independiente de la forma de la distribución de la población. Es decir, Cuando n es grande. Estandarizando, esto es equivalente a: Si la población es bastante simétrica entonces, un tamaño de muestra n de aproximadamente 30 es suficiente para una buena aproximación a la normal. Si la población es bastante asimétrica, entonces el tamaño de muestra debe ser mucho más grande. En MINITAB se puede tratar de corroborar el Teorema del Límite Central a través de un proceso de simulación. Ejemplo Considerar una población que consiste de 3, 4, 6, 8, 10, 11, 12, 15, 20. Primero calculamos la media y desviación estándar de dicha población. Tr Mean StDev SE Mean 9.89 5.42 1.81 Variable Min Max Q1 Q3 C1 3.00 20.00 5.00 13.50 Notar que   9.89 y   5.42. Segundo, extraemos 30 muestras de tamaño 4 de dicha población, ejecutando 4 veces la siguiente secuencia CalcRandom DataSample from columns. Guardar cada una de las 4 observaciones de las muestras en 4 columnas distintas: Obs1, Obs2, Obs3, y Obs4.
  • 50.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 50 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 2.3 Distribución muestral de proporción. Existen ocasiones en las cuales no estamos interesados en la media de la muestra, sino que queremos investigar la proporción de artículos defectuosos o la proporción de alumnos reprobados en la muestra. La distribución muestral de proporciones es la adecuada para dar respuesta a estas situaciones. Esta distribución se genera de igual manera que la distribución muestral de medias, a excepción de que al extraer las muestras de la población se calcula el estadístico proporción (p=x/n en donde "x" es el número de éxitos u observaciones de interés y "n" el tamaño de la muestra) en lugar del estadístico media. Una población binomial está estrechamente relacionada con la distribución muestral de proporciones; una población binomial es una colección de éxitos y fracasos, mientras que una distribución muestral de proporciones contiene las posibilidades o proporciones de todos los números posibles de éxitos en un experimento binomial, y como consecuencia de esta relación, las afirmaciones probabilísticas referentes a la proporción muestral pueden evaluarse usando la aproximación normal a la binomial, siempre que np 5 y n(1-p) 5. Cualquier evento se puede convertir en una proporción si se divide el número obtenido entre el número de intentos. Generación de la Distribución Muestral de Proporciones Suponga que se cuenta con un lote de 12 piezas, el cual tiene 4 artículos defectuosos. Se van a seleccionar 5 artículos al azar de ese lote sin reemplazo. Genere la distribución muestral de proporciones para el número de piezas defectuosas. Como se puede observar en este ejercicio la Proporción de artículos defectuosos de esta población es 4/12=1/3. Por lo que podemos decir que el 33% de las piezas de este lote están defectuosas. El número posible de muestras de tamaño 5 a extraer de una población de 12 elementos es 12C5=792, las cuales se pueden desglosar de la siguiente manera:
  • 51.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 51 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Artículos Buenos Artículos Malos Proporción de artículos defectuoso Número de maneras en las que se puede obtener la muestra 1 4 4/5=0.8 8C1*4C4=8 2 3 3/5=0.6 8C2*4C3=112 3 2 2/5=0.4 8C3*4C2=336 4 1 1/5=0.2 8C4*4C1=280 5 0 0/5=0 8C5*4C0=56 Total 792 Para calcular la media de la distribución muestral de proporciones se tendría que hacer la sumatoria de la frecuencia por el valor de la proporción muestral y dividirla entre el número total de muestras. Esto es: Como podemos observar la media de la distribución muestral de proporciones es igual a la Proporción de la población. p = P También se puede calcular la desviación estándar de la distribución muestral de proporciones: La varianza de la distribución binomial es 2= npq, por lo que la varianza de la distribución muestral de proporciones es 2 p =(Pq)/n. Si se sustituten los valores en esta fórmula tenemos que: , este valor no coincide con el de 0.1681, ya que nos falta agregar el factor de corrección para una población finita y un muestreo sin reemplazo:
  • 52.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 52 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 La fórmula que se utilizará para el cálculo de probabilidad en una distribución muestral de proporciones está basada en la aproximación de la distribución normal a la binomial . Esta fórmula nos servirá para calcular la probabilidad del comportamiento de la proporción en la muestra. A esta fórmula se le puede agregar el factor de corrección de si se cumple con las condiciones necesarias. Ejemplo: Se ha determinado que 60% de los estudiantes de una universidad grande fuman cigarrillos. Se toma una muestra aleatoria de 800 estudiantes. Calcule la probabilidad de que la proporción de la muestra de la gente que fuma cigarrillos sea menor que 0.55. Solución: Este ejercicio se puede solucionar por dos métodos. El primero puede ser con la aproximación de la distribución normal a la binomial y el segundo utilizando la fórmula de la distribución muestral de proporciones.
  • 53.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 53 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Aproximación de la distribución normal a la binomial: Datos: n=800 estudiantes p=0.60 x= (.55)(800) = 440 estudiantes p(x< 440) = ? Media= np= (800)(0.60)= 480 p(x< 440) = 0.0017. Este valor significa que existe una probabilidad del 0.17% de que al extraer una muestra de 800 estudiantes, menos de 440 fuman cigarrillos. Distribución Muestral de Proporciones Datos: n=800 estudiantes P=0.60 p= 0.55 p(p< 0.55) = ?
  • 54.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 54 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Observe que este valor es igual al obtenido en el método de la aproximación de la distribución normal a la binomial, por lo que si lo buscamos en la tabla de "z" nos da la misma probabilidad de 0.0017. También se debe de tomar en cuenta que el factor de corrección de 0.5 se esta dividiendo entre el tamaño de la muestra, ya que estamos hablando de una proporción. La interpretación en esta solución, estaría enfocada a la proporción de la muestra, por lo que diríamos que la probabilidad de que al extraer una muestra de 800 estudiantes de esa universidad, la proporción de estudiantes que fuman cigarrillos sea menor al 55% es del 0.17%. Ejemplo: Un medicamento para malestar estomacal tiene la advertencia de que algunos usuarios pueden presentar una reacción adversa a él, más aún, se piensa que alrededor del 3% de los usuarios tienen tal reacción. Si una muestra aleatoria de 150 personas con malestar estomacal usa el medicamento, encuentre la probabilidad de que la proporción de la muestra de los usuarios que realmente presentan una reacción adversa, exceda el 4%. a. Resolverlo mediante la aproximación de la normal a la binomial b. Resolverlo con la distribución muestral de proporciones a. Aproximación de la distribución normal a la binomial: Datos: n=150 personas p=0.03 x= (0.04)(150) = 6 personas
  • 55.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 55 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 p(x>6) = ? Media = np= (150)(0.03)= 4.5 p(x>6) = 0.1685. Este valor significa que existe una probabilidad del 17% de que al extraer una muestra de 150 personas, mas de 6 presentarán una reacción adversa. b. Distribución Muestral de Proporciones Datos: n=150 personas P=0.03 p= 0.04 p(p>0.04) = ?
  • 56.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 56 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Observe que este valor es igual al obtenido y la interpretación es: existe una probabilidad del 17% de que al tomar una muestra de 150 personas se tenga una proporción mayor de 0.04 presentando una reacción adversa. Ejemplo: Se sabe que la verdadera proporción de los componentes defectuosos fabricados por una firma es de 4%, y encuentre la probabilidad de que una muestra aleatoria de tamaño 60 tenga: a. Menos del 3% de los componentes defectuosos. b. Más del 1% pero menos del 5% de partes defectuosas. Solución: a. Datos: n= 60 artículos P=0.04 p= 0.03 p(p<0.03) = ?
  • 57.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 57 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 La probabilidad de que en una muestra de 60 artículos exista una proporción menor de 0.03 artículos defectuosos es de 0.2327. b. Datos: n= 60 artículos P=0.04 p= 0.01 y 0.05 p(0.01<p<0.05) = ? 2.3 Distribución muestral diferencia de medias y de proporciones. Distribución Muestral de Diferencia de Medias Suponga que se tienen dos poblaciones distintas, la primera con media 1 y desviación estándar 1, y la segunda con media 2 y desviación estándar 2. Más aún, se elige una muestra aleatoria de tamaño n1 de la primera población y una muestra independiente aleatoria de tamaño n2 de la segunda población; se calcula la media muestral para cada muestra y la diferencia entre dichas medias. La colección de todas esas diferencias se llama distribución muestral de las diferencias entre medias o la distribución muestral del estadístico
  • 58.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 58 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 La distribución es aproximadamente normal para n1 30 y n2 30. Si las poblaciones son normales, entonces la distribución muestral de medias es normal sin importar los tamaños de las muestras. En ejercicios anteriores se había demostrado que y que , por lo que no es difícil deducir que y que . La fórmula que se utilizará para el cálculo de probabilidad del estadístico de diferencia de medias es: Ejemplo: En un estudio para comparar los pesos promedio de niños y niñas de sexto grado en una escuela primaria se usará una muestra aleatoria de 20 niños y otra de 25 niñas. Se sabe que tanto para niños como para niñas los pesos siguen una distribución normal. El promedio de los pesos de todos los niños de sexto grado de esa escuela es de 100 libras y su desviación estándar es de 14.142, mientras que el promedio de los pesos de todas las niñas del sexto grado de esa escuela es de 85 libras y su desviación estándar es de 12.247 libras. Si representa el promedio de los pesos de 20 niños y es el promedio de los pesos de una muestra de 25 niñas, encuentre la probabilidad de que el promedio de los pesos de los 20 niños sea al menos 20 libras más grande que el de las 25 niñas.
  • 59.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 59 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Solución: Datos: 1 = 100 libras 2 = 85 libras 1 = 14.142 libras 2 = 12.247 libras n1 = 20 niños n2 = 25 niñas = ? Por lo tanto, la probabilidad de que el promedio de los pesos de la muestra de niños sea al menos 20 libras más grande que el de la muestra de las niñas es 0.1056. Ejemplo: Uno de los principales fabricantes de televisores compra los tubos de rayos catódicos a dos compañías. Los tubos de la compañía A tienen una vida media de 7.2 años con una desviación estándar de 0.8 años, mientras que los de la B tienen una vida media de 6.7 años con una desviación estándar de 0.7. Determine la probabilidad de que una muestra aleatoria de 34 tubos de la compañía A tenga una vida promedio de al menos un año más que la de una muestra aleatoria de 40 tubos de la compañía B. Solución:
  • 60.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 60 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Datos: A = 7.2 años B = 6.7 años A = 0.8 años B = 0.7 años nA = 34 tubos nB = 40 tubos = ? Ejemplo: Se prueba el rendimiento en km/L de 2 tipos de gasolina, encontrándose una desviación estándar de 1.23km/L para la primera gasolina y una desviación estándar de 1.37km/L para la segunda gasolina; se prueba la primera gasolina en 35 autos y la segunda en 42 autos. a. ¿Cuál es la probabilidad de que la primera gasolina de un rendimiento promedio mayor de 0.45km/L que la segunda gasolina? b. ¿Cuál es la probabilidad de que la diferencia en rendimientos promedio se encuentre entre 0.65 y 0.83km/L a favor de la gasolina 1?. Solución:
  • 61.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 61 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 En este ejercicio no se cuenta con los parámetros de las medias en ninguna de las dos poblaciones, por lo que se supondrán que son iguales. Datos: 1 = 1.23 Km/Lto 2 = 1.37 Km/Lto n1 = 35 autos n2 = 42 autos a. = ? b. ?
  • 62.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 62 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 La probabilidad de que la diferencia en rendimientos promedio en las muestras se encuentre entre 0.65 y 0.83 Km/Lto a favor de la gasolina 1 es de 0.0117. Distribución Muestral de Diferencia de Proporciones Muchas aplicaciones involucran poblaciones de datos cualitativos que deben compararse utilizando proporciones o porcentajes. A continuación se citan algunos ejemplos:  Educación.- ¿Es mayor la proporción de los estudiantes que aprueban matemáticas que las de los que aprueban inglés?  Medicina.- ¿Es menor el porcentaje de los usuarios del medicamento A que presentan una reacción adversa que el de los usuarios del fármaco B que también presentan una reacción de ese tipo?  Administración.- ¿Hay diferencia entre los porcentajes de hombres y mujeres en posiciones gerenciales.  Ingeniería.- ¿Existe diferencia entre la proporción de artículos defectuosos que genera la máquina A a los que genera la máquina B? Cuando el muestreo procede de dos poblaciones binomiales y se trabaja con dos proporciones muestrales, la distribución muestral de diferencia de proporciones es aproximadamente normal para tamaños de muestra grande (n1p1 5, n1q1 5,n2p2 5 y n2q2 5). Entonces p1 y p2 tienen distribuciones muestrales aproximadamente normales, así que su diferencia p1-p2 también tiene una distribución muestral aproximadamente normal.
  • 63.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 63 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Cuando se estudió a la distribución muestral de proporciones se comprobó que y que , por lo que no es difícil deducir que y que . La fórmula que se utilizará para el calculo de probabilidad del estadístico de diferencia de proporciones es: Ejemplo: Los hombres y mujeres adultos radicados en una ciudad grande del norte difieren en sus opiniones sobre la promulgación de la pena de muerte para personas culpables de asesinato. Se cree que el 12% de los hombres adultos están a favor de la pena de muerte, mientras que sólo 10% de las mujeres adultas lo están. Si se pregunta a dos muestras aleatorias de 100 hombres y 100 mujeres su opinión sobre la promulgación de la pena de muerte, determine la probabilidad de que el porcentaje de hombres a favor sea al menos 3% mayor que el de las mujeres. Solución: Datos: PH = 0.12 PM = 0.10 nH = 100 nM = 100 p(pH-pM 0.03) = ? Se recuerda que se está incluyendo el factor de corrección de 0.5 por ser una distribución binomial y se está utilizando la distribución normal.
  • 64.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 64 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Se concluye que la probabilidad de que el porcentaje de hombres a favor de la pena de muerte, al menos 3% mayor que el de mujeres es de 0.4562. Ejemplo: Una encuesta del Boston College constó de 320 trabajadores de Michigan que fueron despedidos entre 1979 y 1984, encontró que 20% habían estado sin trabajo durante por lo menos dos años. Supóngase que tuviera que seleccionar otra muestra aleatoria de 320 trabajadores de entre todos los empleados despedidos entre 1979 y 1984. ¿Cuál sería la probabilidad de que su porcentaje muestral de trabajadores sin empleo durante por lo menos dos años, difiera del porcentaje obtenido en la encuesta de Boston College, en 5% o más? Solución: En este ejercicio se cuenta únicamente con una población, de la cual se están extrayendo dos muestras y se quiere saber la probabilidad de la diferencia de los porcentajes en esas dos muestras, por lo que se debe de utilizar la distribución muestral de proporciones con P1= P2, ya que es una misma población. Otra de las situaciones con la cual nos topamos es que desconocemos la proporción de trabajadores despedidos entre 1979 y 1984 que estuvieron desempleados por un período de por lo menos dos años, sólo se conoce la p1= 0.20 ya que al tomar una muestra de 320 trabajadores se observó esa proporción. En la fórmula de la distribución muestral de proporciones para el cálculo de probabilidad se necesita saber las proporciones de las poblaciones, las cuales en este ejercicio las desconocemos, por lo que se utilizará el valor de 0.20 como una estimación puntual de P. En el siguiente tema se abordará el tema de estimación estadística y se comprenderá el porque estamos utilizando de esa manera el dato.
  • 65.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 65 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 También debe de comprenderse la pregunta que nos hace este problema, ¿cuál sería la probabilidad de que su porcentaje muestral de trabajadores sin empleo durante por lo menos dos años, difiera del porcentaje obtenido en la encuesta de Boston College, en 5% o más?, la palabra difiera quiere decir que puede existir una diferencia a favor de la muestra uno, o a favor de la muestra dos, por lo que se tendrán que calcular dos áreas en la distribución y al final sumarlas. Datos: p1 = 0.20 n1 = 320 trabajadores n2 = 320 trabajadores P1 = P2 La probabilidad de que su proporcion muestral de trabajadores sin empleo durante por lo menos dos años, difiera del porcentaje obtenido en la encuesta de Boston College, en 0.05 o más es de 0.1260.
  • 66.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 66 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Ejemplo: Se sabe que 3 de cada 6 productos fabricados por la máquina 1 son defectuosos y que 2 de cada 5 objetos fabricados por la máquina 2 son defectuosos; se toman muestras de 120 objetos de cada máquina: a. ¿cuál es la probabilidad de que la proporción de artículos defectuosos de la máquina 2 rebase a la máquina 1 en por lo menos 0.10? b. ¿cuál es la probabilidad de que la proporción de artículos defectuosos de la máquina 1 rebase a la máquina 2 en por lo menos 0.15? Solución: Datos: P1 = 3/6 = 0.5 P2 = 2/5 = 0.4 n1 = 120 objetos n2 = 120 objetos a. p(p2-p1 0.10) = ? Otra manera de hacer este ejercicio es poner P1-P2:
  • 67.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 67 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 La probabilidad de que exista una diferencia de proporciones de artículos defectuosos de por lo menos 10% a favor de la máquina 2 es de 0.0011. b. p(p1-p2 0.15)=? La probabilidad de que exista una diferencia de proporciones de artículos defectuosos de por lo menos 15% a favor de la máquina 1 es de 0.2357.
  • 68.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 68 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 2.5 Distribución Muestral Diferencia Medias. Suponga que se tienen dos poblaciones distintas, la primera con media 1 y desviación estándar 1, y la segunda con media 2 y desviación estándar 2. Más aún, se elige una muestra aleatoria de tamaño n1 de la primera población y una muestra independiente aleatoria de tamaño n2 de la segunda población; se calcula la media muestral para cada muestra y la diferencia entre dichas medias. La colección de todas esas diferencias se llama distribución muestral de las diferencias entre medias o la distribución muestral del estadístico La distribución es aproximadamente normal para n1 30 y n2 30. Si las poblaciones son normales, entonces la distribución muestral de medias es normal sin importar los tamaños de las muestras. En ejercicios anteriores se había demostrado que y que , por lo que no es difícil deducir que y que . La fórmula que se utilizará para el calculo de probabilidad del estadístico de diferencia de medias es:
  • 69.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 69 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Ejemplo: En un estudio para comparar los pesos promedio de niños y niñas de sexto grado en una escuela primaria se usará una muestra aleatoria de 20 niños y otra de 25 niñas. Se sabe que tanto para niños como para niñas los pesos siguen una distribución normal. El promedio de los pesos de todos los niños de sexto grado de esa escuela es de 100 libras y su desviación estándar es de 14.142, mientras que el promedio de los pesos de todas las niñas del sexto grado de esa escuela es de 85 libras y su desviación estándar es de 12.247 libras. Si representa el promedio de los pesos de 20 niños y es el promedio de los pesos de una muestra de 25 niñas, encuentre la probabilidad de que el promedio de los pesos de los 20 niños sea al menos 20 libras más grande que el de las 25 niñas. Solución: Datos: 1 = 100 libras 2 = 85 libras 1 = 14.142 libras 2 = 12.247 libras n1 = 20 niños n2 = 25 niñas = ? Por lo tanto, la probabilidad de que el promedio de los pesos de la muestra de niños sea al menos 20 libras más grande que el de la muestra de las niñas es 0.1056.
  • 70.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 70 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Ejemplo: Uno de los principales fabricantes de televisores compra los tubos de rayos catódicos a dos compañías. Los tubos de la compañía A tienen una vida media de 7.2 años con una desviación estándar de 0.8 años, mientras que los de la B tienen una vida media de 6.7 años con una desviación estándar de 0.7. Determine la probabilidad de que una muestra aleatoria de 34 tubos de la compañía A tenga una vida promedio de al menos un año más que la de una muestra aleatoria de 40 tubos de la compañía B. Solución: Datos: A = 7.2 años B = 6.7 años A = 0.8 años B = 0.7 años nA = 34 tubos nB = 40 tubos = ?
  • 71.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 71 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Ejemplo: Se prueba el rendimiento en km/L de 2 tipos de gasolina, encontrándose una desviación estándar de 1.23km/L para la primera gasolina y una desviación estándar de 1.37km/L para la segunda gasolina; se prueba la primera gasolina en 35 autos y la segunda en 42 autos. a. ¿Cuál es la probabilidad de que la primera gasolina de un rendimiento promedio mayor de 0.45km/L que la segunda gasolina? b. ¿Cuál es la probabilidad de que la diferencia en rendimientos promedio se encuentre entre 0.65 y 0.83km/L a favor de la gasolina 1?. Solución: En este ejercicio no se cuenta con los parámetros de las medias en ninguna de las dos poblaciones, por lo que se supondrán que son iguales. Datos: 1 = 1.23 Km/Lto 2 = 1.37 Km/Lto n1 = 35 autos n2 = 42 autos a. = ?
  • 72.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 72 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 b. ? La probabilidad de que la diferencia en rendimientos promedio en las muestras se encuentre entre 0.65 y 0.83 Km/Lto a favor de la gasolina 1 es de 0.0117. 2.6 Distribución Muestral de la Varianza. A veces lo que nos interesa es estudiar la variabilidad de las medidas. La variabilidad se suele medir con la varianza o con la desviación típica y el estadístico empleado es la varianza muestral:      n i i n x x S 1 2 2 1 ) ( Para poder trabajar con ella necesitamos conocer la función de distribución asociada, para esto estudiaremos la distribución chi cuadrado.
  • 73.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 73 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Se dice que una variable aleatoria X sigue una distribución ji cuadrado con k grados de libertad, cuando su función de densidad está dada por la fórmula: Dado lo complicado de la expresión utilizaremos una tabla para conocer los valores que nos interesen. Propiedades de esta distribución: 1. Si X es una variable con distribución ji cuadrado con k grados de libertad, su media es k y su varianza 2k. 2. Una variable ji cuadrado no toma valores negativos. 3. Su gráfica es de las de tipo de curvas sesgadas a la derecha. 4. A medida que aumentan los grados de libertad la curva se va haciendo más simétrica y su cola derecha se va extendiendo. 5. Por cada valor de k hay una distribución distinta. 6. k es el único parámetro asociado a la distribución.           caso otro cualquier en six e x k x f x k x 0 0 ) 2 / 1 ( ) 2 / ( 1 ) ( ) 2 / 1 ( 1 2 /
  • 74.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 74 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010
  • 75.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 75 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010
  • 76.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 76 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010
  • 77.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 77 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 2.7 Distribución Muestral Razónde Varianzas
  • 78.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 78 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Unidad 3: Teoría de la estimación Propósito:  Aprender cómo acoplar los elementos de una población o una muestra  Inferir en los parámetros de un problema  Conocer los métodos y formas de presentar dicha información Competencia específica: Hacer uso de las herramientas y conceptos indispensables para la representación numérica y gráfica de los datos recopilados y analizados dentro de un entorno. Introducción: En todo este tema vamos a suponer que estamos estudiando una población cuya distribución es conocida excepto en un parámetro (,  , ,. ..) al que llamaremos . A la distribución de la población la denotaremos por f(x). Diremos que nos encontramos ante un problema de estimación cuando, dada una población con una distribución f(x) donde  es un parámetro desconocido, aventuremos o infiramos en base a los datos muestrales X , X ,..., X el valor de  . Si al inferir el parámetro damos un único valor estaremos ante un problema de estimación puntual. Estimador puntual   $ , ,...,  X X Xn 1 2 : será una función de la muestra aleatoria (un estadístico) que utilizaremos para estimar el valor del parámetro. Estimación $  : valor obtenido del estimador al sustituir por los valores de una muestra completa. Cuando no haya lugar para la confusión designaremos al estimador simplemente por $  . Un estimador es, por tanto, un estadístico y, por ello, es una v.a. con una determinada distribución de probabilidad llamada distribución muestral. Dado un parámetro, podríamos utilizar distintos estimadores puntuales para estimarlo. Por ejemplo, para estimar la varianza de la población podemos utilizar la varianza muestral o la cuasi-varianza muestral. ¿Cuál es mejor? Veamos a continuación como comprobar si un estadístico es un buen estimador de un parámetro. Para ello le exigiremos una serie de propiedades. Como el estadístico es una variable aleatoria, las propiedades se las tenemos que exigir a su distribución de probabilidad.
  • 79.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 79 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 3.1 Estimacióny Propiedades Estimadores. Insesgado.- Se dice que un estimador puntual es un estimador insesgado de si , para todo valor posible de . En otras palabras, un estimador insesgado es aquel para el cual la media de la distribución muestral es el parámetro estimado. Si se usa la media muestral para estimar la media poblacional , se sabe que la , por lo tanto la media es un estimador insesgado. Eficiente o con varianza mínima.- Suponga que 1 y 2 son dos estimadores insesgados de . Entonces, aun cuando la distribución de cada estimador esté centrada en el valor verdadero de , las dispersiones de las distribuciones alrededor del valor verdadero pueden ser diferentes. Entre todos los estimadores de que son insesgados, seleccione al que tenga varianza mínima. El resultante recibe el nombre de estimador insesgado con varianza mínima (MVUE, minimum variance unbiased estimator) de . En otras palabras, la eficiencia se refiere al tamaño de error estándar de la estadística. Si comparamos dos estadísticas de una muestra del mismo tamaño y tratamos de decidir cual de ellas es un estimador mas eficiente, escogeríamos la estadística que tuviera el menor error estándar, o la menor desviación estándar de la distribución de muestreo. Tiene sentido pensar que un estimador con un error estándar menor tendrá una mayor oportunidad de producir una estimación mas cercana al parámetro de población que se esta considerando. Como se puede observar las dos distribuciones tienen un mismo valor en el parámetro sólo que la distribución muestral de medias tiene una menor varianza, por lo que la media se convierte en un estimador eficiente e insesgado.
  • 80.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 80 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Coherencia.- Una estadística es un estimador coherente de un parámetro de población, si al aumentar el tamaño de la muestra se tiene casi la certeza de que el valor de la estadística se aproxima bastante al valor del parámetro de la población. Si un estimador es coherente se vuelve mas confiable si tenemos tamaños de muestras mas grandes. Suficiencia.- Un estimador es suficiente si utiliza una cantidad de la información contenida de la muestra que ningún otro estimador podría extraer información adicional de la muestra sobre el parámetro de la población que se esta estimando. Es decir se pretende que al extraer la muestra el estadístico calculado contenga toda la información de esa muestra. Por ejemplo, cuando se calcula la media de la muestra, se necesitan todos los datos. Cuando se calcula la mediana de una muestra sólo se utiliza a un dato o a dos. Esto es solo el dato o los datos del centro son los que van a representar la muestra. Con esto se deduce que si utilizamos a todos los datos de la muestra como es en el caso de la media, la varianza, desviación estándar, etc; se tendrá un estimador suficiente. 3.2 Estimaciónpor Intervalo. Estimación Puntual La inferencia estadística está casi siempre concentrada en obtener algún tipo de conclusión acerca de uno o más parámetros (características poblacionales). Para hacerlo, se requiere que un investigador obtenga datos muestrales de cada una de las poblaciones en estudio. Entonces, las conclusiones pueden estar basadas en los valores calculados de varias cantidades muestrales . Po ejemplo, representamos con (parámetro) el verdadero promedio de resistencia a la ruptura de conexiones de alambres utilizados para unir obleas de semiconductores. Podría tomarse una muestra aleatoria de 10 conexiones para determinar la resistencia a la ruptura de cada una, y la media muestral de la resistencia a la ruptura se podía emplear para sacar una conclusión acerca del valor de . De forma similar, si es la varianza de la distribución de resistencia a la ruptura, el valor de la varianza muestral s2 se podría utilizar pra inferir algo acerca de . Cuando se analizan conceptos generales y métodos de inferencia es conveniente tener un símbolo genérico para el parámetro de interés. Se utilizará la letra griega para este propósito. El objetivo de la estimación puntual es seleccionar sólo un número, basados en datos de la muestra, que represente el valor más razonable de . Una muestra aleatoria de 3 baterías para calculadora podría presentar duraciones observadas en horas de x1=5.0, x2=6.4 y x3=5.9. El valor calculado de la duración media muestral es = 5.77, y es razonable considerar 5.77 como el valor más adecuado de . Una estimación puntual de un parámetro es un sólo número que se puede considerar como el valor más razonable de . La estimación puntual se obtiene al seleccionar una
  • 81.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 81 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 estadística apropiada y calcular su valor a partir de datos de la muestra dada. La estadística seleccionada se llama estimador puntual de . El símbolo (theta sombrero) suele utilizarse para representar el estimador de y la estimación puntual resultante de una muestra dada. Entonces se lee como "el estimador puntual de es la media muestral ". El enunciado "la estimación puntual de es 5.77" se puede escribir en forma abreviada . Ejemplo: En el futuro habrá cada vez más interés en desarrollar aleaciones de Mg de bajo costo, para varios procesos de fundición. En consecuencia, es importante contar con métodos prácticos para determinar varias propiedades mecánicas de esas aleaciones. Examine la siguiente muestra de mediciones del módulo de elasticidad obtenidos de un proceso de fundición a presión: 44.2 43.9 44.7 44.2 44.0 43.8 44.6 43.1 Suponga que esas observaciones son el resultado de una muestra aleatoria. Se desea estimar la varianza poblacional . Un estimador natural es la varianza muestral: En el mejor de los casos, se encontrará un estimador para el cual siempre. Sin embargo, es una función de las Xi muestrales, por lo que en sí misma una variable aleatoria. + error de estimación entonces el estimador preciso sería uno que produzca sólo pequeñas diferencias de estimación, de modo que los valores estimados se acerquen al valor verdadero. Estimación por Intervalos Un estimado puntual, por ser un sólo número, no proporciona por sí mismo información alguna sobre la precisión y confiabilidad de la estimación. Por ejemplo, imagine que se usa el estadístico para calcular un estimado puntual de la resistencia real a la ruptura de toallas de papel de cierta marca, y suponga que = 9322.7. Debido a la variabilidad de la muestra, nunca se tendrá el caso de que = . El estimado puntual nada dice sobre lo cercano que esta de . Una alternativa para reportar un solo valor del parámetro que se
  • 82.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 82 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 esté estimando es calcular e informar todo un intervalo de valores factibles, un estimado de intervalo o intervalo de confianza (IC). Un intervalo de confianza se calcula siempre seleccionando primero un nivel de confianza, que es una medida de el grado de fiabilidad en el intervalo. Un intervalo de confianza con un nivel de confianza de 95% de la resistencia real promedio a la ruptura podría tener un límite inferior de 9162.5 y uno superior de 9482.9. Entonces, en un nivel de confianza de 95%, es posible tener cualquier valor de entre 9162.5 y 9482.9. Un nivel de confianza de 95% implica que 95% de todas las muestras daría lugar a un intervalo que incluye o cualquier otro parámetro que se esté estimando, y sólo 5% de las muestras producirá un intervalo erróneo. Cuanto mayor sea el nivel de confianza podremos creer que el valor del parámetro que se estima está dentro del intervalo. Una interpretación correcta de la "confianza de 95%" radica en la interpretación frecuente de probabilidad a largo plazo: decir que un evento A tiene una probabilidad de 0.95, es decir que si el experimento donde A está definido re realiza una y otra vez, a largo plazo A ocurrirá 95% de las veces. Para este caso el 95% de los intervalos de confianza calculados contendrán a . Esta es una construcción repetida de intervalos de confianza de 95% y se puede observar que de los 11 intervalos calculados sólo el tercero y el último no contienen el valor de . De acuerdo con esta interpretación, el nivel de confianza de 95% no es tanto un enunciado sobre cualquier intervalo en particular, más bien se refiere a lo que sucedería si se tuvieran que construir un gran número de intervalos semejantes. Encontrar z a partir de un nivel de confianza Existen varias tablas en las cuales podemos encontrar el valor de z, según sea el área proporcionada por la misma. En esta sección se realizará un ejemplo para encontrar el valor de z utilizando tres tablas diferentes.
  • 83.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 83 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Ejemplo: Encuentre el valor de z para un nivel de confianza del 95%. Solución 1: Se utilizará la tabla que tiene el área bajo la curva de - hasta z. Si lo vemos gráficamente sería: El nivel de confianza bilateral está dividido en partes iguales bajo la curva: En base a la tabla que se esta utilizando, se tendrá que buscar el área de 0.975, ya que cada extremo o cola de la curva tiene un valor de 0.025. Por lo que el valor de z es de 1.96. Solución 2: Si se utiliza una tabla en donde el área bajo la curva es de 0 a z:
  • 84.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 84 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 En este caso sólo se tendrá que buscar adentro de la tabla el área de 0.475 y el resultado del valor de z será el mismo, para este ejemplo 1.96. Solución 3: Para la tabla en donde el área bajo la curva va desde z hasta : Se busca el valor de 0.025 para encontrar z de 1.96. Independientemente del valor del Nivel de Confianza este será el procedimiento a seguir para localizar a z. En el caso de que no se encuentre el valor exacto se tendrá que interpolar. 3.3 Intervalo de Confianza Media con varianza conocida y desconocida. Se llama intervalo de confianza en estadística a un par de números entre los cuales se estima que estará cierto valor desconocido con una determinada probabilidad de acierto. Formalmente, estos números determinan un intervalo, que se calcula a partir de datos de una muestra, y el valor desconocido es un parámetro poblacional. La probabilidad de éxito en la estimación se representa por 1 - α y se denomina nivel de confianza. En estas circunstancias, α es el llamado error aleatorio o nivel de significación, esto es, una medida de las posibilidades de fallar en la estimación mediante tal intervalo.[1] El nivel de confianza y la amplitud del intervalo varían conjuntamente, de forma que un intervalo más amplio tendrá más posibilidades de acierto (mayor nivel de confianza), mientras que para un intervalo más pequeño, que ofrece una estimación más precisa, aumentan sus posibilidades de error. Para la construcción de un determinado intervalo de confianza es necesario conocer la distribución teórica que sigue el parámetro a estimar, θ. Es habitual que el parámetro se distribuya normalmente. También pueden construirse intervalos de confianza con la desigualdad de Chebyshov. En definitiva, un intervalo de confianza al 1 - α % para la estimación de un parámetro poblacional θ que sigue una determinada distribución de probabilidad, es una expresión del tipo [θ1, θ2] tal que P[θ1 ≤ θ ≤ θ2] = 1 - α, donde P es la función de distribución de probabilidad de θ.
  • 85.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 85 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Intervalo de confianza para la media de una población De una población de media μ y desviación típica σ se pueden tomar muestras de n elementos. Cada una de estas muestras tiene a su vez una media ( ). Se puede demostrar que la media de todas las medias muestrales coincide con la media poblacional: Pero además, si el tamaño de las muestras es lo suficientemente grande, la distribución de medias muestrales es, prácticamente, una distribución normal (o gaussiana) con media μ y una desviación típica dada por la siguiente expresión: . Esto se representa como sigue: . Si estandarizamos, se sigue que: En una distribución Z ~ N(0, 1) puede calcularse fácilmente un intervalo dentro del cual "caigan" un determinado porcentaje de las observaciones, esto es, es sencillo hallar z1 y z2 tales que P[z1 ≤ z ≤ z2] = 1 - α, donde (1 - α)·100 es el porcentaje deseado. Se desea obtener una expresión tal que En esta distribución normal de medias se puede calcular el intervalo de confianza donde se encontrará la media poblacional si sólo se conoce una media muestral ( ), con una confianza determinada. Habitualmente se manejan valores de confianza del 95% y 99%. A este valor se le llamará 1 − α (debido a que α es el error que se cometerá, un término opuesto). Para ello se necesita calcular el punto Xα / 2 —o mejor dicho su versión estandarizada Zα / 2— junto con su "opuesto en la distribución" X − α / 2. Estos puntos delimitan la probabilidad para el intervalo, como se muestra en la siguiente imagen:
  • 86.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 86 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Dicho punto es el número tal que: Y en la versión estandarizada se cumple que: z − α / 2 = − zα / 2 Así: Haciendo operaciones es posible despejar μ para obtener el intervalo: Resultando el intervalo de confianza: Si σ no es conocida y n es grande (habitualmente se toma n ≥ 30):
  • 87.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 87 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 , donde s es la desviación típica de una muestra. Aproximaciones para el valor zα / 2 para los niveles de confianza estándar son 1,96 para 1 − α = 95% y 2,576 para 1 − α = 99%.[5] Intervalo de confianza para una proporción El intervalo de confianza para estimar una proporción p, conocida una proporción muestral pn de una muestra de tamaño n, a un nivel de confianza del (1-α)·100% es: En la demostración de estas fórmulas están involucrados el Teorema Central del Límite y la aproximación de una binomial por una normal INTERVALO DE CONFIANZA PARA ; CON DESCONOCIDA Si y s son la media y la desviación estándar de una muestra aleatoria de una población normal con varianza , desconocida, un intervalo de confianza de ( )100% para es: donde /2 es el valor t con = n-1 grados de libertad, que deja un área de /2 a la derecha. Se hace una distinción entre los casos de conocida y desconocida al calcular las estimaciones del intervalo de confianza. Se debe enfatizar que para el primer caso se utiliza el teorema del límite central, mientras que para desconocida se hace uso de la distribución muestral de la variable aleatoria t. Sin embargo, el uso de la distribución t se basa en la premisa de que el muestreo se realiza de una distribución normal. En tanto que la distribución tenga forma aproximada de campana, los intervalos de confianza se pueden calcular cuando la varianza se desconoce mediante el uso de la distribución t y se puede esperar buenos resultados.
  • 88.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 88 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Con mucha frecuencia los estadísticos recomiendan que aun cuando la normalidad no se pueda suponer, con desconocida y n 30, s puede reemplazar a y se puede utilizar el intervalo de confianza: Por lo general éste se denomina como un intervalo de confianza de muestra grande. La justificación yace sólo en la presunción de que con una muestra grande como 30, s estará muy cerca de la real y de esta manera el teorema del límite central sigue valiendo. Se debe hacer énfasis en que esto es solo una aproximación y que la calidad de este enfoque mejora a medida que el tamaño de la muestra crece más. Ejemplos: 1. El contenido de siete contenedores similares de ácido sulfúrico son 9.8, 10.2, 10.4, 9.8, 10.0, 10.2, y 9.6 litros. Encuentre un intervalo de confianza del 95% para la media de todos los contenedores si se supone una distribución aproximadamente normal. Solución: La media muestral y la desviación estándar para los datos dados son: 10 y s= 0.283 En la tabla se encuentra que t0.025=2.447 con 6 grados de libertad, de aquí, el intervalo de confianza de 95% para es: Con un nivel de confianza del 95% se sabe que el promedio del contenido de los contenedores está entre 9.47 y 10.26 litros.
  • 89.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 89 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 2. Un artículo publicado en el Journal of Testing and Evaluation presenta las siguientes 20 mediciones del tiempo de combustión residual en segundos de especímenes tratados de ropa de dormir para niños: 9.85 9.93 9.75 9.77 9.67 9.87 9.67 9.94 9.85 9.75 9.83 9.92 9.74 9.99 9.88 9.95 9.95 9.93 9.92 9.89 Se desea encontrar un nivel de confianza del 95% para el tiempo de combustión residual promedio. Supóngase que el tiempo de combustión residual sigue una distribución normal. Solución: La media muestral y la desviación estándar para los datos dados son: 9.8525 y s= 0.0965 En la tabla se encuentra que t0.025=2.093 con 19 grados de libertad, de aquí, el intervalo de confianza de 95% para es: Por lo tanto, se tiene una confianza del 95% de que el tiempo de combustión residual promedio se encuentra entre 9.8073 y 9.8977 segundos.
  • 90.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 90 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 3.4 Intervalo de Confianza Proporcióny diferencia de proporciones. Estimación de una Proporción Un estimador puntual de la proporción P en un experimento binomial está dado por la estadística P=X/N, donde x representa el número de éxitos en n pruebas. Por tanto, la proporción de la muestra p =x/n se utilizará como estimador puntual del parámetro P. Si no se espera que la proporción P desconocida esté demasiado cerca de 0 ó de 1, se puede establecer un intervalo de confianza para P al considerar la distribución muestral de proporciones. Al despejar P de esta ecuación nos queda: En este despeje podemos observar que se necesita el valor del parámetro P y es precisamente lo que queremos estimar, por lo que lo sustituiremos por la proporción de la muestra p siempre y cuando el tamaño de muestra no sea pequeño. Cuando n es pequeña y la proporción desconocida P se considera cercana a 0 ó a 1, el procedimiento del intervalo de confianza que se establece aquí no es confiable, por tanto, no se debe utilizar. Para estar seguro, se debe requerir que np ó nq sea mayor o igual a 5. El error de estimación será la diferencia absoluta entre p y P, y podemos tener el nivel de confianza de que esta diferencia no excederá . Ejemplos: 1. Un fabricante de reproductores de discos compactos utiliza un conjunto de pruebas amplias para evaluar la función eléctrica de su producto. Todos los reproductores de discos compactos deben pasar todas las pruebas antes de venderse. Una muestra aleatoria de 500 reproductores tiene como resultado 15 que fallan en una o más pruebas. Encuentre un intervalo de confianza de 90% para la proporción de los reproductores de discos compactos de la población que no pasan todas las pruebas.
  • 91.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 91 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Solución: n=500 p = 15/500 = 0.03 z(0.90) = 1.645 0.0237<P<0.0376 Se sabe con un nivel de confianza del 90% que la proporción de discos defectuosos que no pasan la prueba en esa población esta entre 0.0237 y 0.0376. 2. En una muestra de 400 pilas tipo B fabricadas por la Everlast Company, se encontraron 20 defectuosas. Si la proporción p de pilas defectuosas en esa muestra se usa para estimar P, que vendrá a ser la proporción verdadera de todas las pilas defectuosas tipo B fabricadas por la Everlast Company, encuentre el máximo error de estimación tal que se pueda tener un 95% de confianza en que P dista menos de de p. Solución: p=x/n = 20/400=0.05 z(0.95)=1.96 Si p=0.05 se usa para estimar P, podemos tener un 95% de confianza en que P dista menos de 0.021 de p. En otras palabras, si p=0.05 se usa para estimar P, el error máximo de estimación será aproximadamente 0.021 con un nivel de confianza del 95%. Para calcular el intervalo de confianza se tendría:
  • 92.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 92 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Esto da por resultado dos valores, (0.029, 0.071). Con un nivel de confianza del 95% se sabe que la proporción de pilas defectuosas de esta compañía está entre 0.029 y 0.071. Si se requiere un menor error con un mismo nivel de confianza sólo se necesita aumentar el tamaño de la muestra. 3. En un estudio de 300 accidentes de automóvil en una ciudad específica, 60 tuvieron consecuencias fatales. Con base en esta muestra, construya un intervalo del 90% de confianza para aproximar la proporción de todos los accidentes automovilísticos que en esa ciudad tienen consecuencias fatales. Solución: P= 60/300 = 0.20 Z(0.90) = 1.645 0.162<P<0.238 - Estimación de la Diferencia de dos Proporciones En la sección anterior se vio el tema de la generación de las distribuciones muestrales, en donde se tenía el valor de los parámetros, se seleccionaban dos muestras y podíamos calcular la probabilidad del comportamiento de los estadísticos. Para este caso en particular se utilizará la distribución muestral de diferencia de proporciones para la estimación de las mismsas. Recordando la fórmula: Despejando P1-P2 de esta ecuación: Aquí se tiene el mismo caso que en la estimación de una proporción, ya que al hacer el despeje nos queda las dos proporciones poblacionales y es precisamente lo que queremos estimar, por lo que se utilizarán las proporciones de la muestra como estimadores puntuales:
  • 93.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 93 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Ejemplos: 1. Se considera cierto cambio en un proceso de fabricación de partes componentes. Se toman muestras del procedimiento existente y del nuevo para determinar si éste tiene como resultado una mejoría. Si se encuentra que 75 de 1500 artículos del procedimiento actual son defectuosos y 80 de 2000 artículos del procedimiento nuevo también lo son, encuentre un intervalo de confianza de 90% para la diferencia real en la fracción de defectuosos entre el proceso actual y el nuevo. Solución: Sean P1 y P2 las proporciones reales de defectuosos para los procesos actual y nuevo, respectivamente. De aquí, p1=75/1500 = 0.05 y p2 = 80/2000 = 0.04. con el uso de la tabla encontramos que z para un nivel de confianza del 90% es de 1.645. -0.0017<P1-P2<0.0217 Como el intervalo contiene el valor de cero, no hay razón para creer que el nuevo procedimiento producirá una disminución significativa en la proporción de artículos defectuosos comparado con el método existente. 2. Un artículo relacionado con la salud, reporta los siguientes datos sobre la incidencia de disfunciones importantes entre recién nacidos con madres fumadoras de marihuana y de madres que no la fumaban: Usuaria No Usuaria Tamaño Muestral 1246 11178 Número de disfunciones 42 294 Proporción muestral 0.0337 0.0263
  • 94.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 94 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Encuentre el intervalo de confianza del 99% para la diferencia de proporciones. Solución: Representemos P1 la proporción de nacimientos donde aparecen disfunciones entre todas las madres que fuman marihuana y definamos P2, de manera similar, para las no fumadoras. El valor de z para un 99% de confianza es de 2.58. -0.0064<P1-P2<0.0212 Este intervalo es bastante angosto. 3.5 Intervalo de Confianza Diferencias de Medias convarianza conocida y desconocida Suponemos dos poblaciones independientes X  N ( ,  ), Y  N( ,  ) Tomamos muestras de tamaño n y n , respectivamente. a) Si  y  son conocidas, como X Y  N   ,  n   n      , el intervalo de confianza será:    X Y z    n   n , X Y z    n   n      
  • 95.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 95 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 b) Si  y  son desconocidas pero iguales, como X Y      n s n s n n 2 1 n  1 n        t   , el intervalo de confianza será: X Y t     n s n s n n 2 1 n  1 n        , X Y t     n s n s n n 2 1 n  1 n                 Ejemplo: Dos universidades públicas tienen dos métodos distintos para inscribir a sus alumnos. Los dos desean comprobar el tiempo promedio que toma la inscripción de los alumnos. En cada universidad se tomaron los tiempos de inscripción de 31 alumnos tomados al azar. Las medias y desviaciones típicas muestrales fueron: x 20' 3, s 2' 5, y 23 , s 3. Si se supone que el muestreo se llevó a cabo en dos poblaciones normales e independientes, obtener los intervalos de confianza al nivel de riesgo 0'05 para la diferencia entre las medias del tiempo de inscripción para las dos universidades, a) suponiendo que las varianzas poblacionales son  9 ,  10 . b) suponiendo que las varianzas poblacionales son desconocidas pero iguales. Para el apartado a  0 05 1 0' 95 1   2 0' 975  z   1' 96 Sustituyendo los valores en el intervalo obtenemos:    20 ' 3 23 1' 96 9 31  10 31 , 20' 3 23 1' 96 9 31  10 31           2' 7 1' 53,2' 7 1' 53   4' 23,1'17  
  • 96.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 96 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Para el apartado b, buscamos en la tabla de la t de Student t   2. Sustituyendo los valores en el intervalo obtenemos: 20 ' 3 23 2 31 2' 3 31 3 31 31 2 1 31  1 31    , 20 ' 3 23 2 31 2' 3  31 3 31 31 2 1 31  1 31             2' 7  1' 4, 2' 7  1' 4   4' 1, 1' 3   3.6 Intervalo Confianza Varianza. Si tenemos una población X  N (,  ) con  2 desconocida, entonces   n sn n     1 1 2 2 1 2   El intervalo de confianza para la varianza poblacional al nivel de confianza 1 lo podemos obtener como sigue: P n s n n n                      1 2 1 2 2 1 2 2 1 2 1 1 ( ) Despejando  2 tenemos:                              1 ) 1 ( ) 1 ( 2 1 2 1 2 2 1 2 1 2 2 1 n n n n s n s n P Es decir,      2 1 2 1 2 1 2 1 2 1 1 1 2 2                   ( ) , ( ) n s n s n n n n
  • 97.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 97 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Ejemplo: De acuerdo con las tablas de altura, los varones tienen una altura superior a las mujeres en la población española. Según las últimas tablas en el servicio militar, los varones entre 18 y 20 años presentan una varianza de 0'0529. de las mujeres no tenemos información, por ello tomamos una muestra de 101 mujeres entre 18 y 20 años y obtenemos 18 ' 0 1   n s ¿Entre qué valores se encontrará la verdadera varianza a un nivel de 0'95 de confianza? 22 ' 74 975 ' 0 2 1 95 ' 0 1 2 100 025 ' 0           Sustituyendo en el intervalo tendremos:   0436 ' 0 , 025 ' 0 22 ' 74 18 ' 0 100 , 56 ' 129 18 ' 0 100 2 2          3.7 Intervalo Confianza Razón Varianzas. La distribución muestral del cociente de varianzas muestrales, cuando teníamos dos poblaciones normales e independientes era: 1 , 1 2 2 2 1 2 1 2 1      m n m n F s s   A partir de aquí deducimos el intervalo de confianza para el cociente de varianzas poblacionales al nivel de   1 y obtenemos                       2 2 1 1 , 1 2 1 2 1 1 , 1 2 1 2 1 2 2 2 1 1 , 1     m n m n m n m n F s s F s s
  • 98.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 98 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Ejemplo: Con los datos del ejemplo de la pag. 11 , calcular el intervalo de confianza para el cociente de varianzas al nivel de confianza 0'95. ¿Podríamos aceptar la suposición de que las varianzas poblacionales son iguales? 07 ' 2 975 ' 0 2 1 95 ' 0 1 975 ' 0 30 , 30        F   y 07 ' 2 1 1 025 ' 0 2 975 ' 0 025 ' 0 30 , 30 30 , 30     F F  47 ' 5 3 ' 2 30 31 1 2 2 2 1      n n s n n s 3 ' 9 3 30 31 1 2 2 2 1      m m s m m s Sustituyendo en el intervalo obtenemos   218 ' 1 , 284 ' 0 07 ' 2 1 1 3 ' 9 47 ' 5 , 07 ' 2 1 3 ' 9 47 ' 5          El intervalo contiene al 1 y los extremos están bastante próximos al 1. Hay mayor diferencia por el extremo inferior, lo que indica que la varianza de la población X es menor que la de la población Y.
  • 99.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 99 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Unidad 4: Pruebas de hipótesis Propósito:  Aprender cómo acoplar los elementos de una población o una muestra  Inferir en los parámetros de un problema  Conocer los métodos y formas de presentar dicha información Competencia específica: Hacer uso de las herramientas y conceptos indispensables para la representación numérica y gráfica de los datos recopilados y analizados dentro de un entorno. Introducción: Las secciones anteriores han mostrado cómo puede estimarse un parámetro a partir de los datos contenidos en una muestra. Puede encontrarse ya sea un sólo número (estimador puntual) o un intervalo de valores posibles (intervalo de confianza). Sin embargo, muchos problemas de ingeniería, ciencia, y administración, requieren que se tome una decisión entre aceptar o rechazar una proposición sobre algún parámetro. Esta proposición recibe el nombre de hipótesis. Este es uno de los aspectos más útiles de la inferencia estadística, puesto que muchos tipos de problemas de toma de decisiones, pruebas o experimentos en el mundo de la ingeniería, pueden formularse como problemas de prueba de hipótesis. Una hipótesis estadística es una proposición o supuesto sobre los parámetros de una o más poblaciones. Suponga que se tiene interés en la rapidez de combustión de un agente propulsor sólido utilizado en los sistemas de salida de emergencia para la tripulación de aeronaves. El interés se centra sobre la rapidez de combustión promedio. De manera específica, el interés recae en decir si la rapidez de combustión promedio es o no 50 cm/s. Esto puede expresarse de manera formal como Ho; = 50 cm/s H1; 50 cm/s La proposición Ho; = 50 cm/s, se conoce como hipótesis nula, mientras que la proposición H1; 50 cm/s, recibe el nombre de hipótesis alternativa. Puesto que la hipótesis alternativa especifica valores de que pueden ser mayores o menores que 50 cm/s, también se conoce como hipótesis alternativa bilateral. En algunas situaciones, lo que se desea es formular una hipótesis alternativa unilateral, como en Ho; = 50 cm/s Ho; = 50 cm/s
  • 100.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 100 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 ó H1; < 50 cm/s H1; > 50 cm/s Es importante recordar que las hipótesis siempre son proposiciones sobre la población o distribución bajo estudio, no proposiciones sobre la muestra. Por lo general, el valor del parámetro de la población especificado en la hipótesis nula se determina en una de tres maneras diferentes: 1. Puede ser resultado de la experiencia pasada o del conocimiento del proceso, entonces el objetivo de la prueba de hipótesis usualmente es determinar si ha cambiado el valor del parámetro. 2. Puede obtenerse a partir de alguna teoría o modelo que se relaciona con el proceso bajo estudio. En este caso, el objetivo de la prueba de hipótesis es verificar la teoría o modelo. 3. Cuando el valor del parámetro proviene de consideraciones externas, tales como las especificaciones de diseño o ingeniería, o de obligaciones contractuales. En esta situación, el objetivo usual de la prueba de hipótesis es probar el cumplimiento de las especificaciones. Un procedimiento que conduce a una decisión sobre una hipótesis en particular recibe el nombre de prueba de hipótesis. Los procedimientos de prueba de hipótesis dependen del empleo de la información contenida en la muestra aleatoria de la población de interés. Si esta información es consistente con la hipótesis, se concluye que ésta es verdadera; sin embargo si esta información es inconsistente con la hipótesis, se concluye que esta es falsa. Debe hacerse hincapié en que la verdad o falsedad de una hipótesis en particular nunca puede conocerse con certidumbre, a menos que pueda examinarse a toda la población. Usualmente esto es imposible en muchas situaciones prácticas. Por tanto, es necesario desarrollar un procedimiento de prueba de hipótesis teniendo en cuenta la probabilidad de llegar a una conclusión equivocada. La hipótesis nula, representada por Ho, es la afirmación sobre una o más características de poblaciones que al inicio se supone cierta (es decir, la "creencia a priori"). La hipótesis alternativa, representada por H1, es la afirmación contradictoria a Ho, y ésta es la hipótesis del investigador. La hipótesis nula se rechaza en favor de la hipótesis alternativa, sólo si la evidencia muestral sugiere que Ho es falsa. Si la muestra no contradice decididamente a Ho, se continúa creyendo en la validez de la hipótesis nula. Entonces, las dos conclusiones posibles de un análisis por prueba de hipótesis son rechazar Ho o no rechazar Ho.
  • 101.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 101 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 4.1 Conceptos prueba de hipótesis. Concepto Una prueba de hipótesis estadística es una conjetura de una o más poblaciones. Nunca se sabe con absoluta certeza la verdad o falsedad de una hipótesis estadística, a no ser que se examine la población entera. Esto por su puesto sería impráctico en la mayoría de las situaciones. En su lugar, se toma una muestra aleatoria de la población de interés y se utilizan los datos que contiene tal muestra para proporcionar evidencia que confirme o no la hipótesis. La evidencia de la muestra que es un constante con la hipótesis planteada conduce a un rechazo de la misma mientras que la evidencia que apoya la hipótesis conduce a su aceptación. Definición de prueba de hipótesis estadística es que cuantifica el proceso de toma de decisiones. Por cada tipo de prueba de hipótesis se puede calcular una prueba estadística apropiada. Esta prueba estadística mide el acercamiento del calor de la muestra (como un promedio) a la hipótesis nula. La prueba estadística, sigue una distribución estadística bien conocida (normal, etc.) o se puede desarrollar una distribución para la prueba estadística particular. La distribución apropiada de la prueba estadística se divide en dos regiones: una región de rechazo y una de no rechazo. Si la prueba estadística cae en esta última región no se puede rechazar la hipótesis nula y se llega a la conclusión de que el proceso funciona correctamente. Al tomar la decisión con respecto a la hipótesis nula, se debe determinar el valor crítico en la distribución estadística que divide la región del rechazo (en la cual la hipótesis nula no se puede rechazar) de la región de rechazo. A hora bien el valor crítico depende del tamaño de la región de rechazo. PASOS DE LA PRUEBA DE HIPÓTESIS 1. Expresar la hipótesis nula 2. expresar la hipótesis alternativa 3. especificar el nivel de significancía 4. determinar el tamaño de la muestra 5. establecer los valores criticos que establecen las regiones de rechazo de las de no rechazo. 6. determinar la prueba estadística. 7. coleccionar los datos y calcular el valor de la muestra de la prueba estadística apropiada. 8. determinar si la prueba estadística ha sido en la zona de rechazo a una de no rechazo. 9. determinar la decisión estadística. 10. expresar la decisión estadística en términos del problema.
  • 102.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 102 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 4.2 Tipos de error y nivel de significancia Si rechazamos una hipótesis cuando debiera ser aceptada diremos que se ha cometido un error de tipo I. Por otra parte si aceptamos una hipótesis que debiera ser rechazada, diremos que se ha cometido un error de tipo II. En ambos casos se ha producido un juicio erróneo. Para que las reglas de decisión sean buenas, deben diseñarse de modo que minimicen los errores de decisión, y no es una cuestión sencilla, por que para cualquier tamaño de la muestra, un intento de disminuir un tipo de error suele ir acompañado de un crecimiento del otro tipo. En la práctica un tipo de error puede ser más grave que el otro, y debe alcanzarse un compromiso que disminuya el error más grave , la única forma de disminuir ambos a la vez es aumentar el tamaño de la muestra, que no siempre es posible. El error tipo I se define como el rechazo de la hipótesis nula Ho cuando ésta es verdadera. También es conocido como ó nivel de significancia. Si tuviéramos un nivel de confianza del 95% entonces el nivel de significancia sería del 5%. Análogamente si se tiene un nivel de confianza del 90% entonces el nivel de significancia sería del 10%. Ahora supóngase que la verdadera rapidez promedio de combustión es diferente de 50 cm/s, aunque la media muestral caiga dentro de la región de aceptación. En este caso se acepta Ho cuando ésta es falsa. Este tipo de conclusión recibe el nombre de error tipo II. El error tipo II ó error se define como la aceptación de la hipótesis nula cuando ésta es falsa. Por tanto, al probar cualquier hipótesis estadística, existen cuatro situaciones diferentes que determinan si la decisión final es correcta o errónea. Decisión Ho es verdadera Ho es falsa Aceptar Ho No hay error Error tipo II ó Rechazar Ho Error tipo I ó No hay error 1. Los errores tipo I y tipo II están relacionados. Una disminución en la probabilidad de uno por lo general tiene como resultado un aumento en la probabilidad del otro. 2. El tamaño de la región crítica, y por tanto la probabilidad de cometer un error tipo I, siempre se puede reducir al ajustar el o los valores críticos. 3. Un aumento en el tamaño muestral n reducirá
  • 103.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 103 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 y de forma simultánea. 4. Si la hipótesis nula es falsa, es un máximo cuando el valor real del parámetro se aproxima al hipotético. Entre más grande sea la distancia entre el valor real y el valor hipotético, será menor NIVEL DE SIGNIFICANCIA Al contrastar una cierta hipótesis, la máxima probabilidad con la que estamos dispuestos a correr el riesgo de cometer un error de tipo I se llama nivel de significancia. Esta probabilidad se denota por , se suele especificar antes de la muestra, de manera que los resultados no influyan en nuestra elección. En la práctica es frecuente un nivel de significancia de 0.05 ó 0.01, si bien se usan otros valores. Si, por ejemplo, se escoge un nivel de significancia del 5% ó 0.05 al diseñar una regla de decisión entonces hay unas cinco oportunidades entre cien de rechazar la hipótesis cuando debiera haberse aceptado; es decir, tenemos un 95% de confianza de que hemos adoptado la decisión correcta. En tal caso decimos que la hipótesis a sido rechazada al nivel de significancia 0.05 lo cual quiere decir que la hipótesis tiene una probabilidad del 5% de ser falsa. Curva característica operativa y curva de potencia Podemos limitar un error de tipo I eligiendo adecuadamente el nivel de significancia. Es posible evitar el riesgo de cometer el error tipo II simplemente no aceptando nunca la hipótesis, pero en muchas aplicaciones prácticas esto es inviable. En tales casos, se suele recurrir a curvas características de operación o curvas de potencia que son gráficos que muestran las probabilidades de error de tipo II bajo diversas hipótesis. Proporcionan indicaciones de hasta que punto un test dado nos permitirá evitar un error de tipo II; es decir, nos indicarán la potencia de un test a la hora de prevenir decisiones erróneas. Son útiles en el diseño de experimentos por que sugieren entre otras cosas el tamaño de muestra a manejar. Pruebas de hipótesis para la media y proporciones Debido a la dificultad de explicar este tema se enfocará un problema basado en un estudio en una fabrica de llantas.
  • 104.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 104 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 En este problema la fabrica de llantas tiene dos turnos de operarios, turno de día y turno mixto. Se selecciona una muestra aleatoria de 100 llantas producidas por cada turno para ayudar al gerente a sacar conclusiones de cada una de las siguientes preguntas: 1.-¿ Es la duración promedio de las llantas producidas en el turno de día igual a 25 000 millas? 2.- ¿Es la duración promedio de las llantas producidas en el turno mixto menor de 25 000 millas? 3.-¿ Se revienta más de un 8% de las llantas producidas por el turno de día antes de las 10 000 millas? 4.3 Prueba de hipótesis para la media. En la fábrica de llantas las hipótesis nula y alternativa para el problema se plantearon como sigue: Ho: μ = 25 000 H1: μ ≠ 25 000 Si se considera la desviación estándar σ las llantas producidas en el turno de día, entonces, con base en el teorema de limite central, la distribución en el muestreo de la media seguiría la distribución normal, y la prueba estadística que esta basada en la diferencia entre la media de la muestra y la media μ hipotética se encontrara como sigue: Si el tamaño de la región α de rechazo se estableciera en 5% entonces se podrían determinar los valores críticos de la distribución. Dado que la región de rechazo esta dividida en las dos colas de la distribución, el 5% se divide en dos partes iguales de 2.5%. Dado que ya se tiene la distribución normal, los valores críticos se pueden expresar en unidades de desviación. Una región de rechazo de 0.25 en cada cola de la distribución normal, da por resultado un área de .475 entre la media hipotética y el valor crítico. Si se busca está área en la distribución normal, se encuentra que los valores críticos que dividen las regiones de rechazo y no rechazo son + 1.96 y - 1.96
  • 105.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 105 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Por tanto, la regla para decisión sería: Rechazar Ho si Z > + 1.96 o si Z < - 1.96 de lo contrario, no rechazar Ho No obstante, en la mayor parte de los casos se desconoce la desviación estándar de la población. La desviación estándar se estima al calcular S, la desviación estándar de la muestra. Si se supone que la población es normal la distribución en el muestreo de la media seguiría una distribución t con n-1 grados de libertad. En la práctica, se a encontrado que siempre y cuando el tamaño de la muestra no sea muy pequeño y la población no este muy sesgada, la distribución t da una buena aproximación a la distribución de muestra de la media. La prueba estadística para determinar la diferencia entre la media de la muestra y la media de la población cuando se utiliza la desviación estándar S de la muestra, se expresa con: = Para una muestra de 100, si se selecciona un nivel de significancía de .05, los valores críticos de la distribución t con 100-1= 99 grados de libertad se puede obtener como se indica en la siguiente tabla:
  • 106.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 106 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 como esta prueba de dos colas, la región de rechazo de .05 se vuelve a dividir en dos partes iguales de .025 cada una. Con el uso de las tablas para t, los valores críticos son –1.984 y +1.984. la regla para la decisión es: Rechazar Ho si >+1.984 O si - 1.984 De lo contrario, no rechazar Ho los resultados de la muestra para el turno de día fueron =25 430 millas, =4 000 millas y = 100. Puesto que se esta probando si la media es diferente a 25 000 millas, se tiene con la ecuación =
  • 107.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 107 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 = = = + 1.075 Dado que = 1.075, se ve que -1.984 < +1.075 < + 1.984, entonces no se rechaza Ho. Por ello, la de cisión de no rechazar la hipótesis nula Ho. En conclusión es que la duración promedio de las llantas es 25 000 millas. A fin de tener en cuenta la posibilidad de un error de tipo II , este enunciado se puede redactar como “no hay pruebas de que la duración promedio de las llantas sea diferente a 25 000 millas en las llantas producidas en el turno de día”. 4.4 Prueba de hipótesis para proporciones. El concepto de prueba de hipótesis se puede utilizar para probar hipótesis en relación con datos cualitativos. Por ejemplo, en el problema anterior el gerente de la fabrica de llantas quería determinar la proporción de llantas que se reventaban antes de 10,000 millas. Este es un ejemplo de una variable cualitativa, dado que se desea llegar a conclusiones en cuanto a la proporción de los valores que tienen una característica particular. El gerente de la fábrica de llantas quiere que la calidad de llantas producidas, sea lo bastante alta para que muy pocas se revienten antes de las 10,000 millas. Si más de un 8% de las llantas se revientan antes de las 10,000 millas, se llegaría a concluir que el proceso no funciona correctamente. La hipótesis nula y alternativa se pueden expresar como sigue: Ho: p .08 (funciona correctamente) H1: p > .08 (no funciona correctamente) La prueba estadística se puede expresar en términos de la proporción de éxitos como sigue:
  • 108.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 108 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 En donde = = p = proporción de éxitos de la hipótesis nula Ahora se determinará si el proceso funciona correctamente para las llantas producidas para el turno de día. Los resultados del turno de día índican que cinco llantas en una muestra de 100 se reventaron antes de 10,000 millas para este problema, si se selecciona un nivel de significancía de .05, las regiones de rechazo y no rechazo se establecerían como a continuación se muestra: y la regla de decisión sería: Rechazar Ho si > + 1.645; de lo contrario no rechazar Ho. Con los datos que se tienen, = = .05 y entonces, = = = = -1.107 Z -1.107 < + 1.645; por tanto no rechazar Ho.
  • 109.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 109 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 La hipótesis nula no se rechazaría por que la prueba estadística no ha caído en la región de rechazo. Se llegaría a la conclusión de que no hay pruebas de que más del 8% de las llantas producidas en el turno de día se revienten antes de 10,000 millas. El gerente no ha encontrado ninguna prueba de que ocurra un número excesivo de reventones en las llantas producidas en el turno de día. EJEMPLO 1: Se afirma que, de todas las familias que salen de Cumana por lo menos el 30 % se mudan a Maracaibo. Si una muestra de 600 mudanzas tomada al azar de los registros de la Alcaldía de Cumana revela que de los permisos de mudanza autorizados 153 fueron para Maracaibo, pruebe la hipótesis nula p = 0.30 contra la hipótesis alternativa p < 30 con un nivel de significancia del 1 %. SOLUCIÓN: Para calcular la proporción p lo primero que se ha de hacer es determinar la proporción, luego se plantea una hipótesis unilateral con un nivel de significancia al 1%. . 153 ,. 33 . 2 ,.. 70 . 0 ,.. 30 . 0 ,.. 255 . 0 600 153 ,.. 800         x Z q p p n   Hipótesis: 30 . 0 : 30 . 0 : 1 0   p H p H Regla de decisión o Región crítica: Se rechaza la Hipótesis nula si:  Z Zc   es decir, 33 . 2   c Z . Aplicando formula se tiene: O también Aplicando: 41 . 2 0187 . 0 045 . 0 00035 . 0 045 . 0 600 7 . 0 3 . 0 300 . 0 255 . 0 .            c c Z x n q p p p Z  41 . 2 225 , 11 27 126 180 153 ) 70 . 0 )( 30 . 0 ( 600 ) 30 . 0 ( 600 153           npq np x Z Conclusión: Como c Z es menor que  Z , es decir, 33 . 2 41 . 2     c Z , se rechaza 30 . 0 : 0  p H con un nivel de significancia de 0.01. Esto se puede observar en la grafica
  • 110.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 110 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 D en donde 41 . 2   c Z cae fuera del área de aceptación, por lo tanto, se cumple que 30 . 0 : 1  p H , es decir, menos del 30 % de las familias que salen de Cumana, se mudan a Maracaibo. 4.5 Prueba Hipótesis Diferencia Medias convarianzas conocidasy desconocidas PARA LA MEDIA Cuando se van a realizar pruebas de hipótesis relativas a la media poblacional m se debe saber si la varianza poblacional s es conocida o desconocida, ya que la distribución subyacente al estadístico de prueba será la normal estándar si la varianza es conocida, y la distribución t en caso contrario. Las diferentes hipótesis que se pueden presentar son las siguientes: 1) Ho: m = m0 H1: m > m0 2) Ho: m = m0 H1: m < m0 3) Ho: m = m0 H1: m ¹ m0 Las pruebas de hipótesis para la media se basan en el estadístico dado por la media muestral cuya distribución tiende a la distribución normal (m, s /n) para muestras grandes. Prueba de hipótesis para la media con varianza conocida Cuando la varianza s es conocida, las pruebas de hipótesis se basan en el hecho de que la variable aleatoria Z definida como , se distribuye normalmente con media cero y varianza unitaria. Para el caso de las hipótesis Ho: m = m0 contra H1: m > m0 vimos, al analizar las mejores pruebas, que la mejor región crítica de tamaño a consistía en rechazar H0 si la media
  • 111.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 111 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 muestral era mayor o igual que una constante c dada por . Por lo tanto, una vez tomada la muestra y obtenidos los valores x1, x2,…, xn, se calcula la media muestral dada por: y los criterios de decisión serían los siguientes: a) Rechace Ho: m = m0 si ³ c, donde . b) Calcule el “estadístico de prueba” y rechace Ho: m = m0 si Z ³ Za. c) Calcule el “estadístico de prueba” y estime P como el área en la distribución normal estándar a la derecha del valor Z calculado, y rechace Ho: m = m0 si P < a. Para el caso de las hipótesis Ho: m = m0 contra H1: m < m0 la mejor región crítica de tamaño a consiste en rechazar H0 si la media muestral es menor o igual que una constante c dada por . Por lo tanto, una vez tomada la muestra y obtenidos los valores x1, x2,…, xn, se calcula la media muestral , y los criterios de decisión sería los siguientes: a) Rechace Ho: m = m0 si £ c, donde . b) Calcule el “estadístico de prueba” y rechace Ho: m = m0 si Z £ Z1-a. Como Za = -Z1-a se rechaza Ho si Z £ -Za o equivalentemente, si êZ ê³ Z a. c) Calcule el “estadístico de prueba” y estime P como el área en la distribución normal estándar a la izquierda del valor Z calculado, y rechace Ho: m = m0 si P < a. Por último, si las hipótesis fueran Ho:m = m0 contra H1:m ¹ m0 la mejor región crítica de tamaño a (aunque no es uniformemente más potente como en el caso de las dos anteriores) consiste en rechazar H0 si la media muestral es menor o igual que una constante c1 ó mayor igual que otra constante c2. Por lo tanto, una vez tomada la muestra y obtenidos los valores x1, x2,…, xn, se calcula la media muestral , y los criterios de decisión serían los siguientes: a) Rechace Ho: m = m0 si £ c1 ó ³ c2, donde y . b) Calcule el “estadístico de prueba” y rechace Ho: m = m0 si Z £ -Za/2 ó Z ³ Za/2, ó simplemente, si êZ ê³ Z a/2. c) Calcule el “estadístico de prueba” y estime P como el área en la distribución normal estándar a la izquierda del valor Z calculado si Z es negativo, o a la derecha del valor de Z si Z es positivo, y rechace Ho:m = m0 si P < a. También P se puede calcular como el área a derecha del valor absoluto de Z. En resumen, el estadístico de prueba se basa en: Ejemplo. Un inspector de pesos y medidas visita una planta de empacado para verificar que el peso neto de las cajas sea el indicado en la etiqueta. El gerente de la planta asegura al
  • 112.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 112 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 inspector que el peso promedio de cada caja es de 750 gramos con una desviación estándar de 5 gr. El inspector selecciona, al azar, 100 cajas y encuentra que el peso promedio es de 748 gr. Bajo estas condiciones y usando un nivel de significancia de 0.05,¿Qué actitud debe tomar el inspector?. Solución. Este problema lo podemos plantear como una prueba de hipótesis del siguiente tipo: 1) Ho: m = m0 = 750 H1: m < m0 (hay preocupación si el peso medio es inferior al especificado) con n = 100, a = 0.05, s = 5 gramos. Se tiene que Z0.05 = 1.645. Por lo tanto, la región crítica está dada por = 750 - 1.645 x 5/10 =749.18. Por lo tanto como la media muestral es 748 gramos, se rechaza la hipótesis de que el promedio de cada caja sea 750 gramos. Por lo tanto, deben tomarse las medias necesarias para corregir esta situación, que va en contra de los intereses del consumidor. Usando los otros criterios de aceptación tenemos que Z = - 4.0 y el valor P es aproximadamente cero (P = 0.0). Prueba de hipótesis para la media con varianza desconocida Cuando la varianza s no es conocida, las pruebas de hipótesis se basan en el hecho de que la variable aleatoria T definida como tiene una distribución t con n-1 grados de libertad. Por lo tanto, al analizar los diferentes casos presentados anteriormente para las pruebas de hipótesis con respecto a la media, bastará con cambiar la varianza poblacional s por su estimativo muestral S y la distribución normal estándar por la distribución t. En consecuencia los diferentes casos a analizar serán los siguientes: Si tenemos las hipótesis Ho:m = m0 contra H1:m > m0 la mejor región crítica de tamaño a consiste en rechazar H0 si la media muestral es mayor o igual que la constante c, que en este caso está dada por . Por lo tanto, una vez tomada la muestra y obtenidos los valores x1, x2,…, xn, se calculan la media muestral y la varianza muestral s dados por: , y los criterios de decisión serían los siguientes: a) Rechace Ho: m = m0 si ³ c, donde . b) Calcule el “estadístico de prueba” y rechace Ho: m = m0 si T ³ tn - 1, a. c) Calcule el “estadístico de prueba” y estime P como el área en la distribución t a la derecha del valor T calculado, y rechace Ho: m = m0 si P < a. Para el caso de las hipótesis Ho: m = m0 contra H1: m < m0 la mejor región crítica de tamaño a consiste en rechazar H0 si la media muestral es menor o igual que una constante c
  • 113.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 113 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 dada por . Por lo tanto, una vez tomada la muestra y obtenidos los valores x1, x2,…, xn, se calculan la media muestral y la varianza muestral S , y los criterios de decisión sería los siguientes: a) Rechace Ho: m = m0 si £ c, donde . b) Calcule el “estadístico de prueba” y rechace Ho: m = m0 si êT ê³ tn - 1, a. c) Calcule el “estadístico de prueba” y estime P como el área en la distribución t a la izquierda del valor T calculado, y rechace Ho: m = m0 si P < a. Por último, si las hipótesis fueran Ho:m = m0 contra H1:m ¹ m0 la mejor región crítica de tamaño a (aunque no es uniformemente más potente como en el caso de las dos anteriores) consiste en rechazar H0 si la media muestral es menor o igual que una constante c1 ó mayor igual que otra constante c2. Por lo tanto, una vez tomada la muestra y obtenidos los valores x1, x2,…, xn, se calcula la media muestral , y los criterios de decisión serían los siguientes: a) Rechace Ho:m = m0 si £c1 ó ³c2, donde y . b) Calcule el “estadístico de prueba” y rechace Ho: m = m0 si êT ê³ tn - 1, a/2. c) Calcule el “estadístico de prueba” y estime P como el área en la distribución t a la izquierda del valor T calculado si T es negativo, o a la derecha del valor de T si T es positivo, y rechace Ho: m = m0 si P < a. También P se puede calcular como el área a derecha del valor absoluto de T. En resumen, el estadístico de prueba se basa en Ejemplo. Un modelo físico sugiere que el aumento medio de temperatura en el agua usada como enfriador en una cámara de un compresor no debería ser mayor de 5°C. Los aumentos de temperatura en el refrigerante medidos en 8 períodos de funcionamiento del compresor fueron de 6.4, 4.3, 5.7, 4.9, 6.5, 5.9, 6.4 y 5.1 grados centígrados. Con un nivel de significancia del 5%, cree Usted que los datos contradicen la información del modelo físico? Solución. Este problema lo podemos plantear como una prueba de hipótesis del siguiente tipo: Ho: m £ m0 = 5°C H1: m > 5°C con n = 8, a = 0.05. La hipótesis nula se plantea como menor o igual a m0, que es una hipótesis compuesta. Sin embargo, para la realización de la prueba, se tomará el máximo aumento permisible en la temperatura que sería m = m0 = 5, con lo cual la hipótesis se convierte en una hipótesis simple. Se tiene que: = 5.65, s = 0.6571, S= 0.81, t7, 0.05 = 1.895. Por lo tanto, la región crítica está dada por . Por lo tanto como la media muestral 5.65 es superior al valor crítico de 5.54, se rechaza la hipótesis de que el aumento promedio de la temperatura es 5 grados (o inferior), a favor de la hipótesis de que es mayor. Usando los otros criterios de aceptación tenemos que:
  • 114.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 114 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 · . Como T = 2.27 > 1.895 se rechaza la hipótesis nula. · El valor P es aproximadamente 0.0287. Como P = 0.0287 es menor que a = 0.05, se rechaza de nuevo la hipótesis nula. 4.6 Prueba Hipótesis Varianza
  • 115.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 115 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010
  • 116.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 116 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010
  • 117.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 117 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010
  • 118.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 118 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 4.7 Prueba de Bondad de Ajuste Es considerada como una prueba no paramétrica que mide la discrepancia entre una distribución observada y otra teórica, indicando en qué medida las diferencias existentes entre ambas, de haberlas, se deben al azar. La fórmula que da el estadístico es la siguiente: Oi = Valor observado en la i-ésimo dato. Ei = Valor esperado en la i-ésimo dato. K = Categorías o celdas. m = Parámetros estimados sobre la base de los datos de la muestra Los grados de libertad vienen dados por : gl= K-m-1. Criterio de decisión es el siguiente: Se rechaza H0 cuando 2 1 ; 2    m K t   . En caso contrario se acepta. Donde t representa el valor proporcionado por las tablas, según el nivel de significación elegido. Cuanto más se aproxima a cero el valor de chi-cuadrado, más ajustadas están ambas distribuciones. Ejemplo: Si un ingeniero de control de calidad toma una muestra de 10 neumáticos que salen de una línea de ensamblaje y él desea verificar sobre la base de los datos que siguen, los números       k i e e o i i i f f f 1 2 2 
  • 119.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 119 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 de llantas con defectos observadas en 200 días, si es cierto que el 5% de todos los neumáticos tienen defecto; es decir, si el muestrea una población binomial con n = 10 y p = 0.05 Establecer la hipótesis Ho: La población es binomial Ha: La población no es binomial Número de unidades con defecto Número de muestras 0 138 1 53 2 ó más 9
  • 120.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 120 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Establecer la estadística de prueba Oi = Valor observado en la i-ésimo dato. Ei = Valor esperado en la i-ésimo dato. K = Categorías o celdas. m = Parámetros 1. 3. Definir el nivel de significancia y la zona de rechazo g,l = k- m – 1 = (3 – 0- 1) =2 5.99 Nivel de significancia = 0.05 Zona de rechazo = { 5.99) m = 0 porque no se necesito estimar ningún parámetro Calculamos el estadístico de prueba 2 2 /          k i e e o i i i f f f 1 2 2        k i e e o i i i f f f 1 2 2 
  • 121.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 121 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Para poder calcular las frecuencias esperadas tenemos que calcular las probabilidades utilizaremos la formula de la binomial x n x p p x n x P x f             ) 1 ( ) ( ) ( donde n = 10 p = 0.05 = 0.599 = 0 .315 y la probabilidad de 2 ó más = 1.0 -0.599 -0 .315 = 0.086 Ahora ya podemos encontrar las frecuencias esperadas: 200 (0.599) = 119.8 200(0.315) = 63 200 (0.086) = 17.2   0 10 0 10 0 ) 05 . 0 1 ( 05 . 0 ) 0 (    f   1 10 1 10 1 ) 05 . 0 1 ( 05 . 0 ) 1 (    f Número de unidades con defecto Número de muestras Observadas Valor Esperado 0 138 119,8 1 53 63
  • 122.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 122 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Al aplicar la formula se tiene: = 8.26 Como 8.26 es mayor que 5.99, se rechaza la hipótesis nula con un nivel de significancia de 0.05. Conclusión Se concluye que el porcentaje verdadero de neumáticos con defecto no es el 5%. 2 . 17 ) 2 . 17 9 ( 63 ) 0 . 63 53 ( 8 . 119 ) 8 . 119 138 ( 2 2 2 2        2 ó más 9 17,2 Total 200 200
  • 123.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 123 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Ejemplo. Si el número de errores que comete una secretaria al transcribir un documento es una variable aleatoria que tiene una distribución de Poisson. Se reviso 440 transcripciones hechas por ella y arrojo los siguientes resultados: Variable = números de errores Número de errores Frecuencia 0 18 1 53 2 103 3 107 4 82 5 46 6 18 7 10 8 2 9 1 Probar si los datos de los errores se ajustan a una distribución de Poisson. Use  = 0.05. H0: La población se comporta como una distribución de Poisson Ha: La población no se comporta como una distribución de Poisson. El estadístico de prueba que usaremos es:    i i i E E O f f f 2 2 ) (  Nivel de significación  = 0,05 gl. = 9-1-1=7 067 , 14 2 7 ; 05 , 0  
  • 124.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 124 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Región de rechazo =  067 , 14 | 2 2    Para poder calcular las frecuencias esperadas tenemos que calcular las probabilidades utilizaremos la formula de la distribución de Poisson: ! ) ; ( x e x p x      Como no se conoce la media de la distribución de Poisson la estimamos con la media de los datos, que es 3,04 luego,  = 3,04 errores Frecuencia observada Prob. Frecuencia esperada 0 18 0,0478 21,032 1 53 0,1454 63,976 2 103 0,2210 97,240 3 107 0,2239 98,516 4 82 0,1702 74,888 5 46 0,1034 45,496 6 18 0,0524 23,056 7 ó mas 13 0,0359 15,796 Total 440 1 440 Aplicamos los datos al estadístico de prueba 6766 , 5 796 , 15 ) 796 , 15 13 ( .... 976 , 63 ) 976 , 63 53 ( 032 , 21 ) 032 , 21 18 ( 2 2 2 2          Como 6,7566 es menor 14,076 no se rechaza la hipótesis nula. Conclusión: La población se comporta como una distribución de Poisson con media 3,04 Ejemplo 3.
  • 125.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 125 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 El Departamento de Psicología, basándose en informaciones anteriores, al final del semestre antepasado, el 80% de los alumnos aprobaron todas las materias inscritas, un 10% aprobó la mitad, un 6% reprobó todas las materias y un 4% se retiro. Al final del semestre pasado el departamento selecciono a 400 alumnos, resultado 287 aprobaron todas las asignaturas, 49 aprobaron la mitad, 30 reprobaron todas las asignaturas y 34 se retiraron.¿Podemos concluir, a raíz de los resultados, que la información del semestre antepasado se ha vuelto a repetir el semestre pasado? Hipótesis nula: de que los porcentajes del semestre pasado son los mismos que en el semestre antepasado. Atributos Datos observados Probabilidad Datos esperados Aprobó todo 287 0,80 320 Aprobó la mitad 49 0,10 40 Reprobó todo 30 0,06 24 Se retiró 34 0,04 16 Total 400 1 400 2 = 27,178 Como tenemos 4 categorías y ningún parámetro estimado los grados de libertad serán: 4-0- 1= 3 84 , 12 2 3 ; 05 , 0   Como 27,178 es mayor que 12,84 se rechaza la hipótesis nula. Conclusión: Los porcentajes no se repitieron el semestre pasado Problema 4.-
  • 126.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 126 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Problema 5.- PASOS A SEGUIR EN UNA PRUEBA DE HIPOTESIS 1. Definir la Hipótesis estadística H0 y Ha En la prueba de hipótesis, debemos establecer el valor supuesto o hipotetizado del parámetro de población antes de comenzar a tomar la muestra. La suposición que deseamos probar se conoce como hipótesis nula Ho. Con base en los datos muestrales la hipótesis nula se rechaza o no rechaza. Nunca se puede aceptar la hipótesis nula como verdadera para demostrar sin lugar a dudas que la hipótesis es verdadera se tendría que conocer el parámetro de la población. El no rechazo solamente significa que la evidencia muestral no es lo suficientemente fuerte como para llevar a su rechazo. Es importante recordar que, sin importar como se determina el problema, la hipótesis nula siempre lleva el signo de igual ( = ). Supongamos que deseamos probar la hipótesis de que la media de la población es igual a 16. Lo simbolizaríamos y leeríamos “La hipótesis nula es que la media de la población es igual a 16”.
  • 127.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 127 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Ho: = 16 El término hipótesis nula surge de las primeras aplicaciones agrícolas y médicas de la estadística. Con el fin de probar la efectividad un nuevo fertilizante o de una nueva medicina, la hipótesis que se probaba es que no tuvo efecto, es decir no tuvo diferencia entre las muestras tratadas y no tratadas. La hipótesis alternativa describe la conclusión a la que se llegará si se rechaza a la hipótesis nula. También se conoce como hipótesis de investigación. La hipótesis alternativa se acepta si los datos de la muestra proporcionan suficiente evidencia estadística de que la hipótesis nula es falsa. Consideraremos tres hipótesis alternativas posibles: Ha: 16 Ha: > 16 Ha: < 16 El signo de igual ( = ) nunca aparecerá en la hipótesis alternativa. Porque la hipótesis nula es la declaración que se prueba, y es necesario incluir un valor especifico en los cálculos. La hipótesis alternativa se observa sólo si se demuestra que no es verdadera la hipótesis nula. 2. Establecer la estadística de prueba que sea apropiado. Es un valor que se calcula con base a la información de la muestra, y que se utiliza para determinar si se rechaza la hipótesis nula     
  • 128.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 128 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Existen muchas estadísticas de prueba que pertenecen a una distribución muestral con su propia forma, media y desviación estándar. Z, t, 2, F Por ejemplo en la prueba de hipótesis para la media, la estadística de prueba Z se calcula por: El valor z se basa en la distribución de muestreo de , que tiene una distribución normal cuando la muestra es razonablemente grande con . Así, es posible determinar si la diferencia entre la media muestral y la media poblacional es importante desde el punto de viste estadístico. 3. Definir el nivel de significancia y la zona de rechazo El nivel de significancia es la probabilidad de rechazar la hipótesis nula cuando es verdadera es a lo que se llama error Tipo I. El nivel de significancia se define con la letra griega alfa ( ).Se le llama también nivel de riesgo. No hay un nivel de significancia que se aplique a todas las pruebas. Se toma la decisión de utilizar los niveles 0.05 ( que con frecuencia se conoce como un nivel del 5%), .01, 0.10, o cualquiera entre 0 y 1 a elección de la persona que realiza la prueba. La zona de rechazo son los valores de la estadística de prueba para los cuales se rechaza la hipótesis nula. La regla de decisión en la prueba de hipótesis, puede establecerse de tres maneras: Hacer liga con problema resuelto de prueba de hipótesis para la ( conocida ó ) 1. Regla basada en la estadística de prueba. n X z     X n   ,   2  30  n
  • 129.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 129 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 2. Regla basada en la probabilidad. 3. Regla basada en la distribución de probabilidad del estadístico utilizado en la prueba. La zona de rechazo tiene una magnitud dada por y una dirección dada por la hipótesis alternativa. El siguiente ejemplo es de acuerdo a la hipótesis nula que se planteo en base a la media poblacional, y al primer ejemplo de hipótesis alternativa: No rechazar α/2 = 0.025 α/2 = 0.025 0.95 0.475 0.475 μ = 16 Zona de rechazo Cola a la derecha Zona de rechazo Cola a la izquierda -1.96 1.96 0 Zona de no rechazo Existe un 95% de probabilidad deque los resultados muestrales puedan caer entre ± 1.96 si la hipótesis nulaes verdadera Si μ = 16, existe sólo un 2.5% de oportunidad de que una media muestral produzca un valor de Z < -1.96 Si μ = 16, existe sólo un 2.5% de oportunidad de que una media muestral produzca un valor de Z > 1.96
  • 130.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 130 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 4. Calcular la estadística de prueba a partir de los datos muestrales considerando H0 como verdadera 5. Decidir si H0 se acepta o se rechaza. 6. Concluir en términos del contexto del problema.
  • 131.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 131 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010
  • 132.
    E s ta d í s t i c a - T e r c e r s e m e s t r e Página 132 Universidadde Estudios Superioresde LaPaz 23 de noviembre del 2010 Tabla Z: