Inferencia_Estadistica_libro.pdf

Inferencia Estadı́stica
J. Humberto Mayorga A.
Profesor Asociado
Departamento de Estadı́stica - Facultad de Ciencias
Universidad Nacional de Colombia

Índice General
Prólogo iii
Introducción v
1 DISTRIBUCIONES MUESTRALES 1
1.1 La Inferencia estadı́stica, un soporte epistemológico . . . . . . . . 1
1.2 Preliminares en la Inferencia estadı́stica . . . . . . . . . . . . . . 4
1.3 Preliminares en convergencia de variables aleatorias . . . . . . . 9
1.4 Caracterı́sticas generales de algunas estadı́sticas . . . . . . . . . . 12
1.5 Estadı́sticas de orden . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.5.1 Distribución de las estadı́sticas de orden . . . . . . . . . . 19
1.5.2 Distribución del rango, semirango y mediana muestrales . 20
1.5.3 Distribución de la función de distribución empı́rica . . . . 21
1.6 Momentos de estadı́sticas de orden . . . . . . . . . . . . . . . . . 23
1.7 Demostración de los teoremas del capı́tulo . . . . . . . . . . . . . 25
1.8 Ejercicios del capı́tulo . . . . . . . . . . . . . . . . . . . . . . . . 42
2 ESTIMACIÓN PUNTUAL DE PARÁMETROS 49
2.1 Métodos clásicos para construir estimadores . . . . . . . . . . . . 51
2.1.1 El método de máxima verosimilitud . . . . . . . . . . . . 51
2.1.2 El método de los momentos . . . . . . . . . . . . . . . . . 61
2.1.3 El método por analogı́a . . . . . . . . . . . . . . . . . . . 64
2.1.4 Estimación Bayesiana . . . . . . . . . . . . . . . . . . . . 65
2.2 Criterios para examinar estimadores . . . . . . . . . . . . . . . . 69
2.2.1 Concentración, un requisito de precisión . . . . . . . . . . 69
2.2.2 Consistencia, un requisito ligado al tamaño de la muestra 73
2.2.3 Suﬁciencia, un requisito de retención de información . . . 75
2.2.4 Varianza mı́nima, un requisito de máxima precisión . . . 83
2.2.5 Completez, un requisito de la distribución muestral . . . . 90
2.2.6 Robustez, un requisito de estabilidad . . . . . . . . . . . . 96
i

ii ÍNDICE GENERAL
3 ESTIMACIÓN POR INTERVALO DE PARÁMETROS 115
3.1 Conceptos preliminares . . . . . . . . . . . . . . . . . . . . . . . . 116
3.2 El método de la variable pivote . . . . . . . . . . . . . . . . . . . 117
3.3 Estimación de promedios, bajo Normalidad . . . . . . . . . . . . 124
3.3.1 Intervalos confidenciales para el promedio de una población124
3.3.2 Estimación de la proporción poblacional . . . . . . . . . . 127
3.3.3 Intervalo confidencial para la diferencia de promedios basa-
do una muestra pareada . . . . . . . . . . . . . . . . . . . 128
3.3.4 Intervalos confidenciales para la diferencia de promedios
en poblaciones independientes . . . . . . . . . . . . . . . . 129
3.4 Estimación de varianzas, bajo Normalidad . . . . . . . . . . . . . 131
3.4.1 Intervalos confidenciales para la varianza de una población 131
3.4.2 Intervalos confidenciales para el cociente de varianzas de
dos poblaciones independientes . . . . . . . . . . . . . . . 134
3.5 Ejemplos numéricos de aplicación . . . . . . . . . . . . . . . . . . 137
3.6 Tamaño de la muestra simple bajo Normalidad . . . . . . . . . . 139
3.7 Estimación Bayesiana por intervalo . . . . . . . . . . . . . . . . . 140
4 JUZGAMIENTO DE HIPÓTESIS 147
4.1 Elementos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . 148
4.2 Tests más potentes . . . . . . . . . . . . . . . . . . . . . . . . . . 158
4.3 Juzgamiento de hipótesis sobre promedios, bajo Normalidad . . . 172
4.3.1 Juzgamiento de la hipótesis nula H0 : μ = μ0 . . . . . . . 172
4.3.2 Juzgamiento de la hipótesis nula H0 : μ1 − μ2 = δ0 . . . . 180
4.4 Juzgamiento de hipótesis sobre varianzas, bajo Normalidad . . . 189
4.4.1 Juzgamiento de la hipótesis nula H0 : σ2
= σ2
0 . . . . . . . 189
4.4.2 Juzgamiento de homoscedasticidad . . . . . . . . . . . . . 191
4.5 Juzgamiento de proporciones . . . . . . . . . . . . . . . . . . . . 193
4.6 Ejemplos numéricos de aplicación . . . . . . . . . . . . . . . . . . 196
4.7 Tamaño de la muestra . . . . . . . . . . . . . . . . . . . . . . . . 198
4.8 Juzgamiento secuencial . . . . . . . . . . . . . . . . . . . . . . . . 200
4.9 Juzgamiento del ajuste . . . . . . . . . . . . . . . . . . . . . . . . 208
4.9.1 Juzgamiento del ajuste por el método de Pearson . . . . . 209
4.9.2 Juzgamiento del ajuste por el método de Kolmogorov-
Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214

Prólogo
La escritura de este libro siempre estuvo animada por el deseo obstinado de
secundar el trabajo que realiza el estudiante tanto en el salón de clase como
fuera de él; pues entiendo que en definitiva es el estudiante quien aprehende los
conceptos como fruto de sus quehaceres académicos, conceptos inducidos más
por sus dudas, por sus dificultades y por algunas contradicciones con algunos de
sus preconceptos, que por alguna exposición frente al tablero. En mi criterio, el
profesor como acompañante en la formación profesional, se convierte solamente
en orientador, animador y crı́tico.
Con ese espı́ritu quise que este libro se constituyese en una juiciosa pre-
paración de clase de la asignatura Inferencia Estadı́stica, preparación que ha
acopiado las memorias de cada una de las oportunidades en las cuales fui el
el encargado del curso a través de mis años como docente en la Universidad
Nacional de Colombia. De ese acopio es profuso lo desechado y lo corregido,
pues las preguntas de los estudiantes confundidos, las preguntas inteligentes y las
respuestas sobresalientes como las equivocadas en las evaluaciones, generalmente
sucitaron la reflexión sobre las formas y contenidos de los guiones de la clase.
No pretendo publicar un texto mas, pues los hay de una calidad inmejorable,
algunos clásicos cuya consulta es obligada, otros de reciente edición que han in-
corporado nuevos desarrollos conceptuales. Pretende el texto apoyar el trabajo
académico que se realiza en el curso, especialmente con el propósito de opti-
mizar el tiempo y la calidad de la exposición de los temas, dando paso a la uti-
lización del tablero acompañado de la tecnologı́a audiovisual como posibilidad
para profundizar algunos de los temas y como medio para tratar las pregun-
tas e inquietudes estudiantiles y no como instrumento transcriptor de frases y
gráficas.
En este libro expreso mis apreciaciones personales semánticas y conceptuales
promovidas por la concepción que tengo sobre la Estadı́stica y particularmente
sobre la Inferencia estadı́stica, concepción que he madurado y he hecho propia,
a partir de las reflexiones con profesores del Departamento de Estadı́stica, a
partir de discusiones informales y dentro de eventos académicos. Su contenido
y organización responden a la forma tradicional como he realizado el curso, a
las limitaciones de un semestre académico para su desarrollo y a los requisitos
curriculares exigidos a los estudiantes que lo cursan.
Fue la circunstancia de mi año sabático, disfrutado durante el año 2002, la
que hizo posible la redacción y digitación de este texto, pues fueron múltiples
iii

iv PRÓLOGO
las ocasiones fallidas de organizar en un libro el material de la clase, debido a
las ocupaciones derivadas de mis compromisos académicos, administrativos y de
servicios de asesorı́a estadı́stica que la Universidad me encargó llevar a cabo.
Finalmente, creó que debo agradecer tanto a mis alumnos pues ellos son el
motivo para organizar las ideas que presento entorno a la Inferencia estadı́stica,
como a la Universidad Nacional de Colombia que aceptó como plan de activi-
dades de mi año sabático, la elaboración de este texto.

Introducción
Este texto ha sido concebido para ser fundamentalmente un texto guı́a en
el desarrollo de la asignatura Inferencia Estadı́stica, que cursan tanto los es-
tudiantes del pregrado en Estadı́stica como los estudiantes de la Carrera de
Matemáticas. Puede apoyar igualmente algunos temas de la asignatura Es-
tadı́stica Matemática de la Maestrı́a en Estadı́stica. El requisito natural e in-
mediato para abordar los temas de cada uno de los capı́tulos del libro, es un
curso de Probabilidad, y por supuesto los cursos de Cálculo. Consta de cua-
tro capı́tulos que pueden desarrollarse durante un semestre académico con seis
horas semanales de clase tradicional.
He adaptado traducciones de uso corriente en los textos de Estadı́stica a
formas y términos con un mejor manejo del idioma y que semánticamente co-
rrespondan con mayor fidelidad al concepto que denominan. Igualmente hago
precisión sobre algunas expresiones usuales para mayor claridad conceptual.
Cada capı́tulo está estructurado en tres partes: exposición de los temas,
demostraciones de los teoremas y la relación de los ejercicios correspondientes.
Esto no significa que el manejo del texto deba llevarse en el orden mencionado.
He querido organizarlo ası́, con el objeto de que la presentación de los temas
exhiba una forma continua y que las demostraciones y los ejercicios tengan su
sitio especial propio. Los ejercicios no están ordenados ni por su complejidad,
ni por el tema tratado, para no encasillarlos. El estudiante se acerca a un
ejercicio con información y trabajo previos, y es con su organización de ideas
y búsqueda de caminos que debe evaluar si con los elementos estudiados hasta
un cierto punto le es posible abordar el ejercicio particular; sin embargo, el
profesor puede sugerir la realización de alguno o algunos ejercicios cuando haya
culminado un tema o parte de él.
El primer capı́tulo como fundamento del texto, ubica sintéticamente a la
Inferencia Estadı́stica dentro del problema filosófico secular de la inducción.
Retoma el tema de la convergencia de sucesiones de variables aleatorias, y ex-
pone las ideas preliminares de la Inferencia Estadı́stica. El segundo capı́tulo
presenta los métodos corrientes de construcción de estimadores y los criterios
para examinar las estadı́sticas en su calidad de estimadores.
En el tercer capı́tulo se presenta el método de la variable pivote para cons-
truir intervalos confidenciales y se hace algún énfasis en los intervalos confiden-
ciales bajo Normalidad. En el cuarto capı́tulo se adopta la expresión juzgamien-
to de hipótesis a cambio de prueba, docimasia o cotejo, porque esta acepción
v

vi INTRODUCCIÓN
está más cerca del sentido de la toma de decisiones estadı́sticas e igualmente se
da un espacio importante en el juzgamiento de hipótesis bajo Normalidad.

Capı́tulo 1
DISTRIBUCIONES
MUESTRALES
“El conocimiento que tenemos del mundo está basado en la elaboración de un
modelo de la realidad, modelo que puede cotejarse con la experiencia tan sólo
de manera parcial y ocasionalmente... Este modelo se construye teniendo en
cuenta la utilización que hacemos del mismo...”
J. Bruner, “On cognitive growth”
Antes de entrar en materia, es preciso destinar unos pocos párrafos para
introducir un bosquejo del contexto en el cual la Inferencia estadı́stica puede
ubicarse, más como exposición de ideas generales que el pretender una disquisi-
ción filosófica al respecto. Ese contexto está contenido dentro de un problema
más general de carácter epistemológico, que el lector puede profundizar con las
copiosas publicaciones sobre el tema. Posteriormente, por tratarse de uno de
los fundamentos sobre el cual la Inferencia Estadı́sitica erige algunos de sus
conceptos, se incluye la sección 1.3 a manera de un extracto de la convergen-
cia de sucesiones de variables aleatorias, tema integrante de un curso previo de
Probabilidad, pero que se retoma por su carácter y por su utilidad próxima.
1.1 La Inferencia estadı́stica, un soporte episte-
mológico
La inferencia inductiva, procedimiento que utiliza la lógica como una forma
de generalizar a partir de hechos particulares o a partir de la observación de
un número finito de casos, es uno de los temas que ha ocupado a filósofos y
cientı́ficos de todos los tiempos, desde la época de Aristóteles, tres siglos antes
de Cristo, hasta la actualidad.
1

2 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES
Varios filósofos antiguos formados en el empirismo gnoseológico, convencidos
de que la observación era la única fuente segura de conocimiento, fueron los
primeros en proponer la inducción o inferencia inductiva como método lógico.
Tempranamente la inducción se convierte en un tema de mucha controversia que
aún se mantiene; si para Aristóteles, quien planteó inicialmente el procedimiento
inductivo, la Ciencia es “conocimiento demostrativo”, por el contrario para
Sexto Empı́rico, uno de los filósofos representantes del Escepticismo, la Ciencia
es “comprensión segura, cierta e inmutable fundada en la razón”. Ası́, mientras
Sexto Empı́rico rechaza la validez de la inducción, Filodemo de Gadara, filósofo
seguidor del Epicureı́smo, defiende la inducción como método pertinente.
Y la controversia, llamada el problema de la inducción o también conocida
como el “problema de Hume”, reside precisamente en que mientras la inferencia
deductiva avala la transferencia de la verdad de las premisas a la conclusión,
es decir, a partir de premisas verdaderas todas deducción es cierta, a costa de
no incorporar nada al contenido de las premisas, la inducción por su parte que
va más allá de las premisas, por su carácter amplificador, puede dar lugar a
conclusiones falsas; en pocas palabras la controversia se centra en la validez
que puedan tener los razonamientos inductivos, puesto que las conclusiones por
medio de la inducción no siempre serán verdaderas.
Algunos pensadores medievales también se preocuparon de la inducción. El
inglés Robert Grosseteste al utilizar para su trabajo cientı́fico los métodos apli-
cados por sus discı́pulos de Oxford en Óptica y Astronomı́a, reabre en la Edad
Media el tema de la inducción; si bien varios filósofos de la época orientaron
sus reflexiones hacia los métodos inductivos, los ensayos y trabajos de Francis
Bacon inspirados en la reorganización de las ciencias naturales, constituyeron el
apogeo del método inductivo.
No obstante, para Hume las leyes cientı́ficas no tienen carácter universal, es
decir son válidas únicamente cuando la experiencia ha mostrado su certidumbre
y tampoco tiene la función de la previsibilidad. Popper, filósofo de la Ciencia,
conocido por su teorı́a del método cientı́fico y por su crı́tica al determinismo
histórico, en el mismo sentido de Hume, afirma que no puede existir ningún
razonamiento válido a partir de enunciados singulares a leyes universales o a
teorı́as cientı́ficas. Mas recientemente, Bertrand Russell mantiene la posición de
Hume de la invalidez de la inducción, pero considera que ella es el camino para
incrementar la probabilidad, como grado racional de creencia, de las generaliza-
ciones.
La conocida Ley débil de los grandes números incluida en la cuarta parte
del trabajo más sobresaliente de Jacob Bernoulli, Ars Conjectandi, publicado
después de su muerte en el año 1713, y el también conocido teorema de Bayes
publicado cincuenta años más tarde, trajeron nuevos elementos en la discusión al
constituirse en argumentos matemáticos que sustentan la posibilidad de inferir
probabilidades desconocidas a partir de frecuencias relativas. Sin embargo para
Popper, sustituir la exigencia de verdad por la validez probabilı́stica para las
inferencias inductivas no lo hace un procedimiento legı́timo.
Durante las primeras décadas del siglo pasado, a raı́z de los importantes
avances de la Ciencia ocurridos a finales del siglo XIX y a principios del siglo

1.1. LA INFERENCIA ESTADÍSTICA, UN SOPORTE EPISTEMOLÓGICO 3
XX, avances que no podı́an pasar desapercibidos para los pensadores, obligaron
a los filósofos a revisar muchas de las ideas de los clásicos y es ası́ como un grupo
de hombres de ciencia, matemáticos y filósofos, se organizan en 1922 en torno
al fı́sico Moritz Schlick, profesor de filosofı́a de la ciencia de la Universidad de
Viena, convirtiéndose en un movimiento filosófico internacional, principal pro-
motor del positivismo lógico, (también llamado neopositivismo, neoempirismo
o empirismo lógico), movimiento conocido como Cı́rculo de Viena, conformado
entre otros, además de Schlick, por Hahn, Frank, Neurath, Kraft, Feigl, Wais-
mann, Gödel, y Carnap; Einstein, Russell y Wittgenstein eran considerados
como miembros honorı́ficos y Ramsey y Reinchenbach como miembros simpati-
zantes del mismo.
Este movimiento filosófico se dedicó a muchos y variados temas de la Filosofı́a
de la Ciencia, y por supuesto al problema de la inducción. En sı́ntesis se puede
afirmar que el hilo conductor de las ideas del Cı́rculo de Viena fue la defensa
de una visión cientı́fica del mundo a través de una ciencia unificada ligado al
empleo del análisis lógico en el sentido de Russell.
Pero respecto al tema de la inducción, el Cı́rculo no cerró la discusión; concre-
tamente para Popper y sus seguidores, la escuela del refutacionismo, el método
cientı́fico no utiliza razonamientos inductivos, sino razonamientos hipotético-
deductivos, ası́ se acopien datos y hechos particulares dentro del procedimiento
de evaluación de una hipótesis que dan paso a una conclusión de carácter general,
no existe como tal un razonamiento inductivo. Para el refutacionismo la ciencia
se concibe como una sucesión de conjeturas y refutaciones: se proponen conje-
turas para explicar los hechos, que luego serán refutadas para promover nuevas
conjeturas. En sı́ntesis, para Popper y su escuela, ninguna teorı́a cientı́fica puede
establecerse en forma concluyente.
Sin embargo, para Feyerabend y Kuhn, en otro momento de gran contro-
versia en este tema, las décadas del 60 y 70, la práctica cientı́fica no está en
correspondencia con este proceder racional ni tampoco puede lograrlo, porque
en gran medida existen supuestos relativos a la objetividad, a la verdad, al papel
de la evidencia y a la invariabilidad semántica. Para Feyerabend, no existen,
principios universables de racionalidad cientı́fica; el crecimiento del conocimien-
to es siempre especı́fico y diferente como tampoco sigue un camino de antemano
fijado.
Dentro de esta controversia, a la Inferencia estadı́stica no se le ha eximido
del problema de la inducción. Ronald Fisher, considerado por muchos el padre
de la Estadı́stica, defendió el papel inductivo que conlleva el juzgamiento de
hipótesis 1
. Sin embargo un sector de cientı́ficos y filósofos consideran que tanto
la estimación de parámetros como el juzgamiento de hipótesis tienen dirección
inductiva pero el razonamiento o inferencia que se lleva a cabo es de carácter
deductivo.
En fin, la Historia y la Filosofı́a de la Ciencia tuvieron un enorme auge a
lo largo del siglo pasado, continúan acopiando y estructurando reflexiones y
argumentos sobre la inducción, pero al no ser el propósito de esta sección tratar
1La denominación juzgamiento de hipótesis será justificada en el capı́tulo 4.

el proceso lógico de la inducción desde el punto de vista filosófico, ni tampoco
pretender su recuento histórico, ni mucho menos asumir una posición respecto
a ella, se omiten nombres de muy destacados pensadores contemporáneos. Lo
que realmente motiva incluir los párrafos anteriores es poner de manifiesto de
manera muy concisa el hecho de que el problema de la inducción es un problema
filosófico vigente con 23 siglos de existencia al cual generaciones de filósofos y
cientı́ficos se han dedicado.
Y más allá del debate epistemológico y metafı́sico contermporáneo dentro
de la Filosofı́a de la Ciencia, es cierto que gran parte de la Ciencia actual frente
a una naturaleza entrelazada de azar concomitante con una variabilidad inher-
ente, reconoce de una u otra manera que el ensanche de su cuerpo conceptual
requiere de la participación impresindible de la Estadı́stica. Mucho antes de
la omnipresencia del computador, de los avances vertiginosos de la teorı́a y
métodos estadı́sticos de los últimos tiempos, Hempel en 1964 en su libro, As-
pectos de la explicación cientı́fica, se referı́a a los dos modelos de explicación
de tipo estadı́stico:“el modelo estadı́stico deductivo, en el que las regularidades
estadı́sticas son deducidas de otras leyes estadı́sticas más amplias, y el modelo
estadı́stico inductivo, en el que los hechos singulares se explican subsumiéndolos
bajo leyes estadı́sticas”.
En esta dirección cuando en los quehaceres cientı́ficos, tecnológicos o ad-
ministrativos se recurre a la Estadı́stica para organizar y orientar sus procesos
y métodos, como de igual manera cuando se recurre a ella para apoyar argu-
mentos y decisiones, ese recurso suele convertirse, desde uno de los puntos de
vista, en un proceso de inducción especı́ficamente en un proceso que puede ser
clasificado como de inducción amplificadora, de manera análoga a como Francis
Bacon vio en la inducción el procedimiento escencial del método experimental,
o convertirse en una serie de actividades ligadas a un procedimiento propio de
la ciencia o la tecnologı́a , en un procedimiento hipotético-deductivo, como lo
entiende la escuela propperiana. Para cualquiera de los dos puntos de vista que
se asuma, la Estadı́stica brinda un respaldo exclusivo en la inferencia.
1.2 Preliminares en la Inferencia estadı́stica
Dentro del contexto del parágrafo anterior, cabe formularse varias preguntas;
la primera de ellas: ¿Cuál es el objeto para el cual son válidos los enunciados
generales producto de la inducción, de la decisión o la estimación que realiza una
aplicación estadı́stica?. Paralelamente tiene lugar la segunda pregunta: ¿Cuáles
son las unidades que permiten obtener la información de casos particulares como
punto inicial en el citado proceso?. Y la tercera pregunta, que interroga sobre
la calidad del proceso de inferencia estadı́stica: ¿Cuáles son los principios que
rigen este proceso tan particular de inferencia?.
La primera pregunta indaga por el conjunto de todos los elementos que
en un determinado momento son del interés de un investigador, de un gestor
o de un tomador de decisiones. Elementos que son diferentes entre sı́ pero
que tienen una o varias caracterı́sticas comunes que los hacen miembros del

1.2. PRELIMINARES EN LA INFERENCIA ESTADÍSTICA 5
conjunto en consideración. Al respecto en algunas disciplinas cientı́ficas esas
caracterı́sticas comunes son denominadas criterios de inclusión, complementados
con los criterios de exclusión, para definir concisamente la pertenencia de un
elemento al conjunto y para precisar igualmente la pérdida de la calidad de
pertenencia del elemento.
Para referirse a ese conjunto mencionado anteriormente el lenguaje corriente
de la Estadı́stica utiliza el término población; ese agregado o colección de las
unidades de interés es en últimas el objeto receptor del producto del proceso de
inducción, de la decisión o de la estimación.
La segunda pregunta parece confundirse con la primera. Si bien es cier-
to que la pregunta se refiere a esas entidades que corresponden a los hechos
particulares, a los casos singulares, a ese conjunto finito de casos, que son
examinados durante la primera etapa de la inferencia, la reunión de todas las
unidades posibles, constituye ese conjunto que se ha llamado población. Pero su
estricta determinación radica en que cada una de esas unidades será, en sentido
metafórico, un interlocutor con el investigador. Interlocutor, porque la inves-
tigación puede entenderse, de manera análoga, como un proceso comunicativo:
el investigador pregunta, la naturaleza responde. Esas unidades pueden ser de-
notadas como unidades estadı́sticas, de manera genérica para subsumir en
esa denominación, otras como unidad experimental, unidad de análisis, sujeto,
caso, entre otras.
Como en casi todas las oportunidades, de hecho no existe la posibilidad de
“dialogar”con todas y cada una de las unidades estadı́sticas, debido a impera-
tivos que lo impiden, asociados a varios aspectos. Por ejemplo, cuando el tamaño
de la población, es decir, el cardinal del conjunto que reúne a todas las unidades
estadı́sticas, es ingente; o también cuando la respuesta de la unidad implica
su desnaturalización o deterioro; igualmente cuando ese “diálogo”es oneroso, o
cuando los resultados de la investigación se requieren con apremio.
A ese subconjunto de unidades que un párrafo anterior se referı́a como el
conjunto finito de casos que son examinados durante la primera etapa del pro-
ceso de inferencia, circunscrito al subconjunto de unidades estadı́sticas elegidas
por medio de procedimientos estadı́sticos formales, por supuesto, se le designa
corrientemente como muestra.
A diferencia de las dos preguntas anteriores, cuyas respuestas son en últimas
acuerdos semánticos, la tercera es una pregunta fundamental que requiere
respuestas a partir de elaboraciones conceptuales, repuestas que se darán
gradualmente con el desarrollo de los capı́tulos objeto de este texto; pero pre-
viamente de una manera sucinta se esboza el fundamento de las respuestas.
La Estadı́stica facultada para sustentar y conducir procesos de inducción, de-
cisión y estimación muy caracterı́sticos, cuenta con la inferencia estadı́stica como
la fuente conceptual que nutre, avala y licencia la estructura y funcionamiento
de métodos y procedimientos estadı́sticos. Para el desarrollo de cada una de
sus dos componentes, relativos a la estimación de parámetros y el juzgamiento
de hipótesis, la inferencia estadı́stica tiene como punto de partida la referen-
cia o el establecimiento de modelos para representar variables observables o no
observables, modelos que pueden ser explı́citos o generales.

Semánticamente el vocablo modelo responde a varias acepciones, particu-
larmente dentro del lenguaje cientı́fico y tecnológico. Sin embargo el sentido
que la Estadı́stica le confiere al término, es el de consistir en una traducción
de un aspecto de la realidad a un lenguaje simbólico, como uno de los recursos
para representar de manera simplificada su comportamiento, que habilite pro-
cesos de generalización, que incluya sus aspectos fundamentales, que facilite su
descripción o permita la toma de decisiones.
La factibilidad de representar variables muy disı́miles asociadas con fenóme-
nos de distintos campos del saber a través de un mismo modelo de probabilidad,
permite a la Inferencia estadı́stica detenerse en el modelo mismo para conver-
tirlo en su objeto de estudio. A partir de su estructura, de las expresiones
matemáticas asociada a su naturaleza y con ellas de la presencia y papel que
desempeñan los parámetros, se construyen y evalúan posibles estimadores de es-
tos últimos, y de igual manera se derivan y evalúan procedimientos que permitan
juzgar afirmaciones sobre el modelo.
En consecuencia, los principios que avalan procesos de carácter estadı́stico,
tratados por la Inferencia estadı́stica y motivo de la tercera pregunta, consisten
en métodos y criterios relacionados tanto con la construcción de estimadores y
test como con el examen de la aptitud e idoneidad de los mismos, y que tal
como se anunció, la descripción y el desarrollo de los citados principios son en
definitiva el contenido mismo de este texto.
Definición 1.2.1. Una muestra aleatoria es una sucesión finita de
variables aleatorias independientes e idénticamente distribuidas X1, X2, . . . , Xn.
De manera más general una sucesión de variables aleatorias X1, X2, . . . , inde-
pendientes y con idéntica distribución, también se denomina muestra aleatoria.
En el caso de una sucesión finita, el valor n recibe el nombre de tamaño de la
muestra o tamaño muestral.
La definción anterior revela que en el contexto estadı́stico el término muestra
presenta dos acepciones: la de ser un subconjunto de unidades estadı́sticas elegi-
das por métodos estadı́sticos formales y la adjetivada como aleatoria expuesta
en la definición anterior, ésta referida a una sucesión de variables aleatorias. Lo
mismo le ocurre al término población: denota al conjunto completo de unidades
estadı́sticas objeto de estudio y ahora se le concibe como una variable aleatoria,
en el sentido que se expone seguidamente.
El acceso al estudio de ese conjunto de unidades estadı́sticas, se lleva a
cabo mediante el examen de las caracterı́sticas o respuestas de sus integrantes,
interpretadas como variables; el discernimiento de la esencia ya no individual
sino colectiva de las unidades es en suma el motivo de la investigación o estudio;
por ello el comportamiento de las variables se convierte entonces en un elemento
revelador de caracterı́sticas y propiedades que sustentan la descripción de la
colectividad, las explicaciones o las decisiones a que haya lugar.
El comportamiento real de una o varias variables es un comportamiento re-
flejo de la naturaleza de la población, que no siempre es posible conocer. Por ello
acudir a modelos de probabilidad para emular el comportamiento poblacional
es un recurso legı́timo que reduce carencias, permite aprovechar las virtudes

1.2. PRELIMINARES EN LA INFERENCIA ESTADÍSTICA 7
propias del modelo y hace posible la utilización de un lenguaje universal, por
supuesto sobre la base de una escogencia juiciosa del modelo.
Entonces, un aspecto de las unidades estadı́sticas observado, medido o cuan-
tificado en una variable, (o varios aspectos utilizando un vector para disponer
las variables) se le abstrae como una variable aleatoria (o un vector aleatorio)
que tiene asociado un modelo particular. Esta variable aleatoria que representa
una variable en la población suele denominársele igualmente población.
Bajo estas consideraciones la sucesión de variables aleatorias X1, X2, . . . , Xn,
de la definición anterior denominada muestra aleatoria además de ser un ele-
mento del ámbito conceptual de la Teorı́a Estadı́stica, puede vincularse con la
información especı́fica acopiada de un subconjunto de n unidades estadı́sticas
de las cuales se dispone de los valores x1, x2, . . . , xn, correspondientes a una
variable denotada por X. Dicho en otros términos el valor xi puede entenderse
como una realización de la correspondiente variable aleatoria Xi, i = 1, 2, . . . , n,
por eso es habitual encontrar recurrentemente la expresión “sea X1, X2, . . . , Xn
una muestra aleatoria de una población con función de densidad...”. El contexto
en el cual se encuentre el vocablo población, delimita la acepción en uso: un
conjunto o una variable aleatoria.
Definición 1.2.2. Se denomina Estadı́stica a una variable aleatoria
construida como una función de las variables aleatorias X1, X2, . . . , Xn que
conforman una muestra aleatoria, función que no depende de parámetro al-
guno constitutivo de la expresión algebraica que identifica al modelo asumido
para representar una variable en la población, ni tampoco depende de constantes
desconocidas, también llamados parámetros, que cuantifican rasgos generales en
la población cuando no se asume un modelo especı́fico.
Como el aspecto determinante en la naturaleza de una estadı́stica es su
no dependencia funcional de parámetros, se le resalta por medio del siguiente
ejemplo.
Ejemplo 1.2.1. Asumiendo el modelo Gaussiano para representar una variable
en la población, y si X1, X2, . . . , Xn es una muestra aleatoria de la población
ası́ modelada, son estadı́sticas entre otras
•
X1 + X2 + · · · + Xn
n
= Xn
•
(X1 − Xn)2
+ (X2 − Xn)2
+ · · · + (Xn − Xn)2
n − 1
= S2
n
• X1,n = min{X1, X2, . . . , Xn}
Puesto que los parámetros μ y σ son las constantes caracterı́sticas del
modelo Gaussiano, particularmente las dos siguientes variables aleatorias no
son estadı́sticas
n

i=1

Xi − Xn
σ
2
n

i=1
(Xi − μ)2
n − 1

El contenido semántico que se les da en Estadı́stica tanto al término estimar
como al término estimación, para referirse a su acción o efecto, proviene de
una de las acepciones corrientes que tiene el segundo vocablo. El significado en
mención de: aprecio o valor que se da y en que se tasa o considera algo2
, no
sugiere un cálculo aproximado de un valor como equivocadamente se entiende,
porque no hay referentes para calificar su aproximación, ni tampoco como un
proceso adivinatorio; debe entenderse como la realización formal de un avalúo,
es decir en llevar a cabo un proceso que exige de manera imprescindible el
contar con información de ese algo del cual se quiere fijar su valor. Por lo
tanto la calidad de la estimación, depende directamente de la calidad original
y la cantidad de información que se posea. Consecuentemente una cantidad
insuficiente de información genera estimaciones no fiables, como igualmente las
genera una gran cantidad de información de calidad exigua.
A manera de sinopsis, considerando simultáneamente tanto la cantidad de
información como su calidad y utilizando el plano cartesiano para su repre-
sentación, en la siguiente figura se adjetivan distintas circunstancias en calidad
y cantidad de información que constituye el insumo en el proceso de estimación.
Funesta
Desechable Ideal
Inadmisible
ADMISIBLE
Calidad
Cantidad
100%
100%
0
Figura 1.1: Diagrama de calidad y cantidad de información
La calidad de la información, de la cual este texto no se ocupa porque se pre-
tenden propósitos de otro tipo, debe asegurarse a partir del diseño, construcción
y calibración de instrumentos para el registro de la información, dentro de la
organización y ejecución de las actividades de acopio de información y durante
2Diccionario de la Lengua Española. Real Academia Española. Vigésimasegunda edi-
ción.2001

1.3. PRELIMINARES EN CONVERGENCIA DE VARIABLES ALEATORIAS 9
el proceso de almacenamiento y guarda de la información.
Definición 1.2.3. Una estadı́stica cuyas realizaciones son utilizadas para llevar
a cabo estimaciones de los parámetros de un modelo probabilı́stico se denomina
estimador y a las citadas realizaciones o valores particulares se les conoce como
estimaciones.
Definición 1.2.4. El modelo probabilı́stico que rige el comportamiento de una
estadı́stica o de un estimador se denomina distribución muestral de la
respectiva estadı́stica o del respectivo estimador.
Algunos autores se refieren a la distribución de la variable aleatoria que rep-
resenta a la población, como la distribución original de las observaciones, o
modelo original y a la distribución muestral de una estadı́stica como la distribu-
ción reducida o modelo reducido.
Definición 1.2.5. Sea X1, X2, . . . , Xn una muestra aleatoria de una población
con momentos oridinarios y centrales μ
r y μr respectivamente. Los momentos
muestrales, ordinarios y centrales de orden r, r = 1, 2, . . . , cumplen en la
muestra funciones análogas a los momentos poblacionales μ
r y μr, y se denotan
y definen como
M
r,n =
1
n
n

i=1
Xr
i
Mr,n =
1
n
n

i=1
(Xi − Xn)r
En particular cuando r = 1, primer momento ordinario muestral, M
1,n = Xn,
es llamado de manera más corriente, promedio muestral o promedio de la
muestra. Se prefiere como varianza muestral en cambio del segundo mo-
mento muestral, por razones que posteriormente se justificarán, a la expresión
1
n − 1
n

i=1
(Xi − Xn)2
1.3 Preliminares en convergencia de variables
aleatorias
Para aprestar los elementos que se requieren en el tema de Inferencia estadı́stica,
es preciso abordar de una manera suscinta los tipos de convergencia de variables
aleatorias en razón a que posteriormente el crecimiento del tamaño de muestra
permite derivar propiedades interesantes de algunas estadı́sticas, y por lo tanto
el propósito de esta sección es presentar los tipos más corrientes de convergencia
de variables aleatorias.
Por medio de {Xn}, n = 1, 2, . . . , se describe una sucesión de variables
aleatorias X1, X2, . . . , la cual es una sucesión de funciones medibles {Xn(w)}

definida en un espacio muestral Ω, y teniendo en cuenta que todas las variables
aleatorias constituyentes de la sucesión están consideradas en el mismo espacio
de probabilidad (Ω, A, P).
En primer lugar, siendo {Xn} una sucesión de variables aleatorias y c un
número real, el conjunto {w|Xn(w) = c} ∈ A, de tal manera que
P

lim
n→∞
Xn = c

= 1
esté siempre definido.
Se dice que la sucesión de variables aleatorias {Xn} converge casi seguro
a cero o converge a cero con probabilidad uno si:
P

lim
n→∞
Xn = 0

= 1
Además, si las variables aleatorias X1, X2, . . . , y la variable aleatoria particular
X están definidas en el mismo espacio de probabilidad, se afirma que la sucesión
de variables aleatorias {Xn} converge casi seguro a la variable aleatoria
X, si la sucesión de variables aleatorias {Xn − X} converge casi seguro a cero,
este tipo de convergencia también se conoce como convergencia fuerte y se
simboliza como
Xn
a.s.
−
−
→ X
Ejemplo 1.3.1. Si el comportamiento probabilı́stico de cada una de las
variables aleatorias de la sucesión {Xn} se modela por medio de la distribu-
ción de Bernoulli de manera que Xn ∼ Ber((1
2 )n
), entonces
Xn
a.s.
−
−
→ 0
En efecto,
P

lim
n→∞
Xn = 0

= 1
puesto que P[Xn = 0] = 1 −
1
2
n
. Como V [Xn] =
1
2
n

1 −
1
2
n
, puede
notarse el decrecimiento de la varianza en cuanto n se incrementa, es decir
que Xn va perdiendo el carácter de variable aleatoria porque su varianza va
tendiendo a cero, la variable va asumiendo rasgos de una constante.
En segundo lugar, se dice que la sucesión de variables aleatorias {Xn} con-
verge en probabilidad a la variable aleatoria X, hecho simbolizado como,
Xn
p
−
→ X
si lim
n→∞
P [|Xn − X| ] = 1, para 0. Para referirse a la convergencia en
probabilidad también puede utilizarse convergencia estocástica, convergencia en
medida o convergencia débil.

1.3. PRELIMINARES EN CONVERGENCIA DE VARIABLES ALEATORIAS 11
Un tercer tipo de convergencia se conoce como convergencia en momento
de orden r. En este caso cada variable de la sucesión de variables aleatorias
{Xn} y X poseen el momento ordinario de orden r. En estas circunstancias
se afirma que la sucesión de variables aleatorias converge en momento de
orden r a la variable aleatoria X, lo cual se representa como,
Xn
Lr
−→ X
si lim
n→∞
E [(|Xn − X|)r
] = 0. Particularmente, si r = 1 suele decirse que la suce-
sión de variables aleatorias {Xn} converge en valor esperado a la variable
aleatoria X. Similarmente, cuando r = 2 la convergencia se conoce como
convergencia en media cuadrática.
Un cuarto y último tipo de convergencia de variables aleatorias se refiere
a una sucesión de variables aleatorias {Xn}, cuya correspondiente sucesión de
funciones de distribución F1(x), F2(x), . . . , es considerada. De esta manera la
sucesión de variables aleatorias {Xn} converge en distribución a la variable
aleatoria X, cuya función de distribución es F(x), hecho denotado:
Xn
d
−
→ X
si lim
n→∞
Fn(x) = F(x) para todo x.
Entre los diferentes tipos de convergencia existen relaciones que es necesario
destacar. El siguiente teorema las reúne.
Teorema 1.3.1. Estando las variables aleatorias X1, X2, . . . y la variable par-
ticular X difinidas sobre el mismo espacio de probabilidad (Ω, A, P),
1. Si {Xn} converge casi seguro a la variable aleatoria X con probabilidad 1,
implica que {Xn} converge en probabilidad a la variable aleatoria X.
2. Si {Xn} converge en valor esperado a la variable aleatoria X, implica que
{Xn} convergen en probabilidad a la variable aleatoria X.
3. Si {Xn} converge en probabilidad a la variable aleatoria X implica que
{Xn} converge en distribución a la variable aleatoria X.
4. Siendo r s, la convergencia de una sucesión de variables aleatorias
{Xn} en momento de orden r implica la convergencia de la sucesión en
momento de orden s.
De manera gráfica las relaciones que enuncia el teorema 1.3.1, se pueden
recapitular en la figura 1.2
Teorema 1.3.2 (Teorema de Lévy). Considerando la variable aleatoria par-
ticular X y la sucesión de variables aleatorias {Xn}, definidas sobre el mismo
espacio de probabilidad, y siendo {φn(t)} la sucesión de funciones caracterı́sticas
correspondientes a las variables de la sucesión {Xn},
Xn
d
−
→ X si y sólo si lim
n→∞
φn(t) = φ(t)

Convergencia en
valor esperado
Convergencia
casi segura
Convergencia en
probabilidad
Convergencia en
distribución
Figura 1.2: Relaciones entre algunos tipos de convergencia de variables aleato-
rias
para t ∈ R y φ(t) función caracterı́stica de la variable aleatoria X, continua en
cero.
Teorema 1.3.3 (Teorema de Lévy). - Versión para funciones genera-
trices de momentos - Considerando la variable aleatoria particular X y
la sucesión de variables aleatorias {Xn}, deﬁnidas sobre el mismo espacio de
probabilidad, y siendo {Mn(t)} la sucesión de funciones generatrices de momen-
tos correspondientes a las variables de la sucesión {Xn}, las cuales existen para
t real en algún intervalo alrededor de cero,
Xn
d
−
→ X si y sólo si lim
n→∞
Mn(t) = M(t)
para t real en algún intervalo alrededor de cero y M(t) función generatriz de
momentos de la variable aleatoria X.
Teorema 1.3.4. Sea {Xn} una sucesión de variables aleatorias.
Xn
p
−
→ c si y sólo si lim
n→∞
Fn(x) = F(x)
siendo c una constante, Fn(x) la función de distribución de Xn y F(x) una
función de distribución tal que F(x) = 0 para x c y F(x) = 1 para x ≥ c.
1.4 Caracterı́sticas generales de algunas estadı́s-
ticas
Los momentos muestrales, además de cumplir funciones análogas a los momen-
tos poblacionales como se incorporó en la deﬁnición 1.2.5, son estadı́sticas de

1.4. CARACTERÍSTICAS GENERALES DE ALGUNAS ESTADÍSTICAS 13
uso frencuente que bajo la garantı́a de la existencia de determinados momen-
tos poblacionales, sus distribuciones muestrales poseen propiedades generales
respecto a su posición y a su dispersión en la forma como el siguiente teorema
lo indica.
Teorema 1.4.1. Si X1, X2, . . . , Xn es una muestra aleatoria de una población
representada por la variable aleatoria X con varianza σ2
y con momento ordi-
nario μ
2r, r = 1, 2, . . . , entonces el valor esperado y la varianza del momento
muestral ordinario son respectivamente:
E[M
r,n] = μ
r
V [M
r,n] =
1
n

E[X2r
] − (E[Xr
])2

=
1
n

μ
2r − (μ
r)2

Corolario 1.4.1.1. Bajo las hipótesis del teorema 1.4.1,
E[Xn] = μ
1 = μ
V [Xn] =
σ2
n
con valor esperado, también llamado promedio poblacional, μ y varianza σ2
,
y existiendo además el momento central de orden cuatro μ4, entonces
E[S2
n] = E

1
n − 1
n

i=1
(Xi − Xn)2

= σ2
V [S2
n] =
1
n

μ4 −
n − 3
n − 1
σ4

, n 1
El tamaño de la muestra es un elemento substancial tanto para las disquisi-
ciones en la teorı́a de la estadı́stica como para la utilización de la misma. La
pregunta por su magnitud es quizá de las más inquietantes para el investigador
en la búsqueda de respaldo a la confiabilidad de su investigación; el tamaño
muestral es uno de los aspectos con los cuales se certifican o descalifican estu-
dios, es en definitiva un punto obligado para dilucidar.
La incidencia relevante del tamaño de la muestra en la distribución muestral
de muchas estadı́sticas, gira alrededor del tema conocido como distribuciones
asintóticas. En particular en la medida que se vaya incrementando el tamaño de
la muestra, el promedio muestral adquiere unos rasgos propios que los siguientes
teoremas describen.

Teorema 1.4.3 (Ley débil de los grandes números). Si X1, X2, . . . , Xn
es una muestra aleatoria de una población con valor esperado μ y varianza σ2
,
entonces
X1 + X2 + . . . + Xn
n
p
−
→ μ
La nota de la demostración del teorema anterior, destaca el hecho de que
P

− Xn − μ

≥ 1 − δ
para n entero mayor que
σ2
δ2
, 0, δ 0; lo cual permite determinar la
magnitud del tamaño muestral bajo prefijados requisitos. Esta cota para el
tamaño de la muestra debe entenderse dentro del contexto de una población
infinita y una muestra simple.
Ejemplo 1.4.1. ¿Cuál debe ser el tamaño de la muestra para tener una
probabilidad de 0.95 de que el promedio muestral no difiera en más de una
cuarta parte de la desviación estándar de μ?
En esta situación, = 0.25σ, δ = 0.05, por lo tanto
n
σ2
(0.25σ)20.05
= 320
Modificando parcialmente las condiciones del teorema 1.4.3 en el sentido de
no hacer ninguna mención de la varianza σ2
, es posible reiterar la convergen-
cia en probabilidad del promedio de la muestra, como lo presenta el siguiente
teorema.
Teorema 1.4.4 (Teorema de Khintchine). Si X1, X2, . . . , Xn es una mues-
tra aleatoria de una población con valor esperado μ entonces
Xn
p
−
→ μ
De manera más general, la convergencia en probabilidad de los momentos
muestrales ordinarios a los momentos poblacionales ordinarios está avalada por
el siguiente teorema.
para la cual el momento central μ2r existe, entonces
M
r,n
p
−
→ μ
r, r = 1, 2, . . .
Para cerrar esta relación de teoremas que giran alrededor de la idea de la
Ley débil de los grandes números, se incluye el siguiente teorema que puede
entenderse como una generalización de la citada ley.

Teorema 1.4.6. Si X1, X2, . . . es una sucesión de variables aleatorias tales que
E[Xi] = μi y V [Xi] = σ2
i son finitos y ρ(Xi, Xj) = 0, i = j, para i = 1, 2, . . .,
entonces
Xn − μn
p
−
→ 0
siendo μn =
1
n
n

i=1
μi
La Ley fuerte de los grandes números es un conjunto de teoremas referentes
a la convergencia casi segura de sucesiones de variables aleatorias. El teore-
ma siguiente es el más divulgado de todos y fue enunciado originalmente por
Kolmogorov.
Teorema 1.4.7 (Ley fuerte de los grandes números). Si X1, X2, . . . , Xn
es una muestra aleatoria de una población con valor esperado μ, entonces la
sucesión {Xn − μ} converge casi seguro a cero.
con valor esperado μ y varianza σ2
, entonces
S2
n
a.s.
−
−
→ σ2
y en consecuencia S2
n
p
−
→ σ2
Con la denominación de Teorema del Lı́mite Central debe entenderse más a
un conjunto de teoremas concernientes a la convergencia en distribución de la
suma de un número creciente de variables aleatorias al modelo Gaussiano, que a
la más popular de sus versiones. Es un conjunto de teoremas fundamentales de
la Estadı́stica pues constituyen puntos de apoyo substanciales de la Inferencia
estadı́stica y de las aplicaciones.
Bajo la citada denominación de teorema del lı́mite central se incluyen
variantes como la versión original conocida como la ley de los errores, derivada
de los trabajos de Gauss y Laplace sobre la teorı́a de errores, que permitió el
surgimiento de las versiones más antiguas referentes a variables con distribución
de Bernoulli, debidas a De Moivre y Laplace en los siglos XVI y XVII, se in-
cluyen las versiones de Lindeberg-Lévy y Lindeberg-Feller, que son consecuencia
de un trabajo inciado por Chevyshev y Liapunov a finales del siglo XIX, trabajo
encaminado a la búsqueda de una demostración rigurosa, se incluyen las ver-
siones de Bikelis y aquellas adaptadas para los casos multivariados, y también
se incluyen aquellas para el caso de variables dependientes.
En particular la versión clásica o Teorema de Lindeberg-Lévy, la versión más
difundida, corresponde al siguiente teorema, resultado al que llegaron de manera
independiente J.W.Lindeberg y P.Lévy en la segunda década del siglo XX.
Teorema 1.4.9 (Teorema del Lı́mite Central (Lindeberg-Lévy)). Si
X1, X2, . . . , Xn es una muestra aleatoria de una población con valor esperado
μ y varianza σ2
finitos, considerando la variable aleatoria
Zn =
Xn − μ
σ
√
n

entonces la sucesión de variables aleatorias {Zn} converge en distribución a una
variable aleatoria con distribución Normal estándar.
En pocas palabras, esta difundida versión determina que,
√
n(Xn − μ)
σ
d
−
→ Z ∼ N(0, 1)
El teorema del lı́mite central es la mejor justificación de la existencia del
modelo Gaussiano y del énfasis que de él se hace reiteradamente. Por otra
parte lo admirable del teorema radica en que no importa el modelo regente del
comportamiento probabilı́stico de la población, y en que la exigencia de finitud
del valor esperado y la varianza es fácil satisfacerla en las aplicaciones.
Para finalizar estas consideraciones acerca del teorema del lı́mite central se
presenta una versión especial la cual corresponde al teorema de Lindeberg-Feller.
Teorema 1.4.10 (Teorema del Lı́mite Central (Lindeberg-Feller)). Si
X1, X2, . . . es una sucesión de variables aleatorias independientes con valor es-
perado μi y varianza σ2
i finitos, i = 1, 2, . . . y asumiendo que τ2
n =
n

i=1
σ2
i → ∞
y además que max
1≤i≤n

σ2
i
τ2
n

→ 0 cuando n → ∞, entonces
n

i=1
(Xi − μi)
τn
d
−
→ Z ∼ N(0, 1)
si y sólo si para cada 0,
lim
n→∞
1
τ2
n
n

i=1

|x−μi|≥τn
(x − μi)2
fi(x)dx

= 0
siendo fi(x) la función de densidad de la variable aleatoria Xi, i = 1, 2, . . .
Cuando el comportamiento de una población se asume regido por el
modelo Gaussiano, se pueden deducir propiedades especı́ficas adicionales para el
promedio y varianza muestrales, propiedades que hacen explı́citas los siguientes
teoremas.
con distribución Normal de valor esperado μ y varianza σ2
, entonces
Xn ∼ N

μ,
σ2
n

Teorema 1.4.12. Si X1, X2, . . . , Xn es una sucesión de variables aleatorias
independientes tales que Xi ∼ N(μi, σ2
i ), entonces
U =
n

i=1

Xi − μi
σi
2
∼ χ2
(n)

Corolario 1.4.12.1. Cuando la sucesión de variables aleatorias constituye una
muestra aleatoria de una población con distribución Normal, de valor esperado
μ y varianza σ2
,
U =
n

i=1

Xi − μ
σ
2
∼ χ2
(n)
con distribución Normal de valor esperado μ y varianza σ2
, entonces las es-
tadı́sticas Xn y S2
n son dos variables aleatorias estadı́sticamente independientes.
Normal de valor esperado μ y varianza σ2
, entonces
n

i=1
(Xi − Xn)2
σ2
=
(n − 1)S2
n
σ2
∼ χ2
(n − 1)
Con supuestos menos taxativos, el promedio y la varianza muestrales pre-
sentan un comportamiento muy particular. Los siguientes teoremas resaltan la
marcada autonomı́a de las estadı́sticas Xn y S2
n.
cuya función de densidad es simétrica, entonces
cov(Xn, S2
n) = 0
La expresión usual de la varianza muestral incluye el promedio de la muestra,
es decir que la varianza podrı́a entenderse como función de éste. Sin embargo, su
presencia en la expresión puede considerarse aparente puesto que la varianza de
la muestra puede prescindir del promedio muestral en la forma como lo garantiza
el siguiente teorema 3
.
para la cual no se asume un modelo de probabilidad especı́ﬁco, entonces
S2
n =
1
2n(n − 1)
n

i=1
n

j=1
(Xi − Xj)2
En sı́ntesis, es claro que el promedio y varianza de la muestra son estadı́sticas
tales que bajo el modelo Gaussiano son estadı́sticamente independientes, bajo un
modelo de probabilidad cuya función de densidad es simétrica, las estadı́sticas
no están correlacionadas, y en cualquier situación la varianza de la muestra no
depende funcionalmente del promedio de la muestra.
3Jorge E. Ortiz P. Boletı́n de Matemáticas. Volúmen VI No. 1 (1999), pp. 43-51

1.5 Estadı́sticas de orden
Una modalidad especial de estadı́sticas la integran las llamadas estadı́sticas
de orden. Ellas desempeñan papeles importantes en algunas aplicaciones como
en las Cartas de Control Estadı́stico de la Calidad y como en el fundamento y
manejo de algunos conceptos en Estadı́stica no paramétrica. Además de estos y
otros usos, las estadı́sticas de orden son particularmente los estimadores apropi-
ados de parámetros que rigen el recorrido de la población, y ası́ mismo son
utilizadas en el juzgamiento de hipótesis referentes a estos parámetros. Por ser
estimadores y sustentar reglas de decisión en poblaciones especiales es menester
exponer algunos elementos y consideraciones acerca de su distribución.
Definición 1.5.1. La k-ésima estadı́stica de orden, k = 1, 2, . . . , n,
correspondiente a una muestra aleatoria X1, X2, . . . , Xn, denotada por Xk,n,
está definida de la siguiente manera
Xk,n = min {{X1, X2, . . . , Xn} − {X1,n, X2,n, . . . , Xk−1,n}}
siendo
X1,n : mı́nimo de la muestra
Xn,n : máximo de la muestra
Al conjunto de estadı́sticas de orden X1,n, X2,n, . . . , Xn,n se le designa con el
nombre de muestra aleatoria ordenada.
A partir de las estadı́sticas de orden pueden definirse otras estadı́sticas como:
• El rango muestral
R = Xn,n − X1,n
• El semirango muestral
SR =
X1,n + Xn,n
2
• La mediana muestral
Me =
⎧
⎪
⎪
⎪
⎨
⎪
⎪
⎪
⎩
Xn+1
2 ,n , si n es impar
Xn
2 ,n + Xn
2 +1,n
2
, si n es par
• La función de distribución empı́rica o función de distribución
muestral
Fn(x) =
1
n
n

i=1
I(−∞,x](xi)

1.5. ESTADÍSTICAS DE ORDEN 19
es decir,
Fn(x) =
⎧
⎪
⎪
⎪
⎪
⎪
⎪
⎨
⎪
⎪
⎪
⎪
⎪
⎪
⎩
0, si x X1,n
k
n
, si Xk,n ≤ x Xk+1,n
1, si x ≥ Xn,n, k = 1, 2, . . . , n − 1
1.5.1 Distribución de las estadı́sticas de orden
Las estadı́sticas heredan en menor o mayor medida los rasgos del modelo elegido
para representar el comportamiento poblacional. Especı́ﬁcamente la distribu-
ción muestral de las estadı́sticas de orden incluye de manera explı́cita las fun-
ciones de densidad y distribución de la población como lo registran los siguientes
teoremas.
Teorema 1.5.1. Siendo X1,n, X2,n, . . . , Xn,n las estadı́sticas de orden o la mues-
tra ordenada de una población con función de distribución FX (x), entonces para
k = 1, 2, . . . , n
FXk,n
(y) =
n

j=k

n
j

[FX (y)]j
[1 − FX (y)]n−j
Corolario 1.5.1.1. Para los casos especiales del mı́nimo y máximo de la mues-
tra se tiene:
FX1,n (y) = 1 − [1 − FX (y)]n
FXn,n (y) = [FX (y)]n
Teorema 1.5.2. Siendo X1, X2, . . . , Xn una muestra aleatoria de una población
con función de distribución contı́nua FX(x), la función de densidad de la k-
ésima estadı́stica de orden es
fXk,n
(y) =
n!
(k − 1)!(n − k)!
[FX (y)]k−1
[1 − FX(y)]n−k
fX(y), k = 1, 2, . . . , n
La función conjunta de densidad de la j-ésima estadı́stica de orden y la
k-ésima estadı́stica de orden fXj,n,Xk,n
(x, y) es
c(n, j, k)[FX (x)]j−1
[FX(y) − FX(x)]k−j−1
[1 − FX (y)]n−k
fX(y)fX(x)I(x,∞)(y)
para 1 ≤ j k ≤ n, con c(n, j, k) = n!/[(j − 1)!(k − j − 1)!(n − k)!]. La función
conjunta de densidad de las estadı́sticas de orden es
fX1,n,X2,n,... ,Xn,n (y1, y2, . . . , yn) =
⎧
⎪
⎨
⎪
⎩
n!
n
i=1
fX (yi) y1 y2 · · · yn
0 en otros casos

Ejemplo 1.5.1. Siendo X1, X2, . . . , Xn una muestra aleatoria de una población
con distribución Uniforme en el intervalo (α, β), determinar la función de den-
sidad de la k-ésima estadı́stica de orden.
fX(x) =
1
β − α
I(α,β)(x)
FX (x) =
x − α
β − α
I(α,β)(x) + I[β,∞)(x)
fXk,n
(y) =
n!
(k − 1)!(n − k)!

y − α
β − α
k−1
1 −
y − α
β − α
n−k
1
β − α
I(α,β)(y)

=
n!
(k − 1)!(n − k)!

1
β − α
n
(y − α)k−1
(β − y)n−k
I(α,β)(y)
La distribución de la k-ésima estadı́stica de orden es la de una variable aleatoria
con distribución Beta en el intervalo (α, β) con parámetros k y (n−k+1) cuando
la población es Uniforme en el intervalo (α, β).
Nota. Una variable aletoria X con distribución Beta en el intervalo (0, 1) puede
generar una variable aleatoria Y con distribución Beta en el intervalo (α, β)
mediante la relación
Y = α + (β − α)X
Teorema 1.5.3. Sea X1, X2, . . . , Xn, una muestra aleatoria de una población
con función de distribución FX (x) continua. Para p ﬁjo, si xp denota al único
percentil 100p poblacional, entonces
P[Xj,n xp Xk,n] =
k−1

l=j

n
l

pl
(1 − p)n−l
1.5.2 Distribución del rango, semirango y mediana mues-
trales
Las estadı́sticas correspondientes al rango y semirango son funciones del máximo
y mı́nimo muestrales, por lo tanto la determinación de su distribución parte de
la consideración de la distribución conjunta de X1,n y Xn,n
fX1,n,Xn,n (x, y) = n(n − 1) [FX(y) − FX(x)]
n−2
fX(x)fX (y)I(x,∞)(y)
Deﬁnidas las estadı́sticas:
R = Xn,n − X1,n
T =
X1,n + Xn,n
2

1.5. ESTADÍSTICAS DE ORDEN 21
se considera la siguiente transformación
x = t −
r
2
y = t +
r
2
cuyo jacobiano es

∂x
∂r
∂x
∂t
∂y
∂r
∂y
∂t

=

1
2 1
1
2 1

= 1
con lo cual
fR,T (r, t) = n(n − 1)

FX

t + r
2

− FX

t − r
2
n−2
fX

t − r
2

fX

t − r
2

En consecuencia, para r 0, se tiene
fR(r) =
∞
−∞
fR,T (r, t)dt
fT (t) =
∞
−∞
fR,T (r, t)dr
La distribución de la mediana está dependiendo del tamaño de la muestra. Si
éste es entero impar, su distribución está totalmente determinada pues
corresponde a la distribución de la estadı́stica de orden n+1
2 . Para la situación
en la cual n es par, la mediana es función de las estadı́sticas de orden Xn
2 ,n y
Xn
2
+1,n. Ası́ al tomar n = 2m, m = 1, 2, . . .
fX n
2
,n,X n
2
+1,n
(x, y) = fXm,n,Xm+1,n (x, y)
=
(2m)!
[(m − 1)!]2
[FX (x)]m−1
[1 − FX(x)]m−1
fX(x)fX (y)
con x y. Considerando la transformación u = x+y
2 , v = y, se tiene que
fx+y
2
(u) = fU (u)
=
2(2m)!
[(m − 1)!]2
∞
u
[FX(2u − v)]m−1
[1 − FX(v)]m−1
fX(2u − v)fX(v)dv
1.5.3 Distribución de la función de distribución empı́rica
La función de distribución empı́rica tiene varios usos especialmente en métodos
y conceptos de la Estadı́stica no paramétrica. Su gráﬁco se convierte en un
indicativo de una primera aproximación al ajuste que brinda el modelo. Algunos
aspectos de su distribución se presentan a continuación.
P

Fn(x) =
k
n

=

n
k

[FX (x)]k
[1 − FX(x)]n−k
donde k = 0, 1, 2, . . . , n. En efecto, denotando la variable aleatoria
Zi = I(−∞,x](Xi)

luego Zi ∼ Ber(FX (x)), por lo tanto
n

i=1
Zi ∼ Bin(n, FX(x)) y por consiguiente
E[Fn(x)] = FX(x)
V [Fn(x)] =
FX (x)[1 − FX(x)]
n
con función de distribución FX (x), entonces
Fn(x)
P
−
→ FX (x)
para un valor x dado.
Teorema 1.5.5 (Teorema de Glivenko-Cantelli). Si X1, X2, . . . , Xn es una
muestra aleatoria de una población con función de distribución FX (x), entonces
Fn(x) converge uniformemente a FX(x), esto es, para cada 0,
lim
n→∞
P

sup
−∞x∞
|Fn(x) − FX (x)|

= 1
|
x
Fn(x)
FX (x)
Figura 1.3: Esquema de las funciones de distribución Fn(x) y FX (x)
con función de distribución FX (x), la sucesión de variables aleatorias
√
n[Fn(x) − FX (x)]

FX (x)[1 − FX (x)]

converge en distribución a una variable aleatoria con distribución Normal estándar.

1.6. MOMENTOS DE ESTADÍSTICAS DE ORDEN 23
1.6 Momentos de estadı́sticas de orden
Los teoremas 1.5.1 y 1.5.2 puntualizan respectivamente la función de distribu-
ción y la función de densidad de la k-ésima estadı́stica de orden. En principio,
garantizada la existencia del momento de interés y determinada explı́citamente
la función de distribución FX(x), podrı́a formalizarse el momento con base en
las referidas funciones de distribución o de densidad. Sin embargo, su logro
depende de la complejidad de la integración requerida para su cálculo, dado que
algunas veces se alcanza únicamente por medio de integración numérica.
A manera de ejemplo, considerando el comportamiento poblacional como in-
diferente para cualquier valor del intervalo (0, 1), el valor esperado, la varianza
y el momento de orden r de la estadı́stica de orden k es factible determinarlos.
Ejemplo 1.6.1. Siendo X1,n, X2,n, . . . , Xn,n es una muestra ordenada de una
población con distribución Uniforme en el intervalo (0, 1)
E[Xk,n] =
k
n + 1
V [Xk,n] =
k(n − k + 1)
(n + 2)(n + 1)2
ρ(Xj,n, Xk,n) =

j(n − k + 1)
k(n − j + 1)
1
2
, j k
En efecto. En primer lugar, de manera general
E[Xr
k,n] =
n!
(k − 1)!(n − 1)!
1
0
xr+k−1
(1 − x)n−k
dx
=
n!
(k − 1)!(n − 1)!
β(r + k, n − k + 1)
y utilizando la relación β(a, b) =
Γ(a)Γ(b)
Γ(a + b)
, entonces
E[Xr
k,n] =
n!
(k − 1)!(n − 1)!
Γ(r + k)Γ(n − k + 1)
Γ(r + k + n − k + 1)
=
n!(r + k − 1)!
(r + n)!(k − 1)!
, 1 ≤ k ≤ n
particularmente,
E[Xk,n] =
n!k!
(n + 1)!(k − 1)!
=
k
n + 1
V [Xk,n] = E[X2
k,n] − (E[Xk,n])2
E[X2
k,n] =
n!(k + 2 − 1)!
(n + 2)!(k − 1)!
=
k(k + 1)
(n + 1)(n + 2)
V [Xk,n] =
k(k + 1)
(n + 1)(n + 2)
−
k2
(n + 1)2
=
k(n − k + 1)
(n + 2)(n + 1)2

Por otra parte, denotándo E[Xj,n, Xk,n] = Δ, se tiene que
Δ =
n!
(j − 1)!(k − j − 1)!(n − k)!
1
0
y
0
xj
y(y − x)k−j−1
(1 − y)n−k
dxdy
=
n!
(j − 1)!(k − j − 1)!(n − k)!
1
0
y(1 − y)n−k
y
0
xj
(y − x)k−j−1
dx

dy
Realizando la sustitución v =
x
y
Δ =
n!
(j − 1)!(k − j − 1)!(n − k)!
1
0
y(1 − y)n−k

yk
β(j + 1, k − j)

dy
=
n!
(j − 1)!(k − j − 1)!(n − k)!
β(1 + j, k − j)β(k + 2, n − k + 1)
=
j(k + 1)
(n + 1)(n + 2)
= E[Xj,n, Xk,n]
con lo cual
Cov(Xj,n, Xk,n) =
j(k + 1)
(n + 1)(n + 2)
−
jk
(n + 1)2
j k
ρ(Xj,n, Xk,n) =

j(n − k + 1)
k(n − j + 1)
j k
por lo tanto, como caso especial, la correlación entre el mı́nimo y máximo de la
muestra bajo comportamiento poblacional Uniforme en el intervalo (0, 1) es
ρ(X1,n, Xn,n) =
1
n
Como ya se mencionó, en algunos casos se requiere integración numérica
para determinar momentos de una estadı́stica de orden. Sin embargo es posible
presentar expresiones que permiten aproximar el valor esperado y varianza de
la k-ésima estadı́stica de orden.
El desarrollo de estas expresiones se basa en una expansión en serie de Taylor
y en el hecho de que si X es una variable aleatoria con función de distribución
FX(x) continua, la variable aleatoria Y = FX (X) tiene distribución Uniforme
en (0, 1), entonces
E[Xk,n]
F−1
X

k
n + 1

V [Xk,n]

k(n − k + 1)
(n + 1)2(n + 2)

fX

F−1
X

k
n+1
2

1.7. DEMOSTRACIÓN DE LOS TEOREMAS DEL CAPÍTULO 25
Finalmente se expone una breve alusión a la distribución asintótica de las es-
tadı́sticas de orden.
El estudio de la distribución asintótica de la k-ésima estadı́stica de orden
incluye dos casos a saber: el primero cuando n tiende a infinito y k
n permanece
fijo, el segundo cuando n tiende a infinito y k o n − k permanecen finitos.
Para algunos efectos, el primer caso es de mayor interés; el teorema siguiente
se adscribe a ese caso.
Teorema 1.6.1. Sea X1, X2, . . . , Xn una muestra aleatoria de una población
cuya función de distribución FX (x) es estrictamente monótona. Asumiendo que
xp es el percentil 100p poblacional, es decir, FX (xp) = p, entonces la estadı́stica
de orden [np] + 1 tiene distribución asintótica Normal con valor esperado xp y
varianza p(1−p)
n[fX (xp)]2 .
Particularmente, si p = 1
2 (mediana) y la población es Normal con valor
esperado μ y varianza σ2
la mediana muestral tiene distribución Normal con
valor esperado μ y varianza πσ2
2n .
Con este teorema relativo a la distribución asintótica de la k-ésima estadı́stica
de orden concluye la introducción a las ideas preliminares de la Inferencia es-
tadı́stica, presentación que además entreabre el contexto filosófico en el cual
se desempeña, que describe las caracterı́sticas más relevantes de algunas es-
tadı́sticas y registra como estadı́sticas especiales a las estadı́sticas de orden.
Con esto se da paso a la exposición de los argumentos que sustentan las afirma-
ciones de los enunciados de los teoremas relacionados y finalmente a la serie de
ejercicios cuyo desarrollo complementará la reflexión sobre estos temas iniciales
y será un componente más en la aprehensión de los conceptos expuestos en este
primer capı́tulo.
1.7 Demostración de los teoremas del capı́tulo
Demostración (Teorema 1.3.1). Algunos apartes de la demostración pueden
consultarse en A first course in mathematical statistics, de G. Roussas, páginas
133 a 135 y en Basic probability theory de R. Ash, páginas 204 y 205.
Demostración (Teorema 1.3.4). Suponiendo que Xn
p
−
→ c, entonces para
0
lim
n→∞
P [|Xn − c| ] = 1 = lim
n→∞
P [c − Xn c + ]
= lim
n→∞
[Fn(c + ) − Fn(c − )]
= lim
n→∞
[Fn(c + )] − lim
n→∞
[Fn(c − )]
La imagen de cualquier función de distribución es un valor que pertenece al
intervalo [0, 1], luego la única posibilidad para que la igualdad anterior se de es
que
lim
n→∞
Fn(c + ) = 1 y lim
n→∞
Fn(c − ) = 0

hecho revelador de que Fn(x) −→ F(x) siendo F(x) una función de distribución
tal que
F(x) =

0 si x c
1 si x ≥ c
es decir que F(x) es la función de distribución de una constante c.
Suponiendo ahora que Fn(x) −→ F(x) con F(x) = I[c,∞)(x), es decir que
lim
n→∞
Fn(x) = F(x)
entonces
lim
n→∞
Fn(c − ) = 0 para 0 y lim
n→∞
Fn(c + ) = 1
luego
lim
n→∞
[Fn(c + ) − Fn(c − )] = 1 = lim
n→∞
P [c − Xn c + ]
= lim
n→∞
P [|Xn − c| ]
lo cual signiﬁca que Xn
p
−
→ c.
Demostración (Teorema 1.4.1). El valor esperado del momento ordinario
de orden r puede determinarse mediante dos argumentos. En primer lugar,
utilizando las propiedades del valor esperado se tiene que
E[M
r,n] = E

1
n
n

i=1
Xr
i

=
1
n
n

i=1
E[Xr
i ], r = 1, 2, . . .
En segundo lugar, como todas las variables aleatorias de la sucesión tienen la
misma distribución, por constituir una muestra aleatoria, E[Xr
i ] = μ
r, para
i = 1, 2, . . . , n, en consecuencia
E[M
r,n] =
1
n
n

i=1
μ
r =
1
n
(nμ
r) = μ
r
De manera similar puede determinarse la varianza del momento ordinario de
orden r. De las propiedades de la varianza, se puede aﬁrmar que
V [M
r,n] = V

n

i=1
Xr
i

, r = 1, 2, . . .
y debido a que las variables aleatorias son independientes, pues constituyen una
muestra aleatoria, lo son también las variables Xr
1 , Xr
2 , . . . , Xr
n, con lo cual
V [M
r,n] =
1
n2
n

i=1
V [Xr
i ] =
1
n2
n

i=1

E[X2r
i ] − (E[Xr
i ])
2

y como las variables tienen distribución idéntica,
V [M
r,n] =
1
n2
n

i=1

μ
2r − (μ
r)2

=
1
n

μ
2r − (μ
r)2

Demostración (Teorema 1.4.2). Para determinar el valor esperado de la
varianza muestral, es necesario previamente veriﬁcar la identidad:
n

i=1
(Xi − μ)2
= (n − 1)S2
n + n(Xn − μ)2
El sumar y restar Xn es el punto de partida en la veriﬁcación de la identidad,
de tal manera que
n

i=1
(Xi − μ)2
=
n

i=1
(Xi − Xn + Xn − μ)2
=
n

i=1

(Xi − Xn) + (Xn − μ)
2
Asimismo después de desarrollar el cuadrado indicado,
n

i=1
(Xi − μ)2
=
n

i=1
(Xi − Xn)2
+ 2(Xn − μ)
n

i=1
(Xi − Xn) + n(Xn − μ)2
=
n

i=1
(Xi − Xn)2
+ n(Xn − μ)2
porque
n

i=1
(Xi − Xn) =
n

i=1
Xi − nXn = nXn − nXn = 0, y por lo tanto
n

i=1
(Xi − μ)2
= (n − 1)S2
n + n(Xn − μ)2
Con el anterior recurso,
E[S2
n] = E

1
n − 1
n

i=1
(Xi − μ)2
−
n
n − 1
(Xn − μ)2

=
1
n − 1

n

i=1
E[(Xi − μ)2
] − nE[(Xn − μ)2
]

como E[(Xi − μ)2
] = V [Xi], E[(Xn − μ)2
] = V [Xn] y teniendo en cuenta que
todas las variables aleatorias de la sucesión tienen la misma distribución,
E[S2
n] =
1
n − 1

n

i=1
σ2
− n

σ2
n

=
1
n − 1
[nσ2
− σ2
] = σ2
La demostración del segundo enunciado del teorema, es uno de los ejercicios de
este capı́tulo.

Demostración (Teorema 1.4.3). La herramienta procedente para sustentar
el desarrollo de esta demostración será la desigualdad de Chevyshev, la cual
asegura que si X es una variable aleatoria con valor esperado μX y varianza σ2
X
finita,
P[|X − μX| rσX ] ≥ 1 −
1
r2
para cada r 0
Aplicando la desigualdad al caso especial de la variable aleatoria Xn, teniendo en
cuenta que E[Xn] = μ y V [Xn] =
σ2
n
, como lo manifiesta el corolario 1.4.1.1,
P

Xn − μ

r
σ
√
n

≥ 1 −
1
r2
para cada r 0
utilizando el reemplazo = r σ
√
n
se tiene que 0 y
P[

Xn − μ

] ≥ 1 −
σ2
n2
de tal manera que
lim
n→∞
P[

Xn − μ

] ≥ lim
n→∞
1 −
σ2
n2
= 1
es decir que
lim
n→∞
P[

Xn − μ

] = 1
lo cual significa que Xn
p
−
→ μ, como lo afirma la ley débil de los grandes números.
Nota. La cota 1 −
σ2
n2
crece en cuanto n crece. Si se fija la cota en 1 − δ,
0 δ 1, significa que existe un tamaño de muestra mı́nimo n, para el cual
P[|Xn − μ| ] ≥ 1 − δ. Dicho en otros términos 1 −
σ2
n2
1 − δ, es decir,
P[− Xn − μ ] ≥ 1 − δ, para n
σ2
δ2
Demostración (Teorema 1.4.4). Utilizando la función generatriz de momen-
tos de la variable que representa a la población MX(t), o en su defecto la función
caracterı́stica φX (t),
MXn
(t) = E

etXn

= E

exp

t
n
X1 +
t
n
X2 + · · · +
t
n
Xn

como las variables constituyen una muestra aleatoria,
MXn
(t) =
n
i=1
E

e
t
n Xi

=
n
i=1
E

e
t
n X

=

MX

t
n
n

entonces
MXn
(t) =

1 +
μ
1!

t
n

+
1
2!
E[X2
]

t
n
2
+ · · ·

n
lim
n→∞
MXn
(t) = lim
n→∞

1 +
μt
n
+ O

t
n
n
= eμt
función generatriz que corresponde a la función generatriz de una constante μ.
(O es el sı́mbolo “o pequeña”usado en el estudio de las series). Lo cual signiﬁca
que
Xn
d
−
→ μ
y con base en el teorema 1.3.4 se tiene que
Xn
p
−
→ μ
Demostración (Teorema 1.4.5). Como la sucesión Xr
1 , Xr
2 , . . . , Xr
n confor-
ma un conjunto de variables aleatorias independientes e idénticamente dis-
tribuidas porque la sucesión X1, X2, . . . , Xn es una muestra aleatoria, entonces
sólo resta aplicar el teorema relativo a la Ley débil de los grandes números uti-
lizando la sucesión Xr
1 , Xr
2 , . . . , Xr
n, con lo cual se puede concluir que
1
n
n

i=1
[Xr
i ]
p
−
→ E [Xr
1 ] = μ
r
Demostración (Teorema 1.4.7). Puede consultarse en Probability and Sta-
tistical Inference de Robert Bartoszynski y Magdalena Niewiadomska-Bugaj (1996)
en las páginas 430 a 431.
Demostración (Teorema 1.4.9). La estrategia para la demostración consiste
en el uso de la función generatriz de momentos y de sus propiedades, para lo cual
se asume la existencia de la función generatriz de momentos de la población.
Se apoya la demostración en el desarrollo en serie de McLaurin de la función
generatriz de momentos, demostración que también se puede llevar a cabo, uti-
lizando la función caracterı́stica.
Denotando como MZn (t) la función generatriz de momentos de la variable
aleatoria Zn, se tiene:
MZn (t) = E

etZn

= E

exp
√
n

Xn − μ

σ
t

= E

exp

t
n
√
n
n

i=1
Xi − μ
σ

= E

n
i=1
exp

t
n
√
n
Xi − μ
σ

como las variables de la sucesión X1, X2, . . . , Xn son variables aleatorias in-
dependientes por tratarse de una muestra aleatoria, las variables Y1, Y2, . . . , Yn
también lo son, siendo Yi = Xi−μ
σ , i = 1, 2, . . . , n y por lo tanto,
MZn (t) =
n
i=1
E

exp

t
√
n
Yi

=
n
i=1
MYi

t
√
n

como las variables Y1, Y2, . . . , Yn tienen la misma distribución, con función
generatriz de momentos MYi

t
√
n

= MY

t
√
n

, i = 1, 2, . . . , n, entonces
MZn (t) =
n
i=1
MY

t
√
n

=

MY

t
√
n
n
El desarrollo en serie de McLaurin de la función generatriz MY (t) evaluada en
el valor t
√
n
es
MY (t) = 1 +
μ1
σ
t
√
n
+
1
2!
μ2
σ2

t
√
n
2
+
1
3!
μ3
σ3

t
√
n
3
+ · · ·
como el valor esperado es igual a cero, por lo tanto, si existen, μ
r = μr,
r = 1, 2, . . . , y además la varianza es igual a uno,
MY

t
√
n

= 1 +
1
2!
σ2
σ2

t
√
n
2
+
1
3!
μ3
σ3

t
√
n
3
+ · · ·
= 1 +
1
n

1
2!
t2
+
1
3!
√
n
μ3t3
+
1
4!n
μ4t4
+ · · ·

efectuando el reemplazo Pn(t) = 1
2! t2
+ 1
3!
√
n
μ3t3
+ 1
4!n μ4t4
+ · · · y dado que
MZn (t) =

MY

t
√
n
n
,
MZn (t) = [1 + Pn(t)]
n
lim
n→∞
MZn (t) = lim
n→∞
[1 + Pn(t)]
n
= exp

lim
n→∞
Pn(t)

= e
1
2 t2
porque los coeﬁcientes de t3
, t4
, . . . tienden a cero cuando n → ∞.
Además e
1
2 t2
se reconoce como la función generatriz de momentos de una
variable aleatoria con distribución Normal estándar. Como
lim
n→∞
MZn (t) = MZ(t) = e
1
2 t2
de acuerdo con el teorema de Lévy, Zn
d
−
→ Z, Z ∼ N(0, 1).

Demostración (Teorema 1.4.10). Los elementos que se requieren para el de-
sarrollo de la demostración de este teorema están más allá del alcance de este
texto.
Demostración (Teorema 1.4.11). Nuevamente se ha elegido a la función
generatriz de momentos como medio para llevar a cabo esta demostración. Sien-
do
MX(t) = exp

μt +
1
2
σ2
t2

la función generatriz de una variable aleatoria X, X ∼ N(μ, σ2
),
MXn
(t) = E

etXn

= E

n
i=1
exp
t
n
Xi

debido a la independencia de las variables que constituyen la muestra aleatoria,
MXn
(t) =
n
i=1
E

exp
t
n
Xi

=
n
i=1
MXi

t
n

Finalmente, como las citadas variables están identicamente distribuidas, de
acuerdo al modelo Gaussiano,
MXn
(t) =
n
i=1
MX

t
n

=
n
i=1
exp

μ
t
n
+
1
2
σ2

t
n
2

=

exp

μ
t
n
+
1
2
σ2

t
n
2

n
= exp

μt +
1
2
σ2
n
t2

lo cual signiﬁca que Xn ∼ N

μ, σ2
n

Demostración (Teorema 1.4.12). La variable aleatoria Zi =
Xi − μi
σi
, para
i = 1, 2, . . . , n, es una variable aleatoria con distribución Normal estándar lo
cual permite aﬁrmar que Z2
i ∼ χ2
(1).
Con el concurso de la función generatriz de momentos, puede establecerse que
MU (t) = E

etU

= E

como la sucesión Z1, Z2, . . . , Zn es una sucesión de variables aleatorias inde-
pendientes,
MU (t) =
n
i=1
E

etZ2
i

=
n
i=1
MZ2
i
(t) =
n
i=1

1
1 − 2t
1
2
=

1
1 − 2t
n
2
lo cual signiﬁca que U ∼ χ2
(n).
Demostración (Teorema 1.4.13). La demostración está orientada a la de-
terminación de la independencia de Xn, (X1 − Xn), (X2, Xn), . . . , (Xn − Xn)
para luego concluir la independencia entre Xn y
n

i=1
(Xi − Xn)2
.
En primer lugar, la función generatriz de momentos M(t, t1, t2, . . . , tn) de las
variables aleatorias Xn, (X1−Xn), (X2, Xn), . . . , (Xn−Xn), con c =

1
√
2πσ
n
,
es
c

Rn
exp

txn + t1(x1 − xn) + · · · + tn(xn − xn) −
n

i=1
(xi − μ)2
2σ2

dx1 · · · dxn
En segundo lugar, al considerar la integral sobre xi, i = 1, 2, . . . , n se tiene
∞
−∞
1
√
2πσ
exp
!
[t + nti − (t1 + t2 + · · · + tn)]
xi
n
−
(xi − μ)2
2σ2

dxi
que al efectuar el reemplazo
1
n

t + nti −
n

i=1
ti

=
1
n

t + n(ti − t)

con t =
1
n
n

i=1
ti
entonces la integral anterior puede expresarse como
∞
−∞
1
√
2πσ
exp
!
1
n

t + n(ti − t)

xi −
(xi − μ)2
2σ2

dxi
cuyo valor es ﬁnalmente
exp

μ
n

t + n(ti − t)

+
σ2

t + n(ti − t)
2
2n2

por consiguiente
M(t, t1, t2, . . . , tn) = exp
n

i=1

μ
n

t + n(ti − t)

+
σ2

t + n(ti − t)
2
2n2

y como
n

i=1
(ti − t) = 0, entonces
M(t, t1, . . . , tn) = exp

μt +
σ2
t2
2n
+
σ2
2
n

i=1
(ti − t)2

= exp
!
μt +
1
2
σ2
n
t2

exp

σ2
2
n

i=1
(ti − t)2

hecho que revela la independencia de Xn, (X1 −Xn), (X2 −Xn), . . . , (Xn −Xn).
Por consiguiente Xn, (X1 − Xn)2
, (X2 − Xn)2
, . . . , (Xn − Xn)2
es un conjunto
de variables aleatorias independientes e igualmente Xn y
n

i=1
(Xi − Xn)2
. En
consecuencia Xn y S2
n son estadı́sticamente independientes.
Demostración (Teorema 1.4.14). De la demostración del teorema 1.4.2 se
tiene que
n

i=1
(Xi − μ)2
=
n

i=1
(Xi − Xn)2
+ n(Xn − μ)2
por lo tanto
n

i=1
(Xi − μ)2
σ2
=
n

i=1
(Xi − Xn)2
σ2
+
n(Xn − μ)2
σ2
luego
E
⎡
⎢
⎢
⎣exp
⎡
⎢
⎢
⎣t
n

i=1
(Xi − μ)2
σ2
⎤
⎥
⎥
⎦
⎤
⎥
⎥
⎦ = E

exp

t
(n − 1)S2
n
σ2
+ t
n(Xn − μ)2
σ2

= E

exp

t
(n − 1)S2
n
σ2

E

t
n(Xn − μ)2
σ2

puesto que Xn y S2
n son estadı́sticamente independientes.
Debido a que
n

i=1
(Xi − μ)2
σ2
∼ χ2
(n) y
n(Xn − μ)2
σ2
∼ χ2
(1)
entonces

1
1 − 2t
n
2
= E

exp

t
(n − 1)S2
n
σ2

1
1 − 2t
1
2
es decir
E

exp

t
(n − 1)S2
n
σ2

=

1
1 − 2t
n−1
2
t
1
2
dicho de otra manera
n

i=1
(Xi − Xn)2
σ2
=
(n − 1)S2
n
σ2
∼ χ2
(n − 1)

Demostración (Teorema 1.4.15). La demostración de este teorema se lle-
vará a cabo mediante inducción matemática sobre el tamaño de muestra.
Previamente a ella y con el ﬁn de incluirlos en la demostración, es necesario
aprestar tres elementos a saber:
1. Si X, Y son dos variables aleatorias independientes,
cov(X, XY ) = E[Y ]V [X]
2. Si la función de densidad de una variable aleatoria X es simétrica con
respecto a E[X],
cov(X, X2
) = 2E[X]V [X]
3. Y ﬁnalmente las relaciones
Xn+1 =
1
n + 1

nXn + Xn+1

nS2
n+1 = (n − 1)S2
n +
n
n + 1

Xn+1 − Xn
2
En primer lugar, al ser X, Y independientes tambien lo son X2
y Y . Por ello
cov(X, XY ) = E[X2
Y ] − E[X]E[XY ] = E[Y ]E[X2
] − E[Y ](E[X])2
es decir, cov(X, XY ) = E[Y ]

E[X2
] − (E[X])2

= E[Y ]V [X].
En segundo lugar, si la función de densidad es simétrica con respecto a E[X]
E

(X − E[X])3

= 0 = E

X3
− 3X2
E[X] + 3X (E[X])2
− (E[X])3

= E

X3

− 3E

X2

E[X] + 2 (E[X])
3
con lo cual E

X3

= 3E

X2

E[X] − 2 (E[X])
3
.
cov(X, X2
) = E

X3

− E[X]E[X2
]
= 3E[X2
]E[X] − 2 (E[X])3
− E[X]E[X2
]
= 2E[X]E[X2
] − 2 (E[X])
3
= 2E[X]

E[X2
] − (E[X])2

= 2E[X]V [X]
Por último,
Xn+1 =
1
n + 1
n+1

i=1
Xi =
1
n + 1

n

i=1
Xi + Xn+1

=
1
n + 1

nXn + Xn+1

nS2
n+1 =
n+1

i=1

Xi − Xn+1
2
=
n+1

i=1

Xi − Xn + Xn − Xn+1
2
=
n+1

i=1

Xi − Xn
2
+ 2

Xn − Xn+1

Xi − Xn

+

Xn − Xn+1
2

= (n − 1)S2
n +

Xn+1 − Xn
2
+ 2

Xn − Xn+1
n

i=1

Xi − Xn

+ 2

Xn − Xn+1

Xn+1 − Xn

+ (n + 1)

Xn − Xn+1
2
como
n

i=1

Xi − Xn

= 0,
nS2
n+1 = (n − 1)S2
n +

Xn+1 − Xn
2
+ 2

Xn − Xn+1

Xn+1 − Xn

+ (n + 1)

Xn − Xn+1
2
= (n − 1)S2
n +

Xn+1 − Xn
2
+

Xn − Xn+1

2Xn+1 + (n − 1)Xn − (n + 1)Xn+1

realizando los reemplazos:
(n + 1)Xn+1 = nXn + Xn+1 y Xn − Xn+1 =
1
n + 1

Xn − Xn+1

nS2
n+1 = (n − 1)S2
n +

Xn+1 − Xn
2
+

Xn − Xn+1

n + 1

2Xn+1 + (n − 1)Xn −

nXn + Xn+1

= (n − 1)S2
n +

Xn+1 − Xn
2
−

Xn+1 − Xn

n + 1

Xn+1 − Xn

= (n − 1)S2
n +
n
n + 1

Xn+1 − Xn
2
Entrando en materia, teniendo en cuenta que E[Xi] = μ, V [Xi] = σ2
, para
i = 1, 2, . . . , n, al considerar una muestra de tamaño n = 2,
S2
2 =
1
2 − 1
2

i=1

Xi − X2
2
=
(X1 − X2)
2
2

cov

X2, S2
2

= cov

X1 + X2
2
,
(X1 − X2)2
2

=
1
4
cov

X1 + X2, (X1 − X2)2

=
1
4

cov

X1 + X2, X2
1 − 2X1X2 + X2
2

=
1
4

cov(X1, X2
1 ) − 2cov(X1, X1X2) + cov

X1, X2
2

+
1
4

cov(X2, X2
1 ) − 2cov(X2, X1X2) + cov

X2, X2
2

=
1
4
[2E[X1]V [X1] − 2E[X2]V [X1] − 2E[X1]V [X2] + 2E[X2]V [X2]]
porque X1 tiene la misma distribución de X2 y además son variables indepen-
dientes,
cov

X2, S2
2

=
1
4

2μσ2
− 2μσ2
− 2μσ2
+ 2μσ2

= 0
Por hipótesis de inducción cov

Xn, S2
n

= 0. Ahora para una muestra de
tamaño n + 1, cov

Xn+1, S2
n+1

= Δ
Δ = cov

n
n + 1
Xn +
1
n + 1
Xn+1, (n − 1)S2
n +
1
n + 1

Xn+1 − Xn
2

=
n − 1
n + 1
cov

Xn, S2
n

+
n
(n + 1)2
cov

Xn,

Xn+1 − Xn
2

+
n − 1
n(n + 1)
cov

Xn+1, S2
n

+
1
(n + 1)2
cov

Xn+1,

Xn+1 − Xn
2

como cov

Xn, S2
n

= 0 y Xn+1, S2
n son independientes,
cov

Xn+1, S2
n+1

=
n
(n + 1)2
cov

Xn,

Xn+1 − Xn
2

+
1
(n + 1)2
cov

Xn+1,

Xn+1 − Xn
2

Ahora bien,
cov

Xn,

Xn+1 − Xn
2

= cov

Xn, X2
n+1 − 2XnXn+1 + X
2
n

= cov

Xn, X2
n+1

− 2cov

Xn, XnXn+1

+ cov

Xn, X
2
n

= −2E[Xn+1]
σ2
n
+ 2E

Xn
σ2
n
= −2μ
σ2
n
+ 2μ
σ2
n
= 0

cov

Xn+1,

Xn+1 − Xn
2

= cov

Xn+1, X2
n+1 − 2XnXn+1 + X
2
n

= cov

Xn+1, X2
n+1

− 2cov

Xn+1, XnXn+1

+ cov

Xn+1, X
2
n

= −2μσ2
+ 2μσ2
= 0
luego
cov

Xn+1, S2
n+1

= 0
n
(n + 1)2
+ 0
1
(n + 1)2
= 0
Demostración (Teorema 1.4.16). Similarmente al punto de partida de la
demostración del teorema 1.4.2,
n

i=1
(Xi − Xj)2
=
n

i=1

(Xi − Xn) − (Xj − Xn)
2
Desarrollando el cuadrado allı́ indicado y como
n

i=1
(Xi − Xn) = 0, entonces
n

i=1
(Xi − Xj)2
=
n

i=1
(Xi − Xn)2
+ n(Xj − Xn)2
luego
n

j=1
n

i=1
(Xi − Xj)2
= n
n

i=1
(Xi − Xn)2
+ n
n

j=1
(Xj − Xn)2
= 2n
n

i=1
(Xi − Xn)2
En consecuencia
1
n − 1
n

i=1
(Xi − Xn)2
=
1
2n(n − 1)
n

j=1
n

i=1
(Xi − Xj)2
Demostración (Teorema 1.5.1). Fijando un valor particular y, se construye
la variable aleatoria dicotómica Zi = I(−∞,y](Xi), i = 1, 2, . . . , n.
Cada una de las variables independientes Z1, Z2, . . . , Zn tiene distribución de
Bernoulli con parámetro FX (y), puesto que P[Zi = 1] = P[Xi ≤ y] = FX (y).
Adicionalmente
n

i=1
Zi ∼ Bin(n, FX(y)) dada la independencia citada de las
variables Z1, Z2, . . . , Zn.
n

i=1
Zi representa al número de observaciones mues-
trales menores o iguales al valor especı́ﬁco y.

Como el evento {Xk,n ≤ y} es equivalente al evento
! n

i=1
Zi ≥ k

, entonces la
función de distribución de la k-ésima estadı́stica de orden corresponde a
FXk,n
(y) = P [Xk,n ≤ y] = P

n

i=1
Zi ≥ k

=
n

j=k

n
j

[FX(y)]
j
[1 − FX (y)]
n−j
Demostración (Teorema 1.5.2). La primera aﬁrmación del teorema se re-
ﬁere a la función de densidad de la estadı́stica Xk,n, función que corresponde
a la derivada, con respecto a los valores particulares de Xk,n, de su función de
distribución FXk,n
(y). Ası́ entonces
fXk,n
(y) =
∂
∂y
FXk,n
(y) = lim
h→0
FXk,n
(y + h) − FXk,n
(y)
h
= lim
h→0
P [y ≤ Xk,n ≤ y + h]
h
x x + h y y + t
Por medio de la distribución multinomial se calcula la probabilidad del evento
A(h) = {y ≤ Xk,n ≤ y + h}, evento descrito como
A(h) :“(k − 1) observaciones de la muestra son menores de y, una observación
pertenece al intervalo [y, y + h] y las restantes (n − k) observaciones
son mayores que y + h ”
P[A(h)] =
n!
(k − 1)!1!(n − k)!
[FX(y)]
k−1
[FX (y + h) − FX(y)] [1 − FX(y)]
n−k
reemplazando FX (v) por F(v), entonces
lim
h→0
P[A(h)]
h
=
n!
(k − 1)!(n − k)!
[F(y)]
k−1
[1 − F(y)]
n−k
lim
h→0
F(y + h) − F(y)
h
=
n!
(k − 1)!(n − k)!
[FX(y)]k−1
[1 − FX (y)]n−k
fX(y) = fXk,n
(y)
La segunda parte del teorema que enuncia la función conjunta de densidad de
las estadı́sticas de orden j y k, fXj,n,Xk,n
(x, y) se demuestra de manera similar.

x x + h xj,n
y
y + t
xk,n
Tomando Δ = fXj,n,Xk,n
(x, y) y FXj,n,Xk,n
(u, v) = F(u, v), entonces
Δ = lim
h→0,t→0
F(x + h, y + t) − F(x, y + t) − F(x + h, y) + F(x, y)
ht
= lim
h→0,t→0
P [x ≤ Xj,n ≤ x + h, y ≤ Xk,n ≤ y + t]
ht
La probabilidad del evento A(h, t) = {x ≤ Xj,n ≤ x + h, y ≤ Xk,n ≤ y + t}
igualmente se calcula por medio de la distribución multinomial.
Dicho evento está descrito como
A(h, t) :“(j − 1) observaciones pertenecen al intervalo I1, una observación
pertenece al intervalo I2, una observación pertenece al I4,
(n − k) de las observaciones pertenecen al intervalo I5
y las restantes (k − j − 1) pertenecen al intervalo I3 ”
Para su cálculo es menester disponer de la siguiente relación de probabilidades
de pertenencia de una unidad al intervalo correspondiente.
Intervalo Probabilidad
(−∞, x] = I1 FX (x) = p1
(x, x + h] = I2 FX(x + h) − FX (x) = p2
(x + h, y] = I3 FX(y) − FX(x + h) = p3
(y, y + t] = I4 FX (y + t) − FX (y) = p4
(y + t, ∞) = I5 1 − FX (y + t) = p5

luego
P[A(h, t)] =
n!
(j − 1)!1!(k − j − 1)!1!(n − k)!
p
(j−1)
1 p2p
(k−j−1)
3 p4p
(n−k)
5
si c(n, j, k)[FX (x)]j−1
= B(x), FX(v) = F(v), entonces D(h, t) es
[F(x + h) − F(x)][F(y) − F(x + h)]k−j−1
[F(y + t) − F(y)][1 − F(y + t)]n−k
entonces
lim
h→0,t→0
A(h, t)
ht
= B(x) lim
h→0,t→0
D(h, t)
ht
donde lim
h→0,t→0
D(h,t)
ht corresponde a
lim
h→0,t→0

F (x+h)−F (x)
h

[F(y) − F(x + h)]k−j−1

F (y+t)−F (y)
t

[1 − F(y + t)]n−k
esto es
lim
h→0,t→0
D(h, t)
ht
= [fX(x)][FX (y) − FX (x)]k−j−1
[fX(y)][1 − FX (y)]n−k
es decir que fXj,n,Xk,n
(x, y) es
c(n, j, k)[FX (x)]j−1
[FX(y) − FX (x)]k−j−1
[1 − FX (y)]n−k
fX(y)fX(x)I(x,∞)(y)
para 1 ≤ j k ≤ n, con c(n, j, k) = n!/[(j − 1)!(k − j − 1)!(n − k)!].
La última parte es la generalización de los casos anteriores.
Igualmente con el apoyo de la distribución multinomial y teniendo en cuenta
que la función conjunta de densidad fX1,n,X2,n,... ,Xn,n (y1, y2, . . . , yn) es
lim
h1→0,h2→0,... ,hn→0
1
n
)
i=1
hi
P

n
*
i=1
[yi ≤ Xi,n ≤ yi + hi]

fácilmente se deduce que
fX1,n,X2,n,... ,Xn,n (y1, y2, . . . , yn) = n!
n
i=1
fX(yi) para y1 y2 · · · yn
Demostración (Teorema 1.5.3). Al igual que en una demostración anterior,
se construye la variable aleatoria dicotómica Zi = I(−∞,xp](Xi), i = 1, 2, . . . , n.
Como Zi ∼ Ber(FX (xp)), considerando los eventos
A : {Xj,n ≤ xp} y B : {Xk,n xp}
ellos son tales que P[A ∪ B] = 1, por lo tanto
P [Xj,n ≤ xp ≤ Xk,n] = P[A ∩ B] = P[A] + P[B] − 1 = P[A] − P[Bc
]

luego
P [Xj,n ≤ xp ≤ Xk,n] = P [Xj,n ≤ xp] − P [Xk,n ≤ xp]
como el evento A (similarmente el evento B) puede transcribirse como
A : “j o más observaciones son menores o iguales a xp ”, entonces
P [Xj,n ≤ xp] = P

n

i=1
Zi ≥ j

=
n

l=j

n
l

pl
(1 − p)n−l
por lo tanto
P [Xj,n ≤ xp ≤ Xk,n] =
n

l=j

n
l

pl
(1 − p)n−l
−
n

l=k

n
l

pl
(1 − p)n−l
como j k,
P [Xj,n ≤ xp ≤ Xk,n] =
k−1

l=j

n
l

pl
(1 − p)n−l
Demostración (Teorema 1.5.4). La función de distribución empı́rica puede
ser reconocida como:
Fn(x) =
n

i=1
Zi
n
= Zn
siendo Zi = I(−∞,x](Xi) tal como se habı́a convenido en la sección referente a
la distribución de Fn(x).
Desde este punto de vista, al entenderse que Z1, Z2, . . . , Zn es una muestra
aleatoria de una población con distribución de Bernoulli de parámetro FX(x),
entonces el teorema de Khintchine garantiza que
Zn
p
−
→ FX(x), es decir que Fn(x)
p
−
→ FX (x)
Demostración (Teorema 1.5.5). Puede consultarse en Probability and Sta-
tistical Inference de Robert Bartoszynski y Magdalena Niewiadomska-Bugaj
(1996) en las páginas 726 a 729.
Demostración (Teorema 1.5.6). En los términos de la demostración del teo-
rema 1.5.4 y teniendo en cuenta que
E[Fn(x)] = FX (x) y V [Fn(x)] =
FX(x)[1 − FX (x)]
n
son ﬁnitos, entonces a la luz del teorema del lı́mite central (Lindeberg-Lévy), la
sucesión {Zn}, siendo Zn,
Zn =
Fn(x) − FX (x)
√
FX (1−FX (x))
√
n
=
√
n[Fn((x) − FX (x)]

FX(1 − FX(x))
converge en distribución a una variable aleatoria con distribución Normal estándar.

1.8 Ejercicios del capı́tulo
1. Demuestre que si la sucesión {Xn} converge en media cuadrática también
converge en probabilidad.
2. Demuestre que el promedio basado en una muestra de tamaño n de una
población con valor esperado μ y varianza σ2
, converge en media cuadrática
a μ.
3. Si las variables aleatorias X1, X2, . . . , Xn constituyen una muestra aleato-
ria de una población con función de densidad,
fX(x) = 2x I(0,1)(x)
Determine la distribución muestral del mı́nimo de la muestra.
4. Continúe realizando la demostración del teorema 1.4.2
ria de una población con distribución Exponencial de parámetro θ, deter-
mine la distribución muestral del promedio de la muestra.
ria de una población con distribución Exponencial de parámetro θ, deter-
mine la distribución muestral del mı́nimo de la muestra.
ria de una población con distribución Uniforme en el intervalo (0, 1), de-
termine la distribución muestral del recorrido de la muestra.
8. Un dispositivo electrónico funciona a partir del funcionamiento de n com-
ponentes conectados en serie que funcionan de manera independiente. Si
el tiempo al fallar de cualquier componente se modela como una variable
aleatoria con distribución Exponencial de parámetro θ, determine el valor
esperado y la varianza del tiempo de funcionamiento del dispositivo.
9. Una muestra de 36 botellas corresponde a la lı́nea antigua de llenado A,
que estando el proceso bajo control estadı́stico el contenido de una de ellas
en ml se modela como una variable aleatoria con distribución Normal de
valor esperado μ y desviación estándar 12; igualmente se considera otra
muestra de 49 botellas de la nueva lı́nea de llenado B, que similarmente
estando el proceso bajo control estadı́stico el contenido de una de ellas
se modela como una variable aleatoria con distribución Normal de valor
esperado μ y desviación estándar 4. Determine la probabilidad de que los
promedios muestrales diﬁeran a lo sumo en 3 ml.
10. En el laboratorio de control de calidad de una compañı́a que produce ele-
mentos para cierto tipo de retroproyector, se encienden simultáneamente
n bombillas. Utilizando el modelo Exponencial para describir el tiempo
de vida de la bombilla, determine el valor esperado del tiempo de vida de
la tercera bombilla en fallar.

1.8. EJERCICIOS DEL CAPÍTULO 43
11. El exámen de admisión de la Universidad Nacional de Colombia tiene un
tiempo lı́mite de dos horas y media y dentro de sus normas se establece
que ningún aspirante puede retirarse del aula antes de haber transcurrido
una hora de examen. Podrı́a pensarse que el modelo para simbolizar el
tiempo de permanencia del aspirante en el aula serı́a el modelo Exponen-
cial doblemente truncado. Sin embargo una buena elección la constituye
el modelo Exponencial desplazado. Teniendo en cuenta que el tiempo
medio de permanencia es de dos horas, ¿Cuál es la probabilidad de que el
docente que vigila el examen, en un aula con 25 aspirantes, no tenga que
pronunciar la frase: “Por favor suspendan porque el tiempo de examen ha
concluido”?.
La función de densidad de una variable aleatoria X con distribución Ex-
ponencial desplazada con parámetro θ = (θ1, θ2), θ1 ∈ R, θ2 0, es:
fX(x, θ) =
1
θ2
exp

−(x − θ1)
θ2

I(θ1,∞)(x)
12. Con referencia al ejercicio anterior, ¿Cuál es el tiempo medio de perma-
nencia en el aula del aspirante que se retira en primer lugar?.
13. Igualmente con referencia al ejercicio 11, ¿Cómo cambia la respuesta al
mismo y cómo cambia la respuesta al ejercicio 12, si se adopta el modelo
de Pareto?.
La función de densidad de una variable aleatoria X con distribución de
Pareto con parámetro θ = (θ1, θ2), θ1 0, θ2 0, es:
fX(x, θ) =

θ2θθ2
1
xθ2+1

I(θ1,∞)(x)
14. Si las variables aleatorias X1, X2, . . . , Xn, constituyen una muestra aleato-
ria de una población con función de distribución absolutamente continua,
¿Cuál es la probabilidad de que el máximo de la muestra exceda a la
mediana poblacional?.
15. Si las variables aleatorias X1, X2, . . . , Xn, tienen la misma varianza y si la
correlación entre cualquier par de variables tiene el mismo valor, demuestre
que dicha correlación tiene como cota inferior a −1/(n − 1).
ria de una población con distribución de Bernoulli de parámetro θ, deter-
mine la probabilidad de que X1 = 1 dado que
n

i=1
Xi = j, j = 1, 2, . . . , n.
ria de una población con distribución de Poisson con parámetro θ, de-
muestre que para cualquier entero positivo k, k ≤ n, la distribución
condicional de X1, X2, . . . , Xn dado que
n

i=1
Xi = k, corresponde a una
distribución multinomial.

18. Un procedimiento de control estadı́stico de calidad establece para cierto
proceso de fabricación, la selección de manera aleatoria y sin reemplazo de
cinco amortiguadores de un lote de inspección que contiene seis de clase
A y ocho de clase B, para ser examinados en el laboratorio. Si X5 es
la proporción muestral de amortiguadores de clase A, determine el valor
esperado y la varianza de dicha estadı́stica.
ria de una población con distribución Binomial negativa de parámetros k
y π, determine la distribución muestral de la estadı́stica Tn =
n

i=1
Xi.
ria de una población con valor esperado μ y varianza 4, determine el
tamaño mı́nimo de la muestra para el cual la probabilidad de que el
valor esperado y el promedio de la muestra no difieran en más de 0.1,
sea superior a 0.95.
21. Con referencia al ejercicio anterior, ¿Cuál debe ser el tamaño de la muestra,
si la varianza fuese el doble?.
22. La fracción de baldosas de cerámica con imperfectos producidas por una
compañı́a, es del 0.8% cuando el proceso está bajo control estadı́stico.
Determine el tamaño de muestra mı́nimo para el cual la probabilidad de
que la fracción con imperfectos y la proporción de baldosas con imperfectos
en la muestra no difieran en más del 1%, sea superior a 0.95.
23. Una norma particular de metrologı́a determina que deben realizarse 36
mediciones de la emisión de ondas de un horno de microondas. El equipo
debe estar calibrado de tal forma que la variabilidad en cada medición,
cuantificada por medio de la desviación estándar es de σ unidades. Utilice
la desigualdad de Chevyshev y el teorema del lı́mite central en forma
comparativa, para establecer el valor mı́nimo de la probabilidad de que el
promedio de las mediciones difiera a lo sumo del verdadero valor promedio
en σ
5 unidades. ¿Cuál es la razón de la diferencia de los resultados?.
24. Con referencia al ejercicio anterior, también utilizando en forma
comparativa la desigualdad de Chevyshev y el teorema del lı́mite cen-
tral, determine cuál debe ser el número de mediciones para que el valor
mı́nimo de la probabilidad de que el promedio de las mediciones difiera a
lo sumo del verdadero valor promedio en σ
6 unidades, sea de 0.95. ¿Cuál
es la razón de la diferencia de los resultados?.
25. Un procedimiento de control estadı́stico de calidad ha establecido para la
inspección del proceso de elaboración de láminas de madera aglomerada,
un tamaño de muestra de 125 láminas. Si además se ha reconocido que
el modelo de Poisson de parámetro 3 es un buen modelo para describir
el número de defectos por lámina, determine la probabilidad de que el
promedio de defectos por lámina en la muestra sea menor de 2.

Inferencia_Estadistica_libro.pdf

Inferencia_Estadistica_libro.pdf

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a Inferencia_Estadistica_libro.pdf

Similar a Inferencia_Estadistica_libro.pdf (20)

Último

Último (20)

Inferencia_Estadistica_libro.pdf