SlideShare una empresa de Scribd logo
1 de 77
Descargar para leer sin conexión
eskjgkjhgkjg
ESTADÍSTÍCA
APLÍCADA LA
EDUCACÍON SUPERÍOR
Por: Ing. M.Sc. Francisco Martínez Solaris
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
APUNTES SOBRE MÉTODOS ESTADISTICOS PARA LA EDUCACION SUPERIOR
Generalmente cuando se escucha la palabra Estadística inmediatamente se piensa en datos,
cuadros, gráficos, etc. En verdad no es una idea equivocada, sino más bien, una idea popular de
ésta, pero no es lo único y en la concepción de la Estadística Moderna tampoco el más importante.
Las primeras técnicas estadísticas consistían principalmente en la organización, presentación
gráfica y el cálculo de ciertas cantidades "sobresalientes de un grupo de datos. Esta parte de la
disciplina es lo que, en la terminología moderna, se conoce como Estadística Descriptiva.
La Estadística Descriptiva es la rama más antigua de la Estadística y tiene por objetivo,
presentar información de una manera sencilla y estética y que al mismo tiempo, sea aprehensible
al ojo humano, es decir, fácil de entender. Aunque su campo de acción se ha visto reducido, es
indudable su utilidad. Para que la Estadística Descriptiva cumpla su cometido utiliza tres métodos,
Métodos Tabulares, Métodos Gráficos y Métodos Numéricos.
Supóngase ahora, que se está interesado en saber cuál es el ingreso promedio de las personas que
tienen pensión en el mercado los Pozos, de Santa de la Sierra, Bolivia. Supóngase además, que
este sector ha crecido de tal forma que se hace imposible estudiarlas en su totalidad. Por tal
razón se deduce una muestra de esta población por cualquier mecanismo aleatorio y se realiza la
toma de la información deseada y se obtiene un dato promedio cualquiera, por ejemplo, Bs 550. A
través del método de razonamiento que conduce a una extensión de este resultado a la población
de interés, se podría concluir que las personas que tiene pensiones en dicho mercado, tiene un
ingreso promedio de Bs 550.
El mismo hecho de que se está estudiando una fracción de la población, indica que se tiene una
información incompleta y que es, lo comúnmente que pasa en la realidad; pero, ¿qué pasa si el azar
proporcionó las personas con pensiones que venden más o bien que venden menos?. Si se da el
primer caso se estaría sobreestimando y en el caso contrario subestimando el ingreso promedio
de estas personas. En este momento surge una duda sobre la información que en Estadística
Moderna se la conoce generalmente como Incertidumbre y que siempre estará presente en
conclusiones que se deriven por medio del método inductivo.
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
Ahora la pregunta que surge es la siguiente, ¿qué papel juega la Estadística en esto?. El papel de
la Estadística en este proceso es cuantificar la incertidumbre y la rama de la estadística que se
encarga de ello se le llama Estadística Inferencial que utiliza el método Probabilístico.
En conclusión ya sea porque la se dispone de información incompleta, o debido a la propia
variabilidad de la información (naturaleza), es muy común que se arribe a conclusiones a través
del método inductivo, en el cual las mismas son inciertas. El conjunto de técnicas que permite
realizar inducciones en las que el grado de incertidumbre es cuantificable, integran la rama de la
Estadística conocida como Inferencia Estadística o Estadística Inductiva o Inferencial.
POBLACIÓN, ATRIBUTOS Y VARIABLES
Se dice que los estadísticos extraen datos de las muestras y que esta información les sirve para
hacer inferencia sobre la población que la muestra representa. Es así que, los términos, muestra
y población se consideran relativos.
El concepto de población va a variar de acuerdo al campo de la ciencia donde se aplique. Desde un
punto de vista estadístico, población; es el conjunto de resultados potenciales de un experimento
aleatorio, es decir, todos los valores que puede tomar una característica (variable).
En palabras más sencillas se puede decir que población, es un conjunto de entes con
características propias que los diferencian de otras. Con este concepto se puede tener una
población de árboles, de sillas, de tizas, etc. Un aspecto importante a retomar es que desde el
punto de vista estadístico una población es importante cuando se requiere verificar (medir) una
característica (variable) en ella.
Atributos
Supóngase el siguiente ejemplo. Se tiene en un aula de clase un grupo de 20 estudiantes y suponga
además, que el estudiante de la primera fila es alto, color de piel blanca, cabello castaño, ojos
claros, etc. Si a los 20 estudiantes se les considera como una población, se puede decir que los
detalles antes mencionados corresponden a características propias de un miembro de esa
población, o sea, son atribuciones propias del estudiante en particular.
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
Con el ejemplo antes citado, se puede tratar de deducir un concepto de Atributo, diciendo que es
una característica propia de cada elemento de una población.
Variable
Retomando el ejemplo anterior, supóngase ahora, que se les pregunta a los cinco primeros
estudiante su estatura los cuales responden de la siguiente manera:
1.76, 1.69, 1.83, 1.72, 1.77
De hecho estas alturas corresponde a atributos de los cinco primeros estudiante. Si se observan
los datos anteriores, se puede constatar que el atributo estatura cambia de un estudiante a otro.
Con esta idea se puede plantear un concepto de variable.
Variable es un atributo medible que cambia de un elemento a otro de la población, es decir, es
toda característica que cambia y que está sujeta a medida o cuenta.
Supóngase ahora, que los cincos primeros estudiantes poseen la misma altura, ejemplo, 1.73. Dado
que el atributo altura en este caso no cambia, no se puede considerar como una variable, pero sí,
es un atributo. De lo anterior se puede concluir, que una variable siempre será un atributo, pero
un atributo no siempre es una variable.
Las variables siempre se denotan por la letras mayúsculas del alfabeto y los valores que toman
(observaciones) con letras minúsculas.
ELEMENTOS DE LAS VARIABLES
Siempre que se desee constatar una variable en un elemento de la población de interés, ésta debe
de poseer cuatro elementos:
a.- Nombre
b.- Definición
c.- Conjunto de categorías o valores que puede tomar la variable
d.- Procedimiento que permita clasificarla
Nombre
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
Cuando un investigador toma los datos correspondiente a una variable, éste tiene que saber el
nombre de la variable, de lo contrario cómo va a tomar información de una variable si no sabe el
nombre de ésta.
Definición
Todo investigador tiene que definir la (s) variable (s) que va a estudiar. Este nombre es cómo se
concibe la variable en el campo de la ciencia correspondiente, es decir, cómo se define. Si el
concepto no existe, se debe construir el constructo por parte de investigador.
Por ejemplo, supóngase que un investigador está tomando el peso a un grupo de niños, El toma los
datos cuando los niños no han desayunado y sin ropa alguna. Este investigador tiene que reportar
al momento de dar a conocer la información cómo lo hizo porque quizás otro investigador lo puede
haber tomado con ropa y después de desayunar. Inclusive debe de especificar el equipo con el
cual verificó el valor de la variable en los elementos de la población estudiados dado que pueden
variar en precisión.
Conjunto de categorías o valores que puede tomar la variable
Esta se refiere a las categorías convencionalmente admitida por la sociedad. Por ejemplo; si en
un grupo de personas se mide la variable sexo, de hecho se refiere al sexo anatómico y no al
comportamiento sexual, por lo tanto las categorías que puede tomar son masculino ó femenino o
bien macho ó hembra.
Si la variable es edad, entonces según el estadío donde se mida puede ser días, semanas, meses,
años.
Procedimiento que permita clasificarla
Este elemento de las variables en muchos casos es muy complejo, pero se soluciona en parte si
existe una adecuada definición de la variable que el investigador desee medir. Si se retoma el
ejemplo anterior donde se quiere medir la variable sexo en un grupo de personas. En este caso la
variable se define como sexo anatómico de cada persona que componen al grupo. Ahora bien, el
hecho de que una persona diga que es de sexo masculino no implica que no sea homosexual, pero no
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
es la conducta sexual la que se está midiendo, sino el sexo anatómico. Por tal razón, aunque este
elemento de la variable es complejo, con una definición clara de lo que se desea medir se resuelve.
De acuerdo a los valores que puede tomar una variable, ésta se puede clasificar en:
Variables cualitativas: no se pueden medir numéricamente, representan características de las
variables (categorías, por ejemplo: nacionalidad, color de la piel, sexo).
Variables cuantitativas: tienen valor numérico (edad, precio de un producto, ingresos anuales).
Por su parte, las variables cuantitativas se pueden clasificar atendiendo a los valores que pueden
tomar en discretas y continuas:
Discretas: Son todas aquellas que toman valores que se pueden contar, es decir, que se pueden
enumerar (1, 2, 8, -4, etc.). Por ejemplo: número de hermanos (puede ser 1, 2, 3...., etc, pero, por
ejemplo, nunca podrá ser 3,45).
Continuas: pueden tomar cualquier valor real dentro de un intervalo. Por ejemplo, la velocidad de
un vehículo puede ser 80.3 km/h, 94.57 km/h..., etc.
ESCALAS DE MEDICIÓN
Medir una variable significa constatar la observación en los elementos de la población que es
objeto de estudio, es decir, consiste en verificar que valor toma la variable en la unidad de
análisis. Lo anterior implica que para medir una variable, ésta tiene que ser observable en el
mundo real, manteniendo el principio fundamental de la construcción de una variable que consiste
en que sus categorías deben de ser totalmente inclusivas y mutuamente excluyentes.
En Estadística se definen cuatro niveles o escalas de medición las cuales son:
a.- Escala Nominal: En esta escala lo único que puede decirse de una observación es a cuál de un
cierto número de categorías pertenece.
En esta escala de medición la única relación que puede establecerse entre observaciones es la de
igualdad y por lo tanto de desigualdad. Dos observaciones son iguales si están en la misma
categoría (llamadas también clases) y diferente si no lo están. Como consecuencia de lo anterior,
la única estadística válida para este tipo de datos es la frecuencia de cada clase.
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
Ejemplo, supóngase que en grupo de personas se desea medir el estado de salud con respecto a
una enfermedad en particular. En este caso la constatación de la variable (medición) en los
miembros de la población debe de concluir en que están o no afectados por la enfermedad.
b.- Escala Ordinal: Las observaciones medidas en esta escala pueden ordenarse de menor a
mayor, y en consecuencia no sólo se admiten las relación de igualdad, sino además la de mayor que
y menor que. Muchos de los estudios realizados en las Ciencias Sociales producen observaciones
que son medidas bajo esta escala, por lo difícil que es medir actitudes en los seres humanos.
En esta escala además de calcularse frecuencias como en la escala nominal, se puede calcular una
medida de tendencia central llamada Mediana.
Un ejemplo clásico de esta escala es la jerarquización que existe en la iglesia y el ejército.
Coronel > Teniente > Subteniente > Sargento > Cabo > Soldado
c.- Escala de Intervalo: Con observaciones en esta escala no sólo se pueden ordenarse las
observaciones, sino que además puede definirse una unidad de distancia (puede ser arbitraria)
entre ellas. La principal diferencia de esta escala con la de Proporciones es que en la escala de
Intervalo el cero y la unidad de distancia son arbitrarios y, en particular, el cero no corresponde
a una característica física de las unidades de medidas. Un ejemplo clásico en esta escala es la
medición de la temperatura.
Dado que los requisitos indispensables para efectuar sumas y productos son que existan ceros y
una unidad de distancia, con las observaciones medidas bajo esta escala puede calcularse medidas
de tendencia central como la media y de dispersión como la varianza. Por tal razón esta escala es
más fuerte que la Nominal.
b.- Escala de Proporción o Razón: En esta escala las observaciones pueden ordenarse y existen
un cero y una unidad de distancia que son inherentes al sistema, es decir, que no son arbitrarios.
Ejemplos típicos de características medidas en esta escala el peso de un individuo, el rendimiento
por hectárea de una planta, etc. Esta es la escala de medición más fuerte que existe y por lo
tanto permite el cálculo de cualquier estadística.
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
ORGANIZACIÓN DE LA INFORMACIÓN
Resulta de mucha importancia en el campo de la investigación, utilizar técnicas que permitan
apreciar de una forma rápida y fácilmente aprehensible un tipo de información donde se resalten
los aspectos más importantes. Estas técnicas o métodos deberán poseer características o
propiedades que faciliten lo antes mencionado. Entre estas propiedades se pueden mencionar las
siguientes:
1. Que proporcionen la máxima cantidad de información contenida en los datos en forma
rápida y fácil de visualizar.
2. Que posean sencillez operativa
3. Que permitan presentar los datos de una manera estética.
La Estadística Descriptiva, como se ha mencionado antes, tiene como propósito mostrar la
información de forma sencilla, es decir, entendible. Para ello hace uso de tres métodos los cuales
son: Métodos Tabulares y Gráficos y Métodos Numéricos. Entre los métodos tabulares están las
Tablas de Frecuencias o Tablas de Distribución de Frecuencias.
NOTACIÓN DE SUMATORIA. PROPIEDADES
Supóngase que la variable X, toma los valores de x1, x2, x3, ..., xn. Entonces, la suma de los
valores xi de la variable X sería: x1 + x2+ x3 +... xn.
Con el objeto de expresar esta suma de una manera más resumida, se hace uso de la letra griega
Sigma mayúscula ( ), la cual es el símbolo utilizado en matemáticas para indicar la suma, de tal
manera que:
; donde:
i=1 se lee como la suma de i=1 a i=n de x, lo cual indica que la variable x toma valores para i=1, 2, 3,
..., n, o sea:
∑
“i” se llama índice de suma y es una variable que toma los valores 1, 2, 3, ..., n.
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
La expresión i=1 indica en este caso que 1 es el valor inicial de i (no siempre el valor inicial
comienza de 1).
La n arriba del signo, indica el último valor de i.
A xi se le llama sumando
Propiedades de la sumatoria
Sean x1, x2,..., xn y y1, y2,..., yn dos conjuntos de datos, y “a” y “b” dos constantes arbitrarias.
Entonces:
1.
2. ( )
3.
4. ( )
5. ( )
La demostración de cada una de estas propiedades se deja como práctica para el estudiante.
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
METODOS TABULARES
Tablas de Frecuencias Relativas y Absolutas
Como una antesala de lo que son tablas de frecuencias relativas y absolutas se menciona a
continuación las formas iniciales de presentación de información, sus ventajas y desventajas de
tal manera que el estudiante comprenda la lógica de cada uno y por qué se usa una en vez de otra.
Una de las primeras formas de presentación de información es el arreglo de los datos el cual es
una de las formas más sencillas de presentar datos. Pone los valores en orden ascendente o
descendente. Por ejemplo, a continuación se muestran las concentraciones de cloro en partes por
millón (ppm) de 30 galones de agua tratada.
Concentraciones de cloro en ppm de 30 galones de agua tratada
15.6 16.2 15.8 15.8 15.8 16.3
16.0 15.7 16.0 16.2 16.1 16.8
16.8 16.4 15.2 15.9 15.9 15.9
16.0 15.4 15.7 15.9 16.0 16.3
16.3 16.4 16.6 15.6 15.6 16.9
Una forma sencilla de arreglar estos datos es presentarlos en orden ascendente o descendente.
Si se arreglan de manera ascendente quedarían de la siguiente forma:
15.2 15.7 15.9 16.0 16.2 16.4
15.4 15.7 15.9 16.0 16.3 16.6
15.6 15.8 15.9 16.0 16.3 16.8
15.6 15.8 15.9 16.1 16.3 16.8
15.6 15.8 16.0 16.2 16.4 16.9
Este arreglo de datos ofrece varias ventajas sobre los datos originales o sin arreglar:
 Se pueden localizar rápidamente los valores mínimos y máximos en los datos. En el
ejemplo, el valor mínimo es 15.2 y 16.9 el máximo.
 Los datos se pueden dividir en secciones (clases)
 Fácilmente se puede apreciar que valores se repiten más de una vez.
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
Un inconveniente de esta forma de presentación de información es que siempre se sigue
manejando toda la masa de información y por lo tanto es muy tedioso emplearla en bases datos
muy grandes. Esto quiere decir, que esta forma de presentación de información no tiene
capacidad de síntesis, de aquí que es preferible presentarlos en Cuadro de distribución de
frecuencias.
Al número de veces que se repite una observación dentro de una colección de datos se le llama
Frecuencia Absoluta (fi). La suma de éstas tiene que ser igual al tamaño de la colección de datos
(∑fi = n), en este caso 18 + 12 = 30 (total de las observaciones). A la relación de cada frecuencia
absoluta con respecto al total, se le llama Frecuencia Relativa (fr = fi/∑fi), la suma de esta
tiene que ser igual a 1 o bien a 100 si se le expresa en porcentaje. Este tipo de arreglo es
importante cuando la colección de datos es pequeña.
Los datos anteriores arreglados en un cuadro de distribución de frecuencia se muestran a
continuación:
xi fi fr xi fi fr
15.2 1 3.33 16.1 1 3.33
15.4 1 3.33 16.2 2 6.67
15.6 3 10.00 16.3 3 10.00
15.7 2 6.67 16.4 2 6.67
15.8 3 10.00 16.6 1 3.33
15.9 4 13.33 16.8 2 6.67
16.0 4 13.33 16.9 1 3.33
Total 18 60.00 Total 12 40.00
Hay autores que consideran la siguiente forma de presentación de cuadros de frecuencia donde
incluyen elementos que son propios de las Tablas de Frecuencias Absolutas y Relativas. Esto se
muestra a continuación
Variable Frecuencias absolutas Frecuencias relativas
xi Simple(fi) Acumulada (fia) Simple (fr) Acumulada (fra)
X1 f1 f1 fr1 = f1 / ∑fi Fr1
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
X2 f2 f1 + f2 fr2 = f2 / ∑fi fr1 + fr2
... ... ... ... ...
Xn-1 fn-1 f1 + f2 +…+ fn-1 fr-1 = fn-1 / ∑fi fr1 + fr2 +…+ fr-1
Xn fn ∑fi= n frn = fn / ∑fi 1 ó 100
Veamos un ejemplo:
Medimos la altura de los niños de una clase con instrumental de precisión y en condiciones
adecuadas, escogiendo a todos sus componentes, 30 sujetos, y obtenemos los siguientes
resultados (m):
Alumno Estatura Alumno Estatura Alumno Estatura
1 1.25 11 1.23 21 1.21
2 1.28 12 1.26 22 1.29
3 1.27 13 1.30 23 1.26
4 1.21 14 1.21 24 1.22
5 1.22 15 1.28 25 1.28
6 1.29 16 1.30 26 1.27
7 1.30 17 1.22 27 1.26
8 1.24 18 1.25 28 1.23
9 1.27 19 1.20 29 1.22
10 1.29 20 1.28 30 1.21
Puesto que todas las tallas están comprendidas entre 1.20 y 1.30 m., podemos agruparlas por
centímetros formando 11 grupos indicando cuántos niños presentan cada uno de los valores. Si
presentamos esta información estructurada (agrupada) en un cuadro de frecuencias obtendríamos
la siguiente:
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
Cuadro de frecuencia
Observación
Frecuencias
fi fia fr (%) fra
1.20 1 1 3.33 3.33
1.21 4 5 13.33 16.66
1.22 4 9 13.33 30.00
1.23 2 11 6.67 36.66
1.24 1 12 3.33 40.00
1.25 2 14 6.67 46.66
1.26 3 17 10.00 56.66
1.27 3 20 10.00 66.66
1.28 4 24 13.33 80.00
1.29 3 27 10.00 90.00
1.30 3 30 10.00 100.00
Total 30 100
Si los valores que toma la variable son muy diversos y cada uno de ellos se repite muy pocas veces,
entonces conviene agruparlos por intervalos mayores. ya que de otra manera obtendríamos una
tabla de frecuencia muy extensa que aportaría muy poco valor a efectos de síntesis.
Supongamos que ahora medimos la estatura de los habitantes de una vivienda (también 30
personas) y obtenemos los siguientes resultados (m):
Habitante Estatura Habitante Estatura Habitante Estatura
1 1.15 11 1.53 21 1.21
2 1.48 12 1.16 22 1.59
3 1.57 13 1.60 23 1.86
4 1.71 14 1.81 24 1.52
5 1.92 15 1.98 25 1.48
6 1.39 16 1.20 26 1.37
7 1.40 17 1.42 27 1.16
8 1.64 18 1.45 28 1.73
9 1.77 19 1.20 29 1.62
10 1.49 20 1.98 30 1.01
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
Los datos son menos homogéneos (más dispersos) que en el caso de los niños de un grupo escolar
(todos de la misma edad) y si presentáramos esta información en un cuadro de
frecuencia obtendríamos 30 líneas (una para cada valor), cada uno de ellos con una frecuencia
absoluta de 1 y con una frecuencia relativa del 3.3%. Esta tabla nos aportaría toda la información
inicial, pero sería muy difícil de manejar si en vez de 30 personas fueran 300. 3000 o más: en
definitiva, de escaso valor práctico. Lo que quiere decir lo anterior, es que si bien es cierto que los
cuadros de frecuencias tienen más capacidad de resumir la información, esto no siempre se logra
ya que depende de las características propias de la información.
En lugar de ello, podríamos agrupar los datos por intervalos llamados también Tablas de
Frecuencias Absolutas y Relativas, con lo que la información queda más resumida (se pierde por
tanto algo de información), pero es más manejable e informativa.
Una tabla de frecuencia absoluta y relativa no es más que la agrupación de una base de datos en
subgrupos llamados clases o intervalos de clases.
Cada intervalo de clase o clase posee dos elementos, Límite inferior y Límite superior. La
semisuma de ambos origina un elemento más en una tabla de frecuencia absoluta y relativa
denominado Punto medio de clase (PMC) o bien Marca de clase.
El primer tropiezo que se afronta es decidir cuántas grupos o clases deberán establecerse y si
éstas tendrán la misma anchura. Es recomendable en la práctica utilizar entre 5 y 20 clases
inclusive hay autores que recomiendan hasta 25 clase, y normalmente conviene construirla de
modo que todas las clases tengan la misma anchura. La anchura de clase recibe también el nombre
de Intervalo de Clase o bien Amplitud de clase.
Una manera de resolver este problema es utilizar la fórmula de Stirling (Sturge) K = 1 + 3.33*
log(n), donde k es el número de clases o intervalos que se deben construir. Para el caso en
cuestión sería:
k = 1 + 3.3*log(30) = 5.87. Como se puede recordar que número de intervalos viene a ser una
variable cuantitativa discreta, entonces tiene que tomar valores cerrados. De acuerdo a lo
anterior y basado en leyes matemáticas se redondea al inmediato superior, es decir, 6. Hay
autores que sugieren siempre esto.
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
Un segundo problema que se afronta se refiere a la determinación del Ancho del Intervalo de
Clase. Este problema se resuelve calculando primeramente la diferencia entre el mayor y el menor
valor numérico de los datos, llamado también Rango, Recorrido o Amplitud (A). En el caso del
ejemplo es: A = 1.98 - 1.01 = 0.97. Esto indica que la suma de las amplitudes de clase de los
intervalos de clase deberá cubrir al menos esta diferencia. Si 0.97 se divide entre 6, se obtiene
un resultado de 0.16. Si se multiplica la anchura de clase (Ac) determinada por el número de
intervalos K = 6, (al resultado se le llama Rango Ideal) se tiene el siguiente resultado: 0.16*6 =
0.96. Si se recuerda la amplitud de los datos es de 0.97, por lo tanto esta anchura de clase (Ac)
no es suficiente para cubrirla por tal razón, algunos autores recomiendan redondearlo al
inmediato superior que en este caso sería de 0.17. Repitiendo el proceso, se tiene que 0.17*6 =
1.02. Un aspecto importante de señalar es que si bien es cierto que se pasa de 1.98 con 3
centésimas, cubre la amplitud de los datos. Por esto se dice que Ac*k = al menos debe ser igual a
la amplitud de los datos, es decir, no importa si se pasa del valor máximo.
Un tercer aspecto que hay que resolver es por donde iniciar la construcción de los intervalos de
clases. Para el caso de variables cuantitativas continuas, se habla de una medida de
desplazamiento (MD) que es igual al Rango ideal (RI) menos la Amplitud de los datos (A), donde RI
es igual Ac * k, esto es:
MD = RI – A, entonces: MD = [(0.17*6) –0.97]/2 =0.025, o aproximadamente 0.03.
Este es el desplazamiento que debe tener el valor mínimo para iniciar la construcción de los
intervalos. Al construir el primer intervalo, al valor mínimo le restamos el desplazamiento es
decir, 1.01 – 0.03 = 0.98, éste es el límite inferior del primer intervalo de clase y su límite
superior será 0.98 + Ac, es decir, 0.98 + 0.17 = 115, Para el caso del segundo intervalo de clase, su
límite inferior es el límite superior del primer intervalo de clase o sea 115 y el límite superior
será 1.15 + 0.17 = 1.32 y así sucesivamente hasta llegar al número de intervalos definidos. Esto es
continuidad, ya que no existe ruptura entre intervalos.
Entonces, para este tipo de variable (cuantitativa continua), los intervalos de clases son abiertos
por la izquierda y cerrados por la derecha.
Luego se determina los Puntos Medios de Clase o Marcas de Clase en la segunda columna de la
tabla, esto es: PMC = (Li + LS)/2.
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
Posteriormente en una tercera columna se determinan las frecuencias absolutas, que en este caso
se define como el número de observaciones que caben dentro del intervalo de clase. Para que
quepa una observación dentro de un intervalo de clase en este tipo de variable, éste tiene que ser
mayor que el límite inferior o menor ó igual que el límite superior.
La tabla antes mencionada quedaría de la siguiente forma:
Intervalos de Clase PMC fi fr fia fra
0.98 a 1.15 1.065 2 6.67 2 6.67
1.15 a 1.32 1.235 5 16.67 7 23.33
1.32 a 1.49 1.405 8 26.67 15 50.00
1.49 a 1.66 1.575 7 23.33 22 73.33
1.66 a 1.83 1.745 4 13.33 26 86.67
1.83 a 2.00 1.915 4 13.33 30 100
30 100
Para el caso de variables cuantitativas discretas, los intervalos de clases son cerrados por ambos
lados.
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
METODOS GRAFICOS
Dentro de las representaciones gráficas se pueden mencionar las siguientes:
 Diagrama de puntos
 Pictogramas
 Diagrama de barras sencillas, dobles, múltiples
 Diagrama de sectores torta o pastel (pie)
 Histogramas de frecuencias
 Polígono de frecuencias absolutas ó relativas
 Polígono de frecuencia acumulada por la izquierda (menor que) u ojiva
 Gráficos de línea, etc.
Para efecto de este texto se desarrollarán los principales como son el Diagrama de Puntos
por su relación con el Diagrama de dispersión, Histograma de frecuencia, Polígono de
frecuencia, Ojiva y Diagrama de sectores.
Diagrama de Puntos
Sirve para representar gráficamente cuadros de frecuencias en las cuales se consideran
únicamente una variable y una cantidad asociada a cada valor de la misma (frecuencias). Existen
dos tipos de diagramas de puntos cuya construcción se detalla enseguida.
La construcción de los diagramas de puntos se realiza de la siguiente manera:
 El primer tipo de diagrama de puntos se construye colocando en el eje horizontal los
valores de la variable y en el eje vertical las cantidades asociadas a éstos (frecuencias).
Finalmente, para cada valor de la variable y cada cantidad asociada se dibuja puntos cuyas
alturas corresponde a la magnitud de dicha cantidad.
 Para construir el segundo tipo de diagrama de puntos se colocan en el eje horizontal los
valores de la variable y sobre cada valor se dibuja tantos puntos como veces aparecen
éstos.
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
Para ejemplificar el primer caso se retomará las alturas de los 30 habitantes que han sido
mencionados anteriormente.
En este caso se puede observar que los valores de la variable altura se encuentran en el eje
horizontal y en el vertical, el número de habitantes, y el punto está compuesto por las
coordenadas (altura, Número de habitantes con esa altura).
Histograma
Se llama Histograma a la gráfica de barras verticales sin espaciamiento entre ellas, construida
colocando en el eje vertical a las frecuencias absolutas ó relativas y el eje horizontal a los límites
de clase de una tabla de frecuencias. Lo anterior implica que si los intervalos de clases son
iguales, sobre cada clase se erigen rectángulos cuyas áreas son proporcionales a las frecuencias
de clase. Las etapas que se deben de cubrir en la construcción de un histograma son:
 Colocar en el eje horizontal los límites de clases
 Colocar en el eje vertical las frecuencias relativas o absolutas.
 Erigir rectángulos cuya base son las clases y su altura las frecuencias que corresponde a
cada clase
Para ejemplificar este método gráfico se tomará a la tabla de frecuencia absoluta y relativa
y las frecuencias absolutas asociada a cada clase.
0 0.5 1 1.5 2 2.5
Estatura (mt)
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
En este caso, dado que se utilizó la frecuencia absoluta para construir el histograma entonces el
histograma toma el nombre de Histograma de Frecuencias Absolutas.
Polígono de Frecuencia
Un polígono de frecuencia es una gráfica de líneas rectas que unen los puntos obtenidos al colocar
en el eje horizontal a los valores medios (puntos medios) de clases y en el eje vertical a las
frecuencias absolutas o relativas. Esto equivale a unir los puntos medios de la cara superior de los
rectángulos de un histograma por medio de líneas rectas.
Para cerrar el polígono se adiciona una clase tanto inferior como superior para que el polígono
cierre.
0
1
2
3
4
5
6
7
8
9
Frecuenciasabsolutas
Intervalos de clases
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
En este caso al igual que el histograma, el polígono retoma el nombre de la frecuencia que se ha
utilizado para construir.
Polígono de Frecuencia Acumulada por la Izquierda o Ojiva
Una Ojiva o Polígono de Frecuencia Acumulada es una gráfica construida con segmentos de líneas
rectas que unen los puntos obtenidos al colocar en el eje horizontal a los límites superiores de
clase y en el vertical a las frecuencias acumuladas absolutas o relativas.
Al inicio en el eje horizontal se coloca el límite inferior de la primera clase y se le asigna una
frecuencia acumulada de cero. Asimismo, por su naturaleza una ojiva es no decreciente.
Retomando como ejemplo la misma tabla de frecuencia absoluta y relativa, se tomarán las
frecuencias absolutas acumuladas por la izquierda o “menor que” de ésta.
0
1
2
3
4
5
6
7
8
9
Frecuenciasabsolutas
Puntos Medios de Clases
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
Diagrama de Sectores (Torta o pastel)
Este tipo de gráfico se utiliza para representar datos cualitativos y cuantitativos discretos. Su
uso más frecuente es con el propósito de comparar ya sea las categorías que toma una variable
cualitativa o los valores discretos de una variable cuantitativa respecto al total.
Para construir este gráfico se utiliza una circunferencia, la cual se divide en sectores de tal
manera que sus medidas angulares centrales y, por ende la superficie del sector circular sean
proporcionales a las magnitudes de los valores de la variable que se trata de representar.
Al total de las frecuencias (∑fi = n) le corresponde el círculo completo, es decir, los 3600
de la
circunferencia y por regla de tres simple se determina el número de grados que le corresponde a
cada categoría o valor discreto en particular.
Ejemplo:
Los datos que se muestran a continuación corresponden a la distribución de los docentes de una
universidad en particular, respecto al lugar de realización de estudios de diplomados.
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
Lugar de realización del Diplomado n %
Extranjero 19 13.87
Universidad de Interés 87 63.5
Otras universidades bolivianas 31 22.63
Total 137 100
Tratando de representar estos datos en diagrama de sectores se tiene lo siguiente:
Número de grados para la categoría “Extranjero”.
=
(19 x 3600
)
= 49.9 = 50
137
De la manera que quedaría de la siguiente forma una vez que se hayan realizado las operaciones
correspondiente:
Lugar de realización del Diplomado n Grados
Extranjero 19 50
Universidad de Interés 87 229
Otras universidades bolivianas 31 81
Total 137 360
De forma gráfica se vería de la siguiente forma:
Extranjero
14%
Universidad
de Interés
63%
Otras
universidades
bolivianas
23%
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
MEDIDAS DE TENDENCIA CENTRAL O POSICIÓN
Como se pudo observar en la unidad anterior los histogramas o distribuciones de frecuencias
presentan formas muy variadas, por lo que no es fácil de comparar dos conjuntos de datos
mediante una inspección somera de los histogramas. Por otra parte, una tabla de frecuencia con
15 a 20 clases puede no ser una representación suficientemente concisa de los datos. Por estas
razones y por su importancia en posteriores usos es necesario contar con cantidades que
describan sucintamente (rápidamente) el conjunto de datos que se estudia. Son de interés
cantidades que localicen el "centro" de las observaciones (o más bien de su distribución de
frecuencias) y la dispersión o variabilidad de las mismas.
A las medidas que localizan el "centro" de los datos se les llama "Medidas de Tendencia Central" y
las que miden la variabilidad de las observaciones se les llama "Medidas de Dispersión".
Dentro de las medidas de Tendencia Central se pueden mencionar las siguientes:
Media o promedio
Media ponderada
Media Geométrica
Media Armónica
Media Cuadrática
Mediana
Moda
Por el grado de aplicabilidad serán desarrollada la siguientes medidas de tendencia central: media
aritmética, mediana y moda y, como un caso especial de la media aritmética, la media ponderada.
Media Aritmética
También llamada media. Def: La media aritmética de n observaciones de la variable X se denotará
por , y se define como la suma de ellas dividida por "n". Esto es:
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
Ejemplo:
Sean los siguientes datos x1=2, x2=12, x3=9, x4=10, x5=7. La media aritmética de estos datos es:
Desde un punto de vista geométrico, la media aritmética corresponde al punto de equilibrio de los
datos.
La media aritmética es la medida descriptiva de tendencia central más usada. Tiene la ventaja de
ser fácil de calcular, además de poseer propiedades teóricas excelente desde el punto de vista de
la estadística inferencia. Su principal desventaja es que, por ser el punto de equilibrio de los
datos es muy sensible a la presencia de observaciones extremas. Por otro lado su cálculo se vuelve
tedioso cuando la base de datos es muy grande. Otra desventaja es que no se puede calcular en
datos que tienen intervalos de clases abiertos.
Cálculo de la Media Aritmética en Tablas de Frecuencias
En muchas ocasiones se nos presenta el problema de estimar la media a partir de una tabla de
frecuencias. Esto se da por dos razones:
 Ya se han presentado los datos en forma resumida y no se dispone de las observaciones
originales.
 Cuando se dispone de las observaciones originales, pero su número es tan grande que las
operaciones aritméticas necesarias para el cálculo de la media requieren de mucho
trabajo. Entonces el uso de una tabla de frecuencias simplifica considerablemente el
trabajo.
Se debe de recordar que cuando se tiene una tabla de frecuencias con k clases se da lo
siguiente:
∑
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
En una clase se tienen fi observaciones (frecuencia absoluta), las cuales pueden tener cualquier
valor entre el límite superior e inferior de esa clase. Para calcular de una manera aproximada la
media, se supone que las observaciones se encuentran uniformemente distribuidas en el intervalo
y, por lo tanto, el valor medio de clase (Punto medio de clase o Marca de Clase) es un valor
representativo de esa clase.
Con esta suposición el cálculo de la suma de las observaciones se simplifica de la siguiente manera:
Esta expresión representaría la suma aproximada de las observaciones; por lo tanto, la media
aritmética se estimaría de la siguiente manera:
Todo lo anterior es posible siempre y cuando no se tengan clases abierta en la tabla.
Ejemplo:
Para ejemplificar la media aritmética para datos tabulados se retomará la tabla de frecuencias
absolutas y relativas que se ha expuesto anteriormente, la cual corresponde a la estatura de 30
personas. Se pide estimar la estatura promedio de estas personas.
Es importante ver que lo que se ha solicitado es una estimación de la estatura y no una
determinación ya que en datos lo único que se puede hacer es una estimación ya que la
determinación se la realiza en los datos originales.
Retomando la ecuación de estimación de la media aritmética se tiene lo siguiente:
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
Intervalos de Clase PMC fi PMC*fi
0.98 a 1.15 1.065 2 2.13
1.15 a 1.32 1.235 5 6.175
1.32 a 1.49 1.405 8 11.24
1.49 a 1.66 1.575 7 11.025
1.66 a 1.83 1.745 4 6.98
1.83 a 2.00 1.915 4 7.66
Total 45.21
Promedio 45.21/30 = 1.507
La estimación proporcionó un valor de 1.507 m/persona. La determinación del promedio en la base
de datos original, es de 1.513 m/persona. Siempre se observará una diferencia que es producida
por el hecho de que en una tabla de frecuencia lo que se realiza es una estimación y no una
determinación. Esta diferencia será cada vez menor si la medida de desplazamiento para
construir la tabla sea pequeña.
Propiedades de la Media Aritmética
La media aritmética tiene muchas propiedades sin embargo, solo se expondrá una por la relevancia
que tiene a nivel de inferencia y es la siguiente:
 La suma algebraica de las desviaciones de un conjunto de números respecto a su media
aritmética es cero, es decir: ( ) . Esta es la razón por la cual le media se la
interpreta como el punto de equilibrio de una colección de datos numérica y además, es
por ello que en Estadística se le conoce como “el primer momento”.
Mediana
Es el valor de la serie de datos que se sitúa justamente en el centro de la muestra (un 50% de
valores son inferiores y otro 50% son superiores).
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
No presentan el problema de estar influido por los valores extremos, pero en cambio no utiliza en
su cálculo toda la información de la serie de datos (no pondera cada valor por el número de veces
que se ha repetido).
La mediana (Me) de un conjunto de “n” números, ordenados de menor a mayor, es el número
central en el arreglo. Si n es un número non, sólo hay un valor central. Si n es un número par, hay
dos valores centrales, y la mediana debe tomarse como la media de estos dos valores. Ejemplo...
1.- Sean la siguiente colección de datos: 27, 3.4, 3.2, 3.3, 3.1
El primer paso para determinar la Mediana en datos sin tabular es ordenar los datos en orden
ascendente o descendente de tal forma que:
3.1, 3.2, 3.3, 3.4, 27. Dado que n es un número non o impar (n=5), entonces sólo hay un valor
central (3.3) y éste es el valor de la mediana.
Me = 3.3
2.- Calcular la mediana para los siguientes datos y ordenados:
151, 152, 153, 158, 162, 167, 167, 167, 168, 173
En este caso n es par (n=10), por lo que hay dos valores centrales, que son 162 y 167. Entonces
partiendo del concepto de Mediana, la Me es la media aritmética de estos dos valores ya que
antes y después de ella, no existe más del 50% de los datos.
Me = (162 + 167)/2 = 164.5. Entonces cuando este sea el caso la Me, se puede determinar de la
siguiente forma:
Cuando los datos son simétricos entre la mediana y la media aritmética no hay mucha diferencia;
sin embargo, para datos no simétricos es mejor medida de tendencia central la mediana que la
media.
Cálculo de la Mediana en datos tabulados
Cuando los datos están agrupados en clases, es decir, cuando existe una tabla de distribución de
frecuencias, para estimar la mediana se utiliza la siguiente ecuación:
( )( )
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
Donde:
Me = Mediana
a = Límite inferior de la clase de la Mediana
b = Límite superior de la clase de la Mediana
c = Frecuencia relativa acumulada una clase antes de la clase de la Mediana
d = Frecuencia relativa de la clase de la Mediana
Como se puede observar todos los insumos requeridos para la determinación de la Me, están en la
misma tabla.
Como se ha verificado anteriormente, la mediana es aquella medida de tendencia central que antes
y después de ella no existe más del 50% de la información, es decir, parte en dos la base de
datos. A partir de esto es que se propuso partir la base de datos en cuatro partes y se le llamó
cuartiles, luego en 10 parte y se les llamó deciles y luego en 100 partes y se les llamó percentiles.
A todo esto se llaman Fractiles, los cuales no se desarrollan en el presente documento pero si se
recomienda revisar cualquiera de la obras citadas al final de este documento para verificar esta
información.
Moda
La Moda (Mo) de un conjunto de datos es la observación o valor (si existe) que ocurre con mayor
frecuencia. Si es un valor único se dice que la distribución de frecuencias es unimodal. Si se
tienen dos o más valores con la misma frecuencia máxima se dice que la distribución es bimodal,
trimodal, etc. Ejemplo: sean los siguientes datos las calificaciones de un examen:
10, 7, 8, 7, 9, 8, 7, 9.
En este caso la calificación que más se repite es 7 ya tiene una frecuencia fi =3, por lo tanto la
Mo es 7.
Sean los siguientes datos:
10, 6, 7, 4, 13, 16, 18
Como se puede observar en estos datos todos tienen una frecuencia absoluta igual a 1, por lo
tanto no tiene moda este conjunto de datos. Las distribuciones de este tipo se les llaman
uniformes.
Sean los datos: 4, 3, 4, 7, 2, 7, 5, 4, 7, 5, 9, 7, 4
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
Aquí se puede observar que los valores numéricos con mayor e igual frecuencia son los valores 4 y
7 por lo tanto la moda de estos datos es 4 y 7, o sea que una distribución bimodal.
Cuando los datos se encuentran organizados en Cuadros de frecuencia, la Mo es el valor que tiene
la mayor frecuencia absoluta. Ejemplo:
Los datos que se muestran a continuación, corresponden a la estatura de 30 personas que
conformaron una muestra. Según el cuadro de frecuencia donde se presenta esta información,
existen 3 valores que tienen la mayor frecuencia absoluta. Estos son 1.21, 1.22 y 1.28 con fi = 4;
por lo tanto existen 3 Modas. Éstas son: 1.21, 122 y 1.28 m, por lo tanto la distribución es
trimodal.
Observación
Frecuencias
fi fia fr (%) Fra
1.20 1 1 3.33 3.33
1.21 4 5 13.33 16.66
1.22 4 9 13.33 30.00
1.23 2 11 6.67 36.66
1.24 1 12 3.33 40.00
1.25 2 14 6.67 46.66
1.26 3 17 10.00 56.66
1.27 3 20 10.00 66.66
1.28 4 24 13.33 80.00
1.29 3 27 10.00 90.00
1.30 3 30 10.00 100.00
Total 30 100
Cuando la información se encuentra organizada en una tabla de frecuencias absoluta y relativa, la
Mo se puede estimar a través de la siguiente ecuación:
( )
( ) ( )
Donde:
Mo = Moda
Licm = Límite inferior de la clase modal
Acm = Amplitud de clase de la clase modal
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
ficm =Frecuencia absoluta de la clase modal
ficprem = Frecuencia absoluta de la clase postmodal
ficpostm = Frecuencia absoluta de la clase postmodal
Ejemplo:
Sea la siguiente tabla de frecuencia absoluta y relativa correspondiente a la variable estatura de
30 personas.
De hecho la variable estatura es una variable cuantitativa continua, además la tabla lo demuestra
ya que entre los intervalos no existe ruptura, es decir, que el límite superior de la primera clase
es el inferior de la siguiente clase. Es por ello que se dicen que son abiertos por la izquierda y
cerrados por la derecha.
Intervalos de Clase PMC fi
(0.98 a 1.15] 1.065 2
(1.15 a 1.32] 1.235 5
(1.32 a 1.49] 1.405 8
(1.49 a 1.66] 1.575 7
(1.66 a 1.83] 1.745 4
(1.83 a 2.00] 1.915 4
En este caso la clase modal sería aquella que tiene mayor frecuencia absoluta, esta es:
(1.32 a 1.49] =8, entonces partiendo de la ecuación proporcionada anteriormente:
( )
( ) ( )
Mo = 1.32 + 0.17 [(8 - 5)/((8 - 5) + (8 – 7)) = 1.4475
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
MEDIDAS DE DISPERSION
Estas son las medidas que miden como se dispersan los datos, generalmente alrededor de una
medida de tendencia central. Entre éstas se pueden mencionar las siguientes:
Rango o Amplitud
Desviación Media y Median
Varianza y Desviación Típica
Dispersión Relativa
Generalmente las más utilizadas son: Varianza, Desviación típica y Dispersión relativa o
Coeficiente de Variación y una que en los métodos tabulares ya se ha utilizado como es el Rango.
Rango
La Amplitud, Rango o Recorrido de un conjunto de datos es la diferencia entre las observaciones
de mayor y menor valor numérico en el mismo.
R = Valor máximo - Valor mínimo
Tiene la ventaja de ser fácil su determinación, pero no es una buena medida de dispersión ya que
solo toma en cuenta dos valores de toda la colección y no idea de cómo es la variabilidad dentro
de los datos.
Varianza
La varianza retoma un nombre de acuerdo a dónde se determina. Si la determinación es en una
población se la llama Varianza Poblacional (σ²) y si es en una muestra se le llama Varianza
Muestral (s²).
La Varianza Población o Variancia de una población finita de N elementos x1, x2, x3, ...xn; se
define como la media aritmética del cuadrado de las desviaciones de las observaciones respecto a
su media μ; y se determina a través de la siguiente ecuación para varianza poblacional:
( )
En caso de que sea muestral y para datos no organizados en una tabla de frecuencia absoluta y
relativa, se determina de la siguiente forma:
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
( )
Para datos tabulados, la varianza se determina de la siguiente manera:
( )
Existe una fórmula de trabajo mucho más rápido para determinar la varianza muestral para datos
no tabulados que resulta de desarrollar en trinomio cuadrado perfecto de la ecuación. Esta
fórmula es:
( )
Ejemplo:
Sean los siguientes datos las estaturas de 30 estudiantes de un salón de clases
Alumno Estatura Alumno Estatura Alumno Estatura
1 1.25 11 1.23 21 1.21
2 1.28 12 1.26 22 1.29
3 1.27 13 1.30 23 1.26
4 1.21 14 1.21 24 1.22
5 1.22 15 1.28 25 1.28
6 1.29 16 1.30 26 1.27
7 1.30 17 1.22 27 1.26
8 1.24 18 1.25 28 1.23
9 1.27 19 1.20 29 1.22
10 1.29 20 1.28 30 1.21
( )
∑xi = (1.25² + 1.28² + 1.27² +… 1.21²) = 47.1558
∑xi = (1.25 + 1.28 + 1.27 +… 1.21) = 37.6
n = 30
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
S² =
47.1558 -
(37.6)²
30
30-1
S² = 0.00105 m²
Dado que se determina o se estima la varianza se eleva al cuadrado las unidades originales de
medición razón por la cual no se debe comparar con la media aritmética ya que ésta es medida en
unidades lineales. Por esta razón, es que se propone una nueva medida de dispersión llamada
Desviación Típica.
Desviación Típica
No es más que la raíz cuadrada positiva de la varianza. En este sentido se puede hablar entonces
desviación típica poblacional y muestral, entonces:
σ = √σ²
S = √S²
Para el caso del ejemplo anterior, S = √0.00105 = 0.0324 m
Este dato indica que los datos se dispersan en promedio 0.0324 m del promedio de la variable
Estatura.
Coeficiente de Variación
Todas las medidas de dispersión antes descritas son medidas de variación absoluta. Una medida
de la dispersión relativa de los datos, que toma en cuenta su magnitud, está dada por el
Coeficiente de Variación.
Coeficiente de Variación (C.V): Es una medida de dispersión relativa de un conjunto de datos,
que se obtiene dividiendo la desviación estándar del conjunto datos entre su media aritmética.
Cuando se multiplica por 100 se expresa en porcentaje indicando tanto por uno que se alejan los
datos de su media aritmética.
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
( )
Ejemplificando con los datos anteriores se tendría:
C.V = (0.0324/1.253)*100 = 2.586%, indicando con ello que por cada valor de la media los datos se
dispersan en un 2.586% alrededor de ella.
Ejemplo.
Sean la siguiente tabla de frecuencia absoluta y relativa, las estaturas correspondientes a 30
estudiantes. La tabla es la siguiente
Intervalos de Clase PMC fi
(0.98 a 1.15] 1.065 2
(1.15 a 1.32] 1.235 5
(1.32 a 1.49] 1.405 8
(1.49 a 1.66] 1.575 7
(1.66 a 1.83] 1.745 4
(1.83 a 2.00] 1.915 4
Determine el Coeficiente de Variación de los datos.
Nótese que solo piden CV, entonces necesitamos dos insumos, la desviación típica y la media
aritmética de los mismos. Como se necesita S, entonces se necesita de S². Entonces realizando
los cálculos necesarios en la misma tabla se obtienen todos los insumos para la estimación del
Coeficiente de variación como se muestra a continuación. Note que lo que se hizo fue generar los
componentes de las ecuaciones a determinar:
Intervalos de Clase PMC fi PMC²fi PMCfi
(0.98 a 1.15] 1.065 2 2.2685 2.13
(1.15 a 1.32] 1.235 5 7.6261 6.175
(1.32 a 1.49] 1.405 8 15.792 11.24
(1.49 a 1.66] 1.575 7 17.364 11.03
(1.66 a 1.83] 1.745 4 12.18 6.98
(1.83 a 2.00] 1.915 4 14.669 7.66
Totales 30 69.9 45.21
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
( )
S² =
69.9 -
(45.21)²
30
30-1
S² = 0.0609
S = 0.0780
45.21/30 = 1.507
( )
C.V = (0.0078/1.507)*100 = 0.5176
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
DEFORMACION DE CURVAS UNIMODALES
Una curva unimodal se puede deformar de dos maneras, respecto a un eje horizontal o bien
respecto a un eje vertical.
Cuando se trata de una deformación horizontal se habla de Asimetría y cuando se habla de
deformación vertical se habla de Curtosis.
Asimetría
Asimetría es el grado de deformación horizontal que presente una curva unimodal respecto al eje
horizontal. De acuerdo a ello se puede tener lo siguiente:
Asimetría Positiva: Se dice que una distribución de frecuencia unimodal presenta asimetría
positiva o a la derecha, si tiene una ramificación más extendida hacia la derecha o hacia los
valores grandes de una variable. Esto indica que la variable tiende a tomar valores mayores que su
promedio y la relación que se establece entre las principales medidas de tendencia central es la
siguiente:
Asimetría Negativa: Una distribución unimodal tiene asimetría negativa o hacia la izquierda, si
tiene una ramificación más extendida hacia la izquierda indicando con ello que la variable tiende a
tomar valores inferiores a su promedio. En este caso, la relación que se establece entre las
principales medidas de tendencia central es la siguiente:
La siguiente gráfica resume la asimetría negativa y positiva
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
Curva Simétrica: En este caso la variable se deforma proporcionalmente con respecto al eje
horizontal y la relación que se establece entre las principales medidas de tendencia central es la
siguiente:
Coeficiente de Asimetría
La medida más usada para cuantificar la asimetría de la distribución de frecuencias de una
variable X, recibe el nombre de coeficiente de asimetría y que desde el punto de vista de
momento (tercer momento) tiene por ecuación:
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
( ̅)
La ecuación antes expuesta es para datos sin organizar o datos no tabulados. Aquí se puede
observar que si existen observaciones muy grandes en relación a la media, el coeficiente de
asimetría tendrá un valor positivo. Si existen observaciones muy pequeñas (menor que la media),
el coeficiente de asimetría será negativo y, finalmente, si las observaciones están simétricamente
distribuidas alrededor de la media, el coeficiente de asimetría tendrá el valor de cero.
Ejemplo.
Sea los siguientes datos:
6.2, 7.9, 8.1, 8.5, 8.5, 8.9, 9.1, 10.8
Determine el CAs.
̅= 8.5
s = 1.29
= 2.1388
xi (xi -x) (xi - x)³
6.2 -2.3 -12.167
7.9 -0.6 -0.216
8.1 -0.4 -0.064
8.5 0.0 0.0
8.5 0.0 0.0
8.9 0.4 0.064
9.1 0.6 0.216
10.8 2.3 12.167
= 0
Por lo tanto se puede decir que la distribución es simétrica, en este caso el promedio, la mediana
y la moda coinciden en el mismo valor, lo cual puede ser verificado.
Para datos organizados en una tabla de frecuencia absoluta y relativa el coeficiente de asimetría
se estimar siempre y cuando la tabla no presente clases abierta, por la siguiente ecuación:
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
( ̅)
Ejemplo:
Intervalos PMC fi PMC*fi *fi ( ̅) fi Fia
(20.5 a 25.5] 23 3 69 1587 -2736.99887 3
(25.5 a 30.5] 28 42 1176 32928 -4357.21344 45
(30.5 a 35.5] 33 21 693 22869 0.5738588 66
(35.5 a 40.5] 38 7 266 10108 1042.84987 73
(40.5 a 45.5] 43 3 129 5547 3279.33151 76
(45.5 a 50.5] 48 2 96 4608 7164.84635 78
(50.5 a 55.5] 53 2 106 5618 16733.8331 80
(55.5 a 60.5] 58 2 116 6728 32393.1814 82
(60.5 a 65.5] 63 1 63 3969 27821.4455 83
83 2714 93962 81341.8493
Obteniendo la información necesaria de la tabla:
̅
√
= 1.9309312; por lo tanto, la asimetría resultante es Positiva, esto quiere decir
que la , lo cual puede demostrarse con la información que proporciona la misma tabla.
Medidas de Curtosis
Medidas de Curtosis o apuntamiento. Se entiende por Curtosis, la medida de deformación vertical
de una distribución de frecuencias, es decir, la medida de apuntamiento o achatamiento de una
distribución.
La Curtosis mide cuan puntiaguda es una distribución en general por referencia a la normal.
La forma de medir la Curtosis o apuntamiento puede ser en función de momentos o cuartiles.
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
Curtosis en función de Momentos:
En este caso el grado de apuntamiento esta dado por:
( ̅)
; para datos sin organizar
En caso que los datos estén tabulados (organizados) y si la tabla no presente clases abiertas se
puede estimar Curtosis desde el punto de vista de momento a través de la siguiente ecuación:
( ̅)
El coeficiente de Curtosis puede tomar uno de los siguientes valores, indicando con el tipo de
deformación vertical de la curva unimodal. Estos son:
Kur > 3: Este valor indica que la distribución es más apuntada que la normal y recibe el nombre de
Leptocúrtica
Kur = 3: En este caso la distribución es moderadamente apuntada y se llama Mesocúrtica (o
apuntamiento normal)
Kur < 3: Este indica que la distribución es menos apuntada que la normal, o sea achatada y se llama
Platicúrtica
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
TEORIA DE PROBABILIDADES
Experimento Aleatorio
En Estadística, los conjuntos de interés son colecciones de observaciones obtenidas estudiando el
comportamiento de un fenómeno, ya sea en estado natural o bien bajo control. Al proceso
mediante el cual se obtiene observaciones se llama experimento. Los experimentos u operaciones
reales o hipotéticas pueden dividirse en dos clases:
 Experimento Determinístico
 Experimento no Determinístico
Un experimento es determinístico si su resultados están completamente determinados y puede
describirse por una fórmula matemática llamada también modelo determinístico (no son de
interés desde el punto de vista estadístico)
Ejemplo...
Supóngase que el experimento consiste en lanzar un objeto (piedra) al aire. De hecho ésta va a
caer porque posee un peso y por la fuerza de gravedad que ejerce la tierra. De hecho se puede
saber cuál es el tiempo que tardará en hacerlo. Este experimento se puede modelar por la
ecuación de caída libre de los cuerpos. En este caso de hecho se sabe cuál será el resultado que
se obtendrá.
Otro ejemplo sería si se lanza una pelota al agua, ésta de hecho flotará, en caso de ser de hierro
pues no flotará.
Un experimento es no determinístico si los resultados del experimento no se pueden predecir con
exactitud antes de realizar el experimento.
Ejemplo...
Supóngase que un experimento consiste en la aplicación de un sedante a una persona que tiene
dolor de cabeza. Aquí los posibles resultados pueden ser {sanos, enfermos}. En este caso no se
sabe a ciencia cierta cuál de estos dos resultados sucederá.
Otro ejemplo sería el lanzamiento de un dado legal. Aquí los resultados posibles son: {1, 2, 3, 4,
5,6}. Se sabe cuáles son los posibles resultados, pero no se sabe cual precisamente.
En estos ejemplos se puede identificar lo siguiente:
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
.- Cada experimento se puede repetir indefinidamente sin cambiar esencialmente las condiciones.
.- Cada experimento es no determinístico.
.- Cada experimento tiene varios resultados posibles que pueden describirse con anterioridad con
precisión (resultados a priori). Entonces a un experimento que presentas las tres características
mencionadas anteriormente se llama experimentos aleatorio. En otras palabras, un Experimento
Aleatorio es aquél cuyos resultados no pueden predecirse antes de su realización, y por lo
tanto, están sujetos al azar.
Espacio Muestral y Sucesos Elementales
Como se ha observado anteriormente, un experimento aleatorio tiene varios resultados posibles y
que pueden ser escritos con precisión. Entonces: A todo los resultados posibles asociados a un
experimento aleatorio ε, se le llama Espacio Muestral y se denotará por M y a cada resultado de
un espacio muestral M se llamará suceso.
Ejemplo...
Extraer un artículo defectuoso de un lote que contiene artículos defectuosos "D" y no defectuosos
"N"
M = {D, N}
.- Lanzamiento de un dado legal
M = {1, 2, 3, 4, 5,6}
.- Lanzamiento de una moneda.... M = {C, S}
.- Designación de un delegado de un grupo de 50 personas
M = {A1,A2,....,A50} ... Ai = i-ésima persona
Los experimentos aleatorios pueden ser simples o compuestos. Experimentos aleatorios simples son
los que se han ejemplificado anteriormente.
Un experimento aleatorio compuesto consiste en dos o más experimentos simples que puede ocurrir
de forma sucesiva o bien de forma simultánea.
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
Considérese el caso de experimento aleatorio compuesto: aquellos en que los experimentos simples
están unidos por la partícula gramatical "o" en el sentido excluyente y aquellos donde los
experimentos simples están unidos por la partícula gramatical "y".
Experimentos compuestos unidos por la partícula "o" excluyente
Un experimento compuesto ε, se dice que es una o-combinación de los experimentos ε1 y ε2
sí, sólo sí, el experimento ε ocurre, cuando el experimento ε1 ó ε2 ocurren (pero no ambos).
Esto quiere decir que ocurren de forma sucesiva pero no al mismo tiempo.
Ejemplo...
muestral del experimento.
M1 = {1,2,3,4,5,6} ... lanzamiento del dado ε1
M2 = {C,S} ... lanzamiento de la moneda ε2. Por lo tanto, el espacio muestral asociado a ε, es la unión
de M1 y M2. Es decir:
M = M1 υ M2 = {1, 2, 3, 4, 5, 6, C, S}
Experimentos compuestos unido por la partícula "y"
Un experimento compuesto , se dice que es un y-combinación de los experimentos simples 1 y
2, sí y sólo sí, el experimento  ocurre, cuando el experimento 1 y 2 ocurre. Lo anterior
trae como consecuencia que si el experimento compuesto ε es una y-combinación de los experimentos
1 y 2, el espacio muestral M asociado a , es el producto cartesiano de los espacios muestrales
M1 y M2 correspondiente a 1 y 2, es decir: M = M1 x M2. Ejemplo...
Se lanza una moneda tres veces. Determine el espacio muestral.
Aquí se puede observar que el experimento  ocurre, si los tres experimentos simples ocurren... i
= 1,2,3; i= i-ésimo lanzamiento de la moneda. Esto es:
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
M1 = {C,S}
M2 = {C,S}
M3 = {C,S}
 consiste en realizar el experimento ε1, luego ε2 y luego ε3. Por lo tanto: M = M1 x M2 x M3
M = {CCC, CCS, CSC, SCC, CSS, CSC, SSC, SSS} que resulta del producto cartesiano de los espacio
muestrales simples que conforman al experimento compuesto como se muestra a continuación:
M1*M2
M3
M2 C S
M1 C S CC CCC CCS
C CC CS CS CSC CSS
S SC SS SC SCC SCS
SS SSC SSS
Otro ejemplo podría ser el experimento aleatorio compuesto consistente en el lanzamiento de una
moneda y un dado al mismo tiempo.
M2
M1 1 2 3 4 5 6
C (C,1) (C,2) (C,3) (C,4) (C,5) (C,6)
S (S,1) (S,2) (S,3) (S,4) (S,5) (S,6)
En muchos casos un diagrama, conocido con el nombre de Diagrama del Árbol, es más sugerente para
la determinar el espacio muestral de un experimento aleatorio compuesto.
Ejemplo... Determine el espacio muestra M del experimento aleatorio compuesto consistente en el
lanzamiento de tres monedas al mismo tiempo
(2n
) = 24
= 16
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
En este caso el espacio muestral se obtiene con los resultados que tiene cada rama del árbol, es
decir, M= {CCC, CCS, CSC, SCC, CSS, CSC, SSC, SSS}
Sucesos y Algebra de sucesos (α-Algebra de Borel)
Como se ha mencionado anteriormente, un suceso es un resultado de un experimento aleatorio. Si se
ha definido al espacio muestral como todos los posibles resultados de un experimento aleatorio, es
decir, se puede concebir al espacio muestral como un conjunto universo. Si se ve desde este punto
de vista, se puede hablar entonces de subconjunto y elementos de este conjunto universo llamado
espacio muestral. Se llama Evento a cualquier subconjunto del espacio muestral y se le denota por
A, B, C, D, E, F, etc. Así, si A es un evento, entonces A  M, y se le llamará suceso a cada elemento
de un espacio muestral y se le designa por w, x, y, etc. Esto es si x es un suceso, entonces x  M. Un
evento con un sólo elemento es un evento elemental.
S
S
C
S
C
S
C
S
C
S
C
C
C
S
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
Ejemplo: considérese como experimento aleatorio al lanzamiento de un dado y al evento A como la
ocurrencia de un número par. Determine el espacio muestral.
M = {1, 2, 3, 4, 5, 6}
A = {2, 4, 6}; entonces se dice que A  M
Dado que ya se ha identificado el espacio muestral como conjunto universal, los eventos como
subconjunto del espacio muestral, se identificará también el conjunto vacío () de la teoría de
conjunto como el evento imposible, esto es, un evento que no se da o sea que no ocurre. Por ejemplo,
lanzar dos dados simultáneamente, y sea el evento A: "obtener suma de 14". De hecho esto nunca va
a suceder  A = {}.
Sub-evento: Dados dos eventos, A y B se dice que A está contenido en B o que a es sub-evento de
B, si todo suceso favorable a A, es favorable a B. En otras palabras, si ocurre el evento A,  ocurre
el evento B. Esto es: A  B, si wi  A  w  B
A B
Igualdad de Eventos: Se dice que dos eventos A y B son iguales si, AB y BA. Esto es: A = B =
AB y BA.
Unión de Eventos: Dados dos eventos A y B, se llama unión de A con B y se denota por AB al
evento formado por los sucesos que pertenecen a A ó a B ó, a ambos, es decir:
AB = {wiM /wiA v wiB}.
M
A
B
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
ABAB
Intersección: Dados los eventos A y B, se llama intersección de A con B, al evento formado por
todos los sucesos favorables a A y a B. Es decir, ambos eventos A y B ocurren. Esto es:
AB = {w  M / w  A  w  B}.
AB
Complemento: Si A es un evento del espacio muestral M, se llama complemento de A, al evento
formado por todos los sucesos que no pertenecen a A. Es decir, no ocurre el evento A. Esto es:
Ac
= M - A = {wi  M / wi  A}
MA B
MA B
MA B
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
Ac
Eventos Mutuamente Excluyente y colectivamente exhaustivos (complementarios)
Dos eventos A y B definidos en el mismo espacio muestral, se dice que son mutuamente excluyentes
si no pueden ocurrir juntos. Es decir la ocurrencia de uno excluye la ocurrencia del otro. Es decir,
que AB = 
Enfoques de Probabilidades
Definir probabilidad estrictamente es un poco inadecuado. La formulación axiomática de la teoría de
probabilidades requiere niveles de abstracción y competencia matemática fuertes. Sin embargo, hay
autores que plantean enfoques a través de los cuales se puede abordar las probabilidades. Estos
enfoques son:
1. Enfoque o Probabilidad Clásica (llamada también de Laplace o Apriori)
2. Enfoque desde el punto de vista de frecuencia relativa (llamada también A posteriori).
3. Probabilidad subjetiva
Enfoque Clásico o A priori: Llamado también Este definición se basa en el supuesto de que todos
los resultados posibles de un experimento aleatorio son igualmente probable, es decir, cada suceso
de un espacio muestral M, tienen la misma posibilidad de ocurrir.
Según Laplace (1812) la probabilidad de un evento es la razón entre el número de casos
(sucesos) favorables y el número total de casos (sucesos) posibles, siempre que nada obligue a
M
A
A
c
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
creer que alguno de estos sucesos deban de tener preferencia a los demás, lo que hace que
todos sean iguales. Esto es:
Observaciones:
1.- La probabilidad de un evento cualquiera A está comprendido entre 0 y 1. En efecto nA y n
son enteros positivos y 0  nA  1. Esto es:
0/n  nA/n  n/n ó 0  P[A]  1
2.- P [A] = 0, si A es un evento imposible A = ;  nA = 0, luego P[A] = 0/n = 0
3.- P [A] = 1, si A es el evento seguro (A = M), es decir A = M nA = n  P[A] = n/n = 1
4.- Puesto que todos los elementos de M = (w1, w2, ..., wn} son igualmente probables P[{wi}] = 1/n; i
= 1, 2,3,..., n  P [M] = Σ P[wi] = 1
Si A es un evento de M  P [A] = Σ P [{wi}] wiεA
Ejemplo..... Si se lanza una moneda tres veces. Calcular la probabilidad que ocurran:
a.- Dos caras
b.- Al menos dos caras
c.- A lo más dos caras
El espacio muestral de este experimento lo puede obtener a través de producto cartesiano o bien a
través del diagrama del árbol. Determinando el espacio muestral:
M = {CCC, CCS, CSC, CSS, SCC, SCS, SSC, SSS}
a.- A = {CCS, CSC, SCC}  P[A] = 3/8
b.- B = {CCC, CCS, CSC, SCC}  P[B] = 4/8 = 1/2
c.- C = {CCS, CSC, CSS, SCC, SCS, SSC, SSS}  P[C] = 7/8
Ejemplo
Considérese el lanzamiento de dos dados. Calcular la probabilidad de:
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
a.- Obtener suma 7
b.- Obtener suma 6
c.- Obtener suma mayor que 5
d.- Que el resultado del primer dado sea mayor que el resultado del segundo dado.
A = {(w1,w2)  M / w1 + w2 = 7}
B = {(wi,w2)  M / w1 + w2 = 6}
C = {(w1,w2)  M / w1 + w2 > 5}
D = {w1,w2)  M / w1 > w2}]
Determinando el espacio muestral a través del producto cartesiano de los dos espacios muestrales
simples de los experimentos que conforman este experimento compuesto se tendría lo siguiente:
M2
M1 1 2 3 4 5 6
1 (1,1) (1,2) (1,3) (1,4) (1,5) (1,6)
2 (2,1) (2,2) (2,3) (2,4) (2,5) (2,6)
3 (3,1) (3,2) (3,3) (3,4) (3,5) (3,6)
4 (4,1) (4,2) (4,3) (4,4) (4,5) (4,6)
5 (5,1) (5,2) (5,3) (5,4) (5,5) (5,6)
6 (6,1) (6,2) (6,3) (6,4) (6,5) (6,6)
P[A] = 6/36 = 1/6 (nA) = 6
P[B] = 5/36 (nA) = 5
P[C] = 26/36 (nA) = 26
P[D] = 15/36 (nA) = 15
Probabilidad desde el punto de vista de Frecuencia Relativa (o A posteriori).
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
Supóngase la siguiente pregunta: ¿Cuál es la probabilidad de que la mitad o más de los estudiantes de
Esta2 obtengan notas aprobatorias?. En este caso y en muchos más, no sirve de nada enumerar todos
los resultados posibles. Como se puede observar esta pregunta no se puede responder utilizando la
definición clásica de probabilidades, dado que se necesita mayor información. Esto conlleva a la
interpretación de probabilidades en términos de vista de frecuencia relativa.
Si un experimento bien definido se repite n veces (n grande): sean nA < n el número de veces
que el evento A ocurren los n ensayos, entonces la frecuencia relativa de veces que ocurre el
evento A "nA/n", es la estimación de la probabilidad que el evento A ocurra, esto es:
P[A] = nA/n
Observación:
1.- La frecuencia relativa de un evento, está comprendida entre 0 y 1 0 P[A]  1
2. nA/n = 1, sí y sólo sí, el evento A ocurre en las n repeticiones de experimento. En particular
nM/n = 1
Ejemplo.
Sexo
Partido Político
A B C D E F Total
Masculino 90 80 65 35 37 13 320
Femenino 15 20 5 10 3 2 55
Total 105 100 70 45 40 15 375
Determine las siguientes probabilidades:
a. ¿Cuál es la probabilidad que un miembro seleccionado aleatoriamente
b.- Sea una mujer?
c.- Pertenezca al partido B?
d.- Sea hombre miembro del partido C?
Solución.....
a.- P[Mujer] = 55/375
b.- P[B] = 100/375
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
c.- P[C] = (70)/375
Definición Subjetiva de Probabilidad
Probabilidad desde el punto de vista subjetivo está relacionada con una presunción,
creencia o como algunos autores le llaman corazonada, por lo tanto, puede variar de una
persona a otra.
Dado un experimento determinado, la probabilidad de un evento A es el grado de creencia
asignado a la ocurrencia de este evento por un individuo particular, basado en toda la
evidencia a su disposición con las siguientes exigencias:
1.- P[A] = 0, representa la certeza que el evento A, no ocurrirá
2.- P[A] = 1, representa la certeza que el evento A, sí ocurrirá
Principales Teoremas de Probabilidad:
1. O  P[A]  1, para cada evento A en M.
2. P[M] = 1
3. P[AUB] = P[A] + P[B]; siempre y cuando los eventos A y B ocurran por separado o de
forma independiente.
4. P [AUB] = P[A] + P[B] – P[AB]; en este caso A y B no son eventos independientes,
es decir, que ocurren al mismo tiempo.
5. Si A = , entonces P[A] = 0
6. Eventos mutuamente excluyentes y colectivamente exhaustivos o complementarios.
Sea A y B, dos eventos en el espacio muestral, se dice que son mutuamente
excluyente si la ocurrencia de uno de ellos elimina la ocurrencia del otro y viceversa
y son complementarios si la suma de sus probabilidades, es decir la unión de ambos,
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
da como resultado la probabilidad del espacio muestral. Si dos eventos cumplen
estos dos requisitos se dicen que forman una partición del espacio muestral M.
7. Sea A es un evento en M, entonces P[A´] = 1 – P[A]
Probabilidad Condicional (Dependencia de Eventos)
A menudo sucede que la ocurrencia de un evento depende de la ocurrencia de otro y es de
frecuente interés obtener la probabilidad de un evento, donde dicho evento está
condicionado a la ocurrencia de un subconjunto del espacio muestral (otro evento). Es decir,
que se dice que el evento B ha ocurrido y se quiere saber la probabilidad que ocurra el
evento A.
Sea A y B dos eventos en el espacio muestral M si P [B]  0, se define la probabilidad
condicional del evento A dado el evento B como:

; P 
Es decir, la probabilidad condicional es una probabilidad calculada en un espacio muestral
reducido, B; pues a partir de la información se sabe con probabilidad 1 que el evento B ya
ocurrió. En la práctica se puede resolver este problema usando la definición, esto es
calculando la P [AB] y P [B] con respecto al espacio muestral original, o bien considerando
la probabilidad del evento A con respecto al espacio muestral reducido B, es decir, del
evento que condiciona.
Ejemplo...
Una empresa tiene 300 trabajadores de los cuales 100 son casados y 30 son divorciados. En
dicha empresa trabajan 200 hombres, 85 de los cuales son casados y 95 son solteros. Se
toma un trabajador al azar:
a. Si el trabajador seleccionado es soltero, ¿cuál es la probabilidad que sea mujer?
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
b. Si el trabajador seleccionado es mujer, ¿cuál es la probabilidad que sea soltera?
c. ¿Cuál es la probabilidad que sea mujer o esté casada?
Solución
Lo primero que se tiene que hacer es extraer la información que proporciona el problema y
ver como se puede completar la siguiente. Por otro lado se debe de partir del hecho que la
información proporcionada se puede clasificar de acuerdo a dos criterios los cuales son: el
sexo de los trabajadores y el estado civil de los mismos. En el caso del ejemplo se dispone
de la siguiente información que se encuentra en el siguiente cuadro en forma cursiva. La
restante se puede completar utilizando el concepto de complemento de evento.
Sexo
Estado Civil
TotalCasado (C) Soltero (D) Divorciado (E)
Femenino (A) 15 75 10 100
Masculino (B) 85 95 20 200
Total 100 170 30 300
Como se puede observar se está totalizando tanto por filas como por columnas, es decir, de
acuerdo a los dos criterios de clasificación de la información. A esto se le llama
probabilidades marginales y a la información del interior del cuadro se le llama probabilidad
conjunta de los dos eventos (criterios de clasificación). Resolviendo el problema se tiene:
a. Si el trabajador seleccionado es soltero, ¿cuál es la probabilidad que sea mujer?.
En este caso el evento condicionante es que el trabajador sea soltero y el evento
dependiente es que sea mujer.
Los problemas de probabilidad de eventos dependientes se pueden resolver de dos manera:
respecto al espacio muestral original y respecto al espacio muestral restringido del evento
que condiciona. Para el primer caso:
( ⁄ )
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
Para el segundo caso, es decir, respecto al espacio muestral restringido del evento
condiciónate se tendría que ver cuántas veces se repite el evento trabajador de sexo
femenino y cuántas veces se repite el evento trabajador soltero. De acuerdo a esto se
tiene que:
( ⁄ ) =
Como se puede observar ambos resultados coinciden en el mismo resultado.
b. Si el trabajador seleccionado es mujer, ¿cuál es la probabilidad que sea soltera?
Esto tiende a confundir pensando que es el mismo del inciso a., sin embargo el evento
condicionante es ahora que el trabajador sea Mujer. De acuerdo a esto se tiene:
( ⁄ ) =
c. ¿Cuál es la probabilidad que sea mujer o esté casada?
[ ] [ ] [ ]
Independencia de Sucesos
En probabilidad condicional la ocurrencia de un evento condiciona la probabilidad de un
segundo evento. Sin embargo, hay muchos casos donde los eventos están totalmente sin
conexión, y la ocurrencia de uno de ellos no cambia la probabilidad de ocurrencia del otro,
en este caso se dice que son independientes.
Sean A y B dos eventos y sea P [B]  0., A y B son eventos independientes si:
a.- P[A/B] = P[A]
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
Como consecuencia, si A y B son independientes y 
P [A/B] = P[AB]/P[B] = P[A]  P[AB] = P[A]P[B] y viceversa
Dos eventos A y B son independientes si se cumple cualquiera de las siguientes
condiciones:
.- P[A/B] = P[A] .- P[B/A] = P[B] .- P[AB] = P[A].P[B]
Ejemplo...
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
Un impulso eléctrico debe de pasar del punto I al II para producir una señal. Para llegar al
punto II debe de pasar por dos componentes electrónicos (E1 y E2). La trayectoria del
impulso se interrumpe si falla cualquiera de los dos componentes. La probabilidad de que el
componente E1 no falle es 0.7 y la probabilidad que el componente E2 no falle es 0.8.
Además, la probabilidad de que al menos uno no falle es 0.94. ¿Cuál es la probabilidad de
que la señal se produzca?
A = Componente E1 no falle = P[A] = 0.7
B = Componente E2 no falle = P[B] = 0.8
P [AUB] = 0.94
Para que se produzca el impulso eléctrico, ninguno de los componentes (E1 y E2) deben de
fallar  la probabilidad solicitada es P[AB].
P[AUB] = P[A] + P[B] - P[AB]
P [AB] = P[A] + P[B] - P[AUB]
= 0.7 + 0.8 - 0.94 = 0.56
P[AB] = P[A]P[B] = 0.7*0.8 = 0.56
Probabilidad Total
Sean A1, A2,..., Ak, eventos que forman una partición del espacio muestral y Sea B un
evento en el espacio muestral. Si P[A1], P[A2],..., P[Ak], P[B/A1], P[B/A2],..., P[B/Ak] son
probabilidades conocidas y se está interesado en la ocurrencia del evento B. Para obtener
esta probabilidad se hace uso del Teorema de Probabilidad Total que partiendo de las
premisas anteriores se enuncia de la siguiente manera:
∑ * ⁄ + [ ⁄ ] [ ⁄ ] * ⁄ +
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
Ejemplo:
Un profesor tiene tres secretarias con diferentes niveles de competencia. Las secretarias
son S1, S2, S3. La secretaria S1 ha escrito el 20% de un trabajo, la secretaria S2 el 40%
y la secretaria S3 el 40%. Hay un error ortográfico que irrita en especial al profesor, y
éste ha calculado que S1 lo comete el 90% de las veces que tiene que escribir la palabra en
cuestión, que S2 lo comete el 40% de las veces, y S3 nunca.
¿Cuál es la probabilidad de que el profesor encuentre el error mencionado?
Obteniendo la información que proporciona el problema se tiene:
P [S1] = 0.20; P [S2] = 0.40; P [S3] = 0.40; P [ ⁄ P [ ⁄ P [ ⁄ ;
entonces la probabilidad del error es:
P [E] = P [S1]* P [ ⁄ + P [S2]* P [ ⁄ + P [S3]* P [ ⁄
P [E] = ((0.20*0.90) + (0.40*0.40) + (0.40*0)) = 0.34
Lo anterior se puede facilitar si se usa un árbol de probabilidades como se muestra a
continuación
P [S1] = 0.20
P [S2] = 0.40
P [S3] = 0.40
P [E/S1] = 0.90
P [E’/S1] = 0.10
P [E’/S2] = 0.40
P [E/S2] = 0.60
P [E’/S2] = 1
P [E/S3] = 0
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
Supóngase ahora que el evento “B” ya ha ocurrido y se está interesado en saber a cuáles de
los eventos que forman la partición del espacio muestra se ha debido su ocurrencia. En este
caso se hace uso del Teorema de Bayes que partiendo también de las premisas anteriores
se enuncia de la siguiente forma:
* ⁄ +
* ⁄ +
* ⁄ +
Como se puede observar, el denominador no es más que la probabilidad “B”, es decir, la
probabilidad total.
Ejemplo>
Si el profesor encuentra el error mencionado en una página del trabajo. ¿Cuál es la
probabilidad de que esa página la haya escrito secretaria S1?, ¿la secretaria S2?, ¿la
secretaria S3?
[ ⁄ ]
[ ⁄ ] ( )
[ ⁄ ]
[ ⁄ ] ( )
[ ⁄ ]
[ ⁄ ] ( )
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
REGRESION Y CORRELACION LINEAL SIMPLE
Regresión Lineal Simple
En muchas áreas de la investigación científica, la variación en las mediciones de una variable
en estudio es causada preponderantemente por otras variables relacionadas cuyas
magnitudes cambian en el curso del experimento. La incorporación explícita de los datos de
estas variables que influyen en el análisis estadístico, permite conocer la naturaleza de las
relaciones y utilizar esta información para mejorar la descripción y las inferencias de las
variables de interés primario.
Al probar las relaciones entre variables es importante que el valor de la variable pueda ser
predicha de las observaciones de otra variable o aún controladas y optimizadas manipulando
los factores de influencia.
El análisis de regresión es un conjunto de métodos estadísticos, que tratan con la
formulación de modelos matemáticos que describen las relaciones entre variables y el uso
de estas relaciones modeladas con el propósito de predecir e inferir.
Supuestos del modelo de Regresión Lineal Simple
Al igual que en otros tipos de análisis estadísticos, el modelo de Regresión Lineal Simple se
basa en ciertos supuestos que a continuación se detallan.
Supuesto 1. "Y" es una variable aleatoria cuya distribución probabilística depende de
"X"
Este supuesto quiere decir que para cualquier valor de "X", "Y" es una variable aleatoria con
cierta distribución probabilística con media μy/x y σ²y/x. Note que esta suposición solamente
implica que "Y" es una variable aleatoria que depende de "X", y no toma en cuenta la forma
lineal. Por otra parte, significa que la variable X se mide sin error y fijada por el
investigador.
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
Supuesto 2. Modelo de la línea recta
Esta suposición requiere que la ecuación para μy/x sea una línea recta, es decir que μy/x = ß0 +
ß1Xi y, por lo tanto, que la ecuación de dependencia sea Y = ß0 + ß1Xi + ε. Con esta
restricción, la línea que une a μy/x debe de ser una recta, por lo tanto se puede tener una
de las siguientes situaciones:
Puede ser que se tenga una relación positiva entre las variables X y Y, esto quiere decir que
a medida que aumenta X, Y también aumenta.
Otra situación que se puede dar es una relación inversa, es decir, que a medida que aumenta
X, Y disminuye.
En el último caso se recurre al hecho de que regresión también se entiende como la
tangente inversa del ángulo de inclinación de una recta. En los dos primeros casos las rectas
tienen pendiente y en el tercer caso, no hay pendiente lo cual indica que no existe regresión
lineal entre ambas variables.
Supuesto 3. Homogeneidad de varianza
Esta suposición es muy importante en el análisis de regresión. La varianza de la
distribuciones de "Y" son idénticas para todos los valores de "X". En otras palabras, se
supone que σ²y/x1 = σ²y/x2 = σ²y/xn = σ², donde σ² es la varianza común (desconocida) para
todas las distribuciones de "Y", independientemente del valor de "X". Esto quiere decir, que
la media de "Y" se modifica con el valor de "X", pero la varianza se mantiene constante.
Supuesto 4. Independencia
Y
X
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
Los valores de "Y" deberán ser estadísticamente independiente. Un ejemplo donde se viola
este supuesto es cuando se realizan mediciones de peso a un mismo individuo en un lapso
menor a una hora.
Supuesto 5. Normalidad
La distribución de "Y" para cualquier valor de "X" es normal. Esto equivale a suponer que la
variable aleatoria no observable ε es normal y su media es cero ya que "X" se toma como
variable no aleatoria susceptible a ser manipulada por el investigador.
Todos los supuestos anteriores se pueden resumir en los siguientes:
1. "Y" es una variable aleatoria cuya distribución probabilística depende del valor de "X".
2. La ecuación de regresión es una línea recta.
3. Homogeneidad de varianza.
4. Independencia de las observaciones lo que implica que los errores son independientes.
5. Normalidad.
En la Figura 1 se muestran los supuestos de normalidad y homogeneidad de varianza.
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
Diagrama de Dispersión
Este diagrama tiene por objetivo dar una idea de la posible relación existente entre la
variable dependiente Y y la independiente X.
Para realizar un diagrama de dispersión se coloca en el eje de las abscisas los valores
correspondiente a la variable independiente X y en el eje de las ordenadas los valores de la
variable dependiente Y. Luego se colocan puntos en la intersección de los valores de ambas
variables. Un ejemplo de lo anterior se muestra en seguida.
Los datos que se muestran a continuación corresponden a la producción en miles de millones
de dólares de 10 empresas y sus costos de producción de las mismas en miles de millones de
dólares.
Para construir un diagrama de dispersión lo primero que se tiene que hacer es determinar
quién es la variable dependiente y quién es la variable independiente, es decir, establecer la
relación entre dichas variables. Esta relación debe ser lo más natural posible.
En el caso del problema, es de suponerse que a medida que aumenta la producción también
se incrementarán los costos de producción por todo lo concerniente a ello (materia prima,
horas hombres, gastos de energía, etc.). Entonces definimos a X, variable independiente, a
la Producción y a Y, variable dependiente, a los costos de producción. De acuerdo a esto se
tiene lo siguiente:
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
Producción (X)
(miles de millones de $us)
Costo (Y)
(miles de millones $u)
10 3
18 5
12 4
16 5
22 8
36 12
30 10
32 14
26 12
12 3
El diagrama de dispersión quedaría de la siguiente forma:
Figura 2. Diagrama de Dispersión entre producción y costo de producción
De acuerdo a la información que proporciona el diagrama de dispersión se puede observar
que a medida que aumenta la producción de las industrias, aumentan los costos de
producción de las mismas, es decir, se concluir que existe una relación positiva entre estas
variables y además se puede ver que esta relación tiende a ser lineal.
0
2
4
6
8
10
12
14
16
0 5 10 15 20 25 30 35 40
Costo(Milesdemillones$us)
Producción (Miles de Millones $us)
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
Método de Mínimos Cuadrado
Como lo plantea el supuesto 2 del modelo de regresión lineal simple, "Modelo de la Línea
Recta", que de existir una relación entre X y Y, ésta debe ser una línea recta. Entonces a
partir de muestra (x1, y1), (x2, y2),..., (xn, yn), de las variables "X" y "Y", se trata de
obtener una ecuación que represente la relación entre dichas variables. El modelo del cual
se habla es de una ecuación punto pendiente como sigue:
El problema de esta modelo es que sus componentes son parámetros y por lo tanto, son
estados desconocidos de la naturaleza generalmente. Es por ello que es necesario obtener
estimadores de ß0 y ß1 para estimar adecuadamente la recta de regresión μy/xi. El
estimador de μy/xi se denota por: ̂ ̂ ̂
Para llegar a obtener estos estimadores se hace uso de la técnica propuesta por Carl Gauss
(1777-1855). Este método se basa en la idea de obtener estimadores para los componentes
del modelo que minimicen la suma de cuadrados de las distancias entre los valores
observados (Yi) y los estimados ( ̂ ). Esto significa que se tiene que minimizar la suma de
cuadrados de las longitudes de los segmentos de las líneas verticales que unen los datos
observados con la recta estimada como se muestra en la Figura 3.
Figura 3. Esquematización de la técnica de mínimos cuadrados.
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
A la técnica antes mencionada se le denomina "Técnica de Mínimos Cuadrados". Usando
notación matemática, el método de mínimo cuadrados consiste en encontrar los
estimadores de ß0 y ß1.
Al aplicar la técnica de mínimos cuadrados se llegan a obtener las ecuaciones de trabajo de
̂ y ̂1^ (en este caso se ha omitido los procesos de derivación mediante el cual se llega a
obtener las fórmulas de trabajo). Estas ecuaciones son las siguientes:
̂
( )
;
̂ ̂ ̅. Donde:
̂ Coeficiente de Regresión
̂ Intercepto de la recta de estimación
Ejemplo:
Retomando los datos que se utilizaron para construir el diagrama de dispersión y aclarando
que “X” es Producción (miles de millones de $us) y “Y” Costos (miles de millones de $us) y
haciendo uso de las ecuaciones derivadas a través de la técnica de mínimos cuadrados se
tiene lo siguiente:
Escuela Militar de Ingeniería
Unidad Académica Santa Cruz
Maestría en Educación Superior
Estadística Aplicada a la Educación Superior
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
X Y XY X2
Y2
10 3 30 100 9
18 5 90 324 25
12 4 48 144 16
16 5 80 256 25
22 8 176 484 64
36 12 432 1296 144
30 10 300 900 100
32 14 448 1024 196
26 12 312 676 144
12 3 36 144 9
Totales 214 76 1952 5348 732
Promedio 21.4 7.6
̂
( )
; ̂
( )
= 0.423738, Coeficiente de regresión
̂ ̂ ̅; ( ) ; Intercepto, por lo tanto la
ecuación de estimación quedaría de la siguiente manera:
̂ ; o bien se puede decir que:
Costos = 0.423738 (Producción) – 1.46798
Un aspecto que no se debe olvidar es que el propósito de la Regresión Lineal Simple es el
de predecir el comportamiento de una variable dependiente a través del conocimiento de
una variable independiente, es por ello que se debe estar seguro que la ecuación de
estimación sirve para este propósito (que existe regresión lineal simple). Por esta razón es
que la ecuación de estimada debe ser sometida a un proceso de validación.
Apuntes de estadistica
Apuntes de estadistica
Apuntes de estadistica
Apuntes de estadistica
Apuntes de estadistica
Apuntes de estadistica
Apuntes de estadistica
Apuntes de estadistica
Apuntes de estadistica
Apuntes de estadistica

Más contenido relacionado

La actualidad más candente

Métodos de ecuaciones simultaneas
Métodos de ecuaciones simultaneasMétodos de ecuaciones simultaneas
Métodos de ecuaciones simultaneasMichael Vega
 
Distribuciones de Probabilidad (Variable Aleatoria Continua)
Distribuciones de Probabilidad (Variable Aleatoria Continua)Distribuciones de Probabilidad (Variable Aleatoria Continua)
Distribuciones de Probabilidad (Variable Aleatoria Continua)Daniel Gómez
 
Pruebas paramétricas y no paramétricas
Pruebas paramétricas y no paramétricasPruebas paramétricas y no paramétricas
Pruebas paramétricas y no paramétricasrociohermau
 
Estadistica 2. distribucion de frecuencias
Estadistica   2. distribucion de frecuenciasEstadistica   2. distribucion de frecuencias
Estadistica 2. distribucion de frecuenciasEdward Ropero
 
Regla Empírica Y Teorema De Tshebyshev
Regla Empírica Y Teorema De TshebyshevRegla Empírica Y Teorema De Tshebyshev
Regla Empírica Y Teorema De TshebyshevJmdartagnan
 
TRABAJO DE ESTADISTICA Prueba de Hipotesis.pdf
TRABAJO DE ESTADISTICA Prueba de Hipotesis.pdfTRABAJO DE ESTADISTICA Prueba de Hipotesis.pdf
TRABAJO DE ESTADISTICA Prueba de Hipotesis.pdfCarlos Olarte Diaz
 
Propiedades mco
Propiedades mcoPropiedades mco
Propiedades mcojecuy
 
Intervalo de confianza 4
Intervalo de confianza 4Intervalo de confianza 4
Intervalo de confianza 4guest8a3c19
 
Estimadores puntuales intervalos de confianza.
Estimadores puntuales   intervalos de confianza.Estimadores puntuales   intervalos de confianza.
Estimadores puntuales intervalos de confianza.maryanbalmaceda
 
Pruebas para una Media Poblacional: Muestra Grande y Desviación Estándar Pobl...
Pruebas para una Media Poblacional: Muestra Grande y Desviación Estándar Pobl...Pruebas para una Media Poblacional: Muestra Grande y Desviación Estándar Pobl...
Pruebas para una Media Poblacional: Muestra Grande y Desviación Estándar Pobl...myriam sarango
 
Prueba de hipotesis(1)
Prueba de hipotesis(1)Prueba de hipotesis(1)
Prueba de hipotesis(1)amy Lopez
 
Probabilidad y estadística descriptiva
Probabilidad y estadística descriptivaProbabilidad y estadística descriptiva
Probabilidad y estadística descriptivaBlanca Parra Campos
 
Guia intervalos de confianza
Guia intervalos de confianzaGuia intervalos de confianza
Guia intervalos de confianzaAndres Oyarzun
 
Estadistica aplicada
Estadistica aplicadaEstadistica aplicada
Estadistica aplicadaNancy Curasi
 
Importancia de la estadistica en la educacion
Importancia de la estadistica en la educacionImportancia de la estadistica en la educacion
Importancia de la estadistica en la educacionlaleska altuve
 

La actualidad más candente (20)

Métodos de ecuaciones simultaneas
Métodos de ecuaciones simultaneasMétodos de ecuaciones simultaneas
Métodos de ecuaciones simultaneas
 
Prueba de hipotesis
Prueba de hipotesisPrueba de hipotesis
Prueba de hipotesis
 
INTERVALOS DE CONFIANZA
INTERVALOS DE CONFIANZAINTERVALOS DE CONFIANZA
INTERVALOS DE CONFIANZA
 
Distribuciones de Probabilidad (Variable Aleatoria Continua)
Distribuciones de Probabilidad (Variable Aleatoria Continua)Distribuciones de Probabilidad (Variable Aleatoria Continua)
Distribuciones de Probabilidad (Variable Aleatoria Continua)
 
Pruebas paramétricas y no paramétricas
Pruebas paramétricas y no paramétricasPruebas paramétricas y no paramétricas
Pruebas paramétricas y no paramétricas
 
Distribución de poisson
Distribución de poissonDistribución de poisson
Distribución de poisson
 
Estadistica 2. distribucion de frecuencias
Estadistica   2. distribucion de frecuenciasEstadistica   2. distribucion de frecuencias
Estadistica 2. distribucion de frecuencias
 
Regla Empírica Y Teorema De Tshebyshev
Regla Empírica Y Teorema De TshebyshevRegla Empírica Y Teorema De Tshebyshev
Regla Empírica Y Teorema De Tshebyshev
 
TRABAJO DE ESTADISTICA Prueba de Hipotesis.pdf
TRABAJO DE ESTADISTICA Prueba de Hipotesis.pdfTRABAJO DE ESTADISTICA Prueba de Hipotesis.pdf
TRABAJO DE ESTADISTICA Prueba de Hipotesis.pdf
 
Propiedades mco
Propiedades mcoPropiedades mco
Propiedades mco
 
Intervalo de confianza 4
Intervalo de confianza 4Intervalo de confianza 4
Intervalo de confianza 4
 
Estimadores puntuales intervalos de confianza.
Estimadores puntuales   intervalos de confianza.Estimadores puntuales   intervalos de confianza.
Estimadores puntuales intervalos de confianza.
 
Pruebas para una Media Poblacional: Muestra Grande y Desviación Estándar Pobl...
Pruebas para una Media Poblacional: Muestra Grande y Desviación Estándar Pobl...Pruebas para una Media Poblacional: Muestra Grande y Desviación Estándar Pobl...
Pruebas para una Media Poblacional: Muestra Grande y Desviación Estándar Pobl...
 
Distribuciones Continuas de Probabilidad
Distribuciones Continuas de ProbabilidadDistribuciones Continuas de Probabilidad
Distribuciones Continuas de Probabilidad
 
Prueba de hipotesis(1)
Prueba de hipotesis(1)Prueba de hipotesis(1)
Prueba de hipotesis(1)
 
Probabilidad y estadística descriptiva
Probabilidad y estadística descriptivaProbabilidad y estadística descriptiva
Probabilidad y estadística descriptiva
 
Guia intervalos de confianza
Guia intervalos de confianzaGuia intervalos de confianza
Guia intervalos de confianza
 
Taller medidas de tendencia central
Taller medidas de tendencia centralTaller medidas de tendencia central
Taller medidas de tendencia central
 
Estadistica aplicada
Estadistica aplicadaEstadistica aplicada
Estadistica aplicada
 
Importancia de la estadistica en la educacion
Importancia de la estadistica en la educacionImportancia de la estadistica en la educacion
Importancia de la estadistica en la educacion
 

Destacado

Destacado (14)

Tamaño de muestra revisado
Tamaño de muestra revisadoTamaño de muestra revisado
Tamaño de muestra revisado
 
Modulo de estadística para la educacion superior
Modulo de estadística para la educacion superiorModulo de estadística para la educacion superior
Modulo de estadística para la educacion superior
 
Formulas estadistica
Formulas estadisticaFormulas estadistica
Formulas estadistica
 
Formulas estadistica (3)
Formulas estadistica (3)Formulas estadistica (3)
Formulas estadistica (3)
 
Formula estadistica
Formula estadisticaFormula estadistica
Formula estadistica
 
Apuntes de estadística escolarizado
Apuntes de estadística escolarizadoApuntes de estadística escolarizado
Apuntes de estadística escolarizado
 
Estadistica aplicada a la educación superior
Estadistica aplicada a la educación superiorEstadistica aplicada a la educación superior
Estadistica aplicada a la educación superior
 
Estadistica inferencial formulas
Estadistica inferencial formulasEstadistica inferencial formulas
Estadistica inferencial formulas
 
Estadistica y diseños experimentales
Estadistica y diseños experimentalesEstadistica y diseños experimentales
Estadistica y diseños experimentales
 
Capitulo 2 Cómo ordenar los datos en tabla de frecuencias
Capitulo 2 Cómo ordenar los datos en tabla de frecuenciasCapitulo 2 Cómo ordenar los datos en tabla de frecuencias
Capitulo 2 Cómo ordenar los datos en tabla de frecuencias
 
Repaso examen de conjuntos y diagrama de Venn
Repaso examen de conjuntos y diagrama de VennRepaso examen de conjuntos y diagrama de Venn
Repaso examen de conjuntos y diagrama de Venn
 
Estadística: Conceptos básicos
Estadística: Conceptos básicosEstadística: Conceptos básicos
Estadística: Conceptos básicos
 
DISTRIBUCION T DE STUDENT
DISTRIBUCION T DE STUDENTDISTRIBUCION T DE STUDENT
DISTRIBUCION T DE STUDENT
 
Ejercicios resueltos-de-estadistica
Ejercicios resueltos-de-estadisticaEjercicios resueltos-de-estadistica
Ejercicios resueltos-de-estadistica
 

Similar a Apuntes de estadistica

Estadistica terminos basicos
Estadistica   terminos basicosEstadistica   terminos basicos
Estadistica terminos basicosWilkerman Inojosa
 
Estadistica Descriptiva Lila_Romero
Estadistica Descriptiva Lila_RomeroEstadistica Descriptiva Lila_Romero
Estadistica Descriptiva Lila_RomeroLiladenis7
 
Es tadistica guia teorica unidad i microsoft word
Es tadistica guia teorica unidad i microsoft wordEs tadistica guia teorica unidad i microsoft word
Es tadistica guia teorica unidad i microsoft wordelyalavardo1980
 
Es tadistica guia teorica unidad i microsoft word
Es tadistica guia teorica unidad i microsoft wordEs tadistica guia teorica unidad i microsoft word
Es tadistica guia teorica unidad i microsoft wordEly Alvarado
 
Estadística Por qué se estudia estadística 004
Estadística Por qué se estudia estadística 004Estadística Por qué se estudia estadística 004
Estadística Por qué se estudia estadística 004CESAR A. RUIZ C
 
Términos básicos en la estadística
Términos básicos en la estadísticaTérminos básicos en la estadística
Términos básicos en la estadísticamaria22344
 
Proyecto de aula matematicas
Proyecto de aula matematicasProyecto de aula matematicas
Proyecto de aula matematicaslilitorres4872
 
PROYECTO DE AULA MATEMATICAS
PROYECTO DE AULA MATEMATICASPROYECTO DE AULA MATEMATICAS
PROYECTO DE AULA MATEMATICASlilitorres4872
 
ley tributaria colombia
ley tributaria colombialey tributaria colombia
ley tributaria colombiaJdso Otero
 
Proyecto de aula asignatura matematicas
Proyecto de aula asignatura matematicasProyecto de aula asignatura matematicas
Proyecto de aula asignatura matematicaslilitorres4872
 

Similar a Apuntes de estadistica (20)

EDUCACION
EDUCACIONEDUCACION
EDUCACION
 
Estadistica terminos basicos
Estadistica   terminos basicosEstadistica   terminos basicos
Estadistica terminos basicos
 
Estadistica Descriptiva Lila_Romero
Estadistica Descriptiva Lila_RomeroEstadistica Descriptiva Lila_Romero
Estadistica Descriptiva Lila_Romero
 
7. metodologia y estadistica aplicada a la educacion
7. metodologia y estadistica aplicada a la educacion7. metodologia y estadistica aplicada a la educacion
7. metodologia y estadistica aplicada a la educacion
 
Variables y representaciones
Variables y representacionesVariables y representaciones
Variables y representaciones
 
Estadistica
EstadisticaEstadistica
Estadistica
 
ESTADISTICA
ESTADISTICA ESTADISTICA
ESTADISTICA
 
Es tadistica guia teorica unidad i microsoft word
Es tadistica guia teorica unidad i microsoft wordEs tadistica guia teorica unidad i microsoft word
Es tadistica guia teorica unidad i microsoft word
 
Es tadistica guia teorica unidad i microsoft word
Es tadistica guia teorica unidad i microsoft wordEs tadistica guia teorica unidad i microsoft word
Es tadistica guia teorica unidad i microsoft word
 
documento
documentodocumento
documento
 
Estadística Por qué se estudia estadística 004
Estadística Por qué se estudia estadística 004Estadística Por qué se estudia estadística 004
Estadística Por qué se estudia estadística 004
 
Términos básicos en la estadística
Términos básicos en la estadísticaTérminos básicos en la estadística
Términos básicos en la estadística
 
Proyecto de aula matematicas
Proyecto de aula matematicasProyecto de aula matematicas
Proyecto de aula matematicas
 
PROYECTO DE AULA MATEMATICAS
PROYECTO DE AULA MATEMATICASPROYECTO DE AULA MATEMATICAS
PROYECTO DE AULA MATEMATICAS
 
mi amore
mi amoremi amore
mi amore
 
Indicadores
IndicadoresIndicadores
Indicadores
 
ley tributaria colombia
ley tributaria colombialey tributaria colombia
ley tributaria colombia
 
Proyecto de aula asignatura matematicas
Proyecto de aula asignatura matematicasProyecto de aula asignatura matematicas
Proyecto de aula asignatura matematicas
 
Estadistica
EstadisticaEstadistica
Estadistica
 
Introducción a la estadistica
Introducción a la estadisticaIntroducción a la estadistica
Introducción a la estadistica
 

Más de Escuela Militar de Ingeniería (EMI)

Estadística y diseños experimentales aplicados a la educación superior
Estadística y diseños experimentales  aplicados a la educación superiorEstadística y diseños experimentales  aplicados a la educación superior
Estadística y diseños experimentales aplicados a la educación superiorEscuela Militar de Ingeniería (EMI)
 
P R E S E N T A C I O N D E M E T O D O L O GÍ A D E L A I N V E S T I G...
P R E S E N T A C I O N  D E  M E T O D O L O GÍ A  D E  L A  I N V E S T I G...P R E S E N T A C I O N  D E  M E T O D O L O GÍ A  D E  L A  I N V E S T I G...
P R E S E N T A C I O N D E M E T O D O L O GÍ A D E L A I N V E S T I G...Escuela Militar de Ingeniería (EMI)
 

Más de Escuela Militar de Ingeniería (EMI) (20)

Estadística y diseños experimentales aplicados a la educación superior
Estadística y diseños experimentales  aplicados a la educación superiorEstadística y diseños experimentales  aplicados a la educación superior
Estadística y diseños experimentales aplicados a la educación superior
 
Modulo de metodologia y estadistica agronomia
Modulo de metodologia y estadistica agronomiaModulo de metodologia y estadistica agronomia
Modulo de metodologia y estadistica agronomia
 
Estadistica aplicada camiri
Estadistica aplicada camiriEstadistica aplicada camiri
Estadistica aplicada camiri
 
Metodologia y Estadistica San Julian
Metodologia y Estadistica San JulianMetodologia y Estadistica San Julian
Metodologia y Estadistica San Julian
 
Modulo de metodologia de la investigacion para Business School
Modulo de metodologia de la investigacion para Business SchoolModulo de metodologia de la investigacion para Business School
Modulo de metodologia de la investigacion para Business School
 
Modulo de investigacion educativa
Modulo de investigacion educativaModulo de investigacion educativa
Modulo de investigacion educativa
 
Modulo de taller de tesis dge
Modulo de taller de tesis dgeModulo de taller de tesis dge
Modulo de taller de tesis dge
 
METODOLOGIA SALUD PUBLICA MAYO2012
METODOLOGIA SALUD PUBLICA MAYO2012METODOLOGIA SALUD PUBLICA MAYO2012
METODOLOGIA SALUD PUBLICA MAYO2012
 
Modulo de metodologia de la investigacion politecnica marzoabril
Modulo de metodologia de la investigacion politecnica marzoabrilModulo de metodologia de la investigacion politecnica marzoabril
Modulo de metodologia de la investigacion politecnica marzoabril
 
Modulo de metodologia y estadistica agronomia mar2012
Modulo de metodologia y estadistica agronomia mar2012Modulo de metodologia y estadistica agronomia mar2012
Modulo de metodologia y estadistica agronomia mar2012
 
Curso de bioestadística y diseños experimentales
Curso de bioestadística y diseños experimentalesCurso de bioestadística y diseños experimentales
Curso de bioestadística y diseños experimentales
 
Experimentos agronomia
Experimentos agronomiaExperimentos agronomia
Experimentos agronomia
 
Curso de estadistica aplicada julio2010
Curso de estadistica aplicada julio2010Curso de estadistica aplicada julio2010
Curso de estadistica aplicada julio2010
 
Metodologia de la investigacion cumbre 2010
Metodologia de la investigacion cumbre 2010Metodologia de la investigacion cumbre 2010
Metodologia de la investigacion cumbre 2010
 
M E T O D O L O G I A P U E R T O Q U I J A R R O
M E T O D O L O G I A  P U E R T O  Q U I J A R R OM E T O D O L O G I A  P U E R T O  Q U I J A R R O
M E T O D O L O G I A P U E R T O Q U I J A R R O
 
Curso De Estadistica Aplicada 2010
Curso De Estadistica Aplicada 2010Curso De Estadistica Aplicada 2010
Curso De Estadistica Aplicada 2010
 
Presentacion De Metodologia Maga Noviembre 2009
Presentacion De Metodologia Maga Noviembre 2009Presentacion De Metodologia Maga Noviembre 2009
Presentacion De Metodologia Maga Noviembre 2009
 
Presentacion De MetodologíA De La InvestigacióN
Presentacion De MetodologíA De La InvestigacióNPresentacion De MetodologíA De La InvestigacióN
Presentacion De MetodologíA De La InvestigacióN
 
P R E S E N T A C I O N D E M E T O D O L O GÍ A D E L A I N V E S T I G...
P R E S E N T A C I O N  D E  M E T O D O L O GÍ A  D E  L A  I N V E S T I G...P R E S E N T A C I O N  D E  M E T O D O L O GÍ A  D E  L A  I N V E S T I G...
P R E S E N T A C I O N D E M E T O D O L O GÍ A D E L A I N V E S T I G...
 
Presentación de Estadística
Presentación de EstadísticaPresentación de Estadística
Presentación de Estadística
 

Último

Estrategia de prompts, primeras ideas para su construcción
Estrategia de prompts, primeras ideas para su construcciónEstrategia de prompts, primeras ideas para su construcción
Estrategia de prompts, primeras ideas para su construcciónLourdes Feria
 
BIOMETANO SÍ, PERO NO ASÍ. LA NUEVA BURBUJA ENERGÉTICA
BIOMETANO SÍ, PERO NO ASÍ. LA NUEVA BURBUJA ENERGÉTICABIOMETANO SÍ, PERO NO ASÍ. LA NUEVA BURBUJA ENERGÉTICA
BIOMETANO SÍ, PERO NO ASÍ. LA NUEVA BURBUJA ENERGÉTICAÁngel Encinas
 
Programacion Anual Matemática4 MPG 2024 Ccesa007.pdf
Programacion Anual Matemática4    MPG 2024  Ccesa007.pdfProgramacion Anual Matemática4    MPG 2024  Ccesa007.pdf
Programacion Anual Matemática4 MPG 2024 Ccesa007.pdfDemetrio Ccesa Rayme
 
SEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptx
SEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptxSEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptx
SEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptxYadi Campos
 
Sesión de aprendizaje Planifica Textos argumentativo.docx
Sesión de aprendizaje Planifica Textos argumentativo.docxSesión de aprendizaje Planifica Textos argumentativo.docx
Sesión de aprendizaje Planifica Textos argumentativo.docxMaritzaRetamozoVera
 
proyecto de mayo inicial 5 añitos aprender es bueno para tu niño
proyecto de mayo inicial 5 añitos aprender es bueno para tu niñoproyecto de mayo inicial 5 añitos aprender es bueno para tu niño
proyecto de mayo inicial 5 añitos aprender es bueno para tu niñotapirjackluis
 
Estrategias de enseñanza-aprendizaje virtual.pptx
Estrategias de enseñanza-aprendizaje virtual.pptxEstrategias de enseñanza-aprendizaje virtual.pptx
Estrategias de enseñanza-aprendizaje virtual.pptxdkmeza
 
Programacion Anual Matemática5 MPG 2024 Ccesa007.pdf
Programacion Anual Matemática5    MPG 2024  Ccesa007.pdfProgramacion Anual Matemática5    MPG 2024  Ccesa007.pdf
Programacion Anual Matemática5 MPG 2024 Ccesa007.pdfDemetrio Ccesa Rayme
 
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURAFORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURAEl Fortí
 
Registro Auxiliar - Primaria 2024 (1).pptx
Registro Auxiliar - Primaria  2024 (1).pptxRegistro Auxiliar - Primaria  2024 (1).pptx
Registro Auxiliar - Primaria 2024 (1).pptxFelicitasAsuncionDia
 
Criterios ESG: fundamentos, aplicaciones y beneficios
Criterios ESG: fundamentos, aplicaciones y beneficiosCriterios ESG: fundamentos, aplicaciones y beneficios
Criterios ESG: fundamentos, aplicaciones y beneficiosJonathanCovena1
 
PLAN DE REFUERZO ESCOLAR primaria (1).docx
PLAN DE REFUERZO ESCOLAR primaria (1).docxPLAN DE REFUERZO ESCOLAR primaria (1).docx
PLAN DE REFUERZO ESCOLAR primaria (1).docxlupitavic
 
OCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VS
OCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VSOCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VS
OCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VSYadi Campos
 
ACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptx
ACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptxACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptx
ACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptxzulyvero07
 
INSTRUCCION PREPARATORIA DE TIRO .pptx
INSTRUCCION PREPARATORIA DE TIRO   .pptxINSTRUCCION PREPARATORIA DE TIRO   .pptx
INSTRUCCION PREPARATORIA DE TIRO .pptxdeimerhdz21
 
Ejercicios de PROBLEMAS PAEV 6 GRADO 2024.pdf
Ejercicios de PROBLEMAS PAEV 6 GRADO 2024.pdfEjercicios de PROBLEMAS PAEV 6 GRADO 2024.pdf
Ejercicios de PROBLEMAS PAEV 6 GRADO 2024.pdfMaritzaRetamozoVera
 
plande accion dl aula de innovación pedagogica 2024.pdf
plande accion dl aula de innovación pedagogica 2024.pdfplande accion dl aula de innovación pedagogica 2024.pdf
plande accion dl aula de innovación pedagogica 2024.pdfenelcielosiempre
 
Ley 21.545 - Circular Nº 586.pdf circular
Ley 21.545 - Circular Nº 586.pdf circularLey 21.545 - Circular Nº 586.pdf circular
Ley 21.545 - Circular Nº 586.pdf circularMooPandrea
 

Último (20)

Estrategia de prompts, primeras ideas para su construcción
Estrategia de prompts, primeras ideas para su construcciónEstrategia de prompts, primeras ideas para su construcción
Estrategia de prompts, primeras ideas para su construcción
 
BIOMETANO SÍ, PERO NO ASÍ. LA NUEVA BURBUJA ENERGÉTICA
BIOMETANO SÍ, PERO NO ASÍ. LA NUEVA BURBUJA ENERGÉTICABIOMETANO SÍ, PERO NO ASÍ. LA NUEVA BURBUJA ENERGÉTICA
BIOMETANO SÍ, PERO NO ASÍ. LA NUEVA BURBUJA ENERGÉTICA
 
Programacion Anual Matemática4 MPG 2024 Ccesa007.pdf
Programacion Anual Matemática4    MPG 2024  Ccesa007.pdfProgramacion Anual Matemática4    MPG 2024  Ccesa007.pdf
Programacion Anual Matemática4 MPG 2024 Ccesa007.pdf
 
SEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptx
SEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptxSEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptx
SEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptx
 
Sesión de aprendizaje Planifica Textos argumentativo.docx
Sesión de aprendizaje Planifica Textos argumentativo.docxSesión de aprendizaje Planifica Textos argumentativo.docx
Sesión de aprendizaje Planifica Textos argumentativo.docx
 
proyecto de mayo inicial 5 añitos aprender es bueno para tu niño
proyecto de mayo inicial 5 añitos aprender es bueno para tu niñoproyecto de mayo inicial 5 añitos aprender es bueno para tu niño
proyecto de mayo inicial 5 añitos aprender es bueno para tu niño
 
Estrategias de enseñanza-aprendizaje virtual.pptx
Estrategias de enseñanza-aprendizaje virtual.pptxEstrategias de enseñanza-aprendizaje virtual.pptx
Estrategias de enseñanza-aprendizaje virtual.pptx
 
Programacion Anual Matemática5 MPG 2024 Ccesa007.pdf
Programacion Anual Matemática5    MPG 2024  Ccesa007.pdfProgramacion Anual Matemática5    MPG 2024  Ccesa007.pdf
Programacion Anual Matemática5 MPG 2024 Ccesa007.pdf
 
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURAFORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
 
Registro Auxiliar - Primaria 2024 (1).pptx
Registro Auxiliar - Primaria  2024 (1).pptxRegistro Auxiliar - Primaria  2024 (1).pptx
Registro Auxiliar - Primaria 2024 (1).pptx
 
Criterios ESG: fundamentos, aplicaciones y beneficios
Criterios ESG: fundamentos, aplicaciones y beneficiosCriterios ESG: fundamentos, aplicaciones y beneficios
Criterios ESG: fundamentos, aplicaciones y beneficios
 
PLAN DE REFUERZO ESCOLAR primaria (1).docx
PLAN DE REFUERZO ESCOLAR primaria (1).docxPLAN DE REFUERZO ESCOLAR primaria (1).docx
PLAN DE REFUERZO ESCOLAR primaria (1).docx
 
OCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VS
OCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VSOCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VS
OCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VS
 
Fe contra todo pronóstico. La fe es confianza.
Fe contra todo pronóstico. La fe es confianza.Fe contra todo pronóstico. La fe es confianza.
Fe contra todo pronóstico. La fe es confianza.
 
ACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptx
ACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptxACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptx
ACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptx
 
Tema 8.- PROTECCION DE LOS SISTEMAS DE INFORMACIÓN.pdf
Tema 8.- PROTECCION DE LOS SISTEMAS DE INFORMACIÓN.pdfTema 8.- PROTECCION DE LOS SISTEMAS DE INFORMACIÓN.pdf
Tema 8.- PROTECCION DE LOS SISTEMAS DE INFORMACIÓN.pdf
 
INSTRUCCION PREPARATORIA DE TIRO .pptx
INSTRUCCION PREPARATORIA DE TIRO   .pptxINSTRUCCION PREPARATORIA DE TIRO   .pptx
INSTRUCCION PREPARATORIA DE TIRO .pptx
 
Ejercicios de PROBLEMAS PAEV 6 GRADO 2024.pdf
Ejercicios de PROBLEMAS PAEV 6 GRADO 2024.pdfEjercicios de PROBLEMAS PAEV 6 GRADO 2024.pdf
Ejercicios de PROBLEMAS PAEV 6 GRADO 2024.pdf
 
plande accion dl aula de innovación pedagogica 2024.pdf
plande accion dl aula de innovación pedagogica 2024.pdfplande accion dl aula de innovación pedagogica 2024.pdf
plande accion dl aula de innovación pedagogica 2024.pdf
 
Ley 21.545 - Circular Nº 586.pdf circular
Ley 21.545 - Circular Nº 586.pdf circularLey 21.545 - Circular Nº 586.pdf circular
Ley 21.545 - Circular Nº 586.pdf circular
 

Apuntes de estadistica

  • 2. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior APUNTES SOBRE MÉTODOS ESTADISTICOS PARA LA EDUCACION SUPERIOR Generalmente cuando se escucha la palabra Estadística inmediatamente se piensa en datos, cuadros, gráficos, etc. En verdad no es una idea equivocada, sino más bien, una idea popular de ésta, pero no es lo único y en la concepción de la Estadística Moderna tampoco el más importante. Las primeras técnicas estadísticas consistían principalmente en la organización, presentación gráfica y el cálculo de ciertas cantidades "sobresalientes de un grupo de datos. Esta parte de la disciplina es lo que, en la terminología moderna, se conoce como Estadística Descriptiva. La Estadística Descriptiva es la rama más antigua de la Estadística y tiene por objetivo, presentar información de una manera sencilla y estética y que al mismo tiempo, sea aprehensible al ojo humano, es decir, fácil de entender. Aunque su campo de acción se ha visto reducido, es indudable su utilidad. Para que la Estadística Descriptiva cumpla su cometido utiliza tres métodos, Métodos Tabulares, Métodos Gráficos y Métodos Numéricos. Supóngase ahora, que se está interesado en saber cuál es el ingreso promedio de las personas que tienen pensión en el mercado los Pozos, de Santa de la Sierra, Bolivia. Supóngase además, que este sector ha crecido de tal forma que se hace imposible estudiarlas en su totalidad. Por tal razón se deduce una muestra de esta población por cualquier mecanismo aleatorio y se realiza la toma de la información deseada y se obtiene un dato promedio cualquiera, por ejemplo, Bs 550. A través del método de razonamiento que conduce a una extensión de este resultado a la población de interés, se podría concluir que las personas que tiene pensiones en dicho mercado, tiene un ingreso promedio de Bs 550. El mismo hecho de que se está estudiando una fracción de la población, indica que se tiene una información incompleta y que es, lo comúnmente que pasa en la realidad; pero, ¿qué pasa si el azar proporcionó las personas con pensiones que venden más o bien que venden menos?. Si se da el primer caso se estaría sobreestimando y en el caso contrario subestimando el ingreso promedio de estas personas. En este momento surge una duda sobre la información que en Estadística Moderna se la conoce generalmente como Incertidumbre y que siempre estará presente en conclusiones que se deriven por medio del método inductivo.
  • 3. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior Ahora la pregunta que surge es la siguiente, ¿qué papel juega la Estadística en esto?. El papel de la Estadística en este proceso es cuantificar la incertidumbre y la rama de la estadística que se encarga de ello se le llama Estadística Inferencial que utiliza el método Probabilístico. En conclusión ya sea porque la se dispone de información incompleta, o debido a la propia variabilidad de la información (naturaleza), es muy común que se arribe a conclusiones a través del método inductivo, en el cual las mismas son inciertas. El conjunto de técnicas que permite realizar inducciones en las que el grado de incertidumbre es cuantificable, integran la rama de la Estadística conocida como Inferencia Estadística o Estadística Inductiva o Inferencial. POBLACIÓN, ATRIBUTOS Y VARIABLES Se dice que los estadísticos extraen datos de las muestras y que esta información les sirve para hacer inferencia sobre la población que la muestra representa. Es así que, los términos, muestra y población se consideran relativos. El concepto de población va a variar de acuerdo al campo de la ciencia donde se aplique. Desde un punto de vista estadístico, población; es el conjunto de resultados potenciales de un experimento aleatorio, es decir, todos los valores que puede tomar una característica (variable). En palabras más sencillas se puede decir que población, es un conjunto de entes con características propias que los diferencian de otras. Con este concepto se puede tener una población de árboles, de sillas, de tizas, etc. Un aspecto importante a retomar es que desde el punto de vista estadístico una población es importante cuando se requiere verificar (medir) una característica (variable) en ella. Atributos Supóngase el siguiente ejemplo. Se tiene en un aula de clase un grupo de 20 estudiantes y suponga además, que el estudiante de la primera fila es alto, color de piel blanca, cabello castaño, ojos claros, etc. Si a los 20 estudiantes se les considera como una población, se puede decir que los detalles antes mencionados corresponden a características propias de un miembro de esa población, o sea, son atribuciones propias del estudiante en particular.
  • 4. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior Con el ejemplo antes citado, se puede tratar de deducir un concepto de Atributo, diciendo que es una característica propia de cada elemento de una población. Variable Retomando el ejemplo anterior, supóngase ahora, que se les pregunta a los cinco primeros estudiante su estatura los cuales responden de la siguiente manera: 1.76, 1.69, 1.83, 1.72, 1.77 De hecho estas alturas corresponde a atributos de los cinco primeros estudiante. Si se observan los datos anteriores, se puede constatar que el atributo estatura cambia de un estudiante a otro. Con esta idea se puede plantear un concepto de variable. Variable es un atributo medible que cambia de un elemento a otro de la población, es decir, es toda característica que cambia y que está sujeta a medida o cuenta. Supóngase ahora, que los cincos primeros estudiantes poseen la misma altura, ejemplo, 1.73. Dado que el atributo altura en este caso no cambia, no se puede considerar como una variable, pero sí, es un atributo. De lo anterior se puede concluir, que una variable siempre será un atributo, pero un atributo no siempre es una variable. Las variables siempre se denotan por la letras mayúsculas del alfabeto y los valores que toman (observaciones) con letras minúsculas. ELEMENTOS DE LAS VARIABLES Siempre que se desee constatar una variable en un elemento de la población de interés, ésta debe de poseer cuatro elementos: a.- Nombre b.- Definición c.- Conjunto de categorías o valores que puede tomar la variable d.- Procedimiento que permita clasificarla Nombre
  • 5. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior Cuando un investigador toma los datos correspondiente a una variable, éste tiene que saber el nombre de la variable, de lo contrario cómo va a tomar información de una variable si no sabe el nombre de ésta. Definición Todo investigador tiene que definir la (s) variable (s) que va a estudiar. Este nombre es cómo se concibe la variable en el campo de la ciencia correspondiente, es decir, cómo se define. Si el concepto no existe, se debe construir el constructo por parte de investigador. Por ejemplo, supóngase que un investigador está tomando el peso a un grupo de niños, El toma los datos cuando los niños no han desayunado y sin ropa alguna. Este investigador tiene que reportar al momento de dar a conocer la información cómo lo hizo porque quizás otro investigador lo puede haber tomado con ropa y después de desayunar. Inclusive debe de especificar el equipo con el cual verificó el valor de la variable en los elementos de la población estudiados dado que pueden variar en precisión. Conjunto de categorías o valores que puede tomar la variable Esta se refiere a las categorías convencionalmente admitida por la sociedad. Por ejemplo; si en un grupo de personas se mide la variable sexo, de hecho se refiere al sexo anatómico y no al comportamiento sexual, por lo tanto las categorías que puede tomar son masculino ó femenino o bien macho ó hembra. Si la variable es edad, entonces según el estadío donde se mida puede ser días, semanas, meses, años. Procedimiento que permita clasificarla Este elemento de las variables en muchos casos es muy complejo, pero se soluciona en parte si existe una adecuada definición de la variable que el investigador desee medir. Si se retoma el ejemplo anterior donde se quiere medir la variable sexo en un grupo de personas. En este caso la variable se define como sexo anatómico de cada persona que componen al grupo. Ahora bien, el hecho de que una persona diga que es de sexo masculino no implica que no sea homosexual, pero no
  • 6. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior es la conducta sexual la que se está midiendo, sino el sexo anatómico. Por tal razón, aunque este elemento de la variable es complejo, con una definición clara de lo que se desea medir se resuelve. De acuerdo a los valores que puede tomar una variable, ésta se puede clasificar en: Variables cualitativas: no se pueden medir numéricamente, representan características de las variables (categorías, por ejemplo: nacionalidad, color de la piel, sexo). Variables cuantitativas: tienen valor numérico (edad, precio de un producto, ingresos anuales). Por su parte, las variables cuantitativas se pueden clasificar atendiendo a los valores que pueden tomar en discretas y continuas: Discretas: Son todas aquellas que toman valores que se pueden contar, es decir, que se pueden enumerar (1, 2, 8, -4, etc.). Por ejemplo: número de hermanos (puede ser 1, 2, 3...., etc, pero, por ejemplo, nunca podrá ser 3,45). Continuas: pueden tomar cualquier valor real dentro de un intervalo. Por ejemplo, la velocidad de un vehículo puede ser 80.3 km/h, 94.57 km/h..., etc. ESCALAS DE MEDICIÓN Medir una variable significa constatar la observación en los elementos de la población que es objeto de estudio, es decir, consiste en verificar que valor toma la variable en la unidad de análisis. Lo anterior implica que para medir una variable, ésta tiene que ser observable en el mundo real, manteniendo el principio fundamental de la construcción de una variable que consiste en que sus categorías deben de ser totalmente inclusivas y mutuamente excluyentes. En Estadística se definen cuatro niveles o escalas de medición las cuales son: a.- Escala Nominal: En esta escala lo único que puede decirse de una observación es a cuál de un cierto número de categorías pertenece. En esta escala de medición la única relación que puede establecerse entre observaciones es la de igualdad y por lo tanto de desigualdad. Dos observaciones son iguales si están en la misma categoría (llamadas también clases) y diferente si no lo están. Como consecuencia de lo anterior, la única estadística válida para este tipo de datos es la frecuencia de cada clase.
  • 7. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior Ejemplo, supóngase que en grupo de personas se desea medir el estado de salud con respecto a una enfermedad en particular. En este caso la constatación de la variable (medición) en los miembros de la población debe de concluir en que están o no afectados por la enfermedad. b.- Escala Ordinal: Las observaciones medidas en esta escala pueden ordenarse de menor a mayor, y en consecuencia no sólo se admiten las relación de igualdad, sino además la de mayor que y menor que. Muchos de los estudios realizados en las Ciencias Sociales producen observaciones que son medidas bajo esta escala, por lo difícil que es medir actitudes en los seres humanos. En esta escala además de calcularse frecuencias como en la escala nominal, se puede calcular una medida de tendencia central llamada Mediana. Un ejemplo clásico de esta escala es la jerarquización que existe en la iglesia y el ejército. Coronel > Teniente > Subteniente > Sargento > Cabo > Soldado c.- Escala de Intervalo: Con observaciones en esta escala no sólo se pueden ordenarse las observaciones, sino que además puede definirse una unidad de distancia (puede ser arbitraria) entre ellas. La principal diferencia de esta escala con la de Proporciones es que en la escala de Intervalo el cero y la unidad de distancia son arbitrarios y, en particular, el cero no corresponde a una característica física de las unidades de medidas. Un ejemplo clásico en esta escala es la medición de la temperatura. Dado que los requisitos indispensables para efectuar sumas y productos son que existan ceros y una unidad de distancia, con las observaciones medidas bajo esta escala puede calcularse medidas de tendencia central como la media y de dispersión como la varianza. Por tal razón esta escala es más fuerte que la Nominal. b.- Escala de Proporción o Razón: En esta escala las observaciones pueden ordenarse y existen un cero y una unidad de distancia que son inherentes al sistema, es decir, que no son arbitrarios. Ejemplos típicos de características medidas en esta escala el peso de un individuo, el rendimiento por hectárea de una planta, etc. Esta es la escala de medición más fuerte que existe y por lo tanto permite el cálculo de cualquier estadística.
  • 8. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior ORGANIZACIÓN DE LA INFORMACIÓN Resulta de mucha importancia en el campo de la investigación, utilizar técnicas que permitan apreciar de una forma rápida y fácilmente aprehensible un tipo de información donde se resalten los aspectos más importantes. Estas técnicas o métodos deberán poseer características o propiedades que faciliten lo antes mencionado. Entre estas propiedades se pueden mencionar las siguientes: 1. Que proporcionen la máxima cantidad de información contenida en los datos en forma rápida y fácil de visualizar. 2. Que posean sencillez operativa 3. Que permitan presentar los datos de una manera estética. La Estadística Descriptiva, como se ha mencionado antes, tiene como propósito mostrar la información de forma sencilla, es decir, entendible. Para ello hace uso de tres métodos los cuales son: Métodos Tabulares y Gráficos y Métodos Numéricos. Entre los métodos tabulares están las Tablas de Frecuencias o Tablas de Distribución de Frecuencias. NOTACIÓN DE SUMATORIA. PROPIEDADES Supóngase que la variable X, toma los valores de x1, x2, x3, ..., xn. Entonces, la suma de los valores xi de la variable X sería: x1 + x2+ x3 +... xn. Con el objeto de expresar esta suma de una manera más resumida, se hace uso de la letra griega Sigma mayúscula ( ), la cual es el símbolo utilizado en matemáticas para indicar la suma, de tal manera que: ; donde: i=1 se lee como la suma de i=1 a i=n de x, lo cual indica que la variable x toma valores para i=1, 2, 3, ..., n, o sea: ∑ “i” se llama índice de suma y es una variable que toma los valores 1, 2, 3, ..., n.
  • 9. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior La expresión i=1 indica en este caso que 1 es el valor inicial de i (no siempre el valor inicial comienza de 1). La n arriba del signo, indica el último valor de i. A xi se le llama sumando Propiedades de la sumatoria Sean x1, x2,..., xn y y1, y2,..., yn dos conjuntos de datos, y “a” y “b” dos constantes arbitrarias. Entonces: 1. 2. ( ) 3. 4. ( ) 5. ( ) La demostración de cada una de estas propiedades se deja como práctica para el estudiante.
  • 10. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior METODOS TABULARES Tablas de Frecuencias Relativas y Absolutas Como una antesala de lo que son tablas de frecuencias relativas y absolutas se menciona a continuación las formas iniciales de presentación de información, sus ventajas y desventajas de tal manera que el estudiante comprenda la lógica de cada uno y por qué se usa una en vez de otra. Una de las primeras formas de presentación de información es el arreglo de los datos el cual es una de las formas más sencillas de presentar datos. Pone los valores en orden ascendente o descendente. Por ejemplo, a continuación se muestran las concentraciones de cloro en partes por millón (ppm) de 30 galones de agua tratada. Concentraciones de cloro en ppm de 30 galones de agua tratada 15.6 16.2 15.8 15.8 15.8 16.3 16.0 15.7 16.0 16.2 16.1 16.8 16.8 16.4 15.2 15.9 15.9 15.9 16.0 15.4 15.7 15.9 16.0 16.3 16.3 16.4 16.6 15.6 15.6 16.9 Una forma sencilla de arreglar estos datos es presentarlos en orden ascendente o descendente. Si se arreglan de manera ascendente quedarían de la siguiente forma: 15.2 15.7 15.9 16.0 16.2 16.4 15.4 15.7 15.9 16.0 16.3 16.6 15.6 15.8 15.9 16.0 16.3 16.8 15.6 15.8 15.9 16.1 16.3 16.8 15.6 15.8 16.0 16.2 16.4 16.9 Este arreglo de datos ofrece varias ventajas sobre los datos originales o sin arreglar:  Se pueden localizar rápidamente los valores mínimos y máximos en los datos. En el ejemplo, el valor mínimo es 15.2 y 16.9 el máximo.  Los datos se pueden dividir en secciones (clases)  Fácilmente se puede apreciar que valores se repiten más de una vez.
  • 11. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior Un inconveniente de esta forma de presentación de información es que siempre se sigue manejando toda la masa de información y por lo tanto es muy tedioso emplearla en bases datos muy grandes. Esto quiere decir, que esta forma de presentación de información no tiene capacidad de síntesis, de aquí que es preferible presentarlos en Cuadro de distribución de frecuencias. Al número de veces que se repite una observación dentro de una colección de datos se le llama Frecuencia Absoluta (fi). La suma de éstas tiene que ser igual al tamaño de la colección de datos (∑fi = n), en este caso 18 + 12 = 30 (total de las observaciones). A la relación de cada frecuencia absoluta con respecto al total, se le llama Frecuencia Relativa (fr = fi/∑fi), la suma de esta tiene que ser igual a 1 o bien a 100 si se le expresa en porcentaje. Este tipo de arreglo es importante cuando la colección de datos es pequeña. Los datos anteriores arreglados en un cuadro de distribución de frecuencia se muestran a continuación: xi fi fr xi fi fr 15.2 1 3.33 16.1 1 3.33 15.4 1 3.33 16.2 2 6.67 15.6 3 10.00 16.3 3 10.00 15.7 2 6.67 16.4 2 6.67 15.8 3 10.00 16.6 1 3.33 15.9 4 13.33 16.8 2 6.67 16.0 4 13.33 16.9 1 3.33 Total 18 60.00 Total 12 40.00 Hay autores que consideran la siguiente forma de presentación de cuadros de frecuencia donde incluyen elementos que son propios de las Tablas de Frecuencias Absolutas y Relativas. Esto se muestra a continuación Variable Frecuencias absolutas Frecuencias relativas xi Simple(fi) Acumulada (fia) Simple (fr) Acumulada (fra) X1 f1 f1 fr1 = f1 / ∑fi Fr1
  • 12. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior X2 f2 f1 + f2 fr2 = f2 / ∑fi fr1 + fr2 ... ... ... ... ... Xn-1 fn-1 f1 + f2 +…+ fn-1 fr-1 = fn-1 / ∑fi fr1 + fr2 +…+ fr-1 Xn fn ∑fi= n frn = fn / ∑fi 1 ó 100 Veamos un ejemplo: Medimos la altura de los niños de una clase con instrumental de precisión y en condiciones adecuadas, escogiendo a todos sus componentes, 30 sujetos, y obtenemos los siguientes resultados (m): Alumno Estatura Alumno Estatura Alumno Estatura 1 1.25 11 1.23 21 1.21 2 1.28 12 1.26 22 1.29 3 1.27 13 1.30 23 1.26 4 1.21 14 1.21 24 1.22 5 1.22 15 1.28 25 1.28 6 1.29 16 1.30 26 1.27 7 1.30 17 1.22 27 1.26 8 1.24 18 1.25 28 1.23 9 1.27 19 1.20 29 1.22 10 1.29 20 1.28 30 1.21 Puesto que todas las tallas están comprendidas entre 1.20 y 1.30 m., podemos agruparlas por centímetros formando 11 grupos indicando cuántos niños presentan cada uno de los valores. Si presentamos esta información estructurada (agrupada) en un cuadro de frecuencias obtendríamos la siguiente:
  • 13. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior Cuadro de frecuencia Observación Frecuencias fi fia fr (%) fra 1.20 1 1 3.33 3.33 1.21 4 5 13.33 16.66 1.22 4 9 13.33 30.00 1.23 2 11 6.67 36.66 1.24 1 12 3.33 40.00 1.25 2 14 6.67 46.66 1.26 3 17 10.00 56.66 1.27 3 20 10.00 66.66 1.28 4 24 13.33 80.00 1.29 3 27 10.00 90.00 1.30 3 30 10.00 100.00 Total 30 100 Si los valores que toma la variable son muy diversos y cada uno de ellos se repite muy pocas veces, entonces conviene agruparlos por intervalos mayores. ya que de otra manera obtendríamos una tabla de frecuencia muy extensa que aportaría muy poco valor a efectos de síntesis. Supongamos que ahora medimos la estatura de los habitantes de una vivienda (también 30 personas) y obtenemos los siguientes resultados (m): Habitante Estatura Habitante Estatura Habitante Estatura 1 1.15 11 1.53 21 1.21 2 1.48 12 1.16 22 1.59 3 1.57 13 1.60 23 1.86 4 1.71 14 1.81 24 1.52 5 1.92 15 1.98 25 1.48 6 1.39 16 1.20 26 1.37 7 1.40 17 1.42 27 1.16 8 1.64 18 1.45 28 1.73 9 1.77 19 1.20 29 1.62 10 1.49 20 1.98 30 1.01
  • 14. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior Los datos son menos homogéneos (más dispersos) que en el caso de los niños de un grupo escolar (todos de la misma edad) y si presentáramos esta información en un cuadro de frecuencia obtendríamos 30 líneas (una para cada valor), cada uno de ellos con una frecuencia absoluta de 1 y con una frecuencia relativa del 3.3%. Esta tabla nos aportaría toda la información inicial, pero sería muy difícil de manejar si en vez de 30 personas fueran 300. 3000 o más: en definitiva, de escaso valor práctico. Lo que quiere decir lo anterior, es que si bien es cierto que los cuadros de frecuencias tienen más capacidad de resumir la información, esto no siempre se logra ya que depende de las características propias de la información. En lugar de ello, podríamos agrupar los datos por intervalos llamados también Tablas de Frecuencias Absolutas y Relativas, con lo que la información queda más resumida (se pierde por tanto algo de información), pero es más manejable e informativa. Una tabla de frecuencia absoluta y relativa no es más que la agrupación de una base de datos en subgrupos llamados clases o intervalos de clases. Cada intervalo de clase o clase posee dos elementos, Límite inferior y Límite superior. La semisuma de ambos origina un elemento más en una tabla de frecuencia absoluta y relativa denominado Punto medio de clase (PMC) o bien Marca de clase. El primer tropiezo que se afronta es decidir cuántas grupos o clases deberán establecerse y si éstas tendrán la misma anchura. Es recomendable en la práctica utilizar entre 5 y 20 clases inclusive hay autores que recomiendan hasta 25 clase, y normalmente conviene construirla de modo que todas las clases tengan la misma anchura. La anchura de clase recibe también el nombre de Intervalo de Clase o bien Amplitud de clase. Una manera de resolver este problema es utilizar la fórmula de Stirling (Sturge) K = 1 + 3.33* log(n), donde k es el número de clases o intervalos que se deben construir. Para el caso en cuestión sería: k = 1 + 3.3*log(30) = 5.87. Como se puede recordar que número de intervalos viene a ser una variable cuantitativa discreta, entonces tiene que tomar valores cerrados. De acuerdo a lo anterior y basado en leyes matemáticas se redondea al inmediato superior, es decir, 6. Hay autores que sugieren siempre esto.
  • 15. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior Un segundo problema que se afronta se refiere a la determinación del Ancho del Intervalo de Clase. Este problema se resuelve calculando primeramente la diferencia entre el mayor y el menor valor numérico de los datos, llamado también Rango, Recorrido o Amplitud (A). En el caso del ejemplo es: A = 1.98 - 1.01 = 0.97. Esto indica que la suma de las amplitudes de clase de los intervalos de clase deberá cubrir al menos esta diferencia. Si 0.97 se divide entre 6, se obtiene un resultado de 0.16. Si se multiplica la anchura de clase (Ac) determinada por el número de intervalos K = 6, (al resultado se le llama Rango Ideal) se tiene el siguiente resultado: 0.16*6 = 0.96. Si se recuerda la amplitud de los datos es de 0.97, por lo tanto esta anchura de clase (Ac) no es suficiente para cubrirla por tal razón, algunos autores recomiendan redondearlo al inmediato superior que en este caso sería de 0.17. Repitiendo el proceso, se tiene que 0.17*6 = 1.02. Un aspecto importante de señalar es que si bien es cierto que se pasa de 1.98 con 3 centésimas, cubre la amplitud de los datos. Por esto se dice que Ac*k = al menos debe ser igual a la amplitud de los datos, es decir, no importa si se pasa del valor máximo. Un tercer aspecto que hay que resolver es por donde iniciar la construcción de los intervalos de clases. Para el caso de variables cuantitativas continuas, se habla de una medida de desplazamiento (MD) que es igual al Rango ideal (RI) menos la Amplitud de los datos (A), donde RI es igual Ac * k, esto es: MD = RI – A, entonces: MD = [(0.17*6) –0.97]/2 =0.025, o aproximadamente 0.03. Este es el desplazamiento que debe tener el valor mínimo para iniciar la construcción de los intervalos. Al construir el primer intervalo, al valor mínimo le restamos el desplazamiento es decir, 1.01 – 0.03 = 0.98, éste es el límite inferior del primer intervalo de clase y su límite superior será 0.98 + Ac, es decir, 0.98 + 0.17 = 115, Para el caso del segundo intervalo de clase, su límite inferior es el límite superior del primer intervalo de clase o sea 115 y el límite superior será 1.15 + 0.17 = 1.32 y así sucesivamente hasta llegar al número de intervalos definidos. Esto es continuidad, ya que no existe ruptura entre intervalos. Entonces, para este tipo de variable (cuantitativa continua), los intervalos de clases son abiertos por la izquierda y cerrados por la derecha. Luego se determina los Puntos Medios de Clase o Marcas de Clase en la segunda columna de la tabla, esto es: PMC = (Li + LS)/2.
  • 16. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior Posteriormente en una tercera columna se determinan las frecuencias absolutas, que en este caso se define como el número de observaciones que caben dentro del intervalo de clase. Para que quepa una observación dentro de un intervalo de clase en este tipo de variable, éste tiene que ser mayor que el límite inferior o menor ó igual que el límite superior. La tabla antes mencionada quedaría de la siguiente forma: Intervalos de Clase PMC fi fr fia fra 0.98 a 1.15 1.065 2 6.67 2 6.67 1.15 a 1.32 1.235 5 16.67 7 23.33 1.32 a 1.49 1.405 8 26.67 15 50.00 1.49 a 1.66 1.575 7 23.33 22 73.33 1.66 a 1.83 1.745 4 13.33 26 86.67 1.83 a 2.00 1.915 4 13.33 30 100 30 100 Para el caso de variables cuantitativas discretas, los intervalos de clases son cerrados por ambos lados.
  • 17. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior METODOS GRAFICOS Dentro de las representaciones gráficas se pueden mencionar las siguientes:  Diagrama de puntos  Pictogramas  Diagrama de barras sencillas, dobles, múltiples  Diagrama de sectores torta o pastel (pie)  Histogramas de frecuencias  Polígono de frecuencias absolutas ó relativas  Polígono de frecuencia acumulada por la izquierda (menor que) u ojiva  Gráficos de línea, etc. Para efecto de este texto se desarrollarán los principales como son el Diagrama de Puntos por su relación con el Diagrama de dispersión, Histograma de frecuencia, Polígono de frecuencia, Ojiva y Diagrama de sectores. Diagrama de Puntos Sirve para representar gráficamente cuadros de frecuencias en las cuales se consideran únicamente una variable y una cantidad asociada a cada valor de la misma (frecuencias). Existen dos tipos de diagramas de puntos cuya construcción se detalla enseguida. La construcción de los diagramas de puntos se realiza de la siguiente manera:  El primer tipo de diagrama de puntos se construye colocando en el eje horizontal los valores de la variable y en el eje vertical las cantidades asociadas a éstos (frecuencias). Finalmente, para cada valor de la variable y cada cantidad asociada se dibuja puntos cuyas alturas corresponde a la magnitud de dicha cantidad.  Para construir el segundo tipo de diagrama de puntos se colocan en el eje horizontal los valores de la variable y sobre cada valor se dibuja tantos puntos como veces aparecen éstos.
  • 18. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior Para ejemplificar el primer caso se retomará las alturas de los 30 habitantes que han sido mencionados anteriormente. En este caso se puede observar que los valores de la variable altura se encuentran en el eje horizontal y en el vertical, el número de habitantes, y el punto está compuesto por las coordenadas (altura, Número de habitantes con esa altura). Histograma Se llama Histograma a la gráfica de barras verticales sin espaciamiento entre ellas, construida colocando en el eje vertical a las frecuencias absolutas ó relativas y el eje horizontal a los límites de clase de una tabla de frecuencias. Lo anterior implica que si los intervalos de clases son iguales, sobre cada clase se erigen rectángulos cuyas áreas son proporcionales a las frecuencias de clase. Las etapas que se deben de cubrir en la construcción de un histograma son:  Colocar en el eje horizontal los límites de clases  Colocar en el eje vertical las frecuencias relativas o absolutas.  Erigir rectángulos cuya base son las clases y su altura las frecuencias que corresponde a cada clase Para ejemplificar este método gráfico se tomará a la tabla de frecuencia absoluta y relativa y las frecuencias absolutas asociada a cada clase. 0 0.5 1 1.5 2 2.5 Estatura (mt)
  • 19. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior En este caso, dado que se utilizó la frecuencia absoluta para construir el histograma entonces el histograma toma el nombre de Histograma de Frecuencias Absolutas. Polígono de Frecuencia Un polígono de frecuencia es una gráfica de líneas rectas que unen los puntos obtenidos al colocar en el eje horizontal a los valores medios (puntos medios) de clases y en el eje vertical a las frecuencias absolutas o relativas. Esto equivale a unir los puntos medios de la cara superior de los rectángulos de un histograma por medio de líneas rectas. Para cerrar el polígono se adiciona una clase tanto inferior como superior para que el polígono cierre. 0 1 2 3 4 5 6 7 8 9 Frecuenciasabsolutas Intervalos de clases
  • 20. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior En este caso al igual que el histograma, el polígono retoma el nombre de la frecuencia que se ha utilizado para construir. Polígono de Frecuencia Acumulada por la Izquierda o Ojiva Una Ojiva o Polígono de Frecuencia Acumulada es una gráfica construida con segmentos de líneas rectas que unen los puntos obtenidos al colocar en el eje horizontal a los límites superiores de clase y en el vertical a las frecuencias acumuladas absolutas o relativas. Al inicio en el eje horizontal se coloca el límite inferior de la primera clase y se le asigna una frecuencia acumulada de cero. Asimismo, por su naturaleza una ojiva es no decreciente. Retomando como ejemplo la misma tabla de frecuencia absoluta y relativa, se tomarán las frecuencias absolutas acumuladas por la izquierda o “menor que” de ésta. 0 1 2 3 4 5 6 7 8 9 Frecuenciasabsolutas Puntos Medios de Clases
  • 21. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior Diagrama de Sectores (Torta o pastel) Este tipo de gráfico se utiliza para representar datos cualitativos y cuantitativos discretos. Su uso más frecuente es con el propósito de comparar ya sea las categorías que toma una variable cualitativa o los valores discretos de una variable cuantitativa respecto al total. Para construir este gráfico se utiliza una circunferencia, la cual se divide en sectores de tal manera que sus medidas angulares centrales y, por ende la superficie del sector circular sean proporcionales a las magnitudes de los valores de la variable que se trata de representar. Al total de las frecuencias (∑fi = n) le corresponde el círculo completo, es decir, los 3600 de la circunferencia y por regla de tres simple se determina el número de grados que le corresponde a cada categoría o valor discreto en particular. Ejemplo: Los datos que se muestran a continuación corresponden a la distribución de los docentes de una universidad en particular, respecto al lugar de realización de estudios de diplomados.
  • 22. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior Lugar de realización del Diplomado n % Extranjero 19 13.87 Universidad de Interés 87 63.5 Otras universidades bolivianas 31 22.63 Total 137 100 Tratando de representar estos datos en diagrama de sectores se tiene lo siguiente: Número de grados para la categoría “Extranjero”. = (19 x 3600 ) = 49.9 = 50 137 De la manera que quedaría de la siguiente forma una vez que se hayan realizado las operaciones correspondiente: Lugar de realización del Diplomado n Grados Extranjero 19 50 Universidad de Interés 87 229 Otras universidades bolivianas 31 81 Total 137 360 De forma gráfica se vería de la siguiente forma: Extranjero 14% Universidad de Interés 63% Otras universidades bolivianas 23%
  • 23. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior MEDIDAS DE TENDENCIA CENTRAL O POSICIÓN Como se pudo observar en la unidad anterior los histogramas o distribuciones de frecuencias presentan formas muy variadas, por lo que no es fácil de comparar dos conjuntos de datos mediante una inspección somera de los histogramas. Por otra parte, una tabla de frecuencia con 15 a 20 clases puede no ser una representación suficientemente concisa de los datos. Por estas razones y por su importancia en posteriores usos es necesario contar con cantidades que describan sucintamente (rápidamente) el conjunto de datos que se estudia. Son de interés cantidades que localicen el "centro" de las observaciones (o más bien de su distribución de frecuencias) y la dispersión o variabilidad de las mismas. A las medidas que localizan el "centro" de los datos se les llama "Medidas de Tendencia Central" y las que miden la variabilidad de las observaciones se les llama "Medidas de Dispersión". Dentro de las medidas de Tendencia Central se pueden mencionar las siguientes: Media o promedio Media ponderada Media Geométrica Media Armónica Media Cuadrática Mediana Moda Por el grado de aplicabilidad serán desarrollada la siguientes medidas de tendencia central: media aritmética, mediana y moda y, como un caso especial de la media aritmética, la media ponderada. Media Aritmética También llamada media. Def: La media aritmética de n observaciones de la variable X se denotará por , y se define como la suma de ellas dividida por "n". Esto es:
  • 24. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior Ejemplo: Sean los siguientes datos x1=2, x2=12, x3=9, x4=10, x5=7. La media aritmética de estos datos es: Desde un punto de vista geométrico, la media aritmética corresponde al punto de equilibrio de los datos. La media aritmética es la medida descriptiva de tendencia central más usada. Tiene la ventaja de ser fácil de calcular, además de poseer propiedades teóricas excelente desde el punto de vista de la estadística inferencia. Su principal desventaja es que, por ser el punto de equilibrio de los datos es muy sensible a la presencia de observaciones extremas. Por otro lado su cálculo se vuelve tedioso cuando la base de datos es muy grande. Otra desventaja es que no se puede calcular en datos que tienen intervalos de clases abiertos. Cálculo de la Media Aritmética en Tablas de Frecuencias En muchas ocasiones se nos presenta el problema de estimar la media a partir de una tabla de frecuencias. Esto se da por dos razones:  Ya se han presentado los datos en forma resumida y no se dispone de las observaciones originales.  Cuando se dispone de las observaciones originales, pero su número es tan grande que las operaciones aritméticas necesarias para el cálculo de la media requieren de mucho trabajo. Entonces el uso de una tabla de frecuencias simplifica considerablemente el trabajo. Se debe de recordar que cuando se tiene una tabla de frecuencias con k clases se da lo siguiente: ∑
  • 25. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior En una clase se tienen fi observaciones (frecuencia absoluta), las cuales pueden tener cualquier valor entre el límite superior e inferior de esa clase. Para calcular de una manera aproximada la media, se supone que las observaciones se encuentran uniformemente distribuidas en el intervalo y, por lo tanto, el valor medio de clase (Punto medio de clase o Marca de Clase) es un valor representativo de esa clase. Con esta suposición el cálculo de la suma de las observaciones se simplifica de la siguiente manera: Esta expresión representaría la suma aproximada de las observaciones; por lo tanto, la media aritmética se estimaría de la siguiente manera: Todo lo anterior es posible siempre y cuando no se tengan clases abierta en la tabla. Ejemplo: Para ejemplificar la media aritmética para datos tabulados se retomará la tabla de frecuencias absolutas y relativas que se ha expuesto anteriormente, la cual corresponde a la estatura de 30 personas. Se pide estimar la estatura promedio de estas personas. Es importante ver que lo que se ha solicitado es una estimación de la estatura y no una determinación ya que en datos lo único que se puede hacer es una estimación ya que la determinación se la realiza en los datos originales. Retomando la ecuación de estimación de la media aritmética se tiene lo siguiente:
  • 26. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior Intervalos de Clase PMC fi PMC*fi 0.98 a 1.15 1.065 2 2.13 1.15 a 1.32 1.235 5 6.175 1.32 a 1.49 1.405 8 11.24 1.49 a 1.66 1.575 7 11.025 1.66 a 1.83 1.745 4 6.98 1.83 a 2.00 1.915 4 7.66 Total 45.21 Promedio 45.21/30 = 1.507 La estimación proporcionó un valor de 1.507 m/persona. La determinación del promedio en la base de datos original, es de 1.513 m/persona. Siempre se observará una diferencia que es producida por el hecho de que en una tabla de frecuencia lo que se realiza es una estimación y no una determinación. Esta diferencia será cada vez menor si la medida de desplazamiento para construir la tabla sea pequeña. Propiedades de la Media Aritmética La media aritmética tiene muchas propiedades sin embargo, solo se expondrá una por la relevancia que tiene a nivel de inferencia y es la siguiente:  La suma algebraica de las desviaciones de un conjunto de números respecto a su media aritmética es cero, es decir: ( ) . Esta es la razón por la cual le media se la interpreta como el punto de equilibrio de una colección de datos numérica y además, es por ello que en Estadística se le conoce como “el primer momento”. Mediana Es el valor de la serie de datos que se sitúa justamente en el centro de la muestra (un 50% de valores son inferiores y otro 50% son superiores).
  • 27. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior No presentan el problema de estar influido por los valores extremos, pero en cambio no utiliza en su cálculo toda la información de la serie de datos (no pondera cada valor por el número de veces que se ha repetido). La mediana (Me) de un conjunto de “n” números, ordenados de menor a mayor, es el número central en el arreglo. Si n es un número non, sólo hay un valor central. Si n es un número par, hay dos valores centrales, y la mediana debe tomarse como la media de estos dos valores. Ejemplo... 1.- Sean la siguiente colección de datos: 27, 3.4, 3.2, 3.3, 3.1 El primer paso para determinar la Mediana en datos sin tabular es ordenar los datos en orden ascendente o descendente de tal forma que: 3.1, 3.2, 3.3, 3.4, 27. Dado que n es un número non o impar (n=5), entonces sólo hay un valor central (3.3) y éste es el valor de la mediana. Me = 3.3 2.- Calcular la mediana para los siguientes datos y ordenados: 151, 152, 153, 158, 162, 167, 167, 167, 168, 173 En este caso n es par (n=10), por lo que hay dos valores centrales, que son 162 y 167. Entonces partiendo del concepto de Mediana, la Me es la media aritmética de estos dos valores ya que antes y después de ella, no existe más del 50% de los datos. Me = (162 + 167)/2 = 164.5. Entonces cuando este sea el caso la Me, se puede determinar de la siguiente forma: Cuando los datos son simétricos entre la mediana y la media aritmética no hay mucha diferencia; sin embargo, para datos no simétricos es mejor medida de tendencia central la mediana que la media. Cálculo de la Mediana en datos tabulados Cuando los datos están agrupados en clases, es decir, cuando existe una tabla de distribución de frecuencias, para estimar la mediana se utiliza la siguiente ecuación: ( )( )
  • 28. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior Donde: Me = Mediana a = Límite inferior de la clase de la Mediana b = Límite superior de la clase de la Mediana c = Frecuencia relativa acumulada una clase antes de la clase de la Mediana d = Frecuencia relativa de la clase de la Mediana Como se puede observar todos los insumos requeridos para la determinación de la Me, están en la misma tabla. Como se ha verificado anteriormente, la mediana es aquella medida de tendencia central que antes y después de ella no existe más del 50% de la información, es decir, parte en dos la base de datos. A partir de esto es que se propuso partir la base de datos en cuatro partes y se le llamó cuartiles, luego en 10 parte y se les llamó deciles y luego en 100 partes y se les llamó percentiles. A todo esto se llaman Fractiles, los cuales no se desarrollan en el presente documento pero si se recomienda revisar cualquiera de la obras citadas al final de este documento para verificar esta información. Moda La Moda (Mo) de un conjunto de datos es la observación o valor (si existe) que ocurre con mayor frecuencia. Si es un valor único se dice que la distribución de frecuencias es unimodal. Si se tienen dos o más valores con la misma frecuencia máxima se dice que la distribución es bimodal, trimodal, etc. Ejemplo: sean los siguientes datos las calificaciones de un examen: 10, 7, 8, 7, 9, 8, 7, 9. En este caso la calificación que más se repite es 7 ya tiene una frecuencia fi =3, por lo tanto la Mo es 7. Sean los siguientes datos: 10, 6, 7, 4, 13, 16, 18 Como se puede observar en estos datos todos tienen una frecuencia absoluta igual a 1, por lo tanto no tiene moda este conjunto de datos. Las distribuciones de este tipo se les llaman uniformes. Sean los datos: 4, 3, 4, 7, 2, 7, 5, 4, 7, 5, 9, 7, 4
  • 29. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior Aquí se puede observar que los valores numéricos con mayor e igual frecuencia son los valores 4 y 7 por lo tanto la moda de estos datos es 4 y 7, o sea que una distribución bimodal. Cuando los datos se encuentran organizados en Cuadros de frecuencia, la Mo es el valor que tiene la mayor frecuencia absoluta. Ejemplo: Los datos que se muestran a continuación, corresponden a la estatura de 30 personas que conformaron una muestra. Según el cuadro de frecuencia donde se presenta esta información, existen 3 valores que tienen la mayor frecuencia absoluta. Estos son 1.21, 1.22 y 1.28 con fi = 4; por lo tanto existen 3 Modas. Éstas son: 1.21, 122 y 1.28 m, por lo tanto la distribución es trimodal. Observación Frecuencias fi fia fr (%) Fra 1.20 1 1 3.33 3.33 1.21 4 5 13.33 16.66 1.22 4 9 13.33 30.00 1.23 2 11 6.67 36.66 1.24 1 12 3.33 40.00 1.25 2 14 6.67 46.66 1.26 3 17 10.00 56.66 1.27 3 20 10.00 66.66 1.28 4 24 13.33 80.00 1.29 3 27 10.00 90.00 1.30 3 30 10.00 100.00 Total 30 100 Cuando la información se encuentra organizada en una tabla de frecuencias absoluta y relativa, la Mo se puede estimar a través de la siguiente ecuación: ( ) ( ) ( ) Donde: Mo = Moda Licm = Límite inferior de la clase modal Acm = Amplitud de clase de la clase modal
  • 30. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior ficm =Frecuencia absoluta de la clase modal ficprem = Frecuencia absoluta de la clase postmodal ficpostm = Frecuencia absoluta de la clase postmodal Ejemplo: Sea la siguiente tabla de frecuencia absoluta y relativa correspondiente a la variable estatura de 30 personas. De hecho la variable estatura es una variable cuantitativa continua, además la tabla lo demuestra ya que entre los intervalos no existe ruptura, es decir, que el límite superior de la primera clase es el inferior de la siguiente clase. Es por ello que se dicen que son abiertos por la izquierda y cerrados por la derecha. Intervalos de Clase PMC fi (0.98 a 1.15] 1.065 2 (1.15 a 1.32] 1.235 5 (1.32 a 1.49] 1.405 8 (1.49 a 1.66] 1.575 7 (1.66 a 1.83] 1.745 4 (1.83 a 2.00] 1.915 4 En este caso la clase modal sería aquella que tiene mayor frecuencia absoluta, esta es: (1.32 a 1.49] =8, entonces partiendo de la ecuación proporcionada anteriormente: ( ) ( ) ( ) Mo = 1.32 + 0.17 [(8 - 5)/((8 - 5) + (8 – 7)) = 1.4475
  • 31. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior MEDIDAS DE DISPERSION Estas son las medidas que miden como se dispersan los datos, generalmente alrededor de una medida de tendencia central. Entre éstas se pueden mencionar las siguientes: Rango o Amplitud Desviación Media y Median Varianza y Desviación Típica Dispersión Relativa Generalmente las más utilizadas son: Varianza, Desviación típica y Dispersión relativa o Coeficiente de Variación y una que en los métodos tabulares ya se ha utilizado como es el Rango. Rango La Amplitud, Rango o Recorrido de un conjunto de datos es la diferencia entre las observaciones de mayor y menor valor numérico en el mismo. R = Valor máximo - Valor mínimo Tiene la ventaja de ser fácil su determinación, pero no es una buena medida de dispersión ya que solo toma en cuenta dos valores de toda la colección y no idea de cómo es la variabilidad dentro de los datos. Varianza La varianza retoma un nombre de acuerdo a dónde se determina. Si la determinación es en una población se la llama Varianza Poblacional (σ²) y si es en una muestra se le llama Varianza Muestral (s²). La Varianza Población o Variancia de una población finita de N elementos x1, x2, x3, ...xn; se define como la media aritmética del cuadrado de las desviaciones de las observaciones respecto a su media μ; y se determina a través de la siguiente ecuación para varianza poblacional: ( ) En caso de que sea muestral y para datos no organizados en una tabla de frecuencia absoluta y relativa, se determina de la siguiente forma:
  • 32. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior ( ) Para datos tabulados, la varianza se determina de la siguiente manera: ( ) Existe una fórmula de trabajo mucho más rápido para determinar la varianza muestral para datos no tabulados que resulta de desarrollar en trinomio cuadrado perfecto de la ecuación. Esta fórmula es: ( ) Ejemplo: Sean los siguientes datos las estaturas de 30 estudiantes de un salón de clases Alumno Estatura Alumno Estatura Alumno Estatura 1 1.25 11 1.23 21 1.21 2 1.28 12 1.26 22 1.29 3 1.27 13 1.30 23 1.26 4 1.21 14 1.21 24 1.22 5 1.22 15 1.28 25 1.28 6 1.29 16 1.30 26 1.27 7 1.30 17 1.22 27 1.26 8 1.24 18 1.25 28 1.23 9 1.27 19 1.20 29 1.22 10 1.29 20 1.28 30 1.21 ( ) ∑xi = (1.25² + 1.28² + 1.27² +… 1.21²) = 47.1558 ∑xi = (1.25 + 1.28 + 1.27 +… 1.21) = 37.6 n = 30
  • 33. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior S² = 47.1558 - (37.6)² 30 30-1 S² = 0.00105 m² Dado que se determina o se estima la varianza se eleva al cuadrado las unidades originales de medición razón por la cual no se debe comparar con la media aritmética ya que ésta es medida en unidades lineales. Por esta razón, es que se propone una nueva medida de dispersión llamada Desviación Típica. Desviación Típica No es más que la raíz cuadrada positiva de la varianza. En este sentido se puede hablar entonces desviación típica poblacional y muestral, entonces: σ = √σ² S = √S² Para el caso del ejemplo anterior, S = √0.00105 = 0.0324 m Este dato indica que los datos se dispersan en promedio 0.0324 m del promedio de la variable Estatura. Coeficiente de Variación Todas las medidas de dispersión antes descritas son medidas de variación absoluta. Una medida de la dispersión relativa de los datos, que toma en cuenta su magnitud, está dada por el Coeficiente de Variación. Coeficiente de Variación (C.V): Es una medida de dispersión relativa de un conjunto de datos, que se obtiene dividiendo la desviación estándar del conjunto datos entre su media aritmética. Cuando se multiplica por 100 se expresa en porcentaje indicando tanto por uno que se alejan los datos de su media aritmética.
  • 34. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior ( ) Ejemplificando con los datos anteriores se tendría: C.V = (0.0324/1.253)*100 = 2.586%, indicando con ello que por cada valor de la media los datos se dispersan en un 2.586% alrededor de ella. Ejemplo. Sean la siguiente tabla de frecuencia absoluta y relativa, las estaturas correspondientes a 30 estudiantes. La tabla es la siguiente Intervalos de Clase PMC fi (0.98 a 1.15] 1.065 2 (1.15 a 1.32] 1.235 5 (1.32 a 1.49] 1.405 8 (1.49 a 1.66] 1.575 7 (1.66 a 1.83] 1.745 4 (1.83 a 2.00] 1.915 4 Determine el Coeficiente de Variación de los datos. Nótese que solo piden CV, entonces necesitamos dos insumos, la desviación típica y la media aritmética de los mismos. Como se necesita S, entonces se necesita de S². Entonces realizando los cálculos necesarios en la misma tabla se obtienen todos los insumos para la estimación del Coeficiente de variación como se muestra a continuación. Note que lo que se hizo fue generar los componentes de las ecuaciones a determinar: Intervalos de Clase PMC fi PMC²fi PMCfi (0.98 a 1.15] 1.065 2 2.2685 2.13 (1.15 a 1.32] 1.235 5 7.6261 6.175 (1.32 a 1.49] 1.405 8 15.792 11.24 (1.49 a 1.66] 1.575 7 17.364 11.03 (1.66 a 1.83] 1.745 4 12.18 6.98 (1.83 a 2.00] 1.915 4 14.669 7.66 Totales 30 69.9 45.21
  • 35. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior ( ) S² = 69.9 - (45.21)² 30 30-1 S² = 0.0609 S = 0.0780 45.21/30 = 1.507 ( ) C.V = (0.0078/1.507)*100 = 0.5176
  • 36. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior DEFORMACION DE CURVAS UNIMODALES Una curva unimodal se puede deformar de dos maneras, respecto a un eje horizontal o bien respecto a un eje vertical. Cuando se trata de una deformación horizontal se habla de Asimetría y cuando se habla de deformación vertical se habla de Curtosis. Asimetría Asimetría es el grado de deformación horizontal que presente una curva unimodal respecto al eje horizontal. De acuerdo a ello se puede tener lo siguiente: Asimetría Positiva: Se dice que una distribución de frecuencia unimodal presenta asimetría positiva o a la derecha, si tiene una ramificación más extendida hacia la derecha o hacia los valores grandes de una variable. Esto indica que la variable tiende a tomar valores mayores que su promedio y la relación que se establece entre las principales medidas de tendencia central es la siguiente: Asimetría Negativa: Una distribución unimodal tiene asimetría negativa o hacia la izquierda, si tiene una ramificación más extendida hacia la izquierda indicando con ello que la variable tiende a tomar valores inferiores a su promedio. En este caso, la relación que se establece entre las principales medidas de tendencia central es la siguiente: La siguiente gráfica resume la asimetría negativa y positiva
  • 37. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior Curva Simétrica: En este caso la variable se deforma proporcionalmente con respecto al eje horizontal y la relación que se establece entre las principales medidas de tendencia central es la siguiente: Coeficiente de Asimetría La medida más usada para cuantificar la asimetría de la distribución de frecuencias de una variable X, recibe el nombre de coeficiente de asimetría y que desde el punto de vista de momento (tercer momento) tiene por ecuación:
  • 38. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior ( ̅) La ecuación antes expuesta es para datos sin organizar o datos no tabulados. Aquí se puede observar que si existen observaciones muy grandes en relación a la media, el coeficiente de asimetría tendrá un valor positivo. Si existen observaciones muy pequeñas (menor que la media), el coeficiente de asimetría será negativo y, finalmente, si las observaciones están simétricamente distribuidas alrededor de la media, el coeficiente de asimetría tendrá el valor de cero. Ejemplo. Sea los siguientes datos: 6.2, 7.9, 8.1, 8.5, 8.5, 8.9, 9.1, 10.8 Determine el CAs. ̅= 8.5 s = 1.29 = 2.1388 xi (xi -x) (xi - x)³ 6.2 -2.3 -12.167 7.9 -0.6 -0.216 8.1 -0.4 -0.064 8.5 0.0 0.0 8.5 0.0 0.0 8.9 0.4 0.064 9.1 0.6 0.216 10.8 2.3 12.167 = 0 Por lo tanto se puede decir que la distribución es simétrica, en este caso el promedio, la mediana y la moda coinciden en el mismo valor, lo cual puede ser verificado. Para datos organizados en una tabla de frecuencia absoluta y relativa el coeficiente de asimetría se estimar siempre y cuando la tabla no presente clases abierta, por la siguiente ecuación:
  • 39. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior ( ̅) Ejemplo: Intervalos PMC fi PMC*fi *fi ( ̅) fi Fia (20.5 a 25.5] 23 3 69 1587 -2736.99887 3 (25.5 a 30.5] 28 42 1176 32928 -4357.21344 45 (30.5 a 35.5] 33 21 693 22869 0.5738588 66 (35.5 a 40.5] 38 7 266 10108 1042.84987 73 (40.5 a 45.5] 43 3 129 5547 3279.33151 76 (45.5 a 50.5] 48 2 96 4608 7164.84635 78 (50.5 a 55.5] 53 2 106 5618 16733.8331 80 (55.5 a 60.5] 58 2 116 6728 32393.1814 82 (60.5 a 65.5] 63 1 63 3969 27821.4455 83 83 2714 93962 81341.8493 Obteniendo la información necesaria de la tabla: ̅ √ = 1.9309312; por lo tanto, la asimetría resultante es Positiva, esto quiere decir que la , lo cual puede demostrarse con la información que proporciona la misma tabla. Medidas de Curtosis Medidas de Curtosis o apuntamiento. Se entiende por Curtosis, la medida de deformación vertical de una distribución de frecuencias, es decir, la medida de apuntamiento o achatamiento de una distribución. La Curtosis mide cuan puntiaguda es una distribución en general por referencia a la normal. La forma de medir la Curtosis o apuntamiento puede ser en función de momentos o cuartiles.
  • 40. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior Curtosis en función de Momentos: En este caso el grado de apuntamiento esta dado por: ( ̅) ; para datos sin organizar En caso que los datos estén tabulados (organizados) y si la tabla no presente clases abiertas se puede estimar Curtosis desde el punto de vista de momento a través de la siguiente ecuación: ( ̅) El coeficiente de Curtosis puede tomar uno de los siguientes valores, indicando con el tipo de deformación vertical de la curva unimodal. Estos son: Kur > 3: Este valor indica que la distribución es más apuntada que la normal y recibe el nombre de Leptocúrtica Kur = 3: En este caso la distribución es moderadamente apuntada y se llama Mesocúrtica (o apuntamiento normal) Kur < 3: Este indica que la distribución es menos apuntada que la normal, o sea achatada y se llama Platicúrtica
  • 41. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior TEORIA DE PROBABILIDADES Experimento Aleatorio En Estadística, los conjuntos de interés son colecciones de observaciones obtenidas estudiando el comportamiento de un fenómeno, ya sea en estado natural o bien bajo control. Al proceso mediante el cual se obtiene observaciones se llama experimento. Los experimentos u operaciones reales o hipotéticas pueden dividirse en dos clases:  Experimento Determinístico  Experimento no Determinístico Un experimento es determinístico si su resultados están completamente determinados y puede describirse por una fórmula matemática llamada también modelo determinístico (no son de interés desde el punto de vista estadístico) Ejemplo... Supóngase que el experimento consiste en lanzar un objeto (piedra) al aire. De hecho ésta va a caer porque posee un peso y por la fuerza de gravedad que ejerce la tierra. De hecho se puede saber cuál es el tiempo que tardará en hacerlo. Este experimento se puede modelar por la ecuación de caída libre de los cuerpos. En este caso de hecho se sabe cuál será el resultado que se obtendrá. Otro ejemplo sería si se lanza una pelota al agua, ésta de hecho flotará, en caso de ser de hierro pues no flotará. Un experimento es no determinístico si los resultados del experimento no se pueden predecir con exactitud antes de realizar el experimento. Ejemplo... Supóngase que un experimento consiste en la aplicación de un sedante a una persona que tiene dolor de cabeza. Aquí los posibles resultados pueden ser {sanos, enfermos}. En este caso no se sabe a ciencia cierta cuál de estos dos resultados sucederá. Otro ejemplo sería el lanzamiento de un dado legal. Aquí los resultados posibles son: {1, 2, 3, 4, 5,6}. Se sabe cuáles son los posibles resultados, pero no se sabe cual precisamente. En estos ejemplos se puede identificar lo siguiente:
  • 42. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior .- Cada experimento se puede repetir indefinidamente sin cambiar esencialmente las condiciones. .- Cada experimento es no determinístico. .- Cada experimento tiene varios resultados posibles que pueden describirse con anterioridad con precisión (resultados a priori). Entonces a un experimento que presentas las tres características mencionadas anteriormente se llama experimentos aleatorio. En otras palabras, un Experimento Aleatorio es aquél cuyos resultados no pueden predecirse antes de su realización, y por lo tanto, están sujetos al azar. Espacio Muestral y Sucesos Elementales Como se ha observado anteriormente, un experimento aleatorio tiene varios resultados posibles y que pueden ser escritos con precisión. Entonces: A todo los resultados posibles asociados a un experimento aleatorio ε, se le llama Espacio Muestral y se denotará por M y a cada resultado de un espacio muestral M se llamará suceso. Ejemplo... Extraer un artículo defectuoso de un lote que contiene artículos defectuosos "D" y no defectuosos "N" M = {D, N} .- Lanzamiento de un dado legal M = {1, 2, 3, 4, 5,6} .- Lanzamiento de una moneda.... M = {C, S} .- Designación de un delegado de un grupo de 50 personas M = {A1,A2,....,A50} ... Ai = i-ésima persona Los experimentos aleatorios pueden ser simples o compuestos. Experimentos aleatorios simples son los que se han ejemplificado anteriormente. Un experimento aleatorio compuesto consiste en dos o más experimentos simples que puede ocurrir de forma sucesiva o bien de forma simultánea.
  • 43. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior Considérese el caso de experimento aleatorio compuesto: aquellos en que los experimentos simples están unidos por la partícula gramatical "o" en el sentido excluyente y aquellos donde los experimentos simples están unidos por la partícula gramatical "y". Experimentos compuestos unidos por la partícula "o" excluyente Un experimento compuesto ε, se dice que es una o-combinación de los experimentos ε1 y ε2 sí, sólo sí, el experimento ε ocurre, cuando el experimento ε1 ó ε2 ocurren (pero no ambos). Esto quiere decir que ocurren de forma sucesiva pero no al mismo tiempo. Ejemplo... muestral del experimento. M1 = {1,2,3,4,5,6} ... lanzamiento del dado ε1 M2 = {C,S} ... lanzamiento de la moneda ε2. Por lo tanto, el espacio muestral asociado a ε, es la unión de M1 y M2. Es decir: M = M1 υ M2 = {1, 2, 3, 4, 5, 6, C, S} Experimentos compuestos unido por la partícula "y" Un experimento compuesto , se dice que es un y-combinación de los experimentos simples 1 y 2, sí y sólo sí, el experimento  ocurre, cuando el experimento 1 y 2 ocurre. Lo anterior trae como consecuencia que si el experimento compuesto ε es una y-combinación de los experimentos 1 y 2, el espacio muestral M asociado a , es el producto cartesiano de los espacios muestrales M1 y M2 correspondiente a 1 y 2, es decir: M = M1 x M2. Ejemplo... Se lanza una moneda tres veces. Determine el espacio muestral. Aquí se puede observar que el experimento  ocurre, si los tres experimentos simples ocurren... i = 1,2,3; i= i-ésimo lanzamiento de la moneda. Esto es:
  • 44. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior M1 = {C,S} M2 = {C,S} M3 = {C,S}  consiste en realizar el experimento ε1, luego ε2 y luego ε3. Por lo tanto: M = M1 x M2 x M3 M = {CCC, CCS, CSC, SCC, CSS, CSC, SSC, SSS} que resulta del producto cartesiano de los espacio muestrales simples que conforman al experimento compuesto como se muestra a continuación: M1*M2 M3 M2 C S M1 C S CC CCC CCS C CC CS CS CSC CSS S SC SS SC SCC SCS SS SSC SSS Otro ejemplo podría ser el experimento aleatorio compuesto consistente en el lanzamiento de una moneda y un dado al mismo tiempo. M2 M1 1 2 3 4 5 6 C (C,1) (C,2) (C,3) (C,4) (C,5) (C,6) S (S,1) (S,2) (S,3) (S,4) (S,5) (S,6) En muchos casos un diagrama, conocido con el nombre de Diagrama del Árbol, es más sugerente para la determinar el espacio muestral de un experimento aleatorio compuesto. Ejemplo... Determine el espacio muestra M del experimento aleatorio compuesto consistente en el lanzamiento de tres monedas al mismo tiempo (2n ) = 24 = 16
  • 45. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior En este caso el espacio muestral se obtiene con los resultados que tiene cada rama del árbol, es decir, M= {CCC, CCS, CSC, SCC, CSS, CSC, SSC, SSS} Sucesos y Algebra de sucesos (α-Algebra de Borel) Como se ha mencionado anteriormente, un suceso es un resultado de un experimento aleatorio. Si se ha definido al espacio muestral como todos los posibles resultados de un experimento aleatorio, es decir, se puede concebir al espacio muestral como un conjunto universo. Si se ve desde este punto de vista, se puede hablar entonces de subconjunto y elementos de este conjunto universo llamado espacio muestral. Se llama Evento a cualquier subconjunto del espacio muestral y se le denota por A, B, C, D, E, F, etc. Así, si A es un evento, entonces A  M, y se le llamará suceso a cada elemento de un espacio muestral y se le designa por w, x, y, etc. Esto es si x es un suceso, entonces x  M. Un evento con un sólo elemento es un evento elemental. S S C S C S C S C S C C C S
  • 46. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior Ejemplo: considérese como experimento aleatorio al lanzamiento de un dado y al evento A como la ocurrencia de un número par. Determine el espacio muestral. M = {1, 2, 3, 4, 5, 6} A = {2, 4, 6}; entonces se dice que A  M Dado que ya se ha identificado el espacio muestral como conjunto universal, los eventos como subconjunto del espacio muestral, se identificará también el conjunto vacío () de la teoría de conjunto como el evento imposible, esto es, un evento que no se da o sea que no ocurre. Por ejemplo, lanzar dos dados simultáneamente, y sea el evento A: "obtener suma de 14". De hecho esto nunca va a suceder  A = {}. Sub-evento: Dados dos eventos, A y B se dice que A está contenido en B o que a es sub-evento de B, si todo suceso favorable a A, es favorable a B. En otras palabras, si ocurre el evento A,  ocurre el evento B. Esto es: A  B, si wi  A  w  B A B Igualdad de Eventos: Se dice que dos eventos A y B son iguales si, AB y BA. Esto es: A = B = AB y BA. Unión de Eventos: Dados dos eventos A y B, se llama unión de A con B y se denota por AB al evento formado por los sucesos que pertenecen a A ó a B ó, a ambos, es decir: AB = {wiM /wiA v wiB}. M A B
  • 47. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior ABAB Intersección: Dados los eventos A y B, se llama intersección de A con B, al evento formado por todos los sucesos favorables a A y a B. Es decir, ambos eventos A y B ocurren. Esto es: AB = {w  M / w  A  w  B}. AB Complemento: Si A es un evento del espacio muestral M, se llama complemento de A, al evento formado por todos los sucesos que no pertenecen a A. Es decir, no ocurre el evento A. Esto es: Ac = M - A = {wi  M / wi  A} MA B MA B MA B
  • 48. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior Ac Eventos Mutuamente Excluyente y colectivamente exhaustivos (complementarios) Dos eventos A y B definidos en el mismo espacio muestral, se dice que son mutuamente excluyentes si no pueden ocurrir juntos. Es decir la ocurrencia de uno excluye la ocurrencia del otro. Es decir, que AB =  Enfoques de Probabilidades Definir probabilidad estrictamente es un poco inadecuado. La formulación axiomática de la teoría de probabilidades requiere niveles de abstracción y competencia matemática fuertes. Sin embargo, hay autores que plantean enfoques a través de los cuales se puede abordar las probabilidades. Estos enfoques son: 1. Enfoque o Probabilidad Clásica (llamada también de Laplace o Apriori) 2. Enfoque desde el punto de vista de frecuencia relativa (llamada también A posteriori). 3. Probabilidad subjetiva Enfoque Clásico o A priori: Llamado también Este definición se basa en el supuesto de que todos los resultados posibles de un experimento aleatorio son igualmente probable, es decir, cada suceso de un espacio muestral M, tienen la misma posibilidad de ocurrir. Según Laplace (1812) la probabilidad de un evento es la razón entre el número de casos (sucesos) favorables y el número total de casos (sucesos) posibles, siempre que nada obligue a M A A c
  • 49. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior creer que alguno de estos sucesos deban de tener preferencia a los demás, lo que hace que todos sean iguales. Esto es: Observaciones: 1.- La probabilidad de un evento cualquiera A está comprendido entre 0 y 1. En efecto nA y n son enteros positivos y 0  nA  1. Esto es: 0/n  nA/n  n/n ó 0  P[A]  1 2.- P [A] = 0, si A es un evento imposible A = ;  nA = 0, luego P[A] = 0/n = 0 3.- P [A] = 1, si A es el evento seguro (A = M), es decir A = M nA = n  P[A] = n/n = 1 4.- Puesto que todos los elementos de M = (w1, w2, ..., wn} son igualmente probables P[{wi}] = 1/n; i = 1, 2,3,..., n  P [M] = Σ P[wi] = 1 Si A es un evento de M  P [A] = Σ P [{wi}] wiεA Ejemplo..... Si se lanza una moneda tres veces. Calcular la probabilidad que ocurran: a.- Dos caras b.- Al menos dos caras c.- A lo más dos caras El espacio muestral de este experimento lo puede obtener a través de producto cartesiano o bien a través del diagrama del árbol. Determinando el espacio muestral: M = {CCC, CCS, CSC, CSS, SCC, SCS, SSC, SSS} a.- A = {CCS, CSC, SCC}  P[A] = 3/8 b.- B = {CCC, CCS, CSC, SCC}  P[B] = 4/8 = 1/2 c.- C = {CCS, CSC, CSS, SCC, SCS, SSC, SSS}  P[C] = 7/8 Ejemplo Considérese el lanzamiento de dos dados. Calcular la probabilidad de:
  • 50. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior a.- Obtener suma 7 b.- Obtener suma 6 c.- Obtener suma mayor que 5 d.- Que el resultado del primer dado sea mayor que el resultado del segundo dado. A = {(w1,w2)  M / w1 + w2 = 7} B = {(wi,w2)  M / w1 + w2 = 6} C = {(w1,w2)  M / w1 + w2 > 5} D = {w1,w2)  M / w1 > w2}] Determinando el espacio muestral a través del producto cartesiano de los dos espacios muestrales simples de los experimentos que conforman este experimento compuesto se tendría lo siguiente: M2 M1 1 2 3 4 5 6 1 (1,1) (1,2) (1,3) (1,4) (1,5) (1,6) 2 (2,1) (2,2) (2,3) (2,4) (2,5) (2,6) 3 (3,1) (3,2) (3,3) (3,4) (3,5) (3,6) 4 (4,1) (4,2) (4,3) (4,4) (4,5) (4,6) 5 (5,1) (5,2) (5,3) (5,4) (5,5) (5,6) 6 (6,1) (6,2) (6,3) (6,4) (6,5) (6,6) P[A] = 6/36 = 1/6 (nA) = 6 P[B] = 5/36 (nA) = 5 P[C] = 26/36 (nA) = 26 P[D] = 15/36 (nA) = 15 Probabilidad desde el punto de vista de Frecuencia Relativa (o A posteriori).
  • 51. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior Supóngase la siguiente pregunta: ¿Cuál es la probabilidad de que la mitad o más de los estudiantes de Esta2 obtengan notas aprobatorias?. En este caso y en muchos más, no sirve de nada enumerar todos los resultados posibles. Como se puede observar esta pregunta no se puede responder utilizando la definición clásica de probabilidades, dado que se necesita mayor información. Esto conlleva a la interpretación de probabilidades en términos de vista de frecuencia relativa. Si un experimento bien definido se repite n veces (n grande): sean nA < n el número de veces que el evento A ocurren los n ensayos, entonces la frecuencia relativa de veces que ocurre el evento A "nA/n", es la estimación de la probabilidad que el evento A ocurra, esto es: P[A] = nA/n Observación: 1.- La frecuencia relativa de un evento, está comprendida entre 0 y 1 0 P[A]  1 2. nA/n = 1, sí y sólo sí, el evento A ocurre en las n repeticiones de experimento. En particular nM/n = 1 Ejemplo. Sexo Partido Político A B C D E F Total Masculino 90 80 65 35 37 13 320 Femenino 15 20 5 10 3 2 55 Total 105 100 70 45 40 15 375 Determine las siguientes probabilidades: a. ¿Cuál es la probabilidad que un miembro seleccionado aleatoriamente b.- Sea una mujer? c.- Pertenezca al partido B? d.- Sea hombre miembro del partido C? Solución..... a.- P[Mujer] = 55/375 b.- P[B] = 100/375
  • 52. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior c.- P[C] = (70)/375 Definición Subjetiva de Probabilidad Probabilidad desde el punto de vista subjetivo está relacionada con una presunción, creencia o como algunos autores le llaman corazonada, por lo tanto, puede variar de una persona a otra. Dado un experimento determinado, la probabilidad de un evento A es el grado de creencia asignado a la ocurrencia de este evento por un individuo particular, basado en toda la evidencia a su disposición con las siguientes exigencias: 1.- P[A] = 0, representa la certeza que el evento A, no ocurrirá 2.- P[A] = 1, representa la certeza que el evento A, sí ocurrirá Principales Teoremas de Probabilidad: 1. O  P[A]  1, para cada evento A en M. 2. P[M] = 1 3. P[AUB] = P[A] + P[B]; siempre y cuando los eventos A y B ocurran por separado o de forma independiente. 4. P [AUB] = P[A] + P[B] – P[AB]; en este caso A y B no son eventos independientes, es decir, que ocurren al mismo tiempo. 5. Si A = , entonces P[A] = 0 6. Eventos mutuamente excluyentes y colectivamente exhaustivos o complementarios. Sea A y B, dos eventos en el espacio muestral, se dice que son mutuamente excluyente si la ocurrencia de uno de ellos elimina la ocurrencia del otro y viceversa y son complementarios si la suma de sus probabilidades, es decir la unión de ambos,
  • 53. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior da como resultado la probabilidad del espacio muestral. Si dos eventos cumplen estos dos requisitos se dicen que forman una partición del espacio muestral M. 7. Sea A es un evento en M, entonces P[A´] = 1 – P[A] Probabilidad Condicional (Dependencia de Eventos) A menudo sucede que la ocurrencia de un evento depende de la ocurrencia de otro y es de frecuente interés obtener la probabilidad de un evento, donde dicho evento está condicionado a la ocurrencia de un subconjunto del espacio muestral (otro evento). Es decir, que se dice que el evento B ha ocurrido y se quiere saber la probabilidad que ocurra el evento A. Sea A y B dos eventos en el espacio muestral M si P [B]  0, se define la probabilidad condicional del evento A dado el evento B como:  ; P  Es decir, la probabilidad condicional es una probabilidad calculada en un espacio muestral reducido, B; pues a partir de la información se sabe con probabilidad 1 que el evento B ya ocurrió. En la práctica se puede resolver este problema usando la definición, esto es calculando la P [AB] y P [B] con respecto al espacio muestral original, o bien considerando la probabilidad del evento A con respecto al espacio muestral reducido B, es decir, del evento que condiciona. Ejemplo... Una empresa tiene 300 trabajadores de los cuales 100 son casados y 30 son divorciados. En dicha empresa trabajan 200 hombres, 85 de los cuales son casados y 95 son solteros. Se toma un trabajador al azar: a. Si el trabajador seleccionado es soltero, ¿cuál es la probabilidad que sea mujer?
  • 54. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior b. Si el trabajador seleccionado es mujer, ¿cuál es la probabilidad que sea soltera? c. ¿Cuál es la probabilidad que sea mujer o esté casada? Solución Lo primero que se tiene que hacer es extraer la información que proporciona el problema y ver como se puede completar la siguiente. Por otro lado se debe de partir del hecho que la información proporcionada se puede clasificar de acuerdo a dos criterios los cuales son: el sexo de los trabajadores y el estado civil de los mismos. En el caso del ejemplo se dispone de la siguiente información que se encuentra en el siguiente cuadro en forma cursiva. La restante se puede completar utilizando el concepto de complemento de evento. Sexo Estado Civil TotalCasado (C) Soltero (D) Divorciado (E) Femenino (A) 15 75 10 100 Masculino (B) 85 95 20 200 Total 100 170 30 300 Como se puede observar se está totalizando tanto por filas como por columnas, es decir, de acuerdo a los dos criterios de clasificación de la información. A esto se le llama probabilidades marginales y a la información del interior del cuadro se le llama probabilidad conjunta de los dos eventos (criterios de clasificación). Resolviendo el problema se tiene: a. Si el trabajador seleccionado es soltero, ¿cuál es la probabilidad que sea mujer?. En este caso el evento condicionante es que el trabajador sea soltero y el evento dependiente es que sea mujer. Los problemas de probabilidad de eventos dependientes se pueden resolver de dos manera: respecto al espacio muestral original y respecto al espacio muestral restringido del evento que condiciona. Para el primer caso: ( ⁄ )
  • 55. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior Para el segundo caso, es decir, respecto al espacio muestral restringido del evento condiciónate se tendría que ver cuántas veces se repite el evento trabajador de sexo femenino y cuántas veces se repite el evento trabajador soltero. De acuerdo a esto se tiene que: ( ⁄ ) = Como se puede observar ambos resultados coinciden en el mismo resultado. b. Si el trabajador seleccionado es mujer, ¿cuál es la probabilidad que sea soltera? Esto tiende a confundir pensando que es el mismo del inciso a., sin embargo el evento condicionante es ahora que el trabajador sea Mujer. De acuerdo a esto se tiene: ( ⁄ ) = c. ¿Cuál es la probabilidad que sea mujer o esté casada? [ ] [ ] [ ] Independencia de Sucesos En probabilidad condicional la ocurrencia de un evento condiciona la probabilidad de un segundo evento. Sin embargo, hay muchos casos donde los eventos están totalmente sin conexión, y la ocurrencia de uno de ellos no cambia la probabilidad de ocurrencia del otro, en este caso se dice que son independientes. Sean A y B dos eventos y sea P [B]  0., A y B son eventos independientes si: a.- P[A/B] = P[A]
  • 56. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior Como consecuencia, si A y B son independientes y  P [A/B] = P[AB]/P[B] = P[A]  P[AB] = P[A]P[B] y viceversa Dos eventos A y B son independientes si se cumple cualquiera de las siguientes condiciones: .- P[A/B] = P[A] .- P[B/A] = P[B] .- P[AB] = P[A].P[B] Ejemplo...
  • 57. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior Un impulso eléctrico debe de pasar del punto I al II para producir una señal. Para llegar al punto II debe de pasar por dos componentes electrónicos (E1 y E2). La trayectoria del impulso se interrumpe si falla cualquiera de los dos componentes. La probabilidad de que el componente E1 no falle es 0.7 y la probabilidad que el componente E2 no falle es 0.8. Además, la probabilidad de que al menos uno no falle es 0.94. ¿Cuál es la probabilidad de que la señal se produzca? A = Componente E1 no falle = P[A] = 0.7 B = Componente E2 no falle = P[B] = 0.8 P [AUB] = 0.94 Para que se produzca el impulso eléctrico, ninguno de los componentes (E1 y E2) deben de fallar  la probabilidad solicitada es P[AB]. P[AUB] = P[A] + P[B] - P[AB] P [AB] = P[A] + P[B] - P[AUB] = 0.7 + 0.8 - 0.94 = 0.56 P[AB] = P[A]P[B] = 0.7*0.8 = 0.56 Probabilidad Total Sean A1, A2,..., Ak, eventos que forman una partición del espacio muestral y Sea B un evento en el espacio muestral. Si P[A1], P[A2],..., P[Ak], P[B/A1], P[B/A2],..., P[B/Ak] son probabilidades conocidas y se está interesado en la ocurrencia del evento B. Para obtener esta probabilidad se hace uso del Teorema de Probabilidad Total que partiendo de las premisas anteriores se enuncia de la siguiente manera: ∑ * ⁄ + [ ⁄ ] [ ⁄ ] * ⁄ +
  • 58. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior Ejemplo: Un profesor tiene tres secretarias con diferentes niveles de competencia. Las secretarias son S1, S2, S3. La secretaria S1 ha escrito el 20% de un trabajo, la secretaria S2 el 40% y la secretaria S3 el 40%. Hay un error ortográfico que irrita en especial al profesor, y éste ha calculado que S1 lo comete el 90% de las veces que tiene que escribir la palabra en cuestión, que S2 lo comete el 40% de las veces, y S3 nunca. ¿Cuál es la probabilidad de que el profesor encuentre el error mencionado? Obteniendo la información que proporciona el problema se tiene: P [S1] = 0.20; P [S2] = 0.40; P [S3] = 0.40; P [ ⁄ P [ ⁄ P [ ⁄ ; entonces la probabilidad del error es: P [E] = P [S1]* P [ ⁄ + P [S2]* P [ ⁄ + P [S3]* P [ ⁄ P [E] = ((0.20*0.90) + (0.40*0.40) + (0.40*0)) = 0.34 Lo anterior se puede facilitar si se usa un árbol de probabilidades como se muestra a continuación P [S1] = 0.20 P [S2] = 0.40 P [S3] = 0.40 P [E/S1] = 0.90 P [E’/S1] = 0.10 P [E’/S2] = 0.40 P [E/S2] = 0.60 P [E’/S2] = 1 P [E/S3] = 0
  • 59. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior Supóngase ahora que el evento “B” ya ha ocurrido y se está interesado en saber a cuáles de los eventos que forman la partición del espacio muestra se ha debido su ocurrencia. En este caso se hace uso del Teorema de Bayes que partiendo también de las premisas anteriores se enuncia de la siguiente forma: * ⁄ + * ⁄ + * ⁄ + Como se puede observar, el denominador no es más que la probabilidad “B”, es decir, la probabilidad total. Ejemplo> Si el profesor encuentra el error mencionado en una página del trabajo. ¿Cuál es la probabilidad de que esa página la haya escrito secretaria S1?, ¿la secretaria S2?, ¿la secretaria S3? [ ⁄ ] [ ⁄ ] ( ) [ ⁄ ] [ ⁄ ] ( ) [ ⁄ ] [ ⁄ ] ( )
  • 60. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior REGRESION Y CORRELACION LINEAL SIMPLE Regresión Lineal Simple En muchas áreas de la investigación científica, la variación en las mediciones de una variable en estudio es causada preponderantemente por otras variables relacionadas cuyas magnitudes cambian en el curso del experimento. La incorporación explícita de los datos de estas variables que influyen en el análisis estadístico, permite conocer la naturaleza de las relaciones y utilizar esta información para mejorar la descripción y las inferencias de las variables de interés primario. Al probar las relaciones entre variables es importante que el valor de la variable pueda ser predicha de las observaciones de otra variable o aún controladas y optimizadas manipulando los factores de influencia. El análisis de regresión es un conjunto de métodos estadísticos, que tratan con la formulación de modelos matemáticos que describen las relaciones entre variables y el uso de estas relaciones modeladas con el propósito de predecir e inferir. Supuestos del modelo de Regresión Lineal Simple Al igual que en otros tipos de análisis estadísticos, el modelo de Regresión Lineal Simple se basa en ciertos supuestos que a continuación se detallan. Supuesto 1. "Y" es una variable aleatoria cuya distribución probabilística depende de "X" Este supuesto quiere decir que para cualquier valor de "X", "Y" es una variable aleatoria con cierta distribución probabilística con media μy/x y σ²y/x. Note que esta suposición solamente implica que "Y" es una variable aleatoria que depende de "X", y no toma en cuenta la forma lineal. Por otra parte, significa que la variable X se mide sin error y fijada por el investigador.
  • 61. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior Supuesto 2. Modelo de la línea recta Esta suposición requiere que la ecuación para μy/x sea una línea recta, es decir que μy/x = ß0 + ß1Xi y, por lo tanto, que la ecuación de dependencia sea Y = ß0 + ß1Xi + ε. Con esta restricción, la línea que une a μy/x debe de ser una recta, por lo tanto se puede tener una de las siguientes situaciones: Puede ser que se tenga una relación positiva entre las variables X y Y, esto quiere decir que a medida que aumenta X, Y también aumenta. Otra situación que se puede dar es una relación inversa, es decir, que a medida que aumenta X, Y disminuye. En el último caso se recurre al hecho de que regresión también se entiende como la tangente inversa del ángulo de inclinación de una recta. En los dos primeros casos las rectas tienen pendiente y en el tercer caso, no hay pendiente lo cual indica que no existe regresión lineal entre ambas variables. Supuesto 3. Homogeneidad de varianza Esta suposición es muy importante en el análisis de regresión. La varianza de la distribuciones de "Y" son idénticas para todos los valores de "X". En otras palabras, se supone que σ²y/x1 = σ²y/x2 = σ²y/xn = σ², donde σ² es la varianza común (desconocida) para todas las distribuciones de "Y", independientemente del valor de "X". Esto quiere decir, que la media de "Y" se modifica con el valor de "X", pero la varianza se mantiene constante. Supuesto 4. Independencia Y X
  • 62. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior Los valores de "Y" deberán ser estadísticamente independiente. Un ejemplo donde se viola este supuesto es cuando se realizan mediciones de peso a un mismo individuo en un lapso menor a una hora. Supuesto 5. Normalidad La distribución de "Y" para cualquier valor de "X" es normal. Esto equivale a suponer que la variable aleatoria no observable ε es normal y su media es cero ya que "X" se toma como variable no aleatoria susceptible a ser manipulada por el investigador. Todos los supuestos anteriores se pueden resumir en los siguientes: 1. "Y" es una variable aleatoria cuya distribución probabilística depende del valor de "X". 2. La ecuación de regresión es una línea recta. 3. Homogeneidad de varianza. 4. Independencia de las observaciones lo que implica que los errores son independientes. 5. Normalidad. En la Figura 1 se muestran los supuestos de normalidad y homogeneidad de varianza.
  • 63. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior Diagrama de Dispersión Este diagrama tiene por objetivo dar una idea de la posible relación existente entre la variable dependiente Y y la independiente X. Para realizar un diagrama de dispersión se coloca en el eje de las abscisas los valores correspondiente a la variable independiente X y en el eje de las ordenadas los valores de la variable dependiente Y. Luego se colocan puntos en la intersección de los valores de ambas variables. Un ejemplo de lo anterior se muestra en seguida. Los datos que se muestran a continuación corresponden a la producción en miles de millones de dólares de 10 empresas y sus costos de producción de las mismas en miles de millones de dólares. Para construir un diagrama de dispersión lo primero que se tiene que hacer es determinar quién es la variable dependiente y quién es la variable independiente, es decir, establecer la relación entre dichas variables. Esta relación debe ser lo más natural posible. En el caso del problema, es de suponerse que a medida que aumenta la producción también se incrementarán los costos de producción por todo lo concerniente a ello (materia prima, horas hombres, gastos de energía, etc.). Entonces definimos a X, variable independiente, a la Producción y a Y, variable dependiente, a los costos de producción. De acuerdo a esto se tiene lo siguiente:
  • 64. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior Producción (X) (miles de millones de $us) Costo (Y) (miles de millones $u) 10 3 18 5 12 4 16 5 22 8 36 12 30 10 32 14 26 12 12 3 El diagrama de dispersión quedaría de la siguiente forma: Figura 2. Diagrama de Dispersión entre producción y costo de producción De acuerdo a la información que proporciona el diagrama de dispersión se puede observar que a medida que aumenta la producción de las industrias, aumentan los costos de producción de las mismas, es decir, se concluir que existe una relación positiva entre estas variables y además se puede ver que esta relación tiende a ser lineal. 0 2 4 6 8 10 12 14 16 0 5 10 15 20 25 30 35 40 Costo(Milesdemillones$us) Producción (Miles de Millones $us)
  • 65. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior Método de Mínimos Cuadrado Como lo plantea el supuesto 2 del modelo de regresión lineal simple, "Modelo de la Línea Recta", que de existir una relación entre X y Y, ésta debe ser una línea recta. Entonces a partir de muestra (x1, y1), (x2, y2),..., (xn, yn), de las variables "X" y "Y", se trata de obtener una ecuación que represente la relación entre dichas variables. El modelo del cual se habla es de una ecuación punto pendiente como sigue: El problema de esta modelo es que sus componentes son parámetros y por lo tanto, son estados desconocidos de la naturaleza generalmente. Es por ello que es necesario obtener estimadores de ß0 y ß1 para estimar adecuadamente la recta de regresión μy/xi. El estimador de μy/xi se denota por: ̂ ̂ ̂ Para llegar a obtener estos estimadores se hace uso de la técnica propuesta por Carl Gauss (1777-1855). Este método se basa en la idea de obtener estimadores para los componentes del modelo que minimicen la suma de cuadrados de las distancias entre los valores observados (Yi) y los estimados ( ̂ ). Esto significa que se tiene que minimizar la suma de cuadrados de las longitudes de los segmentos de las líneas verticales que unen los datos observados con la recta estimada como se muestra en la Figura 3. Figura 3. Esquematización de la técnica de mínimos cuadrados.
  • 66. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior A la técnica antes mencionada se le denomina "Técnica de Mínimos Cuadrados". Usando notación matemática, el método de mínimo cuadrados consiste en encontrar los estimadores de ß0 y ß1. Al aplicar la técnica de mínimos cuadrados se llegan a obtener las ecuaciones de trabajo de ̂ y ̂1^ (en este caso se ha omitido los procesos de derivación mediante el cual se llega a obtener las fórmulas de trabajo). Estas ecuaciones son las siguientes: ̂ ( ) ; ̂ ̂ ̅. Donde: ̂ Coeficiente de Regresión ̂ Intercepto de la recta de estimación Ejemplo: Retomando los datos que se utilizaron para construir el diagrama de dispersión y aclarando que “X” es Producción (miles de millones de $us) y “Y” Costos (miles de millones de $us) y haciendo uso de las ecuaciones derivadas a través de la técnica de mínimos cuadrados se tiene lo siguiente:
  • 67. Escuela Militar de Ingeniería Unidad Académica Santa Cruz Maestría en Educación Superior Estadística Aplicada a la Educación Superior Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior X Y XY X2 Y2 10 3 30 100 9 18 5 90 324 25 12 4 48 144 16 16 5 80 256 25 22 8 176 484 64 36 12 432 1296 144 30 10 300 900 100 32 14 448 1024 196 26 12 312 676 144 12 3 36 144 9 Totales 214 76 1952 5348 732 Promedio 21.4 7.6 ̂ ( ) ; ̂ ( ) = 0.423738, Coeficiente de regresión ̂ ̂ ̅; ( ) ; Intercepto, por lo tanto la ecuación de estimación quedaría de la siguiente manera: ̂ ; o bien se puede decir que: Costos = 0.423738 (Producción) – 1.46798 Un aspecto que no se debe olvidar es que el propósito de la Regresión Lineal Simple es el de predecir el comportamiento de una variable dependiente a través del conocimiento de una variable independiente, es por ello que se debe estar seguro que la ecuación de estimación sirve para este propósito (que existe regresión lineal simple). Por esta razón es que la ecuación de estimada debe ser sometida a un proceso de validación.