Procesamiento de la información estadística-RENE BAZALDUA

PROCESAMIENTO DE
INFORMACIÓN ESTADÍSTICA
Lic. René Bazaldúa
LICIENCIATURA EN EDUCACIÓN PREESCOLAR

UNIDAD 1
ESTADÍSTICA
DESCRIPTIVA

1.1 IMPORTANCIA DEL ESTUDIO DE LA
ESTADÍSTICA
La estadística se ha convertido en el lenguaje universal
de las ciencias. Como potencial usuario de ella,
necesitas dominar tanto la “ciencia” como el “arte” de
usar correctamente la metodología estadística. El uso
cuidadoso de los métodos estadísticos nos permitirá
obtener información precisa a partir de los datos.
Dichos métodos incluyen:
1. Definir cuidadosamente la
situación
2. Recolectar datos
3. Resumir con precisión los
datos
4. Derivar y comunicar
conclusiones significativas.

La palabra estadística tiene diferentes significados para
personas de varios antecedentes e intereses. Para
algunas personas es un campo de “trucos mágicos”
donde una persona trata de abrumar a otros con
información y conclusiones incorrectas. Para otros es
una forma de recolectar y mostrar información. Y para
otros más es una manera de “tomar decisiones ante la
incertidumbre”. En la perspectiva apropiada, cada uno
de dichos puntos de vista es correcto.
ACCIDENTES
AUTOMOVILÍSTICOS

El campo de la estadística puede subdividirse en dos
áreas:
2. La estadística
inferencial, la cual se
refiere a la técnica de
interpretar los valores
que resultan a partir de
las técnicas
descriptivas, tomar
decisiones y extraer
conclusiones acerca de
la población.
1. La estadística descriptiva, la cual es en lo que piensa
la mayoría de las personas cuando escuchan la
palabra estadística. En ella se incluye la recolección,
presentación y descripción de datos muéstrales.

En ciencias, deben
recolectarse y analizarse
los datos resultantes de
los experimentos.
Los usos de la estadística son ilimitados. Es mucho más
difícil mencionar un campo donde no se use la estadística
que mencionar uno en el que la estadística tenga una parte
integral; entre los más relevantes se encuentran:
En educación,
frecuentemente se usa la
estadística descriptiva para
presentar resultados de
exámenes.
En el gobierno, todo el
tiempo se recolectan
muchos tipos de datos
estadísticos.

La población es la colección más completa de
individuos u objetos que son de interés para el
recolector de la muestra. La población a estudiar debe
definirse cuidadosamente y se considera
completamente definida sólo cuando se especifica su
lista de elementos miembros.
Terminología
Existen dos tipos de
poblaciones: finita e
infinita. Cuando la
membresía de una
población puede (o
pudiera) mencionarse
físicamente, se dice que la
población es finita. Cuando
la membresía es ilimitada,
la población es infinita.

Datos: El conjunto
de valores
recolectados de la
variable para cada
uno de los
elementos que
pertenecen a la
muestra.
La muestra: consiste en los individuos, objetos o
mediciones seleccionados de la población en una
determinada investigación. Sus principales
características son:
 Representativa
 Adecuada y válida

Variable: (o variable de respuesta) Una
característica de interés acerca de cada elemento
individual de una población o muestra. Las
muestras pueden dividirse en los siguientes tipos:
Variable
Cualitativa o
atributo
Nominal
Ordinal
Cuantitativa o
numérica
Discreta
Continua

Variables cualitativas:
 Variable nominal: Variable cualitativa que
caracteriza (describe o nombra) un elemento de
una población.
 Variable ordinal: Variable cualitativa que incorpora
una posición ordenada o clasificación.Variables cuantitativas:
 Variable discreta: Variable
cuantitativa que puede
asumir un número
contable de valores.
 Variable continua: Variable
cuantitativa que puede
asumir un número
incontable de valores.

Valor de datos: El valor de la variable asociado con un
elemento de una población o muestra. Este valor
puede ser un número, una palabra o un símbolo.
Parámetro: Valor numérico que resume todos los
datos de una población entera.
Experimento Actividad planificada cuyos resultados
producen un conjunto de datos.

1.2 TABLAS DE DISTRIBUCIÓN DE
FRECUENCIAS
Y REPRESENTACIONES GRÁFICAS.La estadística se considera un método utilizado para
recoger, organizar, concentrar, reducir, presentar, analizar,
generalizar y contrastar los resultados numéricos (datos)
de observaciones directas o indirectas de fenómenos
reales, así como de la información obtenida a partir de la
experimentación, para estar en
condiciones de llevar a cabo tanto
evaluaciones como conclusiones
adecuadas, y tomar decisiones
acertadas y confiables.
Dicho análisis puede verse reflejado
en tablas o de una manera más
significativa, que es mediante
gráficas.

1.2.1 ASPECTOS BÁSICOS DE EXCEL
¿Qué es Excel?
MICROSOFT EXCEL (MS Excel) es una planilla de
cálculo, de gran capacidad y facilidad de uso. Las
planillas de cálculo son un tipo de herramienta
orientado a manejar información numérica
preferentemente, permitiendo realizar sobre ella
cálculos y gráficos de diversa complejidad.

∆ Un Libro de Trabajo es un archivo de trabajo y
almacenamiento de datos. Un Libro de Trabajo
puede contener una o varias hojas de distintos
tipos (hojas de cálculo, hojas de gráfico).
∆ La hoja de cálculo es la principal base de
almacenamiento y manipulación de datos de
un Libro de Trabajo. Una hoja de cálculo se
divide en filas y columnas, que forma una
gran cuadrícula compuesta por un
sinnúmero de pequeñas celdas donde se
almacenan los datos. Una hoja de calculó
siempre formará parte de un Libro de
Trabajo.
Elementos:

FILAS
COLUMNAS
HOJAS
CELDA
CELDA
SELECCIONADA FUNCIÓN
HOJA
NUEVA
ANCHURA
COLUMNAALTURA
COLUMNA

∆ Una lista es una ordenación de datos similares
(registros), por ejemplo, un listado de alumnos y sus
respectivas calificaciones de examen. Un Libro MS
EXCEL puede contener una lista como una base de
datos y proporcionar herramientas estándares para
ordenar, filtrar, agregar, eliminar y resumir datos de
una lista.

∆ A partir de dichas listas, se pueden representar
gráficamente un conjunto de datos almacenados en
una hoja de cálculo y con la posibilidad de elegir entre
múltiples y diferentes formatos y tipos; que se
agrupan básicamente en los siguientes:

∆ Gráfica de Barras. Se Utiliza regularmente para la
comparación de una serie de datos. Como por ejemplo
los resultados de exámenes de algunos alumnos.

∆ Gráfica Circular. Partiendo de un total, se usa para
conocer la distribución de distintos elementos. Como
por ejemplo en un convivio, la cantidad de alumnos
que deciden por un tipo de comida.

∆ Gráfica Lineal. Partiendo de un conjunto de dos datos
de una misma clasificación, se usa para compararlos.
Por ejemplo el promedio bimestral en dos momentos
distintos.

ESP. MAT. CIENCIAS HISTORIA GEOG. CÍVICA ARTÍSTICA ED. FÍSICA
8.1 8.1 8.3 7.8 7.8 8.9 8.7 9.2
1. Un maestro de Quinto Grado clasificó a sus alumnos de
acuerdo al promedio de evaluaciones que obtuvieron en el
Tercer Bimestre.
2. En el Cuarto Bimestre obtuvo los siguientes promedios de
calificaciones de sus alumnos.
9 a 10 8 a 9 7 a 8 6 a 7 5 a 6
5 7 9 4 2
3. En el Quinto Bimestre obtuvo los siguientes resultados;
pero desea compararlos con los resultados del Cuarto
Bimestre.ESP. MAT. CIENCIAS HISTORIA GEOG. CÍVICA ARTÍSTICA ED. FÍSICA
8.3 7.8 8.1 8.0 7.7 9.2 9.1 9.5
ACTIVIDAD 1.3

Después de elaborar las gráficas se pasará a elaborar el
resumen de resultados en documento de trabajo (Word)
con el siguiente formato:

8.1 8.1 8.3 7.8 7.8 8.9 8.7 9.2
1. Un maestro de Quinto Grado de Primaria obtuvo los
siguientes promedios de calificaciones de sus alumnos
correspondientes al Cuarto Bimestre. Elabora una GRÁFICA
DE BARRAS.
2. Elabora una GRÁFICA CIRCULAR para la siguiente
distribución de promedios de los alumnos:
9 a 10 8 a 9 7 a 8 6 a 7 5 a 6
5 7 9 4 2
3. Elabora una GRÁFICA DE LINEAL para comparar los
promedios del Quinto Bimestre con los del bimestre anterior:
8.3 7.8 8.1 8.0 7.7 9.2 9.1 9.5
ACTIVIDAD 1.3

1.3 MEDIDAS DE TENDENCIA CENTRAL
Las medidas de tendencia central son valores
numéricos que ubican, en cierto sentido, el centro de un
conjunto de datos. Con frecuencia, el término promedio
se asocia con todas las medidas de tendencia central.

La media muestral se representa con ("x barra" o
"media muestral"). La media se encuentra al sumar
todos los valores de la variable x y dividir la suma entre
el número de dichos valores, n (el "tamaño muestral").
Esto se expresa en forma de fórmula como:
suma de todas las x
número de x
x barra
=
=x ∑x
n
x
A. Media (media aritmética)

1 MELISA DENISS 8.6
2 JORGE HERON 8.2
3 KEVIN URIEL 6.5
4 ALEJANDRA ELI 8.9
5 ADAMARIS 8.3
6 JOSUE ALBERTO 9.2
7 MOISES ALBERTO 9.5
8 ARTURO JEANCARLO 9.1
9 MELENY 8.6
10 KEVIN EDUARDO 9.0
11 AXEL MANUEL 7.7
12 CINTHIA GABRIELA 7.7
13 JUAN DE DIOS 7.1
14 ANGELAABIGAIL 7.8
15 KENIA PAMELA 8.2
EJEMPLO: Un maestro de 3º grado registró las evaluaciones de
sus alumnos y quiere obtener la media aritmética para saber el
promedio del grupo:
=x ∑x
n
=x
15
8.6+8.2+6.5+8.9+8.3+9
.2+9.5+9.1+8.6+9.0+7.
7+7.7+7.1+7.8+8.1
=x 124.4
15
=x
8.29333

B. Mediana.
Valor de los datos que ocupan la posición media cuando los
datos se clasifican en orden de acuerdo con su tamaño.
Para ello, se tendrá que obtener la mediana muestral ( x ).
1. Clasifica los datos.
2. Determina la profundidad de la mediana. La profundidad
o posición (número de posiciones desde cualquier
extremo), de la mediana se determina con la fórmula
La profundidad (o posición) de la mediana se encuentra
al sumar los números de posición de los datos más
pequeños (1) y los datos más grandes (n) y dividir la
suma entre 2 (n es el número de piezas de datos).
x =
n+1
2
Mediana muestral = Tamaño muestral + 1
2

3. Determina el valor de la mediana. Cuenta los datos
clasificados, ubica los datos en la ( x )ésima
posición. La mediana será la misma sin importar
desde cuál extremo de los datos clasificados (alto o
bajo) contaste. De hecho, contar desde ambos
extremos servirá como una excelente comprobación.
4. En el caso de medias pares el resultado será con
punto decimal (0.5) lo que implicará la división entre
los números enteros subsiguientes; por ejemplo si x
= 2.5 en una sucesión de 3,4,5,6 la división sería
entre el 4 y el 5 reultando el valor de la mediana 4.5.

1 CARLOS 6
2 PERLA 9
3 ANA 7
4 CARMEN 8
5 ANDRÉS 6
6 ALBERTO 8
7 MAYRA 7
8 SOFÍA 6
9 AXEL 8
10 MIRIAM 9
EJEMPLO: Un maestro de una escuela de inglés elaboró el
listado de edades de sus alumnos, obteniendo los siguientes
resultados:
2
10+1
11
2
7.5
x =
n+1
2
x =
x =
x =
Mediana =
5.5
6 , 6 , 6 , 7 , 7 , 8 , 8 , 8 , 9 , 9

C. Moda.
En una distribución de datos determinada, es el dato
que más se repite.
EJEMPLO:
• En un registro de fechas de nacimiento se
encontraron los siguientes datos en relación al año de
nacimiento: 1992, 1993, 1994, 1994, 1995, 1996, 1997,
1997, 1998, 1998, 1998 y 1999.
• En este caso, la moda sería el número 1998, ya que se
repite más veces (3).
• En el caso hipotético en el que el 1998 se repitiera
sólo dos veces se establecería que esa situación no
existiría la moda.

D. Medio Rango.
EJEMPLO:
• Un maestro registró el número de participaciones de un
alumno durante 5 semanas consecutivas, obteniendo el
siguiente dato: 3, 3, 5, 6 y 8.
Número exactamente a la mitad entre un dato de valor más
bajo, (L) y un dato de valor más alto (H). Se encuentra al
promediar los valores bajo y alto:
medio rango =
Valor bajo + valor
alto
2
medio rango =
2
L + H
medio rango =
2
L + H
medio rango =
2
3 + 8
medio rango = 5.5

E. Aplicaciones de las Medidas de Tendencia Central.
Lógicamente como toda ecuación matemática estadística, las
Medidas de Tendencia Central tienen su aplicación práctica.
En lo que corresponde a la media, su uso se ha generalizado
debido a que es la que nos arroja el dato más cercano a un
promedio. Sin embargo, al usarla debemos de considerar que
la serie de datos con la que vamos a trabajar sea lo más
homogénea posible, y que su distribución sea lo más
equitativa posible.
La elaboración de
promedios en evaluaciones
educativas utiliza por
default este tipo de
medida, ya que los datos
no varían mucho entre sí y
por lo regular son muy
homogéneos.

En este mismo caso, la
mediana y la moda serían
de $3 000, lo cual reflejaría
aún más el ingreso general
de cada uno de los
miembros de dicho grupo.
Imaginemos que en grupo de diez personas, nueve de
ellas son de escasos recursos económicos que perciben
$3 000 al mes, y uno de ellos es un adinerado que gana
$600,000 al mes. El promedio de ingreso del grupo sería
de $62 700, cifra que no representaría lo que la mayoría
gana.
En lo que se refiera a la mediana y a la moda su utilidad
se acentúa cuando la serie de datos no es muy
homogénea y/o los datos no están bien distribuidos.

Cosa inversa ocurre cuando tenemos una situación en
donde por ejemplo de tenemos un grupo de diez
personas en donde tres de sus integrantes tienen 3 años
y que es el valor que más se repite (moda), pero los 7
restantes tienen edades que oscilan entre los 14 y 18
años (3,3,3,14,14,15,16, 17, 17,18). La moda aquí no
reflejaría la edad que la mayoría del grupo posee.
O un alumno que obtuvo
las siguientes
calificaciones:
6,6,6,6,9,10,10. En este
caso la mediana sería de
6, pero no sería
representativa de todas
sus evaluaciones.

medi
a
En sí, cada una estas medidas tiene un punto bueno y
un punto ciego; lo importante o interesante aquí, es
que a final de cuentas se complementan, y cuando
realmente se desea conocer un dato con mayor
certeza el uso de las tres (o 4) medidas de tendencia
centra será mejor, que usar sólo una, ya que nos
arrojará con mayor precisión el dato más cercano a la
situación real.

1.3.1 Uso de fórmulas en Excel
La carta fuerte del Excel definitivamente es el uso de
fórmulas, ya que nos da una gran variedad de
operaciones matemáticas para los datos que
introducimos en el mismo.Se puede usar Excel para calcular los totales de una
columna o una fila de números, pero también puede
calcular el pago de una hipoteca, resolver problemas
matemáticos o de ingeniería, o dar con la hipótesis más
optimista en función de las variables que introduzca.

Excel realiza estas operaciones usando fórmulas en las
celdas. Una fórmula realiza cálculos u otras acciones
con los datos de su hoja de cálculo. Una fórmula
siempre empieza con un signo igual (=), seguido de
números, operadores matemáticos (como los signos de
más y menos) y funciones, que pueden ampliar el poder
de una fórmula.Por ejemplo, la
siguiente fórmula
multiplica 2 por 3 y,
después, suma 5 al
resultado para dar con
la respuesta, 11.
=2*3+5

Así mismo se puede hacer operaciones en el que se
incluya información que se ha ingresado en una o más
celdas.
Por ejemplo supongamos que queremos multiplicar lo
que contiene la celda A1 por lo que contiene la celda A2
y dividirlo entre lo que tiene la celda A3, la fórmula sería
la siguiente: =(A1*A2)/A3.

Estas son algunas de los tipos de fórmulas que se
pueden escribir en una hoja de cálculo.
• =A1+A2+A3 Suma los valores de las celdas A1, A2 y
A3.
• =RAIZ(A1) Usa la función RAIZ para devolver la raíz
cuadrada del valor contenido en A1.
• =HOY() Devuelve la fecha actual.
• =MAYUSC("hola") Convierte el texto "hola" en
"HOLA" mediante la función MAYUSC.
• =SI(A1>0) Comprueba si la celda A1 contiene un
valor mayor que 0.

Medidas de Tendencia Central en Excel
Para obtener la Media, en Excel debemos de seleccionar
los datos (de los que queremos obtenerla) y poner la
siguiente fórmula.
Para esta fórmula se
puede anotar esta
información en la
celda correspondiente
o ir seleccionado
directamente las
celdas que se desean
incluir.
=PROMEDIO(A1,A2,A3,A4,A,5,A6,A7,A8,A9,A10) ó
=PROMEDIO(A1:A10)

En relación a la Mediana y a la Moda, las fórmulas
serían:
=MEDIANA(datos).
=MODA (datos).
En el caso del Medio Rango,
no existe una fórmula
específica, por lo que se
tendrá que especificar en la
celda lo que se desea
realizar. Por ejemplo si el
dato mayor corresponde a la
celda A1 y el Mayor a la
celda A10, su fórmula
quedaría así
=(A1+A10)/2

ACTIVIDAD 1.5
1. Obtén la Media Aritmética de cada uno de los 5
Bimestres y de cada una de las Asignaturas. Y un
promedio final de todo ello:

2. Obtén la Mediana y
la Moda de cada una
de las asignaturas
para compararlos
con sus respectivos
promedios (Media
Aritmética).

3. Obtén el Medio Rango de las siguientes
calificaciones. reneb@cmt.edu.mx

Las medidas de posición se usan para describir la
posición que un valor de datos específico posee en
relación con el resto de los datos cuando están en
orden clasificado. Cuartiles y percentiles son dos de
las medidas de posición más populares.
1.4 MEDIDAS DE POSICIÓN

Son los valores de una variable que dividen al
conjunto de datos ordenados en 100 subconjuntos;
cada conjunto de datos tiene 99 percentiles. El k-
esimo percentil, Pk, es un valor tal que cuando
mucho (100-k) % de los datos es mayor. Esto se
muestra en el siguiente esquema:
1% 1% 1% 1%
Min. P1 P2 P3 P4 P5 P6
1% 1% 1%
P97 P98 P99 Max
A. Percentiles
Así
hasta…

Son los valores de una variable que dividen en
cuartos a los datos ordenados; Cada conjunto de
datos posee tres cuartiles. El primer cuartil, Q1, es el
número tal que cuando mucho el 25% de los datos
es menor que el valor de Q1. El segundo cuartil es la
mediana. El tercer cuartil, Q3, es un número tal que
cuando mucho el 75% de los datos es menor que
Q3. Esto se muestra en el siguiente esquema:
B. Cuartiles
25% 25% 25% 25%
Min. Q1 Q2 Q3 Max

El primer cuartil y el 25avo percentil son iguales; es
decir, Q1=P25. También, Q3=P75.
La mediana, el segundo cuartil Q2, y el 50avo
percentil son iguales, Mediana = Q2 = P50 , así
cuando se pida encontrar Q2 o P50, aplique el
procedimiento para encontrar la mediana.
P 10 P 20 P 30 P 40 P 50 P 60 P 70 P 80 P 90
Q 1 Q 2 Q 3
MEDIANA

Cuartiles y Percentiles para datos no
agrupados.El procedimiento para determinar el valor de los
cuartiles es el mismo que para los percentiles y se
muestran a continuación:
1. Ordenar los datos del menor al mayor.
3. a). Si el resultado del cálculo anterior ( ) es un
número entero, se le deberá sumar 0.5.
2. Calcular , donde n es el tamaño de la muestra y k
la medida de posición buscada (cuartil o percentil).
nk
100
nk
100
4. Con la posición encontrada en el paso anterior,
remitirse a los datos ordenados verificar a que valor
de nuestros datos le corresponde la posición
buscada.
b). Si el resultado del cálculo anterior ( ) no es un
número entero, este se deberá tomar como el
siguiente entero más grande.
nk
100

Los siguientes datos corresponden al número de autos
que llegan a diario al taller de la empresa Dodge para su
reparación, durante los meses de marzo y abril (40 días),
de lunes a viernes.
Determinar:
a) El 45 percentil P45.
b) Primer cuartil Q1
c) Tercer cuartil Q3
10 17 10 11 12 11 22 18 14 25 19 17 22 10 24 18 15 20 24 21
24 15 21 19 15 20 22 14 25 18 20 13 11 19 20 10 19 17 16 12
Paso 1
Ordenar los datos de menor a mayor.
10 10 10 10 11 11 11 12 12 13 14 14 15 15 15 16 17 17 17 18
18 18 19 19 19 19 20 20 20 20 21 21 22 22 22 24 24 24 25
25

Percentil P45.
Paso 2 .
n= 40 datos, k=45
P45 = nk
100
P45 = 40(45)
100
1800
100
= 18=
Paso 3
Como = el 18 es un número entero, por lo que se
deberá de agregar 0.5, entonces el P45 se encuentra en
la posición 18.5, entonces está entre 18 y 19avo dato.
nk
100
Paso 4
P45 en este caso está entre 17 y 17 autos, P45= 17;
P45= = = 1717+17
2
34
2
P45=17 autos.

Cuartil Q1.
Paso 2 .
n= 40 datos, k=25, ya que Q1= P25 (primer cuartil es
igual al 25 percentil)
Q1 = nk
100
Q1 = 40(25)
100
1000
100
= 10=
Paso 3
deberá de agregar 0.5, entonces el Q1 se encuentra en la
posición 10.5, entonces está entre 10 y 11avo dato.
nk
100
Paso 4
Q1 en este caso está entre 13 y 14 autos, Q1= 13.5;
Q1= = = 13.513+14
2
27
2
Q1=13.5 autos.

Cuartil Q3.
Paso 2 .
n= 40 datos, k=75, ya que Q3= P75 (primer cuartil es
igual al 75 percentil)
Q3 = nk
100
Q3 = 40(75)
100
3000
100
= 30=
Paso 3
deberá de agregar 0.5, entonces el Q3 se encuentra en la
posición 30.5, entonces está entre 30 y 31avo dato.
nk
100
Paso 4
Q3 en este caso está entre 20 y 21 autos, Q3= 20.5;
Q3= = = 20.520+21
2
41
2
Q3=20.5 autos.

C. Aplicaciones de las Medidas de posición.
En estadística descriptiva, las medidas de posición no
central permiten conocer otros puntos característicos de la
distribución que no son los valores centrales. Entre las más
importantes están los cuantiles y percentiles que son
aquellos valores de la variable, que ordenados de menor a
mayor, dividen a la distribución en partes, de tal manera que
cada una de ellas contiene el mismo número de frecuencias;
pero también existen los deciles y los quintiles.

20 21 22 18 32 44 54 21
14 15 18 43 32 45 21 42
32 45 60 22 34 25 39 27
23 24 28 32 45 52 28 35
45 38 42 19 23 45 34 24
24 35 56 32 28 28 34 56
Por ejemplo, en una encuesta acerca del uso de
algún aparato electrónico en una semana a 48
personas se obtuvieron las siguientes respuestas:

Según esa información encontramos que por
ejemplo:
► Mediana= 32
► Percentil 80 = 44.5
► 1 Cuartil = 23Esto quiere decir que por lo
menos por lo menos la mitad
(14 personas) las entrevistadas
le dedican 32 horas a la
semana.
Por lo menos el ochenta
porciento de las entrevistadas
le dedican menos de 44 horas a
la semana.
Por lo menos el 25 por ciento de
las personas entrevistadas le
dedican menos de 23 horas a la

Medidas de Posición en Excel
La obtención de Cuartiles y Percentiles en Excel es muy
similar a la obtención del Promedio, Mediana y Moda. En
el caso de los Cuartiles, se tendrá que ingresar el signo
de igual (=) seguido de la palabra “cuartil” después de
abre paréntesis y se selecciona la muestra a elegir,
seguido de un coma, y el número de cuartil a obtener,
cerrando así el paréntesis). =CUARTIL(A1:G6,1)

En el caso de los percentiles la dinámica es muy similar
a la de los cuartiles, sólo con la diferencia de que el
número de percentil que se desea obtener se deberá de
escribir con punto decimal, por ejemplo si se desea
obtener el percentil 75, se deberá de poner 0.75.
=PERCENTIL(A1:G6,0.75)

ACTIVIDAD 1.7
1. En una encuesta a 60 jóvenes universitarios acerca
de las horas de sueño al día se obtuvieron los
siguientes datos:
8 7 4 5 7 8 6 7 8 7
4 5 6 8 6 7 8 6 5 6
7 5 5 6 9 7 5 5 6 5
8 9 5 6 7 8 5 4 7 7
4 5 6 7 8 9 7 6 7 8
8 7 9 6 8 4 5 6 7 9
Ordena los datos de menor a mayor y obtén
el Cuartil 3.

2. En una medición a 32 niños de 8 años en un kinder se
obtuvieron los siguientes pesos:
Ordena los datos de menor a mayor y obtén
el Percentil 60.
15.8 14.3 13.2 18.5 15.5 16.8 14.5 13.3
12.5 14.5 16.2 15.3 18.2 17.7 13.4 14.5
12.9 13.1 17.5 15.4 16.3 15.8 16.2 12.8
13.3 14.5 18.3 16.2 17.5 17.2 18.3 18.1

1.5 MEDIDAS DE DISPERCIÓN
Una vez localizado el centro o algún punto en
particular de la distribución de un conjunto de datos
lo que procede es buscar una medida de dispersión
de los datos.
La dispersión o variación es una característica
importante de un conjunto de datos porque intenta
dar una idea de cuán esparcidos se encuentran
éstos.

Existen diversas medidas de dispersión, algunas de
ellas son:
1. Rango. Es la diferencia en valor entre los datos con
valor más alto (H) y los datos con valor más bajo, (L). Su
fórmula es:
r= H - L
Por ejemplo, la siguiente muestra (3, 3, 5, 6, 8) tendría un
rango de: H-L= 8 – 3= 5. Es decir, r= 5.
3 5 6 8
rango
L H

2. Desviación de la media. Mide la desviación promedio
de valores con respecto a la media del grupo, sin tomar
en cuenta el signo de la desviación.
Cada valor individual de x se desvía de la media por una
cantidad igual a (x - ). Esta desviación (x - ) es cero
cuando x es igual a la media, . La desviación (x - ) es
positiva cuando x es más grande que y negativa
cuando x es menor que .
x
x
x
x
x
x
=xD
Σ
i=1
n
(x - )x
i
n
x
x
Esto se expresa: x - , que es la diferencia entre el valor
de x y la media, La fórmula para obtener la Desviación
de la media (D ) es:

=xD
(x - )x
1
n
+ (x - )x
2 + (x - )x
3
+ (x - )x
4 + (x - )x
5
=xD
(6 - 5)
5
+ (3 - 5)+ (8 - 5)+ (5 - 5)+ (3 - 5)
Considera la muestra 6, 3, 8, 5, 3. Con la fórmula de la
media( ), encuentras que la media es 5. Cada
desviación, (x - ), se encuentra entonces al restar 5 de
cada valor x:
=x ∑x
n
x
=xD
8
5
=xD 1.6
=xD
Σ
i=1
n
(x - )x
i
n

3. Varianza muestral. La varianza muestral, s, es la
media de las desviaciones al cuadrado, calculada con n
- 1 como el divisor. Su fórmula es:
2
S =
Σ
i=1
n
(x - )x
i
n
2
2
En el ejemplo anterior (6, 3, 8, 5, 3); tenemos que la
media es igual a 5, por lo tanto:
S =
(x - )x
1
n
+ (x - )x
2 + (x - )x
3
+ (x - )x
4 + (x - )x
52
2 2 2 2 2
S =
(6 - 5)
5
+ (3 - 5)+ (8 - 5)+ (5 - 5)+ (3 - 5)2 2 2 2 2
2
S =
18
5
2
S = 3.6
2

4. Desviación estándar. La desviación estándar de
una muestra, S, es la raíz cuadrada positiva de la
varianza:
S = S
2
√
S = 3.6√
S = 1.89
En el ejemplo del ejercicio anterior, teniendo el dato de
que la varianza (S ) es igual a 3.6:2

Aplicaciones de las Medidas de disperción.
En estadística descriptiva, las medidas de disperción nos
ayudan entender mejor la distribución de los datos en
relación a sus medidas centrales. Por ejemplo, los siguientes
datos hacen referencia a las esturas que poseen distintas
personas que integran dos grupos diferentes de 12 personas
cada uno:
GPO. ESTATURAS EN CENTÍMETROS DE LAS PERSONAS D
A 150 145 179 150 185 145 185 185 149 152 168 190 165.25 16.75
B 164 163 165 162 165 169 162 165 168 164 169 167 165.25 2.0
x x
Aunque ambos grupos poseen una media de 165.25, la
desviación de la Media es muy distinta entre ellos; lo que
quiere decir que en el grupo A los datos están muy
dispersos, mientras que el el grupo B los datos están muy
cercanos.

Medidas de Dispersión en Excel
=(A5-A1)
Después nos posicionamos en
una celda en blanco, ponemos
el signo de igual (=), abrimos
paréntesis y después
seleccionamos la celda de
mayor valor (A5), seguida del
signo de menos (-) y
seleccionamos la celda de
menor valor (A1) y
presionamos ENTER. La
fórmula quedaría:
En primer lugar, Excel no tiene un fórmula
específica de Rango, por lo que tenemos que
ordenar primeramente los datos con la opción:

En el caso de Desviación de la Media, Varianza y Deviación
Estándar, Excel tiene una fórmula específica para cada una.
Para obtener la Desviación de la Media se necesita anotar el
signo de igual (=) seguido de la palabra: DESVPROM;
después se abre paréntesis y se elige la serie de datos que
se desea obtener; enseguida se cierra paréntesis y se
presiona ENTER. LA fórmula quedaría así:
=DESVPROM(A1:A5)

Para obtener la Varianza y la Desviación Estándar se sigue el
mismo procedimiento anterior; sólo cambia la frase que se
anota después del signo de igual.
La fórmula de Varianza quedaría:
=VAR.P(A1:A5)
La fórmula de Desviación Estándar quedaría:
=DESVEST(A1:A5)

ACTIVIDAD 1.9
RANGO
2.1 7.5
3.4 4.5
1.5 8.5
4.9 2.3
1.9 9.1
5.5 3.2
4.5 7.2
Desviación de
la Media
4.1 10.5 8.4
4.8 12.5 5.3
1.5 9.5 7.7
4.9 4.3 5.0
5.9 9.2 11.5
7.5 4.2 10.0
5.5 9.2 8.4
Varianza
1.0 2.0 1.2
1.8 1.5 0.5
1.5 1.2 1.5
2.0 0.9 1.3
1.9 1.3 1.2
1.5 2.1 1.7
1.5 0.7 1.2
Desviación
Estándar
12 82 55 47
27 29 79 53
54 75 17 15
34 45 42 85
10 32 39 92
95 44 33 70
Obtén lo que se te pide de las siguientes tablas numéricas:
reneb@cmt.edu.mx

1.6 ESTUDIO DE POBLACIONES CON DATOS
BIVARIADOSLos datos bivariados son valores de dos diferentes
variables que se obtienen a partir del mismo
elemento de población.
Cada una de las dos variables pueden ser
cualitativas o cuantitativas. Como resultado, los
datos bivariados pueden formar tres combinaciones
de tipos de variable:
a. Ambas variables son cualitativas (ambos
atributos).
b. Ambas variables son cuantitativas (ambas
numéricas).
c. Una variable es cualitativa (atributo) y la otra es
cuantitativa (numérica).

Cuando los datos bivariados resultan de dos
variables cualitativas (atributo o categórica), con
frecuencia los datos se ordenan en una tabla
cruzada o de contingencia.
a. Dos variables cualitativas
Ejemplo:
30 estudiantes fueron
identificados al azar y
clasificados de acuerdo con
dos variables: género (M/F) y
especialización:
Humanidades (LA),
administración de empresas
(BA) y tecnología (T).

Sujeto Género Especialidad Sujeto Género Especialidad Sujeto Género Especialidad
1 M LA 11 M T 21 M BA
2 F BA 12 M LA 22 F BA
3 M LA 13 F LA 23 M T
4 F LA 14 M T 24 F LA
5 M T 15 F T 25 M T
6 M BA 16 M BA 26 M BA
7 F LA 17 M LA 27 F LA
8 M T 18 M BA 28 F T
9 F BA 19 F LA 29 M BA
10 F BA 20 M T 30 M LA

Especialización
Género LA BA T TOTAL
M 5 6 7 18
F 6 4 2 12
TOTAL 11 10 9 30
Esos 30 datos bivariados pueden resumirse en una tabla
cruzada 2 x 3:
Las frecuencias pueden convertirse fácilmente a porcentajes
del gran total al dividir cada frecuencia por el gran total y
multiplicar el resultado por cien:( ) x 100 = 20.6
30
Especialización
M 17% 20% 23% 60%
F 20% 13% 7% 40%
TOTAL 37% 33% 30% 100%

0%
5%
10%
15%
20%
25%
LA
BA
T
M
F

Las frecuencias en la misma tabla de contingencia, tabla 3.3,
pueden expresarse como porcentajes de los totales de fila (o
género) al dividir cada entrada de fila por el total de dicha fila
y multiplicar los resultados por 100.
Especialización
M 28% 33% 39% 100%
F 50% 33% 17% 100%
TOTAL 37% 33% 30% 100%
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
M F
LA
BA
T

Especialización
M 45% 60% 78% 60%
F 55% 40% 22% 40%
TOTAL 100% 100% 100% 100%
Las frecuencias también pueden expresarse como
porcentajes de los totales de columna (o especialización) al
dividir cada entrada de columna por el total de dicha
columna y multiplicar el resultado por 100.
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
LA BA T
M
F

Cuando los datos bivariados son resultado de dos
variables cuantitativas, se acostumbra expresar los
datos de manera matemática como pares ordenados
(x, y), donde x es la variable de entrada (en
ocasiones llamada variable independiente) y y es la
variable de salida (en ocasiones llamada variable
dependiente). Se dice que los datos son ordenados
porque un valor, x, siempre se escribe primero. Se
llaman emparejados porque, para cada valor x,
existe un valor y correspondiente de la misma
fuente.La variable de entrada, x, se mide o controla con la
finalidad de predecir la variable de salida y.

Una situación en la que se trabaja con datos bivariados
cuantitativos es medir el grado de correlación que éstos
poseen, para ello, se debe de obtener la “r” de correlación de
Pearson, en la que:
a. Si r = 1, existe una correlación positiva perfecta. El índice
indica una dependencia total entre las dos variables
denominada relación directa: cuando una de ellas
aumenta, la otra también lo hace en proporción constante.
b. Si 0 < r < 1, existe una correlación positiva.
c. Si r = 0, no existe relación lineal. Pero esto no
necesariamente implica que las variables son
independientes.
d. Si -1 < r < 0, existe una correlación negativa.
e. Si r = -1, existe una correlación negativa perfecta. El
índice indica una dependencia total entre las dos
variables llamada relación inversa: cuando una de ellas
aumenta, la otra disminuye en proporción constante.

TALLA (X) PESO (Y) X - X Y - Y (X – X) * (Y – Y)
72 9 5.65 1.4 7.91
76 10 9.65 2.4 23.16
59 6 -7.35 -1.6 11.76
68 8 1.65 0.4 0.66
60 10 -6.35 2.4 -15.24
58 5 -8.35 -2.6 21.71
70 8 3.65 0.4 1.46
65 7 -1.35 -0.6 0.81
54 4 -12.35 -3.6 44.46
83 11 16.65 3.4 56.61
64 7 -2.35 -0.6 1.41
66 7 -0.35 -0.6 0.21
61 6 -5.35 -1.6 8.56
66 8 -0.35 0.4 -0.14
57 5 -9.35 -2.6 24.31
81 11 14.65 3.4 49.81
59 5 -7.35 -2.6 19.11
71 9 4.65 1.4 6.51
62 6 -4.35 -1.6 6.96
75 10 8.65 2.4 20.76
66.35 7.6 290.8

r= covarianza
Sx* Sy
Para medir el grado de correlación se debe desglosar la
siguiente fórmula:
covarianza=
Σ (X - X) (Y – Y)
n - 1
covarianza=
Σ (290)
19
covarianza= 15.30
r= 15.30
8.087* 2.137
r = 0.885
Esto nos indica que el grado de correlación es positiva y por
la relación existente entre estos dos datos es significativa.

c. Una variable cualitativa y una cuantitativa
Cuando los datos bivariados resultan de una variable
cualitativa y una cuantitativa, los valores cuantitativos se ven
como muestras separadas y cada conjunto se identifica
mediante etiquetas de la variable cualitativa.
Supongamos que deseamos buscar la relación existente
entre la edad de un sujeto y el tipo de sociabilidad
(relaciones que tiene con otras personas). La edad es un dato
meramente cuantitativo, pero la sociabilidad es cualitativo.
En este caso lo que se buscará es convertir el dato
cualitativo en cuantitativo.

En investigación esto se hace por lo regular recurriendo a
escalas; en las que se sitúa una característica cualitativa de
los individuos en una serie de parámetros que nos arrojarán
datos cuantitativos.
Una de las más usadas es la escala tipo Likert, ya que esta
permite al individuo situar si situación cualitativa en una
serie de opciones preestablecidas.
Por ejemplo:
“23. Prefiero salir con mis amigos un día por la noche a
quedarme en casa a ver televisión…”
a. Totalmente en desacuerdo
b. En desacuerdo
c. Ni de acuerdo ni en desacuerdo
d. De acuerdo
e. Totalmente de acuerdo

EJEMPLO:
Para conocer el tipo de sociabilización de los individuos con
su respectiva edad se aplicó una escala Likert a 30 personas
de edades de entre 15 y 70 años y se obtuvieron los
siguientes resultados.
SUJETO EDAD NIVEL SUJETO EDAD NIVEL SUJETO EDAD NIVEL
1 15 3.5 11 32 3.7 21 48 2.7
2 15 4.7 12 33 4.2 22 53 1.9
3 17 4.5 13 33 4.5 23 54 2.3
4 18 4.8 14 35 3.2 24 58 2.1
5 18 3.8 15 37 3.5 25 58 2.0
6 22 4.5 16 38 2.8 26 62 2.2
7 23 4.2 17 39 3.2 27 64 1.9
8 27 3.6 18 39 2.9 28 65 1.7
9 25 3.5 19 45 3.0 29 68 1.5
10 28 3.9 20 47 2.9 30 70 1.6

0
10
20
30
40
50
60
70
80
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
EDAD
NIVEL
Si intentamos graficar con los datos anteriores obtendríamos
una gráfica que no nos mostraría con claridad el tipo de
diferenciación:

Por lo tanto, para poder hacer una comparativa más efectiva
es conveniente convertir los valores en porcentajes para
lograr graficar bajo una misma premisa. Por ejemplo:
EDAD NIVEL
REAL PORCENTUAL REAL PORCENTUAL
15 21.4 4.1 82
15 21.4 4.7 94
17 24.3 4.5 90
18 25.7 4.8 96
18 25.7 3.8 76
22 31.4 4.5 90
23 32.9 4.2 84
27 38.6 3.6 72
25 35.7 3.5 70
28 40.0 3.9 78

De esta forma podemos graficar y observar la discrepancia
de ambos datos:
0.0
20.0
40.0
60.0
80.0
100.0
120.0
1 2 3 4 5 6 7 8 9 101112131415161718192021222324252627282930
EDAD
NIVEL

Obtención de Porcentajes
Para obtener el porcentaje
de cierta cantidad, será
suficiente con hacer la
multiplicación por el
porcentaje que deseamos
obtener. Por ejemplo, si en
la celda A2 tenemos el valor
200 y deseamos obtener el
75% de dicho valor,
entonces será suficiente con
hacer la multiplicación de
ambos de la siguiente
manera: =A2*B2

Si se desea obtener el
porcentaje en relación a un
número en específico; por
ejemplo, si quiero saber ¿qué
porcentaje representa el 24 de
60, partiendo de que el 60
representa el 100%. La
fórmula sería la siguiente:
=(100*A1)/60
Esto es basándose en el
esquema de la regla de tres
simples, para obtención de
porcentajes.
60 100
24

r de Pearson
Al igual que otras fórmulas que Excel simplifica, la
correlación r de Pearson también posee una fórmula en
específico, la cual funciona siempre y cuando poseeamos
dos series de datos a comparar (correlacionar);
En este ejemplo, se
uso una variación
proporcional (de 3)
en el que por
consiguiente el
resultado es 1,
haciendo referencia a
una correlación
positiva perfecta:
=PEARSON(A1:A10,B1:B10)

ACTIVIDAD FINAL
4.1 10.5 8.4 5.5
4.8 12.5 5.3 3.8
4.5 9.5 7.7 10.2
4.9 4.3 5.0 4.7
9.9 9.2 11.5 12.3
11.5 4.2 10.0 8.4
2.4 3.5 2.3 2.6
2.3 8.9 8.9 3.1
8.9 7.7 9.8 4.5
5.5 9.2 8.4 3.2
1. Obtén el porcentaje de cada uno los siguientes datos, en
donde el dato mayor representa el 100%

2. Obtén el coeficiente r de correlación:
reneb@cmt.edu.mx
EDAD NIVEL EDAD NIVEL EDAD NIVEL
15 3.5 32 3.7 48 2.7
15 4.7 33 4.2 53 1.9
17 4.5 33 4.5 54 2.3
18 4.8 35 3.2 58 2.1
18 3.8 37 3.5 58 2.0
22 4.5 38 2.8 62 2.2
23 4.2 39 3.2 64 1.9
27 3.6 39 2.9 65 1.7
25 3.5 45 3.0 68 1.5
28 3.9 47 2.9 70 1.6

PROBABILIDAD Y
MUESTREOUNIDAD 2

2.1 PRINCIPIOS DE PROBABILIDAD CLÁSICA
La probabilidad, por
lo tanto, puede
definirse como la
razón entre la
cantidad de casos
prósperos y la
cantidad de
cuestiones posibles.
Con origen en el latín probabilĭtas, probabilidad es una
palabra que permite resaltar la característica de
probable (es decir, de que algo pueda ocurrir o resultar
verosímil). Se encarga de evaluar y permitir la medición
de la frecuencia con la que es posible obtener un cierto
resultado en el marco de un procedimiento de carácter
aleatorio.

La gran aliada de la probabilidad es la llamada teoría de
la probabilidad, ya que gracias a lo que esta postula y
sostiene, es que los seres humanos podemos
anticiparnos a que algunos sucesos potenciales ocurran
finalmente. La mencionada teoría es muy utilizada y
consultada por disciplinas como pueden ser la
estadística, la filosofía, las matemáticas y la ciencia,
para sacar conclusiones respecto de los sucesos
potenciales que las ocupan.

La teoría de la probabilidad es un
modelo matemático que se ocupa de
analizar los fenómenos aleatorios;
esto implica la contraposición
respecto de los fenómenos ya
determinados, que son aquéllos en los
cuales el resultado del experimento
que se realiza, atendiendo a
determinadas condiciones, produce un
resultado único y previsible, que se
repetirá la cantidad de veces que éste
vuelva a hacerse, siempre y cuando se
respeten las mismas condiciones.
El estadista Karl Pearson lanzó una
moneda 24000 veces y obtuvo 12012
águilas.

Se podría decir que la mayoría de los gobiernos, alguna
vez, han echado mano de los métodos probabilísticos,
para atender a un futuro escenario en el cual el
bienestar de su población puede entrar en serio riesgo.
Así mismo es también muy aplicada por distintas
ciencias, de igualar la idea de probabilidad con el
concepto de riesgo. Esto nos puede parecer
tremendista, pero resulta ser
un fenómeno de utilización
muy común en la
medicina.

En investigación también la estadística juega un papel
trascendental. En la región de San Luis, en Venezuela, la
prevalencia de la enfermedad de Huntington es 700 veces
mayor que en Estados Unidos. En una población de 3000
personas aproximadamente, alrededor de 150 individuos la
padecen y 1500 más presentan un riesgo elevado de
desarrollarla. Esto se debe a que San Luis es el hogar de
unas cuantas familias con muchos miembros afectados.
Por mucho, la más extensa de estas
familias es la familia Soto, que tiene la
mayor concentración que se conoce
de la enfermedad de Huntington de
cualquier familia en el mundo. Esta
incidencia tan alta de la enfermedad
en una familia ofrece a los científicos
una oportunidad poco común de
estudiar este raro trastorno

La probabilidad es la base sobre la que se construyen
los métodos importantes de la estadística inferencial; y
la cual se apoya en un simple principio denominado:
regla del suceso infrecuente para la estadística
inferencial, la cual establece lo siguiente:
Si, bajo un supuesto dado
(como un juego de lotería
justo), la probabilidad
de un suceso particular
observado (como ganar
cinco veces consecutivas)
es extremadamente pequeña,
concluimos que el supuesto
probablemente es
incorrecto.

Fundamentos...
 El espacio muestral de un
procedimiento se compone
de todos los sucesos
simples posibles. Es decir,
el espacio muestral se
forma con todos los
resultados que ya no es
posible desglosar más.
Al considerar la probabilidad, tratamos con
procedimientos (como tirar un dado, contestar una
pregunta de opción múltiple en un examen, jugar lotería,
etc.) que producen resultados, para lo cual es importante
entender: Suceso: cualquier conjunto de resultados o
consecuencias de un procedimiento.
 Un suceso simple es un resultado o un suceso que ya
no puede desglosarse en componentes más simples.

Hay diferentes formas para definir la probabilidad de
un suceso. Podemos encontrar por lo menos tres
enfoques, para los cuales es importante entender
algunas notaciones básicas:
 P denota una
probabilidad.
 A, B y C denotan
sucesos específicos.
 P(A) denota la
probabilidad de que
ocurra el suceso A.

Regla 1: Aproximación de la probabilidad por
frecuencias relativas
Realice (u observe) un procedimiento un gran
número de veces y cuente las ocasiones que el
suceso A ocurre en realidad. Con base en estos
resultados reales, P(A) se estima de la siguiente
forma: Número de veces que ocurre A
Número de veces que se repitió el ensayo
P(A)=
7
40
P(A)=
0.175P(A)=
Por ejemplo: Saber la probabilidad que en un dado
caiga el número 6. Si se lanza 40 veces un dado de
las cuales cae 7 veces el número 6 podemos aplicar:

Número de formas en que puede ocurrir A
Número de sucesos simples diferentes
P(A)=
Por ejemplo: Saber la probabilidad que en un dado
caiga el número 3.
1
6
P(A)=
0.166P(A)=
Regla 2: Método clásico de la probabilidad
(requiere resultados igualmente probables)
Suponga que un procedimiento dado tiene n
sucesos simples distintos, cada uno de los cuales
tienen la misma posibilidad de ocurrir. Si el suceso
A puede
ocurrir en s de estas n formas, entonces: s
n
=

Regla 3: Probabilidades subjetivas
P(A), la probabilidad del suceso A, se obtiene
simplemente suponiendo o estimando su valor con
base en el conocimiento de las circunstancias
relevantes.
Por ejemplo: Al lanzar una
moneda todos
suponemos que tenemos
la misma probabilidad de
que caiga cara de que
caiga águila.

De los tres métodos mencionados, la regla 2 resulta
ser el método más práctico, cuyos resultados se
manejan de manera sencilla y efectiva.
La probabilidad de ganar en
la lotería, de ser elegido para
exponer clase, resultar
ganador en un sorteo, sacar
un chocolate rojo de una
bolsa de m&m´s, son
ejemplos claros en donde la
regla 2 es muy útil para
pronosticar un evento en
particular.

Es muy importante notar que el método clásico (regla 2)
requiere resultados igualmente probables. Si los
resultados no son igualmente probables, debemos usar
el estimado de frecuencias relativas o confiar en nuestro
conocimiento de las circunstancias para hacer una
conjetura entrenada.Al calcular probabilidades con el método de frecuencias
relativas (regla 1), obtenemos un estimado en lugar de
un valor exacto. Conforme el número total de
observaciones se incrementa, los estimados
correspondientes tienden a acercarse a la probabilidad
real. Tal propiedad se enuncia en forma de teorema, al
que se conoce comúnmente como la ley de los grandes
números.

Ley de los grandes números
Conforme un procedimiento se repite una y otra vez, la
probabilidad de frecuencias relativas (regla 1) de un suceso,
tiende a aproximarse a la probabilidad real.
Por ejemplo, es muy fácil que
una encuesta de opinión
entre sólo una docena de
personas seleccionadas al
azar resulte errónea en gran
medida, pero si se aplica a
miles de personas
seleccionadas al azar, puede
acercarse bastante a los
valores reales de la
Esta ley refleja una simple noción fundamentada en el
sentido común: un estimado de probabilidad basado en sólo
unos cuantos ensayos puede desviarse en cantidades
sustanciales; pero, con un número muy grande de ensayos,
el estimado tiende a ser mucho más preciso.

En sí, aunque el método de la regla 2 suele ser más
práctico y preciso, la regla 2 se acopla más a
posibilidades más realistas, en las que es muy difícil
partir de resultados igualmente probables para saber el
resultado.Por ejemplo, en una carrera de
automóviles, en donde
participan 10 vehículos. Según
la regla 2, si se apuesta a un
auto en particular, se tiene una
probabilidad de 0.1 de ganar.
Sin embargo la realidad
frecuentemente alejada a este
número, ya que no todos los
autos parten de las mismas
condiciones.

Ahora, existen también muchas situaciones en las que
ni la regla 1, ni la regla 2 nos resultan de mucha utilidad,
ya que ambas se alejan de lo real. Por ejemplo,
imaginemos que al inicio del torneo mexicano de fútbol
y apostamos de que los Tigres serán campeones.
Si nos basamos en la Regla 2 encontramos que la
probabilidad de que el equipo gane es 1/18 ó 0.055 (la
misma que cada uno del resto de los equipos).
Si consideramos la Regla 1, encontramos
que tiene una probabilidad muy similar,
que es de 6/40 ó 0.666 (ya que sólo ha
ganado 4 de los casi 60).
Es aquí donde la Regla 3 cobra
relevancia, ya que el análisis
inferencial nos da una probabilidad
más cercana a la realidad.

Redondeo de probabilidades
Cuando se expresa el valor de una probabilidad, hay que
dar la fracción o el número decimal exactos, o redondear
los resultados decimales finales a tres cifras significativas.
(Sugerencia: Cuando una probabilidad no sea una fracción
simple como 2/3 o 1/5, exprésela como decimal para que el
número resulte más claro).
Ejemplos
► La probabilidad de 0.021491 tiene cinco dígitos relevantes
(21491), por lo cual puede redondearse a 0.0215, con tres
dígitos relevantes.
► La probabilidad de 1/3 puede permanecer como fracción o
redondearse a 0.333. No redondee a 0.3.
► La probabilidad de caras en un lanzamiento de una
moneda puede expresarse como ½ ó 0.5; ya que 0.5 es
exacto, no hay necesidad de expresarlo como 0.500.
► La fracción 432/7842 es exacta, pero su valor no es
evidente. Exprésela como el decimal 0.0551.

Sucesos complementarios
Algunas veces necesitamos calcular la probabilidad de
que un suceso A no ocurra, para ello encontramos los
sucesos complementarios:
Complemento de un suceso A, denotado por Ā consiste
en todos los resultados en los cuales el suceso A no
ocurre.Por ejemplo: En un grupo típico, hay 205 bebés recién
nacidos y 105 de ellos son niños. Si un bebé del grupo
es seleccionado al azar, ¿cuál es la probabilidad de que
el bebé no sea un niño? La deducción es la siguiente:
P(Ā)=
100
205
P(Ā)= 0.488

Las probabilidades pueden y se expresan en muchas
formas; muchas de ellas se ven y escuchan en las
noticias casi todos los días (la mayoría de las veces, son
probabilidades subjetivas). Las posibilidades son una
forma de expresar las probabilidades al especificar el
número de formas en que un evento puede ocurrir,
comparado con el número de formas en que no puede
ocurrir.El enunciado “hay cuatro veces más
probabilidades de que mañana llueva
(R) de que no llueva (NR)” es un
enunciado de probabilidad que
puede expresarse como
posibilidades; “las posibilidades son
4 a 1 en favor de lluvia mañana”
(también se escribe 4:1)
Posibilidades

La relación entre posibilidades y probabilidad se muestra a
continuación;
Si las posibilidades en favor de un evento A son a a
b (ó a:b), entonces:
1. Las posibilidades en contra del evento A son b
a a (ó b:a). a
a + b
b
a + b
Para ilustrar esta relación, considera el enunciado “las
posibilidades en favor de lluvia mañana son 4 a 1 (4:1)”. Con
la notación precedente, a = 4 y b = 1. Por tanto, la
probabilidad de lluvia mañana es ó = 0.8. Las
posibilidades en contra de lluvia mañana son 1 a 4 (1:4) y la
probabilidad de que no habrá lluvia mañana es ó =
4
4+1
4
5
1
4+1
1
5
2. La probabilidad del evento A es P(A) =
3. La probabilidad de que el evento A no ocurrirá es
P(Ā)=

Ejemplo. Una ruleta tiene 38 ranuras distintas y sólo una
corresponde al número 13. La ruleta se diseñó de manera
que las 38 ranuras sean igualmente probables de resultar. Si
alguien apuesta a un número 13, tiene una probabilidad de
ganar de 0.342 (según la regla 2). Ahora, la posibilidad de
ganar sería la podemos desglosar de la siguiente manera:
Posibilidad (A)=
P(Ā)
P(A)
=
37/38
1/38
=
37
1
ó 37:1
Para la obtención de las posibilidades reales en contra de
que ocurra un suceso A son el cociente de P(Ā)/P(A).

Son dos campos de la matemática, separados pero
relacionados. Se ha dicho que “la probabilidad es el
vehículo de la estadística”. Esto es: si no fuera por
las leyes de la probabilidad, la teoría de la
estadística no sería posible.
Comparación de probabilidad y estadística
1
2
3
4
5
6

Ejemplo: Se sabe que el bote de probabilidad contiene cinco
fichas de póquer azules, cinco rojas y cinco blancas. La
probabilidad trata de responder preguntas como: “si una
ficha se saca al azar de esta caja, ¿cuál es la posibilidad de
que será azul?”. Por otra parte, en el bote de estadística no
se sabe cuál es la combinación de fichas. Se extrae una
muestra y, con base en los hallazgos en la muestra, se hacen
conjeturas acerca de lo que se cree hay en la caja. La
estadística, por otra parte, te pide extraer una muestra,
describir la muestra (estadística descriptiva) y después hacer
inferencias acerca de la población con base en la
información encontrada en la muestra (estadística
inferencial).

2.2 PRINCIPIO FUNDAMENTAL DEL CONTEO
La regla fundamental de conteo se extiende
fácilmente a situaciones que impliquen más de dos
eventos, y se explica de la siguiente manera:
Para una secuencia de dos sucesos en la que el primer
suceso puede ocurrir de m formas y el segundo suceso
puede ocurrir de n formas, los sucesos juntos pueden
ocurrir un total de m * n formas.

Ejemplo: Los sistemas comunes de alarma para casas tienen
un código que consta de cuatro dígitos. Los dígitos (0 hasta
9) pueden estar repetidos, aunque deben ingresarse en el
orden correcto. Suponga que usted planea tener acceso
intentando códigos hasta encontrar el correcto. ¿Cuántos
códigos diferentes son posibles?
Hay 10 valores posibles para cada
uno de los cuatro dígitos;
entonces, el número de códigos
posibles distintos es de 10 * 10 *
10 * 10 = 10,000. Aunque los
10,000 códigos pueden intentarse
en alrededor de 11 horas, los
sistemas de alarma normalmente
se diseñaron para que el sistema
rechace intentos subsecuentes
después de unas cuantas entradas
incorrectas

Ahora, cuando hacemos este tipo de combinaciones
también es importante considerar si el orden con el
que se hacen es importante o no. De acuerdo a ello
podemos tener dos tipos de situaciones:
1. Combinaciones. Aquí el
orden no importa. Por
ejemplo: "Mi ensalada de
frutas es una combinación
de piña, fresa, melón, kiwi,
plátano y mango.
2. Permutaciones. Aquí el
orden sí importa. Por
ejemplo: "La
combinación de la
cerradura es 472""

Hay dos tipos de permutaciones:
a. Se permite repetir: como la
clave de la cerradura de de un
portafolio que podría ser "333".
a. Donde los números se
pueden repetir: como
monedas en tu bolsillo
(5,5,5,10,10)
Y dos tipos de
combinaciones:
b. Sin repetición: como los tres
primeros en una carrera. No
puedes quedar primero y
segundo a la vez..
b. Donde no existe la
posibilidad de repetición:
como números de lotería
(2,14,15,27,30,33)

a. Permutaciones con repetición
Si se tienen n cosas para elegir y eliges r de ellas, las
permutaciones posibles son:
Esto se explica porque hay n posibilidades para la
primera elección, después hay n posibilidades para la
segunda elección, y así sucesivamente
n * n * n ... (r veces) =
nr
Donde n es el número de cosas que
puedes elegir, y eliges r de ellas (Se
puede repetir, el orden importa)
Por ejemplo En el caso de la cerradura del portafolio,
hay 10 números para elegir (0,1,...,9) y eliges 3 de ellos:
10 * 10 * 10… (3 veces) = 10 = 1000 permutaciones
Así que la fórmula es simplemente:
3
nr

b. Permutaciones sin repetición
En este caso, se reduce el número de opciones
en cada paso.
En este caso, se reduce el número de opciones en cada
paso. Por ejemplo, ¿cómo podrías ordenar 16 bolas de
billar? Después de elegir por ejemplo la "14" no puedes
elegirla otra vez. Así que la primera elección tiene 16
posibilidades, y la siguiente elección tiene 15
posibilidades, después 14, 13, etc. Y el total de
permutaciones sería:
16 x 15 x 14 x 13 ... = 20,922,789,888,000

4! = 4 × 3 × 2 × 1 = 24
7! = 7 × 6 × 5 × 4 × 3 × 2 × 1 = 5040
1! = 1
16 x 15 x 14 x 13 x 12 x 11…
16! = 20,922,789,888,000
Así que si quieres elegir todas las
bolas de billar las permutaciones
serían:
La función factorial (símbolo: !)
significa que se multiplican
números descendentes. Ejemplos:
LIC. RENÉ BAZALDÚA
En Excel la fórmula sería:
=FACT(VALOR)

c. Combinaciones sin repetición
Para construir las combinaciones sin repetición, partimos del
conjunto A={1,2,3,4} y vamos a construir todas las
combinaciones sin repetición posibles:
 Los grupos (1,2,3) y (1,2,4) son distintos porque tienen un
elemento distinto.
 Los grupos (1,2,3) y (3,2,1) son iguales porque tienen los
mismos elementos aunque estén colocados en distinto
orden.
 El grupo (1,1,2) no es válido porque tiene elementos
repetidos.
Permutaciones Combinaciones
1 2 3
1 3 2
2 1 3
2 3 1
3 1 2
3 2 1
123
T=6 T=1

n!
r!(n-r)!
16!
3!(16-3)!
=
16!
6 X 13!
=
20,922,789,888,00
0 6 x 6,227,020,800
=
560=
Para la obtención de combinaciones usamos la
fórmula de permutaciones para reducir por las
maneras de ordenar los objetos elegidos (porque no
nos interesa ordenarlos):

d. Combinaciones con repetición
Combinaciones con repetición de n elementos tomados de r
en r son los distintos grupos de n elementos iguales o
distintos que se pueden hacer con los n elementos que
tenemos, de forma que dos grupos se diferencian en algún
elemento y no en el orden de colocación.
Un grupo de niños está jugando a hacer banderas tricolores
con 5 colores distintos (Azul, verde, amarillo, blanco y rojo).
¿Cuántas banderas diferentes pueden hacerse?
(n + r - 1) !
r!(n-1)! =
(5 + 3 - 1) !
3!(5-1)! =
(7) !
3!(4)! =
5040
6 (24)
=
5040
144
= 35

FÓRMULAS
Permutación sin repetición
Permutación con repetición
Combinación sin repetición
Combinación con repetición (n + r - 1) !
r!(n-1)!
n!
r!(n-r)!
n!
(n-r)!
n!
(n ! n !… n !1 2 k

2.3 TEORÍA DEL MUESTREO
El principal objetivo del muestreo es estimar
características de la población usando los datos de
una muestra.
Por ejemplo, las encuestas por
muestreo a grandes escalas,
cuando se realizan de la manera
apropiada con un diseño muestral
satisfactorio, pueden
proporcionar, rápidamente y a un
menor costo, información con
suficiente precisión para fines
prácticos y con la posibilidad de
evaluar el margen de
incertidumbre con una base

Para un mayor entendimiento del muestreo
consideremos los siguientes aspectos:
 Muestra. Es una parte de una población de
interés previamente delimitada, es decir, un
subconjunto de ésta.
 Población de
interés. Es un
conjunto finito de
objetos
(elementos)
identificables con
ubicación en
tiempo y espacio.
Muestra

 Objetivos del muestreo. Las técnicas del
muestreo se utilizan para conocer las
características generales de la población de
interés, al estudiar solo una parte de ésta.
• Encuestas de opinión
• Ratings de televisión
• Industria. Control de
calidad
• Encuestas INEGI
• Laboratorios. Estudios
en sangre
• Encuestas electorales
• Estudios de mercado
 Campos de aplicación.

 Ventajas del muestreo. La rapidez (tiempo) y los
costos de inversión en su realización, hacen que
el muestreo sea una técnica muy utilizada por
gobiernos, empresas e investigadores.
 Objetivo del muestreo.
Seleccionar “buenas”
muestras
(representativas de la
población) de un tamaño
“apropiado”,
considerando la
información que
tenemos de la población
que estamos estudiando
y el presupuesto con
que contamos.

 Tamaño apropiado de la muestra. No existe un
determinado porcentaje exacto que deban tener,
como regla forma general, todas las muestras;
sin embargo hay parámetros que ayudan a
dterminar su tamaño:
• La variabilidad de la característica que
queremos estudiar
• La precisión con que queremos hacer la
inferencia
• El presupuesto que tengamos
• El tamaño de la población
Es importante entender que
entre mayor sea la muestra en
relación a la población, mayor
exactitud tendrá su inferencia.

 Población Objetivo. Conjunto de elementos
identificables con ubicación en tiempo y espacio.
La población se define al especificar qué
elementos son (a veces también cuáles no son) y
qué características deben tener.
Por ejemplo: niños y
niñas de 5 y 6 años
que vivan en el
territorio nacional.
 Elementos del muestreo.
Pueden ser personas,
escuelas, organizaciones,
productos, ciudades,
elementos químicos, etc.

 Tipos de muestra. Básicamente existen dos
formas de tomar una muestra:
1. No probabilística.
• A juicio. Se usa la
experiencia del
investigador.
• Cuotas.
• Puede resultar una
muestra sesgada
• No hay forma de estimar el
error

2. Probabilística. Todos los elementos de la
población tienen una probabilidad conocida y
mayor que cero de ser seleccionados.
• Se tiene apoyo de herramientas de
probabilidad.
• Hay forma de estimar el error.

2.3 TÉCNICAS DEL MUESTREO
A. MÉTODOS PROBABILÍTICOS
Los métodos de muestreo
probabilísticos nos aseguran la
representatividad de la muestra
extraída y son, por tanto, los más
recomendables. Dentro de los
métodos de muestreo
probabilísticos encontramos los
siguientes tipos:
Existen diferentes criterios de clasificación de los
diferentes tipos de muestreo, aunque en general
pueden dividirse en dos grandes grupos: métodos
de muestreo probabilísticos y métodos de muestreo
no probabilísticos.

1. Muestreo aleatorio simple
El procedimiento empleado es el siguiente:
1. Se asigna un número a cada individuo de la población.
2. A través de algún medio mecánico (bolas dentro de una
bolsa, tablas de números aleatorios, números aleatorios
generados con una calculadora u ordenador, etc.) se
eligen tantos sujetos como sea necesario para completar
el tamaño de muestra requerido.

2. Muestreo aleatorio sistemático
Este procedimiento exige, como el anterior, numerar todos
los elementos de la población, pero en lugar de extraer n
números aleatorios sólo se extrae uno. Se parte de ese
número aleatorio i, que es un número elegido al azar, y los
elementos que integran la muestra son los que ocupa los
lugares i, i+k, i+2k, i+3k,...,i+(n-1)k, es decir se toman los
individuos de k en k, siendo k el resultado de dividir el
tamaño de la población entre el tamaño de la muestra: k=
N/n. El número i que empleamos como punto de partida será
un número al azar entre 1 y k.

El riesgo este tipo de muestreo está en los casos en que
se dan periodicidades en la población ya que al elegir a
los miembros de la muestra con una periodicidad
constante (k) podemos introducir una homogeneidad
que no se da en la población.
Por ejemplo, imaginemos que
estamos seleccionando una
muestra sobre listas de 10
individuos en los que los 5
primeros son varones y los 5
últimos mujeres, si empleamos
un muestreo aleatorio
sistemático con k=10 siempre
seleccionaríamos o sólo
hombres o sólo mujeres, no
podría haber una representación
de los dos sexos.

3. Muestreo aleatorio estratificado
Trata de obviar las dificultades que presentan los
anteriores ya que simplifican los procesos y suelen reducir
el error muestral para un tamaño dado de la muestra.
Consiste en considerar categorías típicas diferentes entre
sí (estratos) que poseen gran homogeneidad respecto a
alguna característica (se puede estratificar, por ejemplo,
según la profesión, el municipio de residencia, el sexo, el
estado civil, etc.).

Lo que se pretende con este tipo de muestreo es
asegurarse de que todos los estratos de interés estarán
representados adecuadamente en la muestra. Cada
estrato funciona independientemente, pudiendo
aplicarse dentro de ellos el muestreo aleatorio simple o
el estratificado para elegir los elementos concretos que
formarán parte de la muestra. En ocasiones las
dificultades que plantean son demasiado grandes, pues
exige un conocimiento detallado de la población.
(Tamaño geográfico, sexos, edades,...).

4. Muestreo aleatorio por conglomerados
Los tres métodos anteriores están pensados para
seleccionar directamente los elementos de la población, es
decir, que las unidades muestrales son los elementos de la
población. En el muestreo por conglomerados la unidad
muestral es un grupo de elementos de la población que
forman una unidad, a la que llamamos conglomerado. Las
unidades hospitalarias, los departamentos universitarios,
una caja de determinado producto, etc., son conglomerados
naturales.

A veces, el muestreo probabilístico resulta
excesivamente costoso y se acude a métodos no
probabilísticos, aun siendo conscientes de que no
sirven para realizar generalizaciones (estimaciones
inferenciales sobre la población), pues no se tiene
certeza de que la muestra extraída sea representativa, ya
que no todos los sujetos de la población tienen la
misma probabilidad de se elegidos.
B. MÉTODOS NO PROBABILÍTICOS
Entre los métodos de
muestreo no
probabilísticos más
utilizados en
investigación
encontramos los
siguientes:

1. Muestreo por coutas
En este tipo de muestreo se fijan unas "cuotas" que
consisten en un número de individuos que reúnen unas
determinadas condiciones. Por ejemplo: 20 individuos de 25
a 40 años, de sexo femenino y residentes en Guadalajara.
Una vez determinada la cuota se eligen los primeros que se
encuentren que cumplan esas características. Este método
se utiliza mucho en las encuestas de opinión.

2. Muestreo intencional o de conveniencia
Este tipo de muestreo se caracteriza por un esfuerzo
deliberado de obtener muestras "representativas"
mediante la inclusión en la muestra de grupos
supuestamente típicos. El caso más frecuente de este
procedimiento el utilizar como muestra los individuos a los
que se tiene fácil acceso como un maestro que utiliza a
sus alumnos en cierta investigación

3. Bola de nieve
Se localiza a algunos individuos, los cuales
conducen a otros, y estos a otros, y así́ hasta
conseguir una muestra suficiente. Este tipo se
emplea muy frecuentemente cuando se hacen
estudios con poblaciones "marginales",
delincuentes, sectas, determinados tipos de
enfermos, etc.

4. Muestreo Discrecional
A criterio del investigador los elementos son
elegidos sobre lo que él cree que pueden aportar al
estudio.

Procesamiento de la información estadística-RENE BAZALDUA

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (19)

Similar a Procesamiento de la información estadística-RENE BAZALDUA

Similar a Procesamiento de la información estadística-RENE BAZALDUA (20)

Más de Rene Bazaldua

Más de Rene Bazaldua (7)

Último

Último (20)

Procesamiento de la información estadística-RENE BAZALDUA

Notas del editor