Estadística Descriptiva

Probabilidad y Estad´ıstica:
Estad´ıstica Descriptiva
Dr. Juliho Castillo
18 de septiembre de 2017
Universidad LaSalle Oaxaca
1

1 Definiciones y conceptos
Distribuciones de frecuencias
Problemas Resueltos
2 Medidas de tendencia central
Python
Problemas resueltos
3 Desviación estándar y otras medidas de dispersión
Python
Problemas resueltos
2

Estad´ıstica
La estad´ıstica se ocupa de los métodos cient´ıficos que se
utilizan para recolectar, organizar, resumir, presentar y analizar
datos as´ı como para obtener conclusiones válidas y tomar
buenas decisiones razonables con base en este análisis.
4

#10 Peso
Figura 1.1: El peso promedio de una persona hoy es 14
kilogramos mayor que en la d´ecada de 1960.
5

#9 Trabajo y estudio
Figura 1.2: Entre un 70 y un 80 % de los estudiantes universitarios
hoy en d´ıa tiene un trabajo de media jornada o jornada completa.
Eso es el doble de los que estudiantes que trabajaban hace 30 a˜nos.
6

#8 Televisi´on
Figura 1.3: En los Estados Unidos, la cantidad de personas que
miran televisi´on regularmente se redujo en 27 % entre 2011 y 2014.
7

#7 Consumo de drogas
Figura 1.4: El consumo de drogas en los jóvenes ha ido
disminuyendo consistentemente en los últimos 20 años. En los
Estados Unidos, el porcentaje de jóvenes y adolescentes que
admite haber consumido drogas ilegales pasó de 34 % en 1997, a
27 % en la actualidad.
8

#6 Embarazo adolescente
Figura 1.5: El embarazo adolescente se ha reducido a la mitad
desde la d´ecada de 1950.
9

#5 Consumo de tabaco
Figura 1.6: También el consumo de tabaco se redujo
considerablemente en los últimos 50 años. En los Estados Unidos,
el porcentaje de personas que fumaban un paquete por d´ıa era de
35 % en 1954, y de 20 % en 2014.
10

#4 Matrimonio
Figura 1.7: En 1968, el 56 % de los estadounidenses entre 18-31
a˜nos estaba casado. En 2012 el porcentaje se redujo a 23 %.
11

#3 Cociente intelectual
Figura 1.8: En 1910, el cociente intelectual promedio ser´ıa de 70,
de acuerdo a las mediciones actuales. Ahora, el promedio es de
entre 130 y 150, dependiendo de la medici´on.
12

Observación: Según el experto James Flynn, como
especie evolucionamos en el entendimiento de categor´ıas,
sistemas hipotéticos, lenguaje no verbal e imágenes
visuales que retratan realidades alternativas.
13

#2 Peces en el mar
Figura 1.9: Desde 1950, un 90 % de los peces m´as grandes del
oc´eano han desaparecido. La causa es la pesca industrial.
14

#1 Ancianos
Figura 1.10: Hoy en d´ıa la poblaci´on mayor de 65 a˜nos es diez
veces mayor de lo que lo era hace un siglo.
15

Fuente: 10 curiosos datos estad´ısticos que prueban c´omo ha
cambiado el mundo, por Pablo Fern´andez.
16

Piratas contra el calentamiento global
Figura 1.11: «You may be interested to know that global
warming, earthquakes, hurricanes, and other natural disasters are a
direct eﬀect of the shrinking numbers of Pirates since the 1800s.»
Open Letter To Kansas School Board
17

El término estad´ıstica también se usa para denotar los datos
o los números que se obtienen de esos datos; por ejemplo, los
promedios. As´ı, se habla de estad´ısticas de empleo, estad´ısticas
de accidentes, etcétera.
18

Población y muestra
Cuando se recolectan datos sobre las caracter´ısticas de un
grupo de individuos o de objetos, por ejemplo:
estatura y peso de los estudiantes de una universidad
o cantidad de pernos defectuosos y no defectuosos
producidos en determinado d´ıa en una fábrica,
suele ser imposible o poco práctico observar todo el grupo, en
especial si se trata de un grupo grande.
19

En vez de examinar todo el grupo, al que se le conoce como
población o universo, se examina sólo una pequeña parte del
grupo, al que se le llama muestra.
20

Las poblaciones pueden ser finitas o infinitas. Por ejemplo:
la población que consta de todos los pernos producidos
determinado d´ıa en una fábrica es finita,
en tanto que la población que consta de todos los
resultados (cara o cruz) que se pueden obtener lanzando
una y otra vez una moneda es infinita.
21

Si la muestra es representativa de la población, el análisis de la
muestra permite inferir conclusiones válidas acerca de la
población.
A la parte de la estad´ıstica que se ocupa de las condiciones
bajo la cuales tales inferencias son válidas se le llama
estad´ıstica inductiva o inferencial.
Como estas inferencias no pueden ser absolutamente ciertas,
para presentar estas conclusiones se emplea el lenguaje de la
probabilidad.
22

A la parte de la estad´ıstica que únicamente trata de describir y
analizar un grupo dado, sin sacar ninguna conclusión ni hacer
inferencia alguna acerca de un grupo más grande, se le conoce
como estad´ıstica descriptiva o deductiva.
23

Variables: discretas vs continuas
Una variable es un s´ımbolo; por ejemplo, X, Y, H, x, B, que
puede tomar cualquiera de los valores de determinado
conjunto al que se le conoce como dominio de la variable.
A una variable que s´olo puede tomar un valor se le llama
constante.
24

Una variable X que puede tomar cualquiera de los valores en
la recta num´erica R es una variable continua.
Si los valores que una variable puede tomar se pueden numerar
X1, X2, ..., XN , ...
diremos que es una variable discreta.
25

Ejemplo 1.1.
La cantidad N de hijos que tiene una familia puede tomar los
valores 0, 1, 2, 3, ..., pero no puede tomar valores como 2.5 o
3.842; ´esta es una variable discreta.
26

Ejemplo 1.2.
La estatura H de una persona que puede ser 62 pulgadas (in),
63.8 in o 65.8341 in, dependiendo de la exactitud conque se
mida, es una variable continua.
27

Los datos descritos mediante una variable discreta son datos
discretos y los datos descritos mediante una variable continua
son datos continuos.
¿Qué tipo de dato es..
la cantidad de hijos que tiene cada una de 1 000 familias?
las estaturas de 100 estudiantes universitarios.?
En general, una medición proporciona datos continuos; en
cambio, una enumeración o un conteo proporciona datos
discretos.
28

Es útil ampliar el concepto de variable a entidades no
numéricas;por ejemplo, en el arco iris, color C es una variable
que puede tomar los “valores” rojo, anaranjado, amarillo,
verde, azul, ´ındigo o violeta.
Estas variables se pueden reemplazar por números; por
ejemplo, se puede denotar rojo con 1, anaranjado con 2,
etcétera.
29

Deﬁniciones y conceptos
Distribuciones de frecuencias
30

Datos en bruto
Los datos en bruto son los datos recolectados que a´un no se
han organizado. Por ejemplo, las estaturas de 100 estudiantes
tomados de la lista alfab´etica de una universidad.
31

Ordenaciones
Ordenación se le llama a los datos numéricos en bruto
dispuestos en orden creciente o decreciente de magnitud.
A la diferencia entre el número mayor y el número menor se le
conoce como el rango de los datos.
Por ejemplo, si la estatura mayor en los 100 estudiantes es 74
pulgadas (in) y la menor es 60 in, el rango es
74 − 60 = 14 in.
32

DISTRIBUCIONES DE FRECUENCIA
Al organizar una gran cantidad de datos en bruto, suele
resultar ´util distribuirlos en clases o categor´ıas y determinar
la cantidad de datos que pertenece a cada clase; esta cantidad
se conoce como la frecuencia de clase.
33

A la disposici´on tabular de los datos en clases con sus
respectivas frecuencias de clase se le conoce como
distribuci´on de frecuencias o tabla de frecuencias.
34

Figura 1.12: Distribuci´on de frecuencias de las estaturas
(registradas a la pulgada m´as cercana) de 100 estudiantes de la
universidad XYZ.
35

La primera clase (o categor´ıa), por ejemplo, consta de las
estaturas que van desde 60 hasta 62 pulgadas y queda
identiﬁcada por el s´ımbolo 60-62. Como hay cinco estudiantes
cuyas estaturas pertenecen a esta clase, la frecuencia de clase
correspondiente es 5.
36

A los datos organizados y resumidos como en la distribución
de frecuencias anterior se les llama datos agrupados.
Observación: Aunque al agrupar los datos se pierden
muchos de los detalles originales de los datos, esto tiene la
ventaja de que se obtiene una visión general clara y se
hacen evidentes las relaciones.
37

INTERVALOS DE CLASE Y LÍMITES DE CLASE
Al s´ımbolo que representa una clase, como 60-62 en la tabla
1.12, se le conoce como intervalo de clase.
A los números de los extremos, 60 y 62, se les conoce como
l´ımites de clase; el número menor (60) es el l´ımite inferior de
clase, y el número mayor (62) es el l´ımite superior de clase.
Los términos clase e intervalo de clase se suelen usar
indistintamente, aunque el intervalo de clase en realidad es un
s´ımbolo para la clase.
38

Un intervalo de clase que, por lo menos te´oricamente, no
tenga indicado el l´ımite de clase superior o el l´ımite de clase
inferior, se conoce como intervalo de clase abierto.
Por ejemplo, al considerar grupos de edades de personas, un
intervalo que sea “65 a˜nos o mayores” es un intervalo de clase
abierto.
39

FRONTERAS DE CLASE
Si las estaturas se registran a la pulgada más cercana, el
intervalo de clase 60-62 comprende teóricamente todas las
mediciones desde 59.5000 hasta 62.5000 in.
Estos números que se indican brevemente mediante los
números exactos 59.5 y 62.5 son las fronteras de clase o los
l´ımites de clase reales; el menor de los números (59.5) es la
frontera inferior de clase y el número mayor (62.5) es la
frontera superior de clase.
40

En la pr´actica, las fronteras de clase se obtienen sumando el
l´ımite superior de un intervalo de clase al l´ımite inferior del
intervalo de clase inmediato superior y dividiendo entre 2.
41

Algunas veces, las fronteras de clase se usan para representar a
las clases.
Por ejemplo, las clases de la tabla 2.1 pueden indicarse como
59.5-62.5, 62.5-65.5, etc.
Para evitar ambigüedades cuando se usa esta notación, las
fronteras de clase no deben coincidir con las observaciones.
Por lo tanto, si una observación es 62.5, no es posible decidir
si pertenece al intervalo 59.5-62.5 o al intervalo 62.5-65.5
42

TAMAÑO O AMPLITUD DE UN INTERVALO DE
CLASE
El tamaño, o la amplitud, de un intervalo de clase es la
diferencia entre sus fronteras superior e inferior y se le conoce
también como amplitud de clase, tamaño de clase o
longitud de clase.
43

Si en una distribuci´on de frecuencia todos los intervalos de
clase tienen la misma amplitud, esta amplitud com´un se
denota c.
En este caso, c es igual a la diferencia entre dos l´ımites
inferiores de clases sucesivas o entre dos l´ımites superiores de
clases sucesivas.Por ejemplo, en los datos de la tabla 2.1, el
intervalo de clase es
c = 62.5 − 59.5 = 65.5 − 62.5 = 3.
44

LA MARCA DE CLASE
La marca de clase es el punto medio del intervalo de clase y
se obtiene sumando los l´ımites de clase inferior y superior y
dividiendo entre 2.
As´ı, la marca de clase del intervalo 60-62 es
(60 + 62)/2 = 61.
A la marca de clase tambi´en se le conoce como punto medio
de clase.
45

Para los an´alisis matem´aticos posteriores, se supone que todas
las observaciones que pertenecen a un intervalo de clase dado
coinciden con la marca de clase.
As´ı, se considera que todas las estaturas en el intervalo de
clase 60-62 in son de 61 in.
46

REGLAS GENERALES PARA FORMAR UNA DIS-
TRIBUCIÓN DE FRECUENCIAS I
En el conjunto de los datos en bruto, se determina el número
mayor y el número menor y se halla, as´ı, el rango (la diferencia
entre los números mayor y menor).
47

TRIBUCIÓN DE FRECUENCIAS II
Se divide el rango en una cantidad adecuada de intervalos de
clase de una misma amplitud. Si esto no es posible, se usan
intervalos de clase de diferentes amplitudes o intervalos de
clase abiertos. La cantidad de intervalos suele ser de 5 a 20,
dependiendo de los datos. Los intervalos de clase también
suelen elegirse de manera que las marcas de clase (o puntos
medios de clase) coincidan con datos observados. Esto tiende
a disminuir el llamado error de agrupamiento en los análisis
matemáticos subsiguientes. En cambio, las fronteras de clase
no deben coincidir con datos observados.
48

TRIBUCI´ON DE FRECUENCIAS III
Se determina la cantidad de observaciones que caen dentro de
cada intervalo de clase; es decir, se encuentran las frecuencias
de clase. La mejor manera de hacer esto es utilizando una hoja
de conteo.
49

HISTOGRAMAS Y POLÍGONOS DE FRECUEN-
CIAS
Los histogramas y los pol´ıgonos de frecuencias son dos
representaciones gráficas de las distribuciones de frecuencias.
50

Un histograma o histograma de frecuencias consiste en un
conjunto de rect´angulos que tienen: a) sus bases sobre un eje
horizontal (el eje X ), con sus centros coincidiendo con las
marcas de clase de longitudes iguales a la amplitud del
intervalo de clase, y b) ´areas proporcionales a las frecuencias
de clase.
51

Un pol´ıgono de frecuencias es una gráfica de l´ınea que
presenta las frecuencias de clase graficadas contra las marcas
de clase. Se puede obtener conectando los puntos medios de
las partes superiores de los rectángulos de un histograma.
52

Figura 1.13: Histograma que muestra los puntos medios y las
frecuencias de clase.
53

DISTRIBUCIONES DE FRECUENCIAS RELATIVAS
La frecuencia relativa de una clase es la frecuencia de la clase
dividida entre la suma de las frecuencias de todas las clases y
generalmente se expresa como porcentaje.
Por ejemplo, en la tabla 1.12, la frecuencia relativa de la clase
66-68 es 42/100 = 42 %. Por supuesto, la suma de las
frecuencias relativas de todas las clases es 1, o 100 %.
54

Si en la tabla 1.12 las frecuencias se sustituyen por frecuencias
relativas, la tabla que se obtiene es una distribuci´on de
frecuencias relativas, distribuci´on porcentual o tabla de
frecuencias relativas.
55

Las representaciones gráficas de las distribuciones de
frecuencias relativas se obtienen a partir de los histogramas o
pol´ıgonos de frecuencias, cambiando únicamente, en la escala
vertical, las frecuencias por las frecuencias relativas y
conservando la gráfica exactamente igual.
A las gráficas que se obtienen se les llama histogramas de
frecuencias relativas (o histogramas porcentuales) y
pol´ıgonos de frecuencias relativas (o pol´ıgonos
porcentuales), respectivamente.
56

DISTRIBUCIONES DE FRECUENCIAS ACUMULA-
DAS Y OJIVAS
A la suma de todas las frecuencias menores que la frontera
superior de un intervalo de clase dado se le llama frecuencia
acumulada hasta ese intervalo de clase inclusive.
Por ejemplo, en la tabla 1.12, la frecuencia acumulada hasta el
intervalo de clase 66-68 inclusive es 5 + 18 + 42 = 65, lo que
signiﬁca que 65 estudiantes tienen una estatura menor a
68.5 in.
57

Figura 1.14: Pol´ıgono de frecuencias de las estaturas de los
estudiantes.
58

A una tabla en la que se presentan las frecuencias acumuladas
se le llama distribución de frecuencias acumuladas, tabla
de frecuencias acumuladas o simplemente distribución
acumulada, y se presenta en la tabla 2.2 para la distribución
de las estaturas de los estudiantes de la tabla 1.12.
59

Figura 1.15: Una gráfica que muestra las frecuencias acumuladas
menores de cada frontera superior de clase respecto a cada
frontera superior de clase se le conoce como gráfica de
frecuencias acumuladas u ojiva.
60

DISTRIBUCIONES DE FRECUENCIAS ACUMULA-
DAS RELATIVAS Y OJIVAS PORCENTUALES
La frecuencia acumulada relativa o frecuencia
acumulada porcentual es la frecuencia acumulada dividida
entre la suma de todas las frecuencias (frecuencia total).
61

Por ejemplo, la frecuencia acumulada relativa de las estaturas
menores que 68.5 in es 65/100 = 0.65 o 65 %, lo que
signiﬁca que 65 % de los estudiantes tienen estaturas menores
a 68.5 in.
62

Si en la tabla 1.15 se emplean las frecuencias acumuladas
relativas en lugar de las frecuencias acumuladas, se obtiene
una distribución de frecuencias acumuladas relativas (o
distribución acumulada porcentual) y una gráfica de
frecuencias acumuladas relativas (u ojiva porcentual),
respectivamente.
63

Deﬁniciones y conceptos
Problemas Resueltos
64

Problema Resuelto 1.1.
1 Disponer los números 17, 45, 38, 27, 6, 48, 11, 57, 34, 22 en
una ordenación.
2 Determinar el rango de estos números.
65

# -*- coding: utf-8 -*-
"""
Ejercicio 2.1
a) Disponer los n´umeros 17, 45, 38, 27, 6, 48, 11, 57,
b) Determinar el rango de estos n´umeros.
"""
miLista = [17,45,38,27,6,48,11,57,34,22]
print(miLista)
miListaOrdenada = sorted(miLista)
print(miListaOrdenada)
rango = max(miLista)-min(miLista)
print(rango)
66

En la tabla siguiente se presentan las calificaciones finales que
obtuvieron en matemática 80 alumnos de una universidad.
67

De acuerdo con esta tabla, encontrar:
(a) La calificación más alta.
(b) La calificación más baja.
(c) El rango.
(d) Las calificaciones de los cinco mejores estudiantes.
(e) Las calificaciones de los cinco peores estudiantes.
(f) La calificación del alumno que tiene el décimo lugar entre
las mejores calificaciones.
(g) El número de estudiantes que obtuvieron 75 o más.
(h) El número de estudiantes que obtuvieron 85 o menos.
(i) El porcentaje de los estudiantes que obtuvieron
calificaciones mayores a 65 pero no mayores a 85.
(j) Las calificaciones que no aparecen en esta tabla.
68

miLista = [68,84,75,83,68,90,62,88,76,93,
73,79,88,73,60,93,71,59,85,75,
61,65,75,87,74,62,95,78,63,72,
66,78,82,75,94,77,69,74,68,60,
96,78,89,61,75,95,60,79,83,71,
79,62,67,97,78,85,76,65,71,75,
65,80,73,57,88,78,62,76,53,74,
86,67,73,81,72,63,76,75,85,77]
70

#La calificación más alta.
M=max(miLista); print(M)
#La calificación más baja.
m=min(miLista); print(m)
#El rango.
rango=M-m; print(rango)
71

#Ordenamos la lista
miListaOrd = sorted(miLista)
print(miListaOrd)
#Las calificaciones de los cinco mejores estudiantes.
print(miListaOrd[-5:])
#Las calificaciones de los cinco peores estudiantes.
print(miListaOrd[:5])
#La calificaci´on del alumno que tiene el d´ecimo lugar
#entre las mejores calificaciones.
print(miListaOrd[-10])
72

#El número de estudiantes que obtuvieron 75 o más.
mayorQue75 = [elemento for elemento in miListaOrd
if elemento>=75]
print(mayorQue75, len(mayorQue75))
#El número de estudiantes que obtuvieron 85 o menos.
menorQue85 = [x for x in miListaOrd if x<=85]
print(menorQue85, len(menorQue85))
73

#El porcentaje de los estudiantes
#que obtuvieron calificaciones
#mayores a 65 pero no mayores a 85.
de65a85 = [x for x in miListaOrd if 65<=x<=85]
print(len(de65a85)/len(miLista))
print(1.0*len(de65a85)/len(miLista))
74

#Las calificaciones que no aparecen en esta tabla.
complemento = [x for x in range(0,100+1)
if not(x in miLista)]
print(complemento)
75

Ahora, exploraremos los datos a trav´es de histogramas. Para
este ﬁn, utilizaremos dos paquetes muy populares de Python:
numpy y matplotlib.
76

Numpy
NumPy es una extensi´on de Python, que le agrega mayor
soporte para vectores y matrices, constituyendo una biblioteca
de funciones matem´aticas de alto nivel para operar con esos
vectores o matrices.1
1
https://es.wikipedia.org/wiki/NumPy
77

Matplotlib
Matplotlib es una biblioteca para la generación de gráficos a
partir de datos contenidos en listas o arrays en el lenguaje de
programación Python y su extensión matemática NumPy.
Proporciona una API, pylab, diseñada para recordar a la de
MATLAB.2
2
https://es.wikipedia.org/wiki/Matplotlib
78

import numpy as np
import matplotlib.pyplot as plt
miLista = [68,84,75,83,68,90,62,88,76,93,
73,79,88,73,60,93,71,59,85,75,
61,65,75,87,74,62,95,78,63,72,
66,78,82,75,94,77,69,74,68,60,
96,78,89,61,75,95,60,79,83,71,
79,62,67,97,78,85,76,65,71,75,
65,80,73,57,88,78,62,76,53,74,
86,67,73,81,72,63,76,75,85,77]
miLista = np.array(miLista)
79

plt.hist(miLista, bins=’auto’)
# arguments are passed to np.histogram
plt.title("Histogram with ’auto’ bins")
plt.show()
80

plt.hist(miLista, bins=[53,64.75,86,97])
plt.show()
81

plt.hist(miLista, bins=np.arange(miLista.min(),
miLista.max()+1))
plt.show()
82

plt.hist(miLista,
bins=np.arange(miLista.min(), miLista.max()+1),
align=’left’)
plt.show()
83

plt.ylabel(’Cumulative Frequency’)
plt.xlabel(’Data’)
plt.hist(miLista, bins=’auto’, histtype=’step’,
cumulative=True)
plt.show()
84

plt.ylabel(’Relative Cumulative Frequency’)
plt.xlabel(’Data’)
plt.hist(miLista, bins=’auto’,normed=1,
histtype=’step’, cumulative=True)
plt.show()
85

myBins = np.linspace(50,100, (100-50)/5+1)
print myBins
miHistograma = np.histogram(miLista, bins=myBins)
print miHistograma
print miHistograma[0]
print miHistograma[1]
87

print "Intervalo"+8*" "+"Frecuencia"
for k in range(len(myBins)-1):
liminf=myBins[k]
limsup=myBins[k+1]-1
frecuencia=miHistograma[0][k]
print "["+str(liminf)+"-"+str(limsup)+")"+6*" "
+str(frecuencia)
88

print "Intervalo"+8*" "+"Frecuencia"+2*" "+
"Elementos en intervalo"
for k in range(len(myBins)-1):
liminf=myBins[k]
limsup=myBins[k+1]-1
frecuencia=miHistograma[0][k]
elementos = []
for x in miLista:
if (liminf<=x and x<limsup):
elementos.append(x)
sep = len("Frecuencia")+2-len(str(frecuencia))
print "["+str(liminf)+"-"+str(limsup)+")"+6*" "+
str(frecuencia)+12*" "+str(elementos)
89

¿Qué opciones existen para el parámetro bins?
1 https://docs.scipy.org/doc/numpy/reference/generated/
numpy.histogram.html
2 https://stackoverflow.com/questions/9141732/how-does-
numpy-histogram-work
90

Ejercicio de práctica.
Analice los siguientes datos a través de histogramas, utilizando
las diferentes opciones para el parámetro bins.
[ 5. 4. 6. 5. 4. 6. 6. 4. 5. 3.
6. 6. 6. 3. 5. 5. 5. 5.
6. 3. 5. 4. 5. 6. 6. 5. 6. 3.
5. 6. 5. 5. 6. 6. 6. 5.
5. 5. 6. 7. 5. 4. 5. 3. 5. 4.
5. 5. 6. 5. 6. 4. 4. 5.
4. 5. 5. 5. 6. 7. 4. 5. 5. 5.
6. 3. 7. 4. 5. 6. 4. 5.
6. 6. 4. 7. 5. 4. 6. 5. 5. 1.
6. 5. 5. 5. 6. 6. 5. 6.
5. 5. 4. 4. 6. 5. 5. 6. 4. 4.]
91

Sugerencia
Genere la lista anterior, utilizando el siguiente c´odigo
import numpy as np
np.random.seed(1234)
mu, sigma = 5, 1 # mean and standard deviation
s = np.random.normal(mu, sigma, 100)
print np.rint(s)
92

Para profundizar...
Una de las mejores plataformas para aprender an´alisis de
datos es DataCamp. Puede comenzar a dominar Python con
el curso Intro to Python for Data Science.
93

Medidas de tendencia central
94

Índice y sub´ındices
El s´ımbolo Xj representa cualquiera de los valores
X1, X2, X3, ... que puede tomar la variable discreta X.
El s´ımbolo j denota cualquiera de los números naturales
1, 2, 3, ... y se le llama ´ındice (o a veces sub´ındice o también
contador).
95

Deﬁnici´on 2.1 (Sumatoria).
N
j=1
Xj = X1 + ... + XN
96

Ejemplo 2.1.
N
k=1
XkYk = X1Y1 + ... + XN YN
N
i=1
aXi = aX1 + ... + aXN = a
N
n=1
Xn.
97

Observaci´on: Cuando se sobrentiende que el contador
j corre sobre los n´umeros 1, 2, ..., N, escribimos Xj o
simplemente X en lugar de N
j=1 .
98

Linealidad
Problema 2.1.
Si a, b son constantes, demuestre que
(aX + bY ) = a X + b Y.
99

Promedio
UN promedio es un valor representativo de un conjunto de
datos que tiende a encontrarse en el centro de dicho conjunto.
Por esta raz´on, tambi´en se le conoce como medidas de
tendencia central.
100

Se pueden definir varios tipo de promedios:
Media aritmética;
mediana;
moda;
media geométrica;
media armónico.
101

Observaci´on: Cada medida de tendencia central tiene
ventajas y desventajas de acuerdo al tipo de datos y el
prop´osito del uso.
102

Definición 2.2 (Media aritmética).
¯X =
X1 + ... + XN
N
=
N
j=1 Xj
N
=
X
N
(2.1)
103

Ejemplo 2.2.
La media aritm´etica de 8, 3, 5, 12, 10 es...
104

Si los números X1, X2, ..., Xk se presentan con frecuencias
f1, f2, ..., fk respectivamente su media aritmética es
¯X =
f1X1 + ... + fkXk
f1 + ... + fk
=
fX
f
=
fX
N
. (2.2)
dónde N = f es la suma de frecuencias o total de
casos.
105

Ejemplo 2.3.
Si 5, 8, 6, 2 se presentan con frecuencias 3, 2, 4, 1
respectivamente, su media aritm´etica es...
106

Media aritmética ponderada
Algunas veces, a los números X1, ..., Xk se les asignan ciertos
factores de ponderación o pesos w1, ..., wk, tales que



0 % ≤ wi ≤ 100 %
wi = 100 %
107

Definición 2.3 (Media ponderada).
Si w1, .., wk son pesos tales que 0 ≤ wi ≤ 1 y wi = 1,
entonces la correspondiente media (aritmética) ponderada de
los números X1, ..., Xk es
¯X =
w1X1 + ... + wkXk
w1 + ... + wk
=
wX
w
= wX.
108

Ejemplo 2.4.
Si en una clase, al examen final se le da el triple del valor que
a los exámenes parciales y un estudiante obtiene 85 en el final
y 70 y 90 en los dos exámenes parciales, obtener su media
ponderada.
109

1 Si wi = 1
N
, obtenemos la media aritm´etica usual.
2 Si wi = fi
N
, obtenemos la f´ormula (2.2).
110

Cuando los números son muy grandes, se suele utilizar un
pivote P :
¯X = P +
fidi
N
,
donde di = Xi − P.
En ocasiones, utilizaremos la notación
¯d =
fidi
N
,
de manera que ¯d es la desviación promedio y ¯X = P + ¯d.
111

Observaci´on:
Para datos agrupados, Xi se escoge como la marca de la
i−´esima clase.
112

La mediana
La mediana ˜X de un conjunto de n´umeros acomodados en un
orden de magnitud (es decir, en una ordenaci´on) es el valor
central o la media de dos valores centrales.
113

Ejemplo 2.5.
La mediana de la lista de n´umeros 3, 4, 5, 6, 8, 8, 8, 10 es...
La mediana de la lista de n´umeros 5, 5, 7, 9, 11, 12, 15, 18
es..
114

Deﬁnici´on 2.4 (Mediana para datos agrupados).
Mediana = L +




N
2
− C<CM
f
fCM




donde
L es la frontera inferior de la clase mediana, es decir, de
la clase que contiene la mediana;
N es la frecuencia total;
C<CM
f suma de las frecuencias de todas las clases
anteriores a la clase mediana;
fCM
es la frecuencia de la clase mediana.
115

Moda
La moda de una lista de n´umeros es un valor que se presenta
con la mayor frecuencia f > 1. La moda no es
necesariamente existe ni es ´unica.
116

Ejemplo 2.6.
La moda de la lista 2, 2, 5, 7, 9, 9, 9, 10, 10, 11, 12, 18 es...
En este caso, diremos que la lista es unimodal.
¿Cu´al es la moda de la lista 3, 5, 8, 0, 12, 15, 16?
¿Cu´al es la moda de la lista 3, 8, 8, 8, 15, 15, 15? En este
caso diremos que la lista es bimodal.
117

Deﬁnici´on 2.5 (Moda para datos agrupados).
Moda = L +
∆1
∆1 + ∆2
c
donde
1 L : Frontera inferior de la clase modal, es decir, de la
clase que contiene la moda.
2 ∆1 : Exceso de frecuencia modal sobre la frecuencia en la
clase inferior inmediata.
3 ∆2 : Exceso de frecuencia modal sobre la frecuencia en la
clase superior inmediata.
4 c : Amplitud del intervalo de la clase modal.
118

Python
119

numpy.mean
numpy.mean(a, axis=None, dtype=None, out=None,
keepdims=<class numpy._globals._NoValue>)
Calcula la media aritm´etica sobre los elementos de un arreglo. 3
3
https://github.com/numpy/numpy/blob/v1.13.0/numpy/core/fromnumeric.py
L2909
120

Ejemplos
a = np.array([[1, 2], [3, 4]])
print np.mean(a)
#2.5
print np.mean(a, axis=0)
#array([ 2., 3.])
print np.mean(a, axis=1)
#array([ 1.5, 3.5])
121

numpy.median
numpy.median(a, axis=None, out=None,
overwrite_input=False, keepdims=False)
Calcula la mediana de los elementos de un arreglo de
n´umeros.4
4
https://docs.scipy.org/doc/numpy/reference/generated/numpy.median.html
122

Ejemplos I
import numpy as np
a = np.array([[10, 7, 4], [3, 2, 1]])
print a
#array([[10, 7, 4],6[ 3, 2, 1]])
print np.median(a)
#3.5
print np.median(a, axis=0)
#array([ 6.5, 4.5, 2.5])
print np.median(a, axis=1)
#array([ 7., 2.])
123

Ejemplos II
m = np.median(a, axis=0)
out = np.zeros_like(m)
print np.median(a, axis=0, out=m)
#array([ 6.5, 4.5, 2.5])
print m
#array([ 6.5, 4.5, 2.5])
b = a.copy()
print np.median(b, axis=1, overwrite_input=True)
#array([ 7., 2.])
assert not np.all(a==b)
124

Ejemplos III
b = a.copy()
print np.median(b, axis=None, overwrite_input=True)
#3.5
assert not np.all(a==b)
125

SciPy
SciPy es una biblioteca open source de herramientas y
algoritmos matemáticos para Python... SciPy contiene
módulos para optimización, álgebra lineal, integración,
interpolación, funciones especiales, FFT, procesamiento de
señales y de imagen, resolución de ODEs y otras tareas para la
ciencia e ingenier´ıa. Está dirigida al mismo tipo de usuarios que
los de aplicaciones como MATLAB, GNU Octave, y Scilab.5
5
https://es.wikipedia.org/wiki/SciPy
126

Moda I
import numpy as np
from scipy import stats
a = np.array([3,5,6,5,6,5,6,6,3,1,5])
print stats.mode(a)
# ModeResult(mode=array([5]), count=array([4]))
127

Moda II
b = np.array([[6, 8, 0, 0],
[3, 3, 0, 3],
[8, 1, 8, 5],
[5, 3, 0, 5],
[4, 7, 5, 3]])
print stats.mode(b)
# ModeResult(mode=array([[3, 3, 0, 3]]),
count=array([[1, 2, 3, 2]]))
128

Moda III
print stats.mode(b, axis=1)
# ModeResult(mode=array([[0],[3],[8],[5],[3]]),
# count=array([[2],[3],[2],[2],[1]]))
print stats.mode(b, axis=None)
# ModeResult(mode=array([3]), count=array([5]))
129

Problemas resueltos
130

Escribir los t´erminos de cada una de las siguientes sumas:
(a)
6
j=0
Xj =
(b)
4
k=1
(Yk − 3)2
=
(c)
N
k=1
a =
(d)
5
n=2
fnXn =
(e)
3
m=0
(Xm − a) =
131

De 100 n´umeros, 20 fueron 4, 40 fueron 5, 30 fueron 6 y los
restantes fueron 7. Encuentre su media aritm´etica.
132

Los pesos medio de cuatro grupos de estudiantes que constan
de 15, 20, 10 y 18 individuos son 162, 148, 153 y 140 libras,
respectivamente. Encuentre el preso medio de todos los
estudiantes.
133

Usando la distribuci´on de frecuencias de las estaturas que se
presenta en la siguiente tabla, hallar la estatura media de 100
estudiantes de cierta universidad.
134

Si las desviaciones de N n´umeros X1, .., XN respecto a un
pivote P est´an dada por di = Xi − P, i = 1, ..., N
respectivamente, demostrar que
¯X = P +
d
N
.
135

Demostrar que la suma de las desviaciones d1, d2, ..., dN de
X1, X2, ..., XN usando como pivote su media ¯X es igual a
cero.
136

Si Zi = Xi + Yi, i = 1, 2, ..., N, demostrar que ¯Z = ¯X + ¯Y .
137

Halle la media aritm´etica de los n´umeros 5,8,11,9,12,6,14 y 10
eligiendo como pivote a) P = 9 y b) P = 20.
138

Utilice la marca de la clase media como pivote, para calcular la
estatura de los estudiantes en la tabla 2.4.
139

Encontrar el peso mediano a partir de la siguiente tabla
140

Desviación estándar y otras
medidas de dispersión
141

Dispersión o variación
Si bien las medidas de tendencia central nos dicen alrededor de
que valores se concentra un arreglo de datos, las medidas de
dispersión nos dan una idea de que tan alejados están entre
s´ı.
A continuación, veremos algunas medidas de dispersión
comúnmente usadas en estad´ıstica.
142

Rango
El rango de un conjunto de datos es la diferencia entre el
mayor y el menor del conjunto.
Ejemplo 3.1.
El rango del conjunto 2,3,3,5,5,5,8,10,12 es 12 − 2 = 10.
143

Desviación media
La desviación media o desviación promedio de un
conjunto de N números X1, ..., XN está definida como
DM =
Xj − ¯X
N
donde ¯X es la media aritmética de los números y |·| denota el
valor absoluto.
144

Ejemplo 3.2.
Encuentre la desviaci´on media de la lista 2, 3, 6, 8, 11.
145

Desviación estándar
La desviación estándar de un conjunto de N números
X1, ..., XN se denota como s y está definida por
s =
Xj − ¯X
2
N
=
x2
j
N
donde xj := Xj − ¯X.
146

Si X1, ..., XN se presentan con frecuencias f1, ..., fN
respectivamente, la desviaci´on est´andar se puede expresar
como
s =
fj Xj − ¯X
2
N
=
fjx2
j
N
147

Observación: En ocasiones, N se reemplaza por N − 1
en las fórmulas anteriores, debido a que está definición
aproxima mejor a la población de la que se ha obtenido la
muestra. Pero para muestras muy grandes N > 30
prácticamente no hay diferencia.
148

Varianza
La varianza de un conjunto de números se define como el
cuadrado s2
de la desviación estándar s.
149

Observación: En estad´ıstica, es importante distinguir
entre la desviación estándar de una población y una
muestra. Para distinguirla, en el primer caso utilizaremos
σ y en el segundo, continuaremos usando s.
150

M´etodos abreviados
s2
= X2 − X
2
s2
= d2 − d
2
151

En las distribuciones normales se tiene que
(a) 68.27 % de los datos está comprendido entre ¯X ± s.
(b) 95.45 % de los datos está comprendido entre ¯X ± 2s.
(c) 99.73 % de los datos está comprendido entre ¯X ± 3s.
152

Si 2 conjuntos de N1 y N2 datos respectivamente tienen
correspondientes s2
1 y s2
2 varianzas pero una misma media
aritm´etica ¯X, entonces la varianza de la uni´on de ambos
conjuntos es
s2
=
N1s2
1 + N2s2
2
N1 + N2
.
153

Teorema de Chebyshev
Para k > 1, por lo menos 1 −
1
k2
de la distribución de
probabilidad de cualquier variable aleatoria está a nomas de k
desviaciones estándar de la media.
154

Python
155

numpy.std
numpy.std(a, axis=None, dtype=None, out=None, ddof=0,
keepdims=<class numpy._globals._NoValue>)
Calcule la desviación estándar a lo largo del eje especificado.
Devuelve la desviación estándar, una medida de la propagación
de una distribución, de los elementos de la matriz. La
desviación estándar se calcula para la matriz aplanada de
forma predeterminada, de lo contrario sobre el eje
especificado.6
6
https://docs.scipy.org/doc/numpy/reference/generated/numpy.std.html
156

import numpy as np
a = np.array([[1, 2], [3, 4]])
print np.std(a)
#1.1180339887498949
print np.std(a, axis=0)
#array([ 1., 1.])
print np.std(a, axis=1)
#array([ 0.5, 0.5])
157

#In single precision, std() can be inaccurate:
a = np.zeros((2, 512*512), dtype=np.float32)
a[0, :] = 1.0
a[1, :] = 0.1
print np.std(a)
#0.45000005
#Computing the standard deviation in float64
#is more accurate:
print np.std(a, dtype=np.float64)
#0.44999999925494177
158

Problemas resueltos
159

Encontrar el rango y las desviaciones media y est´andar de los
arreglos
(a) 12, 6, 7, 3, 15, 10, 18, 5
(b) 9, 3, 8, 8, 9, 8, 9, 18.
Compruebe sus resultados con Python.
160

Encontrar las desviaciones media y est´andar de las estaturas
de 100 estudiantes de la siguiente tabla:
161

Encontrar las desviaciones media y est´andar de las estaturas
de 100 estudiantes de la siguiente tabla:
162

Demostrar que
s =
X2
N
−
X
N
2
= X2 − X
2
s =
fX2
N
−
fX
N
2
= X2 − X
2
163

Utilizando las fórmulas anteriores, encuentre la desviación
estándar de los datos en la tabla 3.3:
164

Si d = X − P son desviaciones de X respecto a un pivote P,
demostrar que
s =
fd2
N
−
fd
N
2
.
165

Utilizando las fórmulas anteriores, encuentre la desviación
estándar de los datos en la tabla 3.3:
166

Encuentre la media aritmética y la desviación estándar de los
siguientes datos:
167

Estadística Descriptiva

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (6)

Similar a Estadística Descriptiva

Similar a Estadística Descriptiva (20)

Más de Juliho Castillo

Más de Juliho Castillo (20)

Último

Último (20)

Estadística Descriptiva