Primera Unidad del Curso de Probabilidad y Estadística impartido en Universidad LaSalle Oaxaca, Ingeniería en Software y Sistemas Computacionales, con una introducción a Python.
2. 1 Definiciones y conceptos
Distribuciones de frecuencias
Problemas Resueltos
2 Medidas de tendencia central
Python
Problemas resueltos
3 Desviaci´on est´andar y otras medidas de dispersi´on
Python
Problemas resueltos
2
4. Estad´ıstica
La estad´ıstica se ocupa de los m´etodos cient´ıficos que se
utilizan para recolectar, organizar, resumir, presentar y analizar
datos as´ı como para obtener conclusiones v´alidas y tomar
buenas decisiones razonables con base en este an´alisis.
4
5. #10 Peso
Figura 1.1: El peso promedio de una persona hoy es 14
kilogramos mayor que en la d´ecada de 1960.
5
6. #9 Trabajo y estudio
Figura 1.2: Entre un 70 y un 80 % de los estudiantes universitarios
hoy en d´ıa tiene un trabajo de media jornada o jornada completa.
Eso es el doble de los que estudiantes que trabajaban hace 30 a˜nos.
6
7. #8 Televisi´on
Figura 1.3: En los Estados Unidos, la cantidad de personas que
miran televisi´on regularmente se redujo en 27 % entre 2011 y 2014.
7
8. #7 Consumo de drogas
Figura 1.4: El consumo de drogas en los j´ovenes ha ido
disminuyendo consistentemente en los ´ultimos 20 a˜nos. En los
Estados Unidos, el porcentaje de j´ovenes y adolescentes que
admite haber consumido drogas ilegales pas´o de 34 % en 1997, a
27 % en la actualidad.
8
10. #5 Consumo de tabaco
Figura 1.6: Tambi´en el consumo de tabaco se redujo
considerablemente en los ´ultimos 50 a˜nos. En los Estados Unidos,
el porcentaje de personas que fumaban un paquete por d´ıa era de
35 % en 1954, y de 20 % en 2014.
10
11. #4 Matrimonio
Figura 1.7: En 1968, el 56 % de los estadounidenses entre 18-31
a˜nos estaba casado. En 2012 el porcentaje se redujo a 23 %.
11
12. #3 Cociente intelectual
Figura 1.8: En 1910, el cociente intelectual promedio ser´ıa de 70,
de acuerdo a las mediciones actuales. Ahora, el promedio es de
entre 130 y 150, dependiendo de la medici´on.
12
13. Observaci´on: Seg´un el experto James Flynn, como
especie evolucionamos en el entendimiento de categor´ıas,
sistemas hipot´eticos, lenguaje no verbal e im´agenes
visuales que retratan realidades alternativas.
13
14. #2 Peces en el mar
Figura 1.9: Desde 1950, un 90 % de los peces m´as grandes del
oc´eano han desaparecido. La causa es la pesca industrial.
14
15. #1 Ancianos
Figura 1.10: Hoy en d´ıa la poblaci´on mayor de 65 a˜nos es diez
veces mayor de lo que lo era hace un siglo.
15
16. Fuente: 10 curiosos datos estad´ısticos que prueban c´omo ha
cambiado el mundo, por Pablo Fern´andez.
16
17. Piratas contra el calentamiento global
Figura 1.11: «You may be interested to know that global
warming, earthquakes, hurricanes, and other natural disasters are a
direct effect of the shrinking numbers of Pirates since the 1800s.»
Open Letter To Kansas School Board
17
18. El t´ermino estad´ıstica tambi´en se usa para denotar los datos
o los n´umeros que se obtienen de esos datos; por ejemplo, los
promedios. As´ı, se habla de estad´ısticas de empleo, estad´ısticas
de accidentes, etc´etera.
18
19. Poblaci´on y muestra
Cuando se recolectan datos sobre las caracter´ısticas de un
grupo de individuos o de objetos, por ejemplo:
estatura y peso de los estudiantes de una universidad
o cantidad de pernos defectuosos y no defectuosos
producidos en determinado d´ıa en una f´abrica,
suele ser imposible o poco pr´actico observar todo el grupo, en
especial si se trata de un grupo grande.
19
20. En vez de examinar todo el grupo, al que se le conoce como
poblaci´on o universo, se examina s´olo una peque˜na parte del
grupo, al que se le llama muestra.
20
21. Las poblaciones pueden ser finitas o infinitas. Por ejemplo:
la poblaci´on que consta de todos los pernos producidos
determinado d´ıa en una f´abrica es finita,
en tanto que la poblaci´on que consta de todos los
resultados (cara o cruz) que se pueden obtener lanzando
una y otra vez una moneda es infinita.
21
22. Si la muestra es representativa de la poblaci´on, el an´alisis de la
muestra permite inferir conclusiones v´alidas acerca de la
poblaci´on.
A la parte de la estad´ıstica que se ocupa de las condiciones
bajo la cuales tales inferencias son v´alidas se le llama
estad´ıstica inductiva o inferencial.
Como estas inferencias no pueden ser absolutamente ciertas,
para presentar estas conclusiones se emplea el lenguaje de la
probabilidad.
22
23. A la parte de la estad´ıstica que ´unicamente trata de describir y
analizar un grupo dado, sin sacar ninguna conclusi´on ni hacer
inferencia alguna acerca de un grupo m´as grande, se le conoce
como estad´ıstica descriptiva o deductiva.
23
24. Variables: discretas vs continuas
Una variable es un s´ımbolo; por ejemplo, X, Y, H, x, B, que
puede tomar cualquiera de los valores de determinado
conjunto al que se le conoce como dominio de la variable.
A una variable que s´olo puede tomar un valor se le llama
constante.
24
25. Una variable X que puede tomar cualquiera de los valores en
la recta num´erica R es una variable continua.
Si los valores que una variable puede tomar se pueden numerar
X1, X2, ..., XN , ...
diremos que es una variable discreta.
25
26. Ejemplo 1.1.
La cantidad N de hijos que tiene una familia puede tomar los
valores 0, 1, 2, 3, ..., pero no puede tomar valores como 2.5 o
3.842; ´esta es una variable discreta.
26
27. Ejemplo 1.2.
La estatura H de una persona que puede ser 62 pulgadas (in),
63.8 in o 65.8341 in, dependiendo de la exactitud conque se
mida, es una variable continua.
27
28. Los datos descritos mediante una variable discreta son datos
discretos y los datos descritos mediante una variable continua
son datos continuos.
¿Qu´e tipo de dato es..
la cantidad de hijos que tiene cada una de 1 000 familias?
las estaturas de 100 estudiantes universitarios.?
En general, una medici´on proporciona datos continuos; en
cambio, una enumeraci´on o un conteo proporciona datos
discretos.
28
29. Es ´util ampliar el concepto de variable a entidades no
num´ericas;por ejemplo, en el arco iris, color C es una variable
que puede tomar los “valores” rojo, anaranjado, amarillo,
verde, azul, ´ındigo o violeta.
Estas variables se pueden reemplazar por n´umeros; por
ejemplo, se puede denotar rojo con 1, anaranjado con 2,
etc´etera.
29
31. Datos en bruto
Los datos en bruto son los datos recolectados que a´un no se
han organizado. Por ejemplo, las estaturas de 100 estudiantes
tomados de la lista alfab´etica de una universidad.
31
32. Ordenaciones
Ordenaci´on se le llama a los datos num´ericos en bruto
dispuestos en orden creciente o decreciente de magnitud.
A la diferencia entre el n´umero mayor y el n´umero menor se le
conoce como el rango de los datos.
Por ejemplo, si la estatura mayor en los 100 estudiantes es 74
pulgadas (in) y la menor es 60 in, el rango es
74 − 60 = 14 in.
32
33. DISTRIBUCIONES DE FRECUENCIA
Al organizar una gran cantidad de datos en bruto, suele
resultar ´util distribuirlos en clases o categor´ıas y determinar
la cantidad de datos que pertenece a cada clase; esta cantidad
se conoce como la frecuencia de clase.
33
34. A la disposici´on tabular de los datos en clases con sus
respectivas frecuencias de clase se le conoce como
distribuci´on de frecuencias o tabla de frecuencias.
34
35. Figura 1.12: Distribuci´on de frecuencias de las estaturas
(registradas a la pulgada m´as cercana) de 100 estudiantes de la
universidad XYZ.
35
36. La primera clase (o categor´ıa), por ejemplo, consta de las
estaturas que van desde 60 hasta 62 pulgadas y queda
identificada por el s´ımbolo 60-62. Como hay cinco estudiantes
cuyas estaturas pertenecen a esta clase, la frecuencia de clase
correspondiente es 5.
36
37. A los datos organizados y resumidos como en la distribuci´on
de frecuencias anterior se les llama datos agrupados.
Observaci´on: Aunque al agrupar los datos se pierden
muchos de los detalles originales de los datos, esto tiene la
ventaja de que se obtiene una visi´on general clara y se
hacen evidentes las relaciones.
37
38. INTERVALOS DE CLASE Y L´IMITES DE CLASE
Al s´ımbolo que representa una clase, como 60-62 en la tabla
1.12, se le conoce como intervalo de clase.
A los n´umeros de los extremos, 60 y 62, se les conoce como
l´ımites de clase; el n´umero menor (60) es el l´ımite inferior de
clase, y el n´umero mayor (62) es el l´ımite superior de clase.
Los t´erminos clase e intervalo de clase se suelen usar
indistintamente, aunque el intervalo de clase en realidad es un
s´ımbolo para la clase.
38
39. Un intervalo de clase que, por lo menos te´oricamente, no
tenga indicado el l´ımite de clase superior o el l´ımite de clase
inferior, se conoce como intervalo de clase abierto.
Por ejemplo, al considerar grupos de edades de personas, un
intervalo que sea “65 a˜nos o mayores” es un intervalo de clase
abierto.
39
40. FRONTERAS DE CLASE
Si las estaturas se registran a la pulgada m´as cercana, el
intervalo de clase 60-62 comprende te´oricamente todas las
mediciones desde 59.5000 hasta 62.5000 in.
Estos n´umeros que se indican brevemente mediante los
n´umeros exactos 59.5 y 62.5 son las fronteras de clase o los
l´ımites de clase reales; el menor de los n´umeros (59.5) es la
frontera inferior de clase y el n´umero mayor (62.5) es la
frontera superior de clase.
40
41. En la pr´actica, las fronteras de clase se obtienen sumando el
l´ımite superior de un intervalo de clase al l´ımite inferior del
intervalo de clase inmediato superior y dividiendo entre 2.
41
42. Algunas veces, las fronteras de clase se usan para representar a
las clases.
Por ejemplo, las clases de la tabla 2.1 pueden indicarse como
59.5-62.5, 62.5-65.5, etc.
Para evitar ambig¨uedades cuando se usa esta notaci´on, las
fronteras de clase no deben coincidir con las observaciones.
Por lo tanto, si una observaci´on es 62.5, no es posible decidir
si pertenece al intervalo 59.5-62.5 o al intervalo 62.5-65.5
42
43. TAMA˜NO O AMPLITUD DE UN INTERVALO DE
CLASE
El tama˜no, o la amplitud, de un intervalo de clase es la
diferencia entre sus fronteras superior e inferior y se le conoce
tambi´en como amplitud de clase, tama˜no de clase o
longitud de clase.
43
44. Si en una distribuci´on de frecuencia todos los intervalos de
clase tienen la misma amplitud, esta amplitud com´un se
denota c.
En este caso, c es igual a la diferencia entre dos l´ımites
inferiores de clases sucesivas o entre dos l´ımites superiores de
clases sucesivas.Por ejemplo, en los datos de la tabla 2.1, el
intervalo de clase es
c = 62.5 − 59.5 = 65.5 − 62.5 = 3.
44
45. LA MARCA DE CLASE
La marca de clase es el punto medio del intervalo de clase y
se obtiene sumando los l´ımites de clase inferior y superior y
dividiendo entre 2.
As´ı, la marca de clase del intervalo 60-62 es
(60 + 62)/2 = 61.
A la marca de clase tambi´en se le conoce como punto medio
de clase.
45
46. Para los an´alisis matem´aticos posteriores, se supone que todas
las observaciones que pertenecen a un intervalo de clase dado
coinciden con la marca de clase.
As´ı, se considera que todas las estaturas en el intervalo de
clase 60-62 in son de 61 in.
46
47. REGLAS GENERALES PARA FORMAR UNA DIS-
TRIBUCI´ON DE FRECUENCIAS I
En el conjunto de los datos en bruto, se determina el n´umero
mayor y el n´umero menor y se halla, as´ı, el rango (la diferencia
entre los n´umeros mayor y menor).
47
48. REGLAS GENERALES PARA FORMAR UNA DIS-
TRIBUCI´ON DE FRECUENCIAS II
Se divide el rango en una cantidad adecuada de intervalos de
clase de una misma amplitud. Si esto no es posible, se usan
intervalos de clase de diferentes amplitudes o intervalos de
clase abiertos. La cantidad de intervalos suele ser de 5 a 20,
dependiendo de los datos. Los intervalos de clase tambi´en
suelen elegirse de manera que las marcas de clase (o puntos
medios de clase) coincidan con datos observados. Esto tiende
a disminuir el llamado error de agrupamiento en los an´alisis
matem´aticos subsiguientes. En cambio, las fronteras de clase
no deben coincidir con datos observados.
48
49. REGLAS GENERALES PARA FORMAR UNA DIS-
TRIBUCI´ON DE FRECUENCIAS III
Se determina la cantidad de observaciones que caen dentro de
cada intervalo de clase; es decir, se encuentran las frecuencias
de clase. La mejor manera de hacer esto es utilizando una hoja
de conteo.
49
50. HISTOGRAMAS Y POL´IGONOS DE FRECUEN-
CIAS
Los histogramas y los pol´ıgonos de frecuencias son dos
representaciones gr´aficas de las distribuciones de frecuencias.
50
51. Un histograma o histograma de frecuencias consiste en un
conjunto de rect´angulos que tienen: a) sus bases sobre un eje
horizontal (el eje X ), con sus centros coincidiendo con las
marcas de clase de longitudes iguales a la amplitud del
intervalo de clase, y b) ´areas proporcionales a las frecuencias
de clase.
51
52. Un pol´ıgono de frecuencias es una gr´afica de l´ınea que
presenta las frecuencias de clase graficadas contra las mar- cas
de clase. Se puede obtener conectando los puntos medios de
las partes superiores de los rect´angulos de un histograma.
52
54. DISTRIBUCIONES DE FRECUENCIAS RELATIVAS
La frecuencia relativa de una clase es la frecuencia de la clase
dividida entre la suma de las frecuencias de todas las clases y
generalmente se expresa como porcentaje.
Por ejemplo, en la tabla 1.12, la frecuencia relativa de la clase
66-68 es 42/100 = 42 %. Por supuesto, la suma de las
frecuencias relativas de todas las clases es 1, o 100 %.
54
55. Si en la tabla 1.12 las frecuencias se sustituyen por frecuencias
relativas, la tabla que se obtiene es una distribuci´on de
frecuencias relativas, distribuci´on porcentual o tabla de
frecuencias relativas.
55
56. Las representaciones gr´aficas de las distribuciones de
frecuencias relativas se obtienen a partir de los histogramas o
pol´ıgonos de frecuencias, cambiando ´unicamente, en la escala
vertical, las frecuencias por las frecuencias relativas y
conservando la gr´afica exactamente igual.
A las gr´aficas que se obtienen se les llama histogramas de
frecuencias relativas (o histogramas porcentuales) y
pol´ıgonos de frecuencias relativas (o pol´ıgonos
porcentuales), respectivamente.
56
57. DISTRIBUCIONES DE FRECUENCIAS ACUMULA-
DAS Y OJIVAS
A la suma de todas las frecuencias menores que la frontera
superior de un intervalo de clase dado se le llama frecuencia
acumulada hasta ese intervalo de clase inclusive.
Por ejemplo, en la tabla 1.12, la frecuencia acumulada hasta el
intervalo de clase 66-68 inclusive es 5 + 18 + 42 = 65, lo que
significa que 65 estudiantes tienen una estatura menor a
68.5 in.
57
59. A una tabla en la que se presentan las frecuencias acumuladas
se le llama distribuci´on de frecuencias acumuladas, tabla
de frecuencias acumuladas o simplemente distribuci´on
acumulada, y se presenta en la tabla 2.2 para la distribuci´on
de las estaturas de los estudiantes de la tabla 1.12.
59
60. Figura 1.15: Una gr´afica que muestra las frecuencias acumuladas
menores de cada frontera superior de clase respecto a cada
frontera superior de clase se le conoce como gr´afica de
frecuencias acumuladas u ojiva.
60
61. DISTRIBUCIONES DE FRECUENCIAS ACUMULA-
DAS RELATIVAS Y OJIVAS PORCENTUALES
La frecuencia acumulada relativa o frecuencia
acumulada porcentual es la frecuencia acumulada dividida
entre la suma de todas las frecuencias (frecuencia total).
61
62. Por ejemplo, la frecuencia acumulada relativa de las estaturas
meno- res que 68.5 in es 65/100 = 0.65 o 65 %, lo que
significa que 65 % de los estudiantes tienen estaturas menores
a 68.5 in.
62
63. Si en la tabla 1.15 se emplean las frecuencias acumuladas
relativas en lugar de las frecuencias acumuladas, se obtiene
una distribuci´on de frecuencias acumuladas relativas (o
distribuci´on acumulada porcentual) y una gr´afica de
frecuencias acumuladas relativas (u ojiva porcentual),
respectivamente.
63
65. Problema Resuelto 1.1.
1 Disponer los n´umeros 17, 45, 38, 27, 6, 48, 11, 57, 34, 22 en
una ordenaci´on.
2 Determinar el rango de estos n´umeros.
65
66. # -*- coding: utf-8 -*-
"""
Ejercicio 2.1
a) Disponer los n´umeros 17, 45, 38, 27, 6, 48, 11, 57,
b) Determinar el rango de estos n´umeros.
"""
miLista = [17,45,38,27,6,48,11,57,34,22]
print(miLista)
miListaOrdenada = sorted(miLista)
print(miListaOrdenada)
rango = max(miLista)-min(miLista)
print(rango)
66
67. Problema Resuelto 1.2.
En la tabla siguiente se presentan las calificaciones finales que
obtuvieron en matem´atica 80 alumnos de una universidad.
67
68. De acuerdo con esta tabla, encontrar:
(a) La calificaci´on m´as alta.
(b) La calificaci´on m´as baja.
(c) El rango.
(d) Las calificaciones de los cinco mejores estudiantes.
(e) Las calificaciones de los cinco peores estudiantes.
(f) La calificaci´on del alumno que tiene el d´ecimo lugar entre
las mejores calificaciones.
(g) El n´umero de estudiantes que obtuvieron 75 o m´as.
(h) El n´umero de estudiantes que obtuvieron 85 o menos.
(i) El porcentaje de los estudiantes que obtuvieron
calificaciones mayores a 65 pero no mayores a 85.
(j) Las calificaciones que no aparecen en esta tabla.
68
72. #Ordenamos la lista
miListaOrd = sorted(miLista)
print(miListaOrd)
#Las calificaciones de los cinco mejores estudiantes.
print(miListaOrd[-5:])
#Las calificaciones de los cinco peores estudiantes.
print(miListaOrd[:5])
#La calificaci´on del alumno que tiene el d´ecimo lugar
#entre las mejores calificaciones.
print(miListaOrd[-10])
72
73. #El n´umero de estudiantes que obtuvieron 75 o m´as.
mayorQue75 = [elemento for elemento in miListaOrd
if elemento>=75]
print(mayorQue75, len(mayorQue75))
#El n´umero de estudiantes que obtuvieron 85 o menos.
menorQue85 = [x for x in miListaOrd if x<=85]
print(menorQue85, len(menorQue85))
73
74. #El porcentaje de los estudiantes
#que obtuvieron calificaciones
#mayores a 65 pero no mayores a 85.
de65a85 = [x for x in miListaOrd if 65<=x<=85]
print(len(de65a85)/len(miLista))
print(1.0*len(de65a85)/len(miLista))
74
75. #Las calificaciones que no aparecen en esta tabla.
complemento = [x for x in range(0,100+1)
if not(x in miLista)]
print(complemento)
75
76. Ahora, exploraremos los datos a trav´es de histogramas. Para
este fin, utilizaremos dos paquetes muy populares de Python:
numpy y matplotlib.
76
77. Numpy
NumPy es una extensi´on de Python, que le agrega mayor
soporte para vectores y matrices, constituyendo una biblioteca
de funciones matem´aticas de alto nivel para operar con esos
vectores o matrices.1
1
https://es.wikipedia.org/wiki/NumPy
77
78. Matplotlib
Matplotlib es una biblioteca para la generaci´on de gr´aficos a
partir de datos contenidos en listas o arrays en el lenguaje de
programaci´on Python y su extensi´on matem´atica NumPy.
Proporciona una API, pylab, dise˜nada para recordar a la de
MATLAB.2
2
https://es.wikipedia.org/wiki/Matplotlib
78
88. print "Intervalo"+8*" "+"Frecuencia"
for k in range(len(myBins)-1):
liminf=myBins[k]
limsup=myBins[k+1]-1
frecuencia=miHistograma[0][k]
print "["+str(liminf)+"-"+str(limsup)+")"+6*" "
+str(frecuencia)
88
89. print "Intervalo"+8*" "+"Frecuencia"+2*" "+
"Elementos en intervalo"
for k in range(len(myBins)-1):
liminf=myBins[k]
limsup=myBins[k+1]-1
frecuencia=miHistograma[0][k]
elementos = []
for x in miLista:
if (liminf<=x and x<limsup):
elementos.append(x)
sep = len("Frecuencia")+2-len(str(frecuencia))
print "["+str(liminf)+"-"+str(limsup)+")"+6*" "+
str(frecuencia)+12*" "+str(elementos)
89
90. ¿Qu´e opciones existen para el par´ametro bins?
1 https://docs.scipy.org/doc/numpy/reference/generated/
numpy.histogram.html
2 https://stackoverflow.com/questions/9141732/how-does-
numpy-histogram-work
90
92. Sugerencia
Genere la lista anterior, utilizando el siguiente c´odigo
import numpy as np
np.random.seed(1234)
mu, sigma = 5, 1 # mean and standard deviation
s = np.random.normal(mu, sigma, 100)
print np.rint(s)
92
93. Para profundizar...
Una de las mejores plataformas para aprender an´alisis de
datos es DataCamp. Puede comenzar a dominar Python con
el curso Intro to Python for Data Science.
93
95. ´Indice y sub´ındices
El s´ımbolo Xj representa cualquiera de los valores
X1, X2, X3, ... que puede tomar la variable discreta X.
El s´ımbolo j denota cualquiera de los n´umeros naturales
1, 2, 3, ... y se le llama ´ındice (o a veces sub´ındice o tambi´en
contador).
95
100. Promedio
UN promedio es un valor representativo de un conjunto de
datos que tiende a encontrarse en el centro de dicho conjunto.
Por esta raz´on, tambi´en se le conoce como medidas de
tendencia central.
100
101. Se pueden definir varios tipo de promedios:
Media aritm´etica;
mediana;
moda;
media geom´etrica;
media arm´onico.
101
102. Observaci´on: Cada medida de tendencia central tiene
ventajas y desventajas de acuerdo al tipo de datos y el
prop´osito del uso.
102
103. Definici´on 2.2 (Media aritm´etica).
¯X =
X1 + ... + XN
N
=
N
j=1 Xj
N
=
X
N
(2.1)
103
105. Si los n´umeros X1, X2, ..., Xk se presentan con frecuencias
f1, f2, ..., fk respectivamente su media aritm´etica es
¯X =
f1X1 + ... + fkXk
f1 + ... + fk
=
fX
f
=
fX
N
. (2.2)
d´onde N = f es la suma de frecuencias o total de
casos.
105
106. Ejemplo 2.3.
Si 5, 8, 6, 2 se presentan con frecuencias 3, 2, 4, 1
respectivamente, su media aritm´etica es...
106
107. Media aritm´etica ponderada
Algunas veces, a los n´umeros X1, ..., Xk se les asignan ciertos
factores de ponderaci´on o pesos w1, ..., wk, tales que
0 % ≤ wi ≤ 100 %
wi = 100 %
107
108. Definici´on 2.3 (Media ponderada).
Si w1, .., wk son pesos tales que 0 ≤ wi ≤ 1 y wi = 1,
entonces la correspondiente media (aritm´etica) ponderada de
los n´umeros X1, ..., Xk es
¯X =
w1X1 + ... + wkXk
w1 + ... + wk
=
wX
w
= wX.
108
109. Ejemplo 2.4.
Si en una clase, al examen final se le da el triple del valor que
a los ex´amenes parciales y un estudiante obtiene 85 en el final
y 70 y 90 en los dos ex´amenes parciales, obtener su media
ponderada.
109
110. 1 Si wi = 1
N
, obtenemos la media aritm´etica usual.
2 Si wi = fi
N
, obtenemos la f´ormula (2.2).
110
111. Cuando los n´umeros son muy grandes, se suele utilizar un
pivote P :
¯X = P +
fidi
N
,
donde di = Xi − P.
En ocasiones, utilizaremos la notaci´on
¯d =
fidi
N
,
de manera que ¯d es la desviaci´on promedio y ¯X = P + ¯d.
111
113. La mediana
La mediana ˜X de un conjunto de n´umeros acomodados en un
orden de magnitud (es decir, en una ordenaci´on) es el valor
central o la media de dos valores centrales.
113
114. Ejemplo 2.5.
La mediana de la lista de n´umeros 3, 4, 5, 6, 8, 8, 8, 10 es...
La mediana de la lista de n´umeros 5, 5, 7, 9, 11, 12, 15, 18
es..
114
115. Definici´on 2.4 (Mediana para datos agrupados).
Mediana = L +
N
2
− C<CM
f
fCM
donde
L es la frontera inferior de la clase mediana, es decir, de
la clase que contiene la mediana;
N es la frecuencia total;
C<CM
f suma de las frecuencias de todas las clases
anteriores a la clase mediana;
fCM
es la frecuencia de la clase mediana.
115
116. Moda
La moda de una lista de n´umeros es un valor que se presenta
con la mayor frecuencia f > 1. La moda no es
necesariamente existe ni es ´unica.
116
117. Ejemplo 2.6.
La moda de la lista 2, 2, 5, 7, 9, 9, 9, 10, 10, 11, 12, 18 es...
En este caso, diremos que la lista es unimodal.
¿Cu´al es la moda de la lista 3, 5, 8, 0, 12, 15, 16?
¿Cu´al es la moda de la lista 3, 8, 8, 8, 15, 15, 15? En este
caso diremos que la lista es bimodal.
117
118. Definici´on 2.5 (Moda para datos agrupados).
Moda = L +
∆1
∆1 + ∆2
c
donde
1 L : Frontera inferior de la clase modal, es decir, de la
clase que contiene la moda.
2 ∆1 : Exceso de frecuencia modal sobre la frecuencia en la
clase inferior inmediata.
3 ∆2 : Exceso de frecuencia modal sobre la frecuencia en la
clase superior inmediata.
4 c : Amplitud del intervalo de la clase modal.
118
120. numpy.mean
numpy.mean(a, axis=None, dtype=None, out=None,
keepdims=<class numpy._globals._NoValue>)
Calcula la media aritm´etica sobre los elementos de un arreglo. 3
3
https://github.com/numpy/numpy/blob/v1.13.0/numpy/core/fromnumeric.py
L2909
120
123. Ejemplos I
import numpy as np
a = np.array([[10, 7, 4], [3, 2, 1]])
print a
#array([[10, 7, 4],6[ 3, 2, 1]])
print np.median(a)
#3.5
print np.median(a, axis=0)
#array([ 6.5, 4.5, 2.5])
print np.median(a, axis=1)
#array([ 7., 2.])
123
124. Ejemplos II
m = np.median(a, axis=0)
out = np.zeros_like(m)
print np.median(a, axis=0, out=m)
#array([ 6.5, 4.5, 2.5])
print m
#array([ 6.5, 4.5, 2.5])
b = a.copy()
print np.median(b, axis=1, overwrite_input=True)
#array([ 7., 2.])
assert not np.all(a==b)
124
125. Ejemplos III
b = a.copy()
print np.median(b, axis=None, overwrite_input=True)
#3.5
assert not np.all(a==b)
125
126. SciPy
SciPy es una biblioteca open source de herramientas y
algoritmos matem´aticos para Python... SciPy contiene
m´odulos para optimizaci´on, ´algebra lineal, integraci´on,
interpolaci´on, funciones especiales, FFT, procesamiento de
se˜nales y de imagen, resoluci´on de ODEs y otras tareas para la
ciencia e ingenier´ıa. Est´a dirigida al mismo tipo de usuarios que
los de aplicaciones como MATLAB, GNU Octave, y Scilab.5
5
https://es.wikipedia.org/wiki/SciPy
126
127. Moda I
import numpy as np
from scipy import stats
a = np.array([3,5,6,5,6,5,6,6,3,1,5])
print stats.mode(a)
# ModeResult(mode=array([5]), count=array([4]))
127
131. Problema Resuelto 2.1.
Escribir los t´erminos de cada una de las siguientes sumas:
(a)
6
j=0
Xj =
(b)
4
k=1
(Yk − 3)2
=
(c)
N
k=1
a =
(d)
5
n=2
fnXn =
(e)
3
m=0
(Xm − a) =
131
132. Problema Resuelto 2.2.
De 100 n´umeros, 20 fueron 4, 40 fueron 5, 30 fueron 6 y los
restantes fueron 7. Encuentre su media aritm´etica.
132
133. Problema Resuelto 2.3.
Los pesos medio de cuatro grupos de estudiantes que constan
de 15, 20, 10 y 18 individuos son 162, 148, 153 y 140 libras,
respectivamente. Encuentre el preso medio de todos los
estudiantes.
133
134. Problema Resuelto 2.4.
Usando la distribuci´on de frecuencias de las estaturas que se
presenta en la siguiente tabla, hallar la estatura media de 100
estudiantes de cierta universidad.
134
135. Problema Resuelto 2.5.
Si las desviaciones de N n´umeros X1, .., XN respecto a un
pivote P est´an dada por di = Xi − P, i = 1, ..., N
respectivamente, demostrar que
¯X = P +
d
N
.
135
136. Problema Resuelto 2.6.
Demostrar que la suma de las desviaciones d1, d2, ..., dN de
X1, X2, ..., XN usando como pivote su media ¯X es igual a
cero.
136
142. Dispersi´on o variaci´on
Si bien las medidas de tendencia central nos dicen alrededor de
que valores se concentra un arreglo de datos, las medidas de
dispersi´on nos dan una idea de que tan alejados est´an entre
s´ı.
A continuaci´on, veremos algunas medidas de dispersi´on
com´unmente usadas en estad´ıstica.
142
143. Rango
El rango de un conjunto de datos es la diferencia entre el
mayor y el menor del conjunto.
Ejemplo 3.1.
El rango del conjunto 2,3,3,5,5,5,8,10,12 es 12 − 2 = 10.
143
144. Desviaci´on media
La desviaci´on media o desviaci´on promedio de un
conjunto de N n´umeros X1, ..., XN est´a definida como
DM =
Xj − ¯X
N
donde ¯X es la media aritm´etica de los n´umeros y |·| denota el
valor absoluto.
144
146. Desviaci´on est´andar
La desviaci´on est´andar de un conjunto de N n´umeros
X1, ..., XN se denota como s y est´a definida por
s =
Xj − ¯X
2
N
=
x2
j
N
donde xj := Xj − ¯X.
146
147. Si X1, ..., XN se presentan con frecuencias f1, ..., fN
respectivamente, la desviaci´on est´andar se puede expresar
como
s =
fj Xj − ¯X
2
N
=
fjx2
j
N
147
148. Observaci´on: En ocasiones, N se reemplaza por N − 1
en las f´ormulas anteriores, debido a que est´a definici´on
aproxima mejor a la poblaci´on de la que se ha obtenido la
muestra. Pero para muestras muy grandes N > 30
pr´acticamente no hay diferencia.
148
149. Varianza
La varianza de un conjunto de n´umeros se define como el
cuadrado s2
de la desviaci´on est´andar s.
149
150. Observaci´on: En estad´ıstica, es importante distinguir
entre la desviaci´on est´andar de una poblaci´on y una
muestra. Para distinguirla, en el primer caso utilizaremos
σ y en el segundo, continuaremos usando s.
150
152. En las distribuciones normales se tiene que
(a) 68.27 % de los datos est´a comprendido entre ¯X ± s.
(b) 95.45 % de los datos est´a comprendido entre ¯X ± 2s.
(c) 99.73 % de los datos est´a comprendido entre ¯X ± 3s.
152
153. Si 2 conjuntos de N1 y N2 datos respectivamente tienen
correspondientes s2
1 y s2
2 varianzas pero una misma media
aritm´etica ¯X, entonces la varianza de la uni´on de ambos
conjuntos es
s2
=
N1s2
1 + N2s2
2
N1 + N2
.
153
154. Teorema de Chebyshev
Para k > 1, por lo menos 1 −
1
k2
de la distribuci´on de
probabilidad de cualquier variable aleatoria est´a a nomas de k
desviaciones est´andar de la media.
154
156. numpy.std
numpy.std(a, axis=None, dtype=None, out=None, ddof=0,
keepdims=<class numpy._globals._NoValue>)
Calcule la desviaci´on est´andar a lo largo del eje especificado.
Devuelve la desviaci´on est´andar, una medida de la propagaci´on
de una distribuci´on, de los elementos de la matriz. La
desviaci´on est´andar se calcula para la matriz aplanada de
forma predeterminada, de lo contrario sobre el eje
especificado.6
6
https://docs.scipy.org/doc/numpy/reference/generated/numpy.std.html
156
158. #In single precision, std() can be inaccurate:
a = np.zeros((2, 512*512), dtype=np.float32)
a[0, :] = 1.0
a[1, :] = 0.1
print np.std(a)
#0.45000005
#Computing the standard deviation in float64
#is more accurate:
print np.std(a, dtype=np.float64)
#0.44999999925494177
158
160. Problema Resuelto 3.1.
Encontrar el rango y las desviaciones media y est´andar de los
arreglos
(a) 12, 6, 7, 3, 15, 10, 18, 5
(b) 9, 3, 8, 8, 9, 8, 9, 18.
Compruebe sus resultados con Python.
160
161. Problema Resuelto 3.2.
Encontrar las desviaciones media y est´andar de las estaturas
de 100 estudiantes de la siguiente tabla:
161
162. Problema Resuelto 3.3.
Encontrar las desviaciones media y est´andar de las estaturas
de 100 estudiantes de la siguiente tabla:
162