SlideShare una empresa de Scribd logo
1 de 122
Descargar para leer sin conexión
Probabilidad y Estad´ıstica:
Conceptos Estad´ısticos para
Modelaci´on Predictiva
Dr. Juliho Castillo
22 de octubre de 2017
Universidad LaSalle Oaxaca
1
1 Objetivos
2 Muestreo aleatorio y teorema del l´ımite central
3 Pruebas de hip´otesis
4 Estad´ısticos Z y t
5 Intervalos de confianza, niveles de significaci´on y valore p
6 Una gu´ıa paso a paso para realizar una prueba de hip´otesis
7 Un ejemplo de la prueba de hip´otesis
8 Prueba χ−cuadrada
9 Correlaci´on
10 Recursos
2
Conceptos Estad´ısticos Importantes
1 Pruebas de hip´otesis.
2 p−valores.
3 Distribuci´on normal.
4 Correlaci´on.
3
Objetivos
4
Muestreo aleatorio y teorema del l´ımite central
Entender el concepto de muestreo aleatorio a trav´es de
ejemplos e ilustrar las aplicaciones del teorema del l´ımite
central. Estos dos conceptos son la columna vertebral de las
pruebas de hip´otesis.
5
Pruebas de hip´otesis
Entender el significado de los t´erminos tales como hip´otesis
nula, hip´otesis alternativa, intervalos de confianza,
p−valores, nivel de significaci´on, etc. Desarrollaremos una
gu´ıa de la implementaci´on de pruebas de hip´otesis, seguidas
por un ejemplo.
6
Pruebas χ−cuadrada
Calcularemos el estad´ıstico χ-cuadrada y describiremos el uso
de pruebas χ-cuadrada con un par de ejemplos.
7
Correlaci´on
Entenderemos el significado y la significaci´on de la correlaci´on
entre dos variables, de los coeficientes de correlaci´on y
calcularemos y visualizaremos la correlaci´on entre variables de
una base de datos.
8
Muestreo aleatorio y teorema
del l´ımite central
9
Ejemplo
Supongamos que tratamos de encontrar la edad promedio en
una ciudad, digamos Oaxaca. Una manera de hacerlo ser´ıa por
fuerza bruta, es decir, recolectando esta informaci´on persona
por persona. Pero este m´etodo ser´ıa muy costoso en t´erminos
de infraestructura y tiempo.
10
En estad´ıstica, este es un problema com´un, cuya soluci´on est´a
en el muestreo aleatorio: Tomemos un grupo de 1000
individuos (o 10,000 dependiendo de tu capacidad, obviamente
entre m´as, es mejor) y calculemos la edad promedio en este
grupo, a la que denotaremos por A1.
11
Repitamos este procedimiento, digamos 100 veces, y
denotaremos por A1, A2, ..., A100 el promedio de edades
obtenido en cada respectivo intento.
12
De acuerdo a la ley de los grandes n´umeros, la cantidad
¯A100 =
A1 + ... + A100
100
(2.1)
es una aproximaci´on muy cercana al promedio real de la edad
de los pobladores de la ciudad.
13
De acuerdo al teorema del l´ımite central, si el n´umero de
tales muestras es suficientemente grande, entonces la
distribuci´on de estos promedios seguir´an una distribuci´on
normal. Es decir, A1, A2, ..., A100 estar´an distribuidos de
manera normal.
14
Observaci´on: No estamos m´as interesados en obtener el
valor exacto de la edad promedio, si no establecer un
estimador para la misma. En tal caso, tenemos que
conformarnos con la definici´on de un rango de valores en el
que el valor real podr´ıa estar.
Dado que hemos asumido una distribuci´on normal para los
valores de edad media de estos grupos, podemos aplicar
todas las propiedades de una distribuci´on normal para
cuantificar las probabilidades de que esta edad media sea
mayor o menor que un cierto n´umero.
15
Dado que hemos asumido una distribuci´on normal para los
valores de edad media de estos grupos, podemos aplicar todas
las propiedades de una distribuci´on normal para posibilidades
de que esta edad media sea mayor o menor que un cierto
n´umero.
16
Pruebas de hip´otesis
17
El concepto que acabamos de comentar en la secci´on anterior
se utiliza para una t´ecnica en estad´ıstica, llamada prueba de
hip´otesis. En la prueba de hip´otesis, asumimos una hip´otesis
(generalmente relacionada con el valor del estimador)
denominada hip´otesis nula y tratar de ver si es cierto o no
aplicando las reglas de una distribuci´on normal. Tenemos otra
hip´otesis llamada hip´otesis alternativa.
18
Hip´otesis nula vs. alternativa
Hay un truco para decidir cu´al ser´a la hip´otesis nula y cu´al
ser´a la hip´otesis alternativa. La hip´otesis nula es la premisa
inicial o algo que asumir que todav´ıa es cierto. La hip´otesis
alternativa es algo de lo que no estamos seguros y proponen
como premisa alternativa (casi con frecuencia contradictoria a
la nula hip´otesis) que podr´ıa o no ser cierto.
19
Por lo tanto, cuando alguien est´a haciendo una investigaci´on
cuantitativa para calibrar el valor de un estimador, el valor
conocido del par´ametro se toma como hip´otesis nula mientras
que el nuevo valor encontrado (de la investigaci´on) se toma
como la hip´otesis alternativa.
20
En nuestro caso (encontrar la edad media de nuestra ciudad),
un investigador puede afirmar que la edad menor que 35. Esto
puede servir como la hip´otesis nula. Si una nueva agencia
afirma lo contrario (que es mayor que 35), entonces se puede
denominar como la hip´otesis alternativa.
21
Estad´ısticos Z y t
22
Suponga que el valor del par´ametro asumido en la hip´otesis
nula es Ao. Tomemos una muestra aleatoria de 100 o 1000
personas o eventos del evento y calculemos la media del
par´ametro, por ejemplo la edad promedio de una ciudad, el
tiempo medio de suministro de la pizza, la media ingresos, etc.
Podemos llamarlo A.
23
El estad´ıstico Z se calcula para convertir una variable
normalmente distribuida (la distribuci´on de la media
poblacional de edad) a una distribuci´on normal est´andar. Esto
es porque los valores de probabilidad para una variable que
sigue a la distribuci´on normal estandarizada se puede obtener
de una tabla precalculada.
24
El estad´ıstico Z se da por la siguiente f´ormula:
Z =
A − A0
σ/
√
n
(4.1)
donde σ es la desviaci´on est´andar de la poblaci´on y n es el
n´umero de personas en la muestra
25
Ahora, debemos considerar dos casos
26
Prueba Z (distribuci´on normal)
El investigador conoce a desviaci´on est´andar del par´ametro de
su experiencia pasada. Un buen ejemplo de esto es el caso del
tiempo de entrega de una pizza. En este caso (4.1) seguir´a
una distribuci´on normal y los valores normalizados se
conocer´an como valores Z.
27
Prueba t (distribuci´on t de Student
En este caso, el investigador no conoce la desviaci´on est´andar
de la poblaci´on. Esto puede pasar porque:
No existen tales datos en alg´un registro hist´orico;
o el n´umero de eventos o personas es demasiado peque˜no
para suponer una distribuci´on normal.
28
En este caso, la media y la desviaci´on est´andar son
desconocidas, y la expresi´on asume una distribuci´on diferente a
la normal llamada distribuci´on t de Student. El valor
estandarizadas en este caso es llamado t−valor y la prueba es
llamada prueba-t.
29
Distribuci´on t de Student
La distribuci´on de Student fue descrita en 1908 por
William Sealy Gosset. Gosset trabajaba en una
f´abrica de cerveza, Guinness, que prohib´ıa a sus
empleados la publicaci´on de art´ıculos cient´ıficos
debido a una difusi´on previa de secretos industriales.
De ah´ı que Gosset publicase sus resultados bajo el
seud´onimo de Student.
Wikipedia: Distribuci´on t de Student
30
Figura 4.1: De The original uploader was Thorin de Wikipedia en
franc´es - Transferido desde fr.wikipedia a Commons., CC BY-SA
1.0, https://commons.wikimedia.org/w/index.php?curid=1878902
31
Figura 4.2: De Desconocido, CC BY-SA 3.0,
https://commons.wikimedia.org/w/index.php?curid=788691
32
Distribuci´on t en Python
from scipy import stats
import numpy as np
import matplotlib.pyplot as plt
def ft(x, nu):
return stats.t.pdf(x, df=nu)
def Ft(x, nu):
return stats.t.cdf(x, df=nu)
x = np.arange(-4,4,0.01)
33
Distribuci´on t en Python
yd = ft(x,30)
yc = Ft(x,30)
fig, ax = plt.subplots()
plt.plot(x, yd, ’r’, linewidth=2)
plt.plot(x, yc, ’b’, linewidth=2)
plt.ylim(ymin=0)
plt.show()
34
35
El par´ametro df se le conoce como grados de libertad y
generalmente se denota como ν (la letra nu griega).
36
Si una variable aleatoria X tiene distribuci´on t con ν grados
de libertad, entonces
µX = 0, σ2
X =
ν
ν − 2
(4.2)
37
Ejemplo 4.1.
Consideremos una variable con distribuci´on t y ν = 9 grados
de libertad. Encuentre el valor de t para el cu´al el ´area a la
derecha sea 0.05 pero el total del ´area sin sombrear sea 0.90.
38
tExample.py
from scipy import stats
import numpy as np
import matplotlib.pyplot as plt
def tp(x, nu):
return stats.t.ppf(x, df=nu)
print tp(0.05, 9)
##-1.83311293265
print tp(1-0.05, 9)
##1.83311293265
39
Varianza muestral
S2
=
(Ai − A0)2
n − 1
(4.3)
40
Estad´ıstico t
t =
(A − A0)
S/
√
n
(4.4)
41
Intervalos de confianza, niveles
de significaci´on y valore p
42
Figura 5.1: Una distribuci´on t´ıpica normal con valores p.
43
Supongamos que Z1 y Z2 son dos Z−estad´ısticos
correspondientes a dos valores de una variable aleatoria y p1 y
p2 son ´areas encerradas por la curva de densidad a la derecha
de esos valores.
En otras palabras
P(X > Z1) = p1 (5.1)
P(X > Z2) = p2 (5.2)
44
Entonces, podemos definir un intervalo en el cual encontrar el
valor de una variable aleatoria, al cual llamaremos intervalo
de confianza.
45
Por ejemplo, para una distribuci´on normal con media µ y
desviaci´on est´andar σ, el valor de la variable aleatoria estar´a en
el intervalo [µ − 3σ, µ + 3σ] con una confianza
(probabilidad) del 99 %.
46
Para cualquier estimador (variable aleatoria) que tenga una
distribuci´on normal, uno puede definir un intervalo de
confianza si decidimos el nivel de confianza o probabilidad.
Podemos pensar en los intervalos de confianza c´omo el
umbral de los valores aceptados para sostener que la hip´otesis
nula es cierta
Si el valor del estimador vive en este rango, ser´a
estad´ısticamente correcto decir que la hip´otesis nula es
correcta.
47
Para definir un intervalo de confianza, se necesita definir antes
un nivel (o probabilidad) de confianza. Esta probabilidad
necesita ser definida por el investigador dependiendo del
contexto.
48
Digamos que esta probabilidad es p. En general, utilizaremos
el nivel de significaci´on
β = 1 − p, (5.3)
que representa la probabilidad de que la hip´otesis nula no sea
correcta.
β es definida por el investigador y usualmente esta en el orden
de 0.01 a 0.1.
49
Un concepto importante que aprender aqu´ı es el valor de
probabilidad o simplemente valor-p de un estad´ıstico: Es la
probabilidad de que una variable aleatoria asuma un valor
mayor al valor-Z (o al valor-t)
p − valor = P (X > Z) (5.4)
50
Figura 5.2: Una distribuci´on normal t´ıpica con p−valores y nivel
de significaci´on.
51
Criterio
Aceptar la hip´otesis nula y rechazar la alternativa si
p − valor > β
Aceptar la hip´otesis alternativa y rechazar la nula si
p − valor < β
52
Debido a la simetr´ıa de la distribuci´on normal, existen tres
tipos de pruebas de hip´otesis:
1 Cola izquierda;
2 cola derecha;
3 ambas colas.
53
Cola izquierda
Figura 5.3: Prueba de hip´otesis: Cola izquierda
54
Cola derecha
Figura 5.4: Prueba de hip´otesis: Cola derecha
55
Dos colas
Analizamos ambas colas y si en alguna de las dos colas, falla la
respectiva prueba de hip´otesis, la prueba de hip´otesis se
rechaza.
56
Una gu´ıa paso a paso para
realizar una prueba de hip´otesis
57
Paso #1
Defina sus hip´otesis nula y alternativa. Las hip´otesis nula
es algo que ya se establece y se acepta como cierto, al cu´al
denotamos como H0. Tambi´en, suponemos que el valor del
par´ametro en la hip´otesis nula es A0.
58
Paso #2
Tome una muestra, digamos de unas 100 o 1000 personas o
ocurrencias de eventos, y calcule el valor del estimador (por
ejemplo, el promedio del par´ametro como es la edad promedio,
el tiempo promedio de entrega de la pizza, ingreso promedio,
etc.) Digamos que este valor fue Am.
59
Paso #3
Calcule el valor normal est´andar del valor Z
Z =
Am − A0
σ/
√
n
(6.1)
60
En la f´ormula anterior, σ es la desviaci´on est´andar de la
poblaci´on o ocurrencias de eventos y n es el n´umero de
personas en la muestra.
61
La probabilidad asociada con el valor Z calculada en el paso 3
se debe comparar con el nivel de significaci´on de la prueba a
determinar si la hip´otesis nula ser´a aceptada o rechazada.
62
Un ejemplo de la prueba de
hip´otesis
63
Planteamiento
Un famoso restaurante de pizza afirma que su tiempo de
entrega es de 20 minutos, con una desviaci´on est´andar de 3
minutos.
Un investigador de mercados independiente afirma que ellos
est´an desinflando los n´umeros para ganar clientes y el tiempo
de entrega promedio es de hecho 21.2 minutos.
¿Es su afirmaci´on justificada o est´a el negocio de pizza
correcto en su afirmaci´on? Suponga un nivel de
significaci´on del 5 %
64
Definamos las hip´otesis nula y alternativa:
Lo que el negocio de pizzas afirma: H0 : A0 = 20.
Lo que el investigador reclama: Ha : A0 > 20.
Desviaci´on est´andar (conocida): σ = 3.
Tama˜no de la muestra: n = 64.
Nivel de significaci´on: β = 0.05.
65
Calculemos el valor Z:
Z =
21.2 − 20
3/
√
64
= 3.2
66
Denotemos por F la funci´on de distribuci´on acumulativa de
una variable normal N(0, 1).
Calculamos el valor p correspondiente al valor Z = 3.2:
valor-p = 1 − F(3.2)
= 1 − 0.999312862062
= 0.000687137937916
67
Esto significa que si la media fuera A0 = 20, la probabilidad de
que la media muestral fuera A = 21.2 es ≈ 0.069 %.
Como elegimos un nivel de significaci´on β = 5 %, y
0.069 % < 5 %, podemos rechazar la hip´otesis nula
H0 : A0 = 20.
68
Figura 7.1: La hip´otesis nula se rechaza porque el p−valor es
menor al nivel de significaci´on β.
69
Prueba χ−cuadrada
70
La prueba χ2
se usa com´unmente para comparar datos
observados vs datos esperados suponiendo que los datos
siguen ciertas hip´otesis.
71
Debemos suponer cierta hip´otesis, la cu´al nuestros datos
seguir´an y calculamos los datos esperados de acuerdo a esa
hip´otesis.
72
Debemos ya tener los datos observados, y calcular la
desviaci´on entre estos y los esperados usando el estad´ıstico
definido en la siguiente f´ormula:
valor χ2
:g =
(O − E)2
E
, (8.1)
donde O es el valor observado y E el esperado, con la suma
sobre todos los posibles datos.
73
Aplicaciones del estad´ıstico χ−cuadrada
La prueba de ji cuadrado se puede usar para hacer lo siguiente:
Mostrar una relaci´on causal o independencia entre una
variable de entrada y otra de salida.
Verificar si los datos observados provienen de una fuente
justa / imparcial.
Comprobar si los datos son demasiado buenos para ser
verdad.
74
Ejemplo
Realicemos un experimento hipot´etico en el que una moneda
se lanza 10 veces.¿Cu´antas veces espera obtener ya sea un
´aguila o un sol? La respuesta adecuada ser´ıa 5. Ahora bien,
¿qu´e pasar´ıa si realizamos este experimento 1000 veces y
registramos los n´umeros de ´aguilas y soles.
75
Supongamos que observamos soles 553 veces y ´aguilas el resto
de ocasiones:
H0 : La proporci´on de soles y ´aguilas es 0.5
Ha : La proporci´on no es 0.5
76
Soles ´Aguilas
Observado 553 447
Esperado 500 500
77
Calculemos el valor χ2
:
g =
(553 − 500)2
+ (447 − 500)5
500
≈ 11.236
78
Este valor−χ2
se compara al valor en una distribuci´on χ2
para un n´umero dado de grados de libertad y un nivel de
significaci´on.
79
La Distribuci´on χ2
Sean X1, X2, ..., Xν variables aleatorias independientes
N(0, 1). Consideremos la variable aleatoria
χ2
= X2
1 + ... + X2
ν (8.2)
a la que llamaremos chi cuadrada. Su correspondiente
distribuci´on de probabilidad recibe el mismo nombre.
80
Propiedades de χ2
µ = ν, σ = 2ν (8.3)
81
scipy.stats.chi2
from scipy.stats import chi2
import numpy as np
import matplotlib.pyplot as plt
fig, ax = plt.subplots(1, 1)
df = 55
x = np.linspace(chi2.ppf(0.01, df),
chi2.ppf(0.99, df), 100)
ax.plot(x, chi2.pdf(x, df),’r-’,
lw=5, alpha=0.6, label=’chi2 pdf’)
82
Figura 8.1: Funci´on de densidad de distribuci´on χ2 con ν = 55
83
statsChi2.py
from scipy.stats import chi2
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
sns.set_palette("husl")
fig, ax = plt.subplots(1, 1)
for df in range(2,15+1):
x = np.linspace(chi2.ppf(0.01, df),
chi2.ppf(0.99, df), 100)
ax.plot(x, chi2.pdf(x, df), label=’chi2 pdf’)
84
85
Regresando a nuestro ejemplo...
El n´umero de grados de libertad es el n´umero de categor´ıas
menos uno. En nuestro ejemplo ν = 2 − 1 = 1. Supongamos
un nivel de significaci´on β = 0.05.
86
Figura 8.2: La hip´otesis nula se rechaza porque el valor del
estad´ıstico χ2 al nivel de significaci´on es menor que el valor del
estad´ıstico.
87
Otro ejemplo
Examinemos otros ejemplo donde queremos demostrar que el
g´enero de un estudiante y las materias que escoge son
independientes.
88
Otro ejemplo
Supongamos que un grupo de estudiantes, la siguiente tabla
representa el n´umero de hombres y mujeres que toman
matem´aticas, arte y comercio como sus materias principales.
89
Otro ejemplo
Matem´aticas Artes Comercio Total
Hombres 68 52 90 210
Mujeres 28 37 35 100
Total 96 89 125 310
90
Si en la elecci´on de las materias, no fuera relevante el g´enero,
entonces el n´umero esperado de hombres y mujeres tomando
diferentes materias ser´ıa
Matem´aticas Arte Comercio Total
Ni˜nos
Ni˜nas
Total
91
Las desviaciones se calculan usando la f´ormula (O − E)2
/E:
Matem´aticas Arte Comercio Total
Ni˜nos
Ni˜nas
Total
El estad´ıstico χ2
se obtiene al sumar todos estos valores.
92
Conclusiones (del profesor)
Como χ2
= 4.99 y el valor del estad´ıstico χ2
a un nivel se
significaci´on es 11.07, la hip´otesis nula se acepta.
De manera equivalente
valor-p = 1 − Fχ2 (4.99) = 0.416991040312 > β = 0.05,
obtenemos la misma conclusi´on:
La elecci´on de materias es independiente del g´enero.
93
Correlaci´on
94
La correlaci´on es la premisa de la modelaci´on predictiva, en el
sentido de que es un factor con base en el cu´al podemos
predecir resultados.
95
Una buena correlaci´on entre dos variables sugiere que existe
una suerte de dependencia entre ambas: Si una cambia, la otra
tambi´en lo har´a.
Podemos decir que una buena correlaci´on asegura una relaci´on
matem´atica entre dos variables y debido a esto, seremos
capaces de predecir su comportamiento.
96
La relaci´on puede ser de cualquier tipo. Si x y y son dos
variables correlacionadas, entonces podemos escribir:
Y = f(X)
97
Ejemplos de correlaci´on
Correlaci´on lineal
y = ax + b
Correlaci´on exponencial
y = beax
98
Definici´on de correlaci´on
En el caso discreto,
h = x,y ((x − ¯x) (y − ¯y))
x,y (x − ¯x)2
x,y (y − ¯y)2
[x], [y] son dos listas de datos con promedios ¯x, ¯y
respectivamente.
99
Propiedades de la correlaci´on
El valor del coeficiente de correlaci´on est´a entre −1 y 1,
es decir −1 ≤ h ≤ 1.
Una correlaci´on positiva significa una relaci´on directa
entre las dos variables.
Una correlaci´on negativa significa una relaci´on inversa
entre las dos variables.
Entre mayor sea la magnitud del coeficiente, m´as fuerte
ser´a la relaci´on entre variables.
100
¡Advertencia!
Aunque una correlaci´on fuerte sugiere alg´un tipo de relaci´on
que puede ser utilizada para la predicci´on del comportamiento
de una variable respecto de otra, esto no implica que dicha
relaci´on sea el ´unico factor que explique dicho
comportamiento.
101
Observaci´on: ¡Correlaci´on no implica causalidad!
102
Por ejemplo, existe una correlaci´on positiva muy fuerte entre el
n´umero de palabras que conoce un ser humano y el n´umero de
calzado que utiliza... Pero esto esto se explica porque a
medida que el ser humano crece, necesita zapatos m´as grandes
y aprende palabras nuevas.
¡No quiere decir que si utilizas un n´umero m´as grande
ser´as m´as culto!
103
Tratemos de entender mejor este concepto mirando una base
de datos y tratando de encontrar una correlaci´on entre sus
variables. La base de datos que estaremos observando es una
muy popular sobre los costos varios incurridos en publicidad
por diferentes medios y ventas de un producto en
particular.
104
Posteriormente, utilizaremos el m´etodo conocido como
regresi´on lineal para explorar estos mismo datos.Por ahora,
importemos esta base de datos y calculemos los coeficientes de
correlaci´on:
105
advertising.py
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
import pandas as pd
advert = pd.read_csv("./dataBases/Advertising.csv")
print(advert.head())
import numpy as np
106
advertising.py
advert["dX*dY"] = ( advert["TV"] -
np.mean(advert["TV"])) * ( advert["Sales"]
np.mean(advert["Sales"]))
advert["dX**2"] = ( advert["TV"] -
np.mean(advert["TV"])) ** 2
advert["dY**2"] = ( advert["Sales"] -
np.mean(advert["Sales"])) ** 2
sxy = advert.sum()["dX*dY"]
sxx = advert.sum()["dX**2"]
107
advertising.py
syy = advert.sum()["dY**2"]
r = sxy/np.sqrt(sxx*syy)
108
runfile(’/home/jdk2py/juliho.castillo@yahoo.com/2017-2_PE/PE_PYTHON/
analisisPredictivo/advertising.py’,
wdir=’/home/jdk2py/juliho.castillo@yahoo.com/2017-2_PE/PE_PYTHON/ana
lisisPredictivo’)
TV Radio Newspaper Sales
0 230.1 37.8 69.2 22.1
1 44.5 39.3 45.1 10.4
2 17.2 45.9 69.3 9.3
3 151.5 41.3 58.5 18.5
4 180.8 10.8 58.4 12.9
109
advertising2.py
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
import pandas as pd
advert = pd.read_csv("./dataBases/Advertising.csv")
print(advert.head())
import numpy as np
110
advertising2.py
def rCoef(df, var1, var2):
df["dX*dY"] = (df[var1]-np.mean(df[var1]))*(df[var2
df["dX**2"] = (df[var1]-np.mean(df[var1]))**2
df["dY**2"] = (df[var2]-np.mean(df[var2]))**2
sxy = df.sum()["dX*dY"]
sxx = df.sum()["dX**2"]
syy = df.sum()["dY**2"]
r = sxy/np.sqrt(sxx*syy)
return r
111
advertising2.py
tvVsSales = rCoef(advert, "TV", "Sales")
## 0.782224424862
radioVsSales = rCoef(advert, "Radio", "Sales")
## 0.576222574571
112
Figura 9.1: Matriz de correlaci´on
113
Veamos la naturaleza de esta correlaci´on graficando las
variables TV, Radio y Newspaper vs Sales del data frame
advert.
114
tvVsSales.py
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
import pandas as pd
advert = pd.read_csv("./dataBases/Advertising.csv")
import matplotlib.pyplot as plt
plt.plot(advert[’TV’],advert[’Sales’],’ro’)
115
tvVsSales.py
plt.title(’TV vs Sales’)
plt.show()
plt.plot(advert[’Radio’],advert[’Sales’],’ro’)
plt.title(’Radio vs Sales’)
plt.show()
plt.plot(advert[’Newspaper’],advert[’Sales’],’ro’)
plt.title(’Newspaper vs Sales’)
plt.show()
116
117
118
119
Recursos
120
analisisPredictivo
El repositorio con los
scripts de Python 3 de esta presentaci´on los puede encontrar en
https://github.com/julihocc/ulsaPye/tree/master/analisisPredictivo
121
Referencias
Murray Spiegel John Schiller, R. Alu Srinivasan,
Probability and statistics, 4 ed., Schaum’s Outlines,
McGraw-Hill Education, 2012.
Ashish Kumar, Learning predictive analytics with
python, Packt, 2016.
Murray R. Spiegel, Estad´ıstica - schaum 2da edici´on,
2nd edition ed., McGraw-Hill Interamericana, 1991.
122

Más contenido relacionado

La actualidad más candente

Estimación e intervalos de confianza
Estimación e intervalos de confianzaEstimación e intervalos de confianza
Estimación e intervalos de confianzaAlejandro Ruiz
 
Distribución muéstrales y estimación
Distribución muéstrales y estimaciónDistribución muéstrales y estimación
Distribución muéstrales y estimaciónJesus Plaza Aguilera
 
Apuntes sobre distribucion muestral
Apuntes sobre distribucion muestralApuntes sobre distribucion muestral
Apuntes sobre distribucion muestralhmdisla
 
Capítulo 06, Distribuciones discretas de probabilidad
Capítulo 06, Distribuciones discretas de probabilidadCapítulo 06, Distribuciones discretas de probabilidad
Capítulo 06, Distribuciones discretas de probabilidadAlejandro Ruiz
 
Distribución Probabilidad (Variable Aleatoria Discreta)
Distribución Probabilidad (Variable Aleatoria Discreta)Distribución Probabilidad (Variable Aleatoria Discreta)
Distribución Probabilidad (Variable Aleatoria Discreta)Daniel Gómez
 
Distribución muestral (3)
Distribución muestral (3)Distribución muestral (3)
Distribución muestral (3)Luz Hernández
 
Distribucion de Probabilidad Discreta
Distribucion de Probabilidad DiscretaDistribucion de Probabilidad Discreta
Distribucion de Probabilidad Discretafranciscojavier1995
 
Distribucion normal, binomial y poisson
Distribucion normal, binomial y poisson Distribucion normal, binomial y poisson
Distribucion normal, binomial y poisson Jessenia Alacayo
 
Estimación y estimadores
Estimación y estimadoresEstimación y estimadores
Estimación y estimadoresfelipe ornelas
 
Luis arturo leal hernandez
Luis arturo leal hernandezLuis arturo leal hernandez
Luis arturo leal hernandezAndrea Memo
 

La actualidad más candente (20)

Estadística aplicada ing civil
Estadística aplicada ing civilEstadística aplicada ing civil
Estadística aplicada ing civil
 
Estimación e intervalos de confianza
Estimación e intervalos de confianzaEstimación e intervalos de confianza
Estimación e intervalos de confianza
 
Distribución muéstrales y estimación
Distribución muéstrales y estimaciónDistribución muéstrales y estimación
Distribución muéstrales y estimación
 
Apuntes sobre distribucion muestral
Apuntes sobre distribucion muestralApuntes sobre distribucion muestral
Apuntes sobre distribucion muestral
 
Probabilidadades Var Aleatorias
Probabilidadades Var AleatoriasProbabilidadades Var Aleatorias
Probabilidadades Var Aleatorias
 
Capítulo 06, Distribuciones discretas de probabilidad
Capítulo 06, Distribuciones discretas de probabilidadCapítulo 06, Distribuciones discretas de probabilidad
Capítulo 06, Distribuciones discretas de probabilidad
 
Distribución Probabilidad (Variable Aleatoria Discreta)
Distribución Probabilidad (Variable Aleatoria Discreta)Distribución Probabilidad (Variable Aleatoria Discreta)
Distribución Probabilidad (Variable Aleatoria Discreta)
 
2 estimación
2 estimación2 estimación
2 estimación
 
Distribucion de Poisson
Distribucion de PoissonDistribucion de Poisson
Distribucion de Poisson
 
Distribución muestral (3)
Distribución muestral (3)Distribución muestral (3)
Distribución muestral (3)
 
Distribucion de Probabilidad Discreta
Distribucion de Probabilidad DiscretaDistribucion de Probabilidad Discreta
Distribucion de Probabilidad Discreta
 
Ejercicios
EjerciciosEjercicios
Ejercicios
 
Distribuciones de probabilidad.
Distribuciones de probabilidad.Distribuciones de probabilidad.
Distribuciones de probabilidad.
 
Distribucion normal, binomial y poisson
Distribucion normal, binomial y poisson Distribucion normal, binomial y poisson
Distribucion normal, binomial y poisson
 
Estimación y estimadores
Estimación y estimadoresEstimación y estimadores
Estimación y estimadores
 
Biometria clase 6
Biometria clase 6Biometria clase 6
Biometria clase 6
 
Inferencia
InferenciaInferencia
Inferencia
 
Biometria clase 5
Biometria clase 5Biometria clase 5
Biometria clase 5
 
Distribuciones discretas
Distribuciones  discretasDistribuciones  discretas
Distribuciones discretas
 
Luis arturo leal hernandez
Luis arturo leal hernandezLuis arturo leal hernandez
Luis arturo leal hernandez
 

Similar a Conceptos Estadísticos para la Modelación Predictiva

Similar a Conceptos Estadísticos para la Modelación Predictiva (20)

Distribucin muestral
Distribucin muestralDistribucin muestral
Distribucin muestral
 
Probabilidad III parte
Probabilidad III parteProbabilidad III parte
Probabilidad III parte
 
Distribuciones
DistribucionesDistribuciones
Distribuciones
 
Estaditica deber varios
Estaditica deber variosEstaditica deber varios
Estaditica deber varios
 
Distribución Muestral
Distribución MuestralDistribución Muestral
Distribución Muestral
 
Distribuciones Muestrales y Estimación de los Parámetros de una Población
Distribuciones Muestrales y Estimación de los Parámetros de una PoblaciónDistribuciones Muestrales y Estimación de los Parámetros de una Población
Distribuciones Muestrales y Estimación de los Parámetros de una Población
 
Hipotesis
HipotesisHipotesis
Hipotesis
 
Presentacion diapostvas distribuciones especiales upg
Presentacion diapostvas distribuciones especiales upgPresentacion diapostvas distribuciones especiales upg
Presentacion diapostvas distribuciones especiales upg
 
7 prueba de hipotesis
7 prueba de hipotesis7 prueba de hipotesis
7 prueba de hipotesis
 
20121109101108
2012110910110820121109101108
20121109101108
 
Deber chi cuadrado
Deber chi cuadradoDeber chi cuadrado
Deber chi cuadrado
 
Estadistica 6
Estadistica 6Estadistica 6
Estadistica 6
 
Deber chi cuadrado
Deber chi cuadradoDeber chi cuadrado
Deber chi cuadrado
 
Segunda actividad estadistica ii
Segunda actividad estadistica iiSegunda actividad estadistica ii
Segunda actividad estadistica ii
 
Estadistica 2
Estadistica 2Estadistica 2
Estadistica 2
 
Deber chi cuadrado
Deber chi cuadradoDeber chi cuadrado
Deber chi cuadrado
 
Tarea chi cuadrado
Tarea chi cuadradoTarea chi cuadrado
Tarea chi cuadrado
 
Dist prob discretas 2
Dist prob discretas 2Dist prob discretas 2
Dist prob discretas 2
 
Intro. a la Probabilidad_IV parte
Intro. a la Probabilidad_IV parteIntro. a la Probabilidad_IV parte
Intro. a la Probabilidad_IV parte
 
Estadisticos modelos probabilisticos 29 3-2020
Estadisticos modelos probabilisticos 29 3-2020Estadisticos modelos probabilisticos 29 3-2020
Estadisticos modelos probabilisticos 29 3-2020
 

Más de Juliho Castillo

Esperanza,Varianza y Covarianza
Esperanza,Varianza y CovarianzaEsperanza,Varianza y Covarianza
Esperanza,Varianza y CovarianzaJuliho Castillo
 
Variables Aleatorias y Distribuciones de Probabilidad
Variables Aleatorias y Distribuciones de ProbabilidadVariables Aleatorias y Distribuciones de Probabilidad
Variables Aleatorias y Distribuciones de ProbabilidadJuliho Castillo
 
Teoría Básica de Probabilidad
Teoría Básica de ProbabilidadTeoría Básica de Probabilidad
Teoría Básica de ProbabilidadJuliho Castillo
 
ULSA 2017-2 Probabilidad y Estadística
ULSA 2017-2 Probabilidad y EstadísticaULSA 2017-2 Probabilidad y Estadística
ULSA 2017-2 Probabilidad y EstadísticaJuliho Castillo
 
Geometric and viscosity solutions for the Cauchy problem of first order
Geometric and viscosity solutions for the Cauchy problem of first orderGeometric and viscosity solutions for the Cauchy problem of first order
Geometric and viscosity solutions for the Cauchy problem of first orderJuliho Castillo
 
Aplicaciones del Cálculo Diferencial
Aplicaciones del Cálculo DiferencialAplicaciones del Cálculo Diferencial
Aplicaciones del Cálculo DiferencialJuliho Castillo
 
Notas de Cálculo Diferencial
Notas de Cálculo DiferencialNotas de Cálculo Diferencial
Notas de Cálculo DiferencialJuliho Castillo
 
Problemario de Álgebra Lineal
Problemario de Álgebra LinealProblemario de Álgebra Lineal
Problemario de Álgebra LinealJuliho Castillo
 
Taller de Matemáticas para Economistas
Taller de Matemáticas para EconomistasTaller de Matemáticas para Economistas
Taller de Matemáticas para EconomistasJuliho Castillo
 
Matemáticas Básicas: Introducción a las Matemáticas Financieras
Matemáticas Básicas: Introducción a las Matemáticas FinancierasMatemáticas Básicas: Introducción a las Matemáticas Financieras
Matemáticas Básicas: Introducción a las Matemáticas FinancierasJuliho Castillo
 
Matemáticas Básicas: Sistemas Lineales
Matemáticas Básicas: Sistemas LinealesMatemáticas Básicas: Sistemas Lineales
Matemáticas Básicas: Sistemas LinealesJuliho Castillo
 
Matemáticas Básicas: Funciones
Matemáticas Básicas: FuncionesMatemáticas Básicas: Funciones
Matemáticas Básicas: FuncionesJuliho Castillo
 
Taller Remedial de Matemáticas
Taller Remedial de MatemáticasTaller Remedial de Matemáticas
Taller Remedial de MatemáticasJuliho Castillo
 
Cálculo Integral para Empresariales
Cálculo Integral para EmpresarialesCálculo Integral para Empresariales
Cálculo Integral para EmpresarialesJuliho Castillo
 
El Teorema Fundamental del Cálculo
El Teorema Fundamental del CálculoEl Teorema Fundamental del Cálculo
El Teorema Fundamental del CálculoJuliho Castillo
 
Brevísima Intruducción a las Sumas de Riemann
Brevísima Intruducción a las Sumas de RiemannBrevísima Intruducción a las Sumas de Riemann
Brevísima Intruducción a las Sumas de RiemannJuliho Castillo
 
La Integral Definida. Área Bajo La Curva.
La Integral Definida. Área Bajo La Curva.La Integral Definida. Área Bajo La Curva.
La Integral Definida. Área Bajo La Curva.Juliho Castillo
 

Más de Juliho Castillo (20)

Esperanza,Varianza y Covarianza
Esperanza,Varianza y CovarianzaEsperanza,Varianza y Covarianza
Esperanza,Varianza y Covarianza
 
Variables Aleatorias y Distribuciones de Probabilidad
Variables Aleatorias y Distribuciones de ProbabilidadVariables Aleatorias y Distribuciones de Probabilidad
Variables Aleatorias y Distribuciones de Probabilidad
 
Teoría Básica de Probabilidad
Teoría Básica de ProbabilidadTeoría Básica de Probabilidad
Teoría Básica de Probabilidad
 
ULSA 2017-2 Probabilidad y Estadística
ULSA 2017-2 Probabilidad y EstadísticaULSA 2017-2 Probabilidad y Estadística
ULSA 2017-2 Probabilidad y Estadística
 
Geometric and viscosity solutions for the Cauchy problem of first order
Geometric and viscosity solutions for the Cauchy problem of first orderGeometric and viscosity solutions for the Cauchy problem of first order
Geometric and viscosity solutions for the Cauchy problem of first order
 
Chern-Simons Theory
Chern-Simons TheoryChern-Simons Theory
Chern-Simons Theory
 
Aplicaciones del Cálculo Diferencial
Aplicaciones del Cálculo DiferencialAplicaciones del Cálculo Diferencial
Aplicaciones del Cálculo Diferencial
 
Notas de Cálculo Diferencial
Notas de Cálculo DiferencialNotas de Cálculo Diferencial
Notas de Cálculo Diferencial
 
Problemario de Álgebra Lineal
Problemario de Álgebra LinealProblemario de Álgebra Lineal
Problemario de Álgebra Lineal
 
Taller de Matemáticas para Economistas
Taller de Matemáticas para EconomistasTaller de Matemáticas para Economistas
Taller de Matemáticas para Economistas
 
Inducción y Recursión
Inducción y RecursiónInducción y Recursión
Inducción y Recursión
 
Teoría de Conjuntos
Teoría de ConjuntosTeoría de Conjuntos
Teoría de Conjuntos
 
Matemáticas Básicas: Introducción a las Matemáticas Financieras
Matemáticas Básicas: Introducción a las Matemáticas FinancierasMatemáticas Básicas: Introducción a las Matemáticas Financieras
Matemáticas Básicas: Introducción a las Matemáticas Financieras
 
Matemáticas Básicas: Sistemas Lineales
Matemáticas Básicas: Sistemas LinealesMatemáticas Básicas: Sistemas Lineales
Matemáticas Básicas: Sistemas Lineales
 
Matemáticas Básicas: Funciones
Matemáticas Básicas: FuncionesMatemáticas Básicas: Funciones
Matemáticas Básicas: Funciones
 
Taller Remedial de Matemáticas
Taller Remedial de MatemáticasTaller Remedial de Matemáticas
Taller Remedial de Matemáticas
 
Cálculo Integral para Empresariales
Cálculo Integral para EmpresarialesCálculo Integral para Empresariales
Cálculo Integral para Empresariales
 
El Teorema Fundamental del Cálculo
El Teorema Fundamental del CálculoEl Teorema Fundamental del Cálculo
El Teorema Fundamental del Cálculo
 
Brevísima Intruducción a las Sumas de Riemann
Brevísima Intruducción a las Sumas de RiemannBrevísima Intruducción a las Sumas de Riemann
Brevísima Intruducción a las Sumas de Riemann
 
La Integral Definida. Área Bajo La Curva.
La Integral Definida. Área Bajo La Curva.La Integral Definida. Área Bajo La Curva.
La Integral Definida. Área Bajo La Curva.
 

Último

Fichas de matemática DE PRIMERO DE SECUNDARIA.pdf
Fichas de matemática DE PRIMERO DE SECUNDARIA.pdfFichas de matemática DE PRIMERO DE SECUNDARIA.pdf
Fichas de matemática DE PRIMERO DE SECUNDARIA.pdfssuser50d1252
 
FICHA PL PACO YUNQUE.docx PRIMARIA CUARTO GRADO
FICHA  PL PACO YUNQUE.docx PRIMARIA CUARTO GRADOFICHA  PL PACO YUNQUE.docx PRIMARIA CUARTO GRADO
FICHA PL PACO YUNQUE.docx PRIMARIA CUARTO GRADOMARIBEL DIAZ
 
Técnicas de grabado y estampación : procesos y materiales
Técnicas de grabado y estampación : procesos y materialesTécnicas de grabado y estampación : procesos y materiales
Técnicas de grabado y estampación : procesos y materialesRaquel Martín Contreras
 
Uses of simple past and time expressions
Uses of simple past and time expressionsUses of simple past and time expressions
Uses of simple past and time expressionsConsueloSantana3
 
3. Pedagogía de la Educación: Como objeto de la didáctica.ppsx
3. Pedagogía de la Educación: Como objeto de la didáctica.ppsx3. Pedagogía de la Educación: Como objeto de la didáctica.ppsx
3. Pedagogía de la Educación: Como objeto de la didáctica.ppsxJuanpm27
 
SESIÓN DE APRENDIZAJE Leemos un texto para identificar los sinónimos y los an...
SESIÓN DE APRENDIZAJE Leemos un texto para identificar los sinónimos y los an...SESIÓN DE APRENDIZAJE Leemos un texto para identificar los sinónimos y los an...
SESIÓN DE APRENDIZAJE Leemos un texto para identificar los sinónimos y los an...GIANCARLOORDINOLAORD
 
4° SES MATE DESCOMP. ADIT. DE NUMEROS SOBRE CASOS DE DENGUE 9-4-24 (1).docx
4° SES MATE DESCOMP. ADIT. DE NUMEROS SOBRE CASOS DE DENGUE     9-4-24 (1).docx4° SES MATE DESCOMP. ADIT. DE NUMEROS SOBRE CASOS DE DENGUE     9-4-24 (1).docx
4° SES MATE DESCOMP. ADIT. DE NUMEROS SOBRE CASOS DE DENGUE 9-4-24 (1).docxMagalyDacostaPea
 
Manejo del Dengue, generalidades, actualización marzo 2024 minsa
Manejo del Dengue, generalidades, actualización marzo 2024 minsaManejo del Dengue, generalidades, actualización marzo 2024 minsa
Manejo del Dengue, generalidades, actualización marzo 2024 minsaLuis Minaya
 
VOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMAL
VOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMALVOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMAL
VOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMALEDUCCUniversidadCatl
 
PÉNSUM ENFERMERIA 2024 - ECUGENIUS S.A. V2
PÉNSUM ENFERMERIA 2024 - ECUGENIUS S.A. V2PÉNSUM ENFERMERIA 2024 - ECUGENIUS S.A. V2
PÉNSUM ENFERMERIA 2024 - ECUGENIUS S.A. V2Eliseo Delgado
 
CUADERNILLO DE EJERCICIOS PARA EL TERCER TRIMESTRE, SEXTO GRADO
CUADERNILLO DE EJERCICIOS PARA EL TERCER TRIMESTRE, SEXTO GRADOCUADERNILLO DE EJERCICIOS PARA EL TERCER TRIMESTRE, SEXTO GRADO
CUADERNILLO DE EJERCICIOS PARA EL TERCER TRIMESTRE, SEXTO GRADOEveliaHernandez8
 
GUIA DE TEXTOS EDUCATIVOS SANTILLANA PARA SECUNDARIA
GUIA DE TEXTOS EDUCATIVOS SANTILLANA PARA SECUNDARIAGUIA DE TEXTOS EDUCATIVOS SANTILLANA PARA SECUNDARIA
GUIA DE TEXTOS EDUCATIVOS SANTILLANA PARA SECUNDARIAELIASPELAEZSARMIENTO1
 
IV SES LUN 15 TUTO CUIDO MI MENTE CUIDANDO MI CUERPO YESSENIA 933623393 NUEV...
IV SES LUN 15 TUTO CUIDO MI MENTE CUIDANDO MI CUERPO  YESSENIA 933623393 NUEV...IV SES LUN 15 TUTO CUIDO MI MENTE CUIDANDO MI CUERPO  YESSENIA 933623393 NUEV...
IV SES LUN 15 TUTO CUIDO MI MENTE CUIDANDO MI CUERPO YESSENIA 933623393 NUEV...YobanaZevallosSantil1
 
PRIMER GRADO SOY LECTOR PART1- MD EDUCATIVO.pdf
PRIMER GRADO SOY LECTOR PART1- MD  EDUCATIVO.pdfPRIMER GRADO SOY LECTOR PART1- MD  EDUCATIVO.pdf
PRIMER GRADO SOY LECTOR PART1- MD EDUCATIVO.pdfGabrieldeJesusLopezG
 
PLAN DE TUTORIA- PARA NIVEL PRIMARIA CUARTO GRADO
PLAN DE TUTORIA- PARA NIVEL PRIMARIA CUARTO GRADOPLAN DE TUTORIA- PARA NIVEL PRIMARIA CUARTO GRADO
PLAN DE TUTORIA- PARA NIVEL PRIMARIA CUARTO GRADOMARIBEL DIAZ
 
Fichas de Matemática TERCERO DE SECUNDARIA.pdf
Fichas de Matemática TERCERO DE SECUNDARIA.pdfFichas de Matemática TERCERO DE SECUNDARIA.pdf
Fichas de Matemática TERCERO DE SECUNDARIA.pdfssuser50d1252
 
Tarea 4_ Foro _Incorporar habilidades de Siglo XXI
Tarea 4_ Foro _Incorporar habilidades de Siglo XXI Tarea 4_ Foro _Incorporar habilidades de Siglo XXI
Tarea 4_ Foro _Incorporar habilidades de Siglo XXI Manuel Molina
 

Último (20)

Fichas de matemática DE PRIMERO DE SECUNDARIA.pdf
Fichas de matemática DE PRIMERO DE SECUNDARIA.pdfFichas de matemática DE PRIMERO DE SECUNDARIA.pdf
Fichas de matemática DE PRIMERO DE SECUNDARIA.pdf
 
FICHA PL PACO YUNQUE.docx PRIMARIA CUARTO GRADO
FICHA  PL PACO YUNQUE.docx PRIMARIA CUARTO GRADOFICHA  PL PACO YUNQUE.docx PRIMARIA CUARTO GRADO
FICHA PL PACO YUNQUE.docx PRIMARIA CUARTO GRADO
 
Técnicas de grabado y estampación : procesos y materiales
Técnicas de grabado y estampación : procesos y materialesTécnicas de grabado y estampación : procesos y materiales
Técnicas de grabado y estampación : procesos y materiales
 
Uses of simple past and time expressions
Uses of simple past and time expressionsUses of simple past and time expressions
Uses of simple past and time expressions
 
3. Pedagogía de la Educación: Como objeto de la didáctica.ppsx
3. Pedagogía de la Educación: Como objeto de la didáctica.ppsx3. Pedagogía de la Educación: Como objeto de la didáctica.ppsx
3. Pedagogía de la Educación: Como objeto de la didáctica.ppsx
 
PPTX: La luz brilla en la oscuridad.pptx
PPTX: La luz brilla en la oscuridad.pptxPPTX: La luz brilla en la oscuridad.pptx
PPTX: La luz brilla en la oscuridad.pptx
 
SESIÓN DE APRENDIZAJE Leemos un texto para identificar los sinónimos y los an...
SESIÓN DE APRENDIZAJE Leemos un texto para identificar los sinónimos y los an...SESIÓN DE APRENDIZAJE Leemos un texto para identificar los sinónimos y los an...
SESIÓN DE APRENDIZAJE Leemos un texto para identificar los sinónimos y los an...
 
4° SES MATE DESCOMP. ADIT. DE NUMEROS SOBRE CASOS DE DENGUE 9-4-24 (1).docx
4° SES MATE DESCOMP. ADIT. DE NUMEROS SOBRE CASOS DE DENGUE     9-4-24 (1).docx4° SES MATE DESCOMP. ADIT. DE NUMEROS SOBRE CASOS DE DENGUE     9-4-24 (1).docx
4° SES MATE DESCOMP. ADIT. DE NUMEROS SOBRE CASOS DE DENGUE 9-4-24 (1).docx
 
Manejo del Dengue, generalidades, actualización marzo 2024 minsa
Manejo del Dengue, generalidades, actualización marzo 2024 minsaManejo del Dengue, generalidades, actualización marzo 2024 minsa
Manejo del Dengue, generalidades, actualización marzo 2024 minsa
 
VOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMAL
VOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMALVOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMAL
VOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMAL
 
PÉNSUM ENFERMERIA 2024 - ECUGENIUS S.A. V2
PÉNSUM ENFERMERIA 2024 - ECUGENIUS S.A. V2PÉNSUM ENFERMERIA 2024 - ECUGENIUS S.A. V2
PÉNSUM ENFERMERIA 2024 - ECUGENIUS S.A. V2
 
CUADERNILLO DE EJERCICIOS PARA EL TERCER TRIMESTRE, SEXTO GRADO
CUADERNILLO DE EJERCICIOS PARA EL TERCER TRIMESTRE, SEXTO GRADOCUADERNILLO DE EJERCICIOS PARA EL TERCER TRIMESTRE, SEXTO GRADO
CUADERNILLO DE EJERCICIOS PARA EL TERCER TRIMESTRE, SEXTO GRADO
 
GUIA DE TEXTOS EDUCATIVOS SANTILLANA PARA SECUNDARIA
GUIA DE TEXTOS EDUCATIVOS SANTILLANA PARA SECUNDARIAGUIA DE TEXTOS EDUCATIVOS SANTILLANA PARA SECUNDARIA
GUIA DE TEXTOS EDUCATIVOS SANTILLANA PARA SECUNDARIA
 
IV SES LUN 15 TUTO CUIDO MI MENTE CUIDANDO MI CUERPO YESSENIA 933623393 NUEV...
IV SES LUN 15 TUTO CUIDO MI MENTE CUIDANDO MI CUERPO  YESSENIA 933623393 NUEV...IV SES LUN 15 TUTO CUIDO MI MENTE CUIDANDO MI CUERPO  YESSENIA 933623393 NUEV...
IV SES LUN 15 TUTO CUIDO MI MENTE CUIDANDO MI CUERPO YESSENIA 933623393 NUEV...
 
Aedes aegypti + Intro to Coquies EE.pptx
Aedes aegypti + Intro to Coquies EE.pptxAedes aegypti + Intro to Coquies EE.pptx
Aedes aegypti + Intro to Coquies EE.pptx
 
PRIMER GRADO SOY LECTOR PART1- MD EDUCATIVO.pdf
PRIMER GRADO SOY LECTOR PART1- MD  EDUCATIVO.pdfPRIMER GRADO SOY LECTOR PART1- MD  EDUCATIVO.pdf
PRIMER GRADO SOY LECTOR PART1- MD EDUCATIVO.pdf
 
PLAN DE TUTORIA- PARA NIVEL PRIMARIA CUARTO GRADO
PLAN DE TUTORIA- PARA NIVEL PRIMARIA CUARTO GRADOPLAN DE TUTORIA- PARA NIVEL PRIMARIA CUARTO GRADO
PLAN DE TUTORIA- PARA NIVEL PRIMARIA CUARTO GRADO
 
Fichas de Matemática TERCERO DE SECUNDARIA.pdf
Fichas de Matemática TERCERO DE SECUNDARIA.pdfFichas de Matemática TERCERO DE SECUNDARIA.pdf
Fichas de Matemática TERCERO DE SECUNDARIA.pdf
 
Tarea 4_ Foro _Incorporar habilidades de Siglo XXI
Tarea 4_ Foro _Incorporar habilidades de Siglo XXI Tarea 4_ Foro _Incorporar habilidades de Siglo XXI
Tarea 4_ Foro _Incorporar habilidades de Siglo XXI
 
VISITA À PROTEÇÃO CIVIL _
VISITA À PROTEÇÃO CIVIL                  _VISITA À PROTEÇÃO CIVIL                  _
VISITA À PROTEÇÃO CIVIL _
 

Conceptos Estadísticos para la Modelación Predictiva

  • 1. Probabilidad y Estad´ıstica: Conceptos Estad´ısticos para Modelaci´on Predictiva Dr. Juliho Castillo 22 de octubre de 2017 Universidad LaSalle Oaxaca 1
  • 2. 1 Objetivos 2 Muestreo aleatorio y teorema del l´ımite central 3 Pruebas de hip´otesis 4 Estad´ısticos Z y t 5 Intervalos de confianza, niveles de significaci´on y valore p 6 Una gu´ıa paso a paso para realizar una prueba de hip´otesis 7 Un ejemplo de la prueba de hip´otesis 8 Prueba χ−cuadrada 9 Correlaci´on 10 Recursos 2
  • 3. Conceptos Estad´ısticos Importantes 1 Pruebas de hip´otesis. 2 p−valores. 3 Distribuci´on normal. 4 Correlaci´on. 3
  • 5. Muestreo aleatorio y teorema del l´ımite central Entender el concepto de muestreo aleatorio a trav´es de ejemplos e ilustrar las aplicaciones del teorema del l´ımite central. Estos dos conceptos son la columna vertebral de las pruebas de hip´otesis. 5
  • 6. Pruebas de hip´otesis Entender el significado de los t´erminos tales como hip´otesis nula, hip´otesis alternativa, intervalos de confianza, p−valores, nivel de significaci´on, etc. Desarrollaremos una gu´ıa de la implementaci´on de pruebas de hip´otesis, seguidas por un ejemplo. 6
  • 7. Pruebas χ−cuadrada Calcularemos el estad´ıstico χ-cuadrada y describiremos el uso de pruebas χ-cuadrada con un par de ejemplos. 7
  • 8. Correlaci´on Entenderemos el significado y la significaci´on de la correlaci´on entre dos variables, de los coeficientes de correlaci´on y calcularemos y visualizaremos la correlaci´on entre variables de una base de datos. 8
  • 9. Muestreo aleatorio y teorema del l´ımite central 9
  • 10. Ejemplo Supongamos que tratamos de encontrar la edad promedio en una ciudad, digamos Oaxaca. Una manera de hacerlo ser´ıa por fuerza bruta, es decir, recolectando esta informaci´on persona por persona. Pero este m´etodo ser´ıa muy costoso en t´erminos de infraestructura y tiempo. 10
  • 11. En estad´ıstica, este es un problema com´un, cuya soluci´on est´a en el muestreo aleatorio: Tomemos un grupo de 1000 individuos (o 10,000 dependiendo de tu capacidad, obviamente entre m´as, es mejor) y calculemos la edad promedio en este grupo, a la que denotaremos por A1. 11
  • 12. Repitamos este procedimiento, digamos 100 veces, y denotaremos por A1, A2, ..., A100 el promedio de edades obtenido en cada respectivo intento. 12
  • 13. De acuerdo a la ley de los grandes n´umeros, la cantidad ¯A100 = A1 + ... + A100 100 (2.1) es una aproximaci´on muy cercana al promedio real de la edad de los pobladores de la ciudad. 13
  • 14. De acuerdo al teorema del l´ımite central, si el n´umero de tales muestras es suficientemente grande, entonces la distribuci´on de estos promedios seguir´an una distribuci´on normal. Es decir, A1, A2, ..., A100 estar´an distribuidos de manera normal. 14
  • 15. Observaci´on: No estamos m´as interesados en obtener el valor exacto de la edad promedio, si no establecer un estimador para la misma. En tal caso, tenemos que conformarnos con la definici´on de un rango de valores en el que el valor real podr´ıa estar. Dado que hemos asumido una distribuci´on normal para los valores de edad media de estos grupos, podemos aplicar todas las propiedades de una distribuci´on normal para cuantificar las probabilidades de que esta edad media sea mayor o menor que un cierto n´umero. 15
  • 16. Dado que hemos asumido una distribuci´on normal para los valores de edad media de estos grupos, podemos aplicar todas las propiedades de una distribuci´on normal para posibilidades de que esta edad media sea mayor o menor que un cierto n´umero. 16
  • 18. El concepto que acabamos de comentar en la secci´on anterior se utiliza para una t´ecnica en estad´ıstica, llamada prueba de hip´otesis. En la prueba de hip´otesis, asumimos una hip´otesis (generalmente relacionada con el valor del estimador) denominada hip´otesis nula y tratar de ver si es cierto o no aplicando las reglas de una distribuci´on normal. Tenemos otra hip´otesis llamada hip´otesis alternativa. 18
  • 19. Hip´otesis nula vs. alternativa Hay un truco para decidir cu´al ser´a la hip´otesis nula y cu´al ser´a la hip´otesis alternativa. La hip´otesis nula es la premisa inicial o algo que asumir que todav´ıa es cierto. La hip´otesis alternativa es algo de lo que no estamos seguros y proponen como premisa alternativa (casi con frecuencia contradictoria a la nula hip´otesis) que podr´ıa o no ser cierto. 19
  • 20. Por lo tanto, cuando alguien est´a haciendo una investigaci´on cuantitativa para calibrar el valor de un estimador, el valor conocido del par´ametro se toma como hip´otesis nula mientras que el nuevo valor encontrado (de la investigaci´on) se toma como la hip´otesis alternativa. 20
  • 21. En nuestro caso (encontrar la edad media de nuestra ciudad), un investigador puede afirmar que la edad menor que 35. Esto puede servir como la hip´otesis nula. Si una nueva agencia afirma lo contrario (que es mayor que 35), entonces se puede denominar como la hip´otesis alternativa. 21
  • 23. Suponga que el valor del par´ametro asumido en la hip´otesis nula es Ao. Tomemos una muestra aleatoria de 100 o 1000 personas o eventos del evento y calculemos la media del par´ametro, por ejemplo la edad promedio de una ciudad, el tiempo medio de suministro de la pizza, la media ingresos, etc. Podemos llamarlo A. 23
  • 24. El estad´ıstico Z se calcula para convertir una variable normalmente distribuida (la distribuci´on de la media poblacional de edad) a una distribuci´on normal est´andar. Esto es porque los valores de probabilidad para una variable que sigue a la distribuci´on normal estandarizada se puede obtener de una tabla precalculada. 24
  • 25. El estad´ıstico Z se da por la siguiente f´ormula: Z = A − A0 σ/ √ n (4.1) donde σ es la desviaci´on est´andar de la poblaci´on y n es el n´umero de personas en la muestra 25
  • 27. Prueba Z (distribuci´on normal) El investigador conoce a desviaci´on est´andar del par´ametro de su experiencia pasada. Un buen ejemplo de esto es el caso del tiempo de entrega de una pizza. En este caso (4.1) seguir´a una distribuci´on normal y los valores normalizados se conocer´an como valores Z. 27
  • 28. Prueba t (distribuci´on t de Student En este caso, el investigador no conoce la desviaci´on est´andar de la poblaci´on. Esto puede pasar porque: No existen tales datos en alg´un registro hist´orico; o el n´umero de eventos o personas es demasiado peque˜no para suponer una distribuci´on normal. 28
  • 29. En este caso, la media y la desviaci´on est´andar son desconocidas, y la expresi´on asume una distribuci´on diferente a la normal llamada distribuci´on t de Student. El valor estandarizadas en este caso es llamado t−valor y la prueba es llamada prueba-t. 29
  • 30. Distribuci´on t de Student La distribuci´on de Student fue descrita en 1908 por William Sealy Gosset. Gosset trabajaba en una f´abrica de cerveza, Guinness, que prohib´ıa a sus empleados la publicaci´on de art´ıculos cient´ıficos debido a una difusi´on previa de secretos industriales. De ah´ı que Gosset publicase sus resultados bajo el seud´onimo de Student. Wikipedia: Distribuci´on t de Student 30
  • 31. Figura 4.1: De The original uploader was Thorin de Wikipedia en franc´es - Transferido desde fr.wikipedia a Commons., CC BY-SA 1.0, https://commons.wikimedia.org/w/index.php?curid=1878902 31
  • 32. Figura 4.2: De Desconocido, CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=788691 32
  • 33. Distribuci´on t en Python from scipy import stats import numpy as np import matplotlib.pyplot as plt def ft(x, nu): return stats.t.pdf(x, df=nu) def Ft(x, nu): return stats.t.cdf(x, df=nu) x = np.arange(-4,4,0.01) 33
  • 34. Distribuci´on t en Python yd = ft(x,30) yc = Ft(x,30) fig, ax = plt.subplots() plt.plot(x, yd, ’r’, linewidth=2) plt.plot(x, yc, ’b’, linewidth=2) plt.ylim(ymin=0) plt.show() 34
  • 35. 35
  • 36. El par´ametro df se le conoce como grados de libertad y generalmente se denota como ν (la letra nu griega). 36
  • 37. Si una variable aleatoria X tiene distribuci´on t con ν grados de libertad, entonces µX = 0, σ2 X = ν ν − 2 (4.2) 37
  • 38. Ejemplo 4.1. Consideremos una variable con distribuci´on t y ν = 9 grados de libertad. Encuentre el valor de t para el cu´al el ´area a la derecha sea 0.05 pero el total del ´area sin sombrear sea 0.90. 38
  • 39. tExample.py from scipy import stats import numpy as np import matplotlib.pyplot as plt def tp(x, nu): return stats.t.ppf(x, df=nu) print tp(0.05, 9) ##-1.83311293265 print tp(1-0.05, 9) ##1.83311293265 39
  • 40. Varianza muestral S2 = (Ai − A0)2 n − 1 (4.3) 40
  • 41. Estad´ıstico t t = (A − A0) S/ √ n (4.4) 41
  • 42. Intervalos de confianza, niveles de significaci´on y valore p 42
  • 43. Figura 5.1: Una distribuci´on t´ıpica normal con valores p. 43
  • 44. Supongamos que Z1 y Z2 son dos Z−estad´ısticos correspondientes a dos valores de una variable aleatoria y p1 y p2 son ´areas encerradas por la curva de densidad a la derecha de esos valores. En otras palabras P(X > Z1) = p1 (5.1) P(X > Z2) = p2 (5.2) 44
  • 45. Entonces, podemos definir un intervalo en el cual encontrar el valor de una variable aleatoria, al cual llamaremos intervalo de confianza. 45
  • 46. Por ejemplo, para una distribuci´on normal con media µ y desviaci´on est´andar σ, el valor de la variable aleatoria estar´a en el intervalo [µ − 3σ, µ + 3σ] con una confianza (probabilidad) del 99 %. 46
  • 47. Para cualquier estimador (variable aleatoria) que tenga una distribuci´on normal, uno puede definir un intervalo de confianza si decidimos el nivel de confianza o probabilidad. Podemos pensar en los intervalos de confianza c´omo el umbral de los valores aceptados para sostener que la hip´otesis nula es cierta Si el valor del estimador vive en este rango, ser´a estad´ısticamente correcto decir que la hip´otesis nula es correcta. 47
  • 48. Para definir un intervalo de confianza, se necesita definir antes un nivel (o probabilidad) de confianza. Esta probabilidad necesita ser definida por el investigador dependiendo del contexto. 48
  • 49. Digamos que esta probabilidad es p. En general, utilizaremos el nivel de significaci´on β = 1 − p, (5.3) que representa la probabilidad de que la hip´otesis nula no sea correcta. β es definida por el investigador y usualmente esta en el orden de 0.01 a 0.1. 49
  • 50. Un concepto importante que aprender aqu´ı es el valor de probabilidad o simplemente valor-p de un estad´ıstico: Es la probabilidad de que una variable aleatoria asuma un valor mayor al valor-Z (o al valor-t) p − valor = P (X > Z) (5.4) 50
  • 51. Figura 5.2: Una distribuci´on normal t´ıpica con p−valores y nivel de significaci´on. 51
  • 52. Criterio Aceptar la hip´otesis nula y rechazar la alternativa si p − valor > β Aceptar la hip´otesis alternativa y rechazar la nula si p − valor < β 52
  • 53. Debido a la simetr´ıa de la distribuci´on normal, existen tres tipos de pruebas de hip´otesis: 1 Cola izquierda; 2 cola derecha; 3 ambas colas. 53
  • 54. Cola izquierda Figura 5.3: Prueba de hip´otesis: Cola izquierda 54
  • 55. Cola derecha Figura 5.4: Prueba de hip´otesis: Cola derecha 55
  • 56. Dos colas Analizamos ambas colas y si en alguna de las dos colas, falla la respectiva prueba de hip´otesis, la prueba de hip´otesis se rechaza. 56
  • 57. Una gu´ıa paso a paso para realizar una prueba de hip´otesis 57
  • 58. Paso #1 Defina sus hip´otesis nula y alternativa. Las hip´otesis nula es algo que ya se establece y se acepta como cierto, al cu´al denotamos como H0. Tambi´en, suponemos que el valor del par´ametro en la hip´otesis nula es A0. 58
  • 59. Paso #2 Tome una muestra, digamos de unas 100 o 1000 personas o ocurrencias de eventos, y calcule el valor del estimador (por ejemplo, el promedio del par´ametro como es la edad promedio, el tiempo promedio de entrega de la pizza, ingreso promedio, etc.) Digamos que este valor fue Am. 59
  • 60. Paso #3 Calcule el valor normal est´andar del valor Z Z = Am − A0 σ/ √ n (6.1) 60
  • 61. En la f´ormula anterior, σ es la desviaci´on est´andar de la poblaci´on o ocurrencias de eventos y n es el n´umero de personas en la muestra. 61
  • 62. La probabilidad asociada con el valor Z calculada en el paso 3 se debe comparar con el nivel de significaci´on de la prueba a determinar si la hip´otesis nula ser´a aceptada o rechazada. 62
  • 63. Un ejemplo de la prueba de hip´otesis 63
  • 64. Planteamiento Un famoso restaurante de pizza afirma que su tiempo de entrega es de 20 minutos, con una desviaci´on est´andar de 3 minutos. Un investigador de mercados independiente afirma que ellos est´an desinflando los n´umeros para ganar clientes y el tiempo de entrega promedio es de hecho 21.2 minutos. ¿Es su afirmaci´on justificada o est´a el negocio de pizza correcto en su afirmaci´on? Suponga un nivel de significaci´on del 5 % 64
  • 65. Definamos las hip´otesis nula y alternativa: Lo que el negocio de pizzas afirma: H0 : A0 = 20. Lo que el investigador reclama: Ha : A0 > 20. Desviaci´on est´andar (conocida): σ = 3. Tama˜no de la muestra: n = 64. Nivel de significaci´on: β = 0.05. 65
  • 66. Calculemos el valor Z: Z = 21.2 − 20 3/ √ 64 = 3.2 66
  • 67. Denotemos por F la funci´on de distribuci´on acumulativa de una variable normal N(0, 1). Calculamos el valor p correspondiente al valor Z = 3.2: valor-p = 1 − F(3.2) = 1 − 0.999312862062 = 0.000687137937916 67
  • 68. Esto significa que si la media fuera A0 = 20, la probabilidad de que la media muestral fuera A = 21.2 es ≈ 0.069 %. Como elegimos un nivel de significaci´on β = 5 %, y 0.069 % < 5 %, podemos rechazar la hip´otesis nula H0 : A0 = 20. 68
  • 69. Figura 7.1: La hip´otesis nula se rechaza porque el p−valor es menor al nivel de significaci´on β. 69
  • 71. La prueba χ2 se usa com´unmente para comparar datos observados vs datos esperados suponiendo que los datos siguen ciertas hip´otesis. 71
  • 72. Debemos suponer cierta hip´otesis, la cu´al nuestros datos seguir´an y calculamos los datos esperados de acuerdo a esa hip´otesis. 72
  • 73. Debemos ya tener los datos observados, y calcular la desviaci´on entre estos y los esperados usando el estad´ıstico definido en la siguiente f´ormula: valor χ2 :g = (O − E)2 E , (8.1) donde O es el valor observado y E el esperado, con la suma sobre todos los posibles datos. 73
  • 74. Aplicaciones del estad´ıstico χ−cuadrada La prueba de ji cuadrado se puede usar para hacer lo siguiente: Mostrar una relaci´on causal o independencia entre una variable de entrada y otra de salida. Verificar si los datos observados provienen de una fuente justa / imparcial. Comprobar si los datos son demasiado buenos para ser verdad. 74
  • 75. Ejemplo Realicemos un experimento hipot´etico en el que una moneda se lanza 10 veces.¿Cu´antas veces espera obtener ya sea un ´aguila o un sol? La respuesta adecuada ser´ıa 5. Ahora bien, ¿qu´e pasar´ıa si realizamos este experimento 1000 veces y registramos los n´umeros de ´aguilas y soles. 75
  • 76. Supongamos que observamos soles 553 veces y ´aguilas el resto de ocasiones: H0 : La proporci´on de soles y ´aguilas es 0.5 Ha : La proporci´on no es 0.5 76
  • 77. Soles ´Aguilas Observado 553 447 Esperado 500 500 77
  • 78. Calculemos el valor χ2 : g = (553 − 500)2 + (447 − 500)5 500 ≈ 11.236 78
  • 79. Este valor−χ2 se compara al valor en una distribuci´on χ2 para un n´umero dado de grados de libertad y un nivel de significaci´on. 79
  • 80. La Distribuci´on χ2 Sean X1, X2, ..., Xν variables aleatorias independientes N(0, 1). Consideremos la variable aleatoria χ2 = X2 1 + ... + X2 ν (8.2) a la que llamaremos chi cuadrada. Su correspondiente distribuci´on de probabilidad recibe el mismo nombre. 80
  • 81. Propiedades de χ2 µ = ν, σ = 2ν (8.3) 81
  • 82. scipy.stats.chi2 from scipy.stats import chi2 import numpy as np import matplotlib.pyplot as plt fig, ax = plt.subplots(1, 1) df = 55 x = np.linspace(chi2.ppf(0.01, df), chi2.ppf(0.99, df), 100) ax.plot(x, chi2.pdf(x, df),’r-’, lw=5, alpha=0.6, label=’chi2 pdf’) 82
  • 83. Figura 8.1: Funci´on de densidad de distribuci´on χ2 con ν = 55 83
  • 84. statsChi2.py from scipy.stats import chi2 import numpy as np import seaborn as sns import matplotlib.pyplot as plt sns.set_palette("husl") fig, ax = plt.subplots(1, 1) for df in range(2,15+1): x = np.linspace(chi2.ppf(0.01, df), chi2.ppf(0.99, df), 100) ax.plot(x, chi2.pdf(x, df), label=’chi2 pdf’) 84
  • 85. 85
  • 86. Regresando a nuestro ejemplo... El n´umero de grados de libertad es el n´umero de categor´ıas menos uno. En nuestro ejemplo ν = 2 − 1 = 1. Supongamos un nivel de significaci´on β = 0.05. 86
  • 87. Figura 8.2: La hip´otesis nula se rechaza porque el valor del estad´ıstico χ2 al nivel de significaci´on es menor que el valor del estad´ıstico. 87
  • 88. Otro ejemplo Examinemos otros ejemplo donde queremos demostrar que el g´enero de un estudiante y las materias que escoge son independientes. 88
  • 89. Otro ejemplo Supongamos que un grupo de estudiantes, la siguiente tabla representa el n´umero de hombres y mujeres que toman matem´aticas, arte y comercio como sus materias principales. 89
  • 90. Otro ejemplo Matem´aticas Artes Comercio Total Hombres 68 52 90 210 Mujeres 28 37 35 100 Total 96 89 125 310 90
  • 91. Si en la elecci´on de las materias, no fuera relevante el g´enero, entonces el n´umero esperado de hombres y mujeres tomando diferentes materias ser´ıa Matem´aticas Arte Comercio Total Ni˜nos Ni˜nas Total 91
  • 92. Las desviaciones se calculan usando la f´ormula (O − E)2 /E: Matem´aticas Arte Comercio Total Ni˜nos Ni˜nas Total El estad´ıstico χ2 se obtiene al sumar todos estos valores. 92
  • 93. Conclusiones (del profesor) Como χ2 = 4.99 y el valor del estad´ıstico χ2 a un nivel se significaci´on es 11.07, la hip´otesis nula se acepta. De manera equivalente valor-p = 1 − Fχ2 (4.99) = 0.416991040312 > β = 0.05, obtenemos la misma conclusi´on: La elecci´on de materias es independiente del g´enero. 93
  • 95. La correlaci´on es la premisa de la modelaci´on predictiva, en el sentido de que es un factor con base en el cu´al podemos predecir resultados. 95
  • 96. Una buena correlaci´on entre dos variables sugiere que existe una suerte de dependencia entre ambas: Si una cambia, la otra tambi´en lo har´a. Podemos decir que una buena correlaci´on asegura una relaci´on matem´atica entre dos variables y debido a esto, seremos capaces de predecir su comportamiento. 96
  • 97. La relaci´on puede ser de cualquier tipo. Si x y y son dos variables correlacionadas, entonces podemos escribir: Y = f(X) 97
  • 98. Ejemplos de correlaci´on Correlaci´on lineal y = ax + b Correlaci´on exponencial y = beax 98
  • 99. Definici´on de correlaci´on En el caso discreto, h = x,y ((x − ¯x) (y − ¯y)) x,y (x − ¯x)2 x,y (y − ¯y)2 [x], [y] son dos listas de datos con promedios ¯x, ¯y respectivamente. 99
  • 100. Propiedades de la correlaci´on El valor del coeficiente de correlaci´on est´a entre −1 y 1, es decir −1 ≤ h ≤ 1. Una correlaci´on positiva significa una relaci´on directa entre las dos variables. Una correlaci´on negativa significa una relaci´on inversa entre las dos variables. Entre mayor sea la magnitud del coeficiente, m´as fuerte ser´a la relaci´on entre variables. 100
  • 101. ¡Advertencia! Aunque una correlaci´on fuerte sugiere alg´un tipo de relaci´on que puede ser utilizada para la predicci´on del comportamiento de una variable respecto de otra, esto no implica que dicha relaci´on sea el ´unico factor que explique dicho comportamiento. 101
  • 102. Observaci´on: ¡Correlaci´on no implica causalidad! 102
  • 103. Por ejemplo, existe una correlaci´on positiva muy fuerte entre el n´umero de palabras que conoce un ser humano y el n´umero de calzado que utiliza... Pero esto esto se explica porque a medida que el ser humano crece, necesita zapatos m´as grandes y aprende palabras nuevas. ¡No quiere decir que si utilizas un n´umero m´as grande ser´as m´as culto! 103
  • 104. Tratemos de entender mejor este concepto mirando una base de datos y tratando de encontrar una correlaci´on entre sus variables. La base de datos que estaremos observando es una muy popular sobre los costos varios incurridos en publicidad por diferentes medios y ventas de un producto en particular. 104
  • 105. Posteriormente, utilizaremos el m´etodo conocido como regresi´on lineal para explorar estos mismo datos.Por ahora, importemos esta base de datos y calculemos los coeficientes de correlaci´on: 105
  • 106. advertising.py #!/usr/bin/env python3 # -*- coding: utf-8 -*- import pandas as pd advert = pd.read_csv("./dataBases/Advertising.csv") print(advert.head()) import numpy as np 106
  • 107. advertising.py advert["dX*dY"] = ( advert["TV"] - np.mean(advert["TV"])) * ( advert["Sales"] np.mean(advert["Sales"])) advert["dX**2"] = ( advert["TV"] - np.mean(advert["TV"])) ** 2 advert["dY**2"] = ( advert["Sales"] - np.mean(advert["Sales"])) ** 2 sxy = advert.sum()["dX*dY"] sxx = advert.sum()["dX**2"] 107
  • 108. advertising.py syy = advert.sum()["dY**2"] r = sxy/np.sqrt(sxx*syy) 108
  • 110. advertising2.py #!/usr/bin/env python3 # -*- coding: utf-8 -*- import pandas as pd advert = pd.read_csv("./dataBases/Advertising.csv") print(advert.head()) import numpy as np 110
  • 111. advertising2.py def rCoef(df, var1, var2): df["dX*dY"] = (df[var1]-np.mean(df[var1]))*(df[var2 df["dX**2"] = (df[var1]-np.mean(df[var1]))**2 df["dY**2"] = (df[var2]-np.mean(df[var2]))**2 sxy = df.sum()["dX*dY"] sxx = df.sum()["dX**2"] syy = df.sum()["dY**2"] r = sxy/np.sqrt(sxx*syy) return r 111
  • 112. advertising2.py tvVsSales = rCoef(advert, "TV", "Sales") ## 0.782224424862 radioVsSales = rCoef(advert, "Radio", "Sales") ## 0.576222574571 112
  • 113. Figura 9.1: Matriz de correlaci´on 113
  • 114. Veamos la naturaleza de esta correlaci´on graficando las variables TV, Radio y Newspaper vs Sales del data frame advert. 114
  • 115. tvVsSales.py #!/usr/bin/env python3 # -*- coding: utf-8 -*- import pandas as pd advert = pd.read_csv("./dataBases/Advertising.csv") import matplotlib.pyplot as plt plt.plot(advert[’TV’],advert[’Sales’],’ro’) 115
  • 116. tvVsSales.py plt.title(’TV vs Sales’) plt.show() plt.plot(advert[’Radio’],advert[’Sales’],’ro’) plt.title(’Radio vs Sales’) plt.show() plt.plot(advert[’Newspaper’],advert[’Sales’],’ro’) plt.title(’Newspaper vs Sales’) plt.show() 116
  • 117. 117
  • 118. 118
  • 119. 119
  • 121. analisisPredictivo El repositorio con los scripts de Python 3 de esta presentaci´on los puede encontrar en https://github.com/julihocc/ulsaPye/tree/master/analisisPredictivo 121
  • 122. Referencias Murray Spiegel John Schiller, R. Alu Srinivasan, Probability and statistics, 4 ed., Schaum’s Outlines, McGraw-Hill Education, 2012. Ashish Kumar, Learning predictive analytics with python, Packt, 2016. Murray R. Spiegel, Estad´ıstica - schaum 2da edici´on, 2nd edition ed., McGraw-Hill Interamericana, 1991. 122