5. Son indicadores o medidas estadísticos que permiten medir el
grado de concentración o desigualdad de cualquier distribución. La
concentración de una distribución hace referencia al mayor o
menor grado de igualdad en el reparto del total de los valores de
una variable, son por tanto indicadores del grado de distribución de
la variable.
Relación entre dos variables
En la estadística no todo está supeditado al uso de una variable,
también existen técnicas para analizar la relación de dos variables.
Estadística y Análisis de Datos
6. Son indicadores o medidas estadísticos que permiten medir el
grado de concentración o desigualdad de cualquier distribución. La
concentración de una distribución hace referencia al mayor o
menor grado de igualdad en el reparto del total de los valores de
una variable, son por tanto indicadores del grado de distribución de
la variable.
Regresión
La relación entre dos variables cuantitativas.
En general nos interesa:
• Investigar si existe asociación entre las dos variables.
• Estudiar la fuerza de la asociación, llamada coeficiente de
correlación.
• Estudiar la forma de la relación, para ello proponemos la
relación de variable dependiente (Y) con variable
independiente (X). Además el modelo de regresión lineal
ayuda a “predecir” el valor de la variable
dependiente (Y) cuando la variable independiente (X)
toma un valor determinado.
Estadística y Análisis de Datos
7. Son indicadores o medidas estadísticos que permiten medir el
grado de concentración o desigualdad de cualquier distribución. La
concentración de una distribución hace referencia al mayor o
menor grado de igualdad en el reparto del total de los valores de
una variable, son por tanto indicadores del grado de distribución de
la variable.
Modelo Matemático
La función matemática que
relaciona la variable dependiente
(Y) y la variable independiente (X)
es llamado Modelo Matemático.
La función más simple para
relacionar estas dos variables es
la Función Lineal
𝑌 = 𝑎 + 𝑏𝑋
Estadística y Análisis de Datos
8. Son indicadores o medidas estadísticos que permiten medir el
grado de concentración o desigualdad de cualquier distribución. La
concentración de una distribución hace referencia al mayor o
menor grado de igualdad en el reparto del total de los valores de
una variable, son por tanto indicadores del grado de distribución de
la variable.
Rectas de Regresión posibles
Estadística y Análisis de Datos
9. Son indicadores o medidas estadísticos que permiten medir el
grado de concentración o desigualdad de cualquier distribución. La
concentración de una distribución hace referencia al mayor o
menor grado de igualdad en el reparto del total de los valores de
una variable, son por tanto indicadores del grado de distribución de
la variable.
En la empresa “Electronics” se venden unidades de dispositivos electrónicos; se tomó una
muestra de las ventas realizadas por 6 de los vendedores de planta y se quiere comparar la
cantidad de llamadas realizadas durante el mes y las ventas facturadas.
Los resultados son los que se muestra en la tabla:
Utilizando PSPP, genere el diagrama de dispersión
correspondiente a estos datos.
¿Qué indica el diagrama de dispersión?
Trate de aproximar la relación entre “x” e “y” trazando
una línea recta que pase a través de los puntos de los
datos. Utilizando PSPP encuentre dicha recta.
Estadística y Análisis de Datos
11. Son indicadores o medidas estadísticos que permiten medir el
grado de concentración o desigualdad de cualquier distribución. La
concentración de una distribución hace referencia al mayor o
menor grado de igualdad en el reparto del total de los valores de
una variable, son por tanto indicadores del grado de distribución de
la variable.
Estadística y Análisis de Datos
12. Son indicadores o medidas estadísticos que permiten medir el
grado de concentración o desigualdad de cualquier distribución. La
concentración de una distribución hace referencia al mayor o
menor grado de igualdad en el reparto del total de los valores de
una variable, son por tanto indicadores del grado de distribución de
la variable.
Estadística y Análisis de Datos
14. Son indicadores o medidas estadísticos que permiten medir el
grado de concentración o desigualdad de cualquier distribución. La
concentración de una distribución hace referencia al mayor o
menor grado de igualdad en el reparto del total de los valores de
una variable, son por tanto indicadores del grado de distribución de
la variable.
A continuación se tiene el número de cigarrillos consumidos (cientos por persona) y
mortalidad por cáncer de pulmón (muertes/100000 habitantes) en 15 localidades. Halla la
ecuación de la recta estimada utilizando PSPP.
Estadística y Análisis de Datos
15. Son indicadores o medidas estadísticos que permiten medir el
grado de concentración o desigualdad de cualquier distribución. La
concentración de una distribución hace referencia al mayor o
menor grado de igualdad en el reparto del total de los valores de
una variable, son por tanto indicadores del grado de distribución de
la variable.
Método Mínimos Cuadrados
De lo anterior:
De modo que dicha recta se ajuste a la nube de puntos observados. Donde 𝑦 ̂ es el valor
pronosticado de “y” a partir de un valor de “x”. El principio de mínimos cuadrados se utiliza
para obtener b0 y b1.
Las ecuaciones para determinar b0 y b1 son:
𝑏1 =
𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦
𝑥𝑖 − 𝑥 2
𝑏0 = 𝑦 − 𝑏1𝑥
𝑦 = 𝑏0 + 𝑏1𝑥
Estadística y Análisis de Datos
16. Son indicadores o medidas estadísticos que permiten medir el
grado de concentración o desigualdad de cualquier distribución. La
concentración de una distribución hace referencia al mayor o
menor grado de igualdad en el reparto del total de los valores de
una variable, son por tanto indicadores del grado de distribución de
la variable.
En la empresa “Electronics” se venden unidades de dispositivos electrónicos; se tomó una
muestra de las ventas realizadas por 6 de los vendedores de planta y se quiere comparar
la cantidad de llamadas realizadas durante el mes y las ventas facturadas.
Los resultados son los que se muestra en la tabla:
Utilizando el método mínimos cuadrados, halle la
ecuación de regresión estimada (recta que más se
ajusta a los puntos) .
Estadística y Análisis de Datos
17. Estadística y Análisis de Datos
Son indicadores o medidas estadísticos que permiten medir el
grado de concentración o desigualdad de cualquier distribución. La
concentración de una distribución hace referencia al mayor o
menor grado de igualdad en el reparto del total de los valores de
una variable, son por tanto indicadores del grado de distribución de
la variable.
Solución: Utilizando el método de mínimos cuadrados, tenemos:
Vendedor
Números
de
llamadas
(X)
Número de
unidades
vendidas
(Y)
𝒙𝒊 − 𝒙 𝒚𝒊 − 𝒚 𝒙𝒊 − 𝒙 𝒚𝒊 − 𝒚 𝒙𝒊 − 𝒙 𝟐
Alex Mamani 20 30 -3,3333 -15,8333 52,77713889 11,11088889
Marco López 40 60 16,6667 14,1667 236,11213889 277,77888889
Luis Baca 30 60 6,6667 14,1667 94,44513889 44,44488889
Carlos Ordoñez 10 40 -13,3333 -5,8333 77,77713889 177,77688889
César Olivo 20 50 -3,3333 4,1667 -13,88886111 11,11088889
Mauricio Pérez 20 35 -3,3333 -10,8333 36,11063889 11,11088889
𝑥 = 23,3333 𝑦 = 45,8333 𝒙𝒊 − 𝒙 𝒚𝒊 − 𝒚 = 483,33333333 𝒙𝒊 − 𝒙 𝟐
= 533,33333333
18. 𝑦 = 24.69 + 0.91𝑥
𝑦 = 𝑏0 + 𝑏1𝑥
Solución:
Hallando b1 y b0 en:
La ecuación de regresión estimada es:
𝑏1 =
483,33333333
533,33333333
= 0,90625~0,91
𝑏0 = 45,8333 − 0,90625 ∙ 23,3333 = 24,68749688~24,69
Estadística y Análisis de Datos
19. Un centro comercial desea estimar la ecuación de regresión lineal estimada, utilizando el
métodos mínimos cuadrado.
La información del comportamiento de las ventas de todos los almacenes de la cadena se
presenta en la siguiente tabla.
Estadística y Análisis de Datos
20. • ¿ Qué es Correlación?
• ¿ Qué regresión?
• ¿ Qué es ecuación de la regresión?
• ¿ En que consiste el método de los mínimos cuadrados?
Estadística y Análisis de Datos
22. Relación entre dos variables cuantitativas: Diagramas de Dispersión
• También conocido como gráfico de dispersión,
gráfico de puntos, gráfico de nubes, diagrama de
XY o Scattergram.
• Los diagramas de dispersión usan una colección
de puntos colocados utilizando coordenadas
cartesianas para mostrar valores de dos
variables.
• Al mostrar una variable en cada eje, se puede
detectar si existe una relación o correlación entre
las dos variables.
Estadística y Análisis de Datos
23. Relación entre dos variables cuantitativas: Diagramas de Dispersión
Los diagramas de dispersión pueden ser:
Estadística y Análisis de Datos
24. Covarianza
• La covarianza de una variable bidimensional es la
media aritmética de los productos de las
desviaciones de cada una de las variables
respecto a sus medias respectivas.
• El signo de la covarianza nos dice si el aspecto
de la nube de puntos es creciente o no, pero no
nos dice nada sobre el grado de relación entre
las variables.
• La covarianza indica el sentido de la correlación
entre las dos variables. Esta, a diferencia de la
varianza, puede ser negativa.
Sxy>0 : Hay dependencia (correlación
directa)
Sxy<0 : No hay dependencia
(correlación indirecta)
𝑆𝑥𝑦 =
𝒙𝒊 − 𝒙 𝒚𝒊 − 𝒚
𝑛 − 1
Estadística y Análisis de Datos
26. Coeficiente de Correlación de Pearson
El coeficiente de correlación lineal es el cociente entre la covarianza y el producto de
las desviaciones típicas de ambas variables.
El coeficiente de correlación lineal se expresa mediante la letra r, este coeficiente se utiliza
para medir el grado o fuerza de la relación de dos variables.
Propiedades:
• El coeficiente de correlación no varía al hacerlo la escala de medición.
• El signo del coeficiente de correlación es el mismo que el de la covarianza.
• El coeficiente de correlación lineal es un número real comprendido entre −1 y 1.
𝑟 =
𝑆𝑥𝑦
𝑆𝑥𝑆𝑌
Estadística y Análisis de Datos
31. Coeficiente de Determinación
El coeficiente de determinación es el cuadrado del coeficiente de
correlación lineal de Pearson .
El coeficiente de determinación se expresa mediante el r2.
Este coeficiente determina la calidad del modelo para predecir
resultados
Propiedades:
• El coeficiente de determinación es un número comprendido entre 0 y
1.
• Este coeficiente suele expresarse en porcentajes (%)
𝑟2 =
𝑆𝑥𝑦
2
𝑆𝑥
2
𝑆𝑦
2
Estadística y Análisis de Datos
32. Ejemplo:
En la empresa “Electronics” se venden unidades de dispositivos electrónicos; se tomó una
muestra de las ventas realizadas por 6 de los vendedores de planta y se quiere comparar la
cantidad de llamadas realizadas durante el mes y las ventas facturadas.
Los resultados son los que se muestra en la tabla:
a. Calcule la covarianza.
b. Calcule el coeficiente de correlación.
c. Calcule el coeficiente de determinación.
d. Utilizando el PSPP, validemos los resultados anteriores.
e. Interpretación de los resultados
Estadística y Análisis de Datos
39. Resuelve:
La información del comportamiento de las ventas de todos los almacenes de un centro
comercial se presenta en la siguiente tabla.
a. Calcule la covarianza.
b. Calcule el coeficiente de correlación.
c. Calcule el coeficiente de determinación.
d. Utilizando el PSPP, validemos los resultados anteriores.
e. Interpretación de los resultados
Estadística y Análisis de Datos
40. Estadística y Análisis de Datos
Resuelve:
A continuación se tiene el número de cigarrillos consumidos (cientos por persona) y
mortalidad por cáncer de pulmón (muertes/100000 habitantes) en 15 localidades.
a. Calcule la covarianza
b. Calcule el coeficiente de correlación.
c. Calcule el coeficiente de determinación.
d. Utilizando el PSPP, validemos los
resultados anteriores.
e. Interpretación de los resultados
Localidad
Cigarrillos
(X)
Mortalidad
(M)
Localidad
Cigarrillos
(X)
Mortalidad
(M)
1 18.20 17.05 9 20.10 13.58
2 25.82 19.80 10 27.91 22.80
3 18.24 15.98 11 26.18 20.30
4 28.60 22.07 12 22.12 16.59
5 31.10 22.83 13 21.84 16.84
6 33.60 24.55 14 23.44 17.71
7 40.46 27.27 15 21.58 25.45
8 28.27 23.57
41. • ¿ Si una covarianza es positiva o negativa que interpretación se
puede realizar?
• ¿ Qué determina el coeficiente de correlación de pearson?
• ¿ Qué podríamos interpretar con el resultado de coeficiente
determinación y que valor se expresa?
Estadística y Análisis de Datos
42. Una agencia de publicidades
desea saber si el género de los
consumidores es independiente a
sus preferencias de cuatro marcas
de café.
Una empresa multinacional desea
conocer si existe diferencias
significativas entre sus
trabajadores en distintos países en
el grado de satisfacción en el
trabajo
Estadística y Análisis de Datos
43. Prueba de hipótesis que
determina si dos variables
cualitativos nominales están
relacionadas o no
Relacionan de una inferencia,
donde se desea estudiar si la
asociación encontrada entre
dos variables en una muestra
tomada al azar de una
población mayor, podría
entenderse a la población de
donde toma los datos
Para ello, realizaremos un
contraste de hipótesis.
Prueba de
independencia
Prueba de
homogeneidad de
subpoblación
Estadística y Análisis de Datos
44. Prueba del Chi-Cuadrado (2)
• Una de las medidas de relación o asociación entre dos variables cualitativas más usadas
en la práctica es la prueba del Chi-cuadrado.
• Esta prueba contrasta frecuencias observadas con las frecuencias esperadas de
acuerdo con la hipótesis nula. También se puede usar el estadístico Chi-cuadrado para
evaluar cuán buena puede resultar una distribución teórica, cuando pretende representar
la distribución real de los datos de una muestra determinada.
Χ2
=
foij − feij
2
feij
n
Estadística y Análisis de Datos
45. Tabla de contingencia
• Esta una tabla de frecuencia simple de dos vías (bidimensional), filas y columnas, se usan
para resumir y anotar los resultados de datos recolectados de dos variables.
• Los grados de libertad de un estadístico calculado sobre un conjunto de datos, se referencia
al número de datos independientes que se necesitan en su cálculo, menos el número de
restricciones que emparejan a las observaciones y el estadístico.
g.l.=(n° columnas -1)(n° filas -1)
Grados de libertad
Variable B
Variable A
Estadística y Análisis de Datos
46. Pasos para realizar la Prueba del Chi-Cuadrado (2)
Estadística y Análisis de Datos
47. Ejemplo:
• Se realizó una encuesta
en las personas sobre
qué les parecía el
servicio que brindaba
una heladería y si les
gustaba el sabor de sus
helados
• Realizar la prueba del
Chi-Cuadrado (2)
utilizando PSPP.
Estadística y Análisis de Datos
51. • ¿ En que consiste el chi-cuadrado?
• ¿ Qué tipo de variable se opera en la prueba de chi-cuadrado?
• ¿ Qué es grado de libertad?
• ¿ Qué es el nivel de significancia?
Estadística y Análisis de Datos