Este documento resume diferentes medidas de dispersión, incluyendo medidas absolutas como rango, varianza y desviación típica, y medidas relativas como el coeficiente de variación. Explica cómo calcular e interpretar cada medida y cómo usarlas para comparar la variabilidad entre conjuntos de datos.
Las Medidas de Dispersión nos resumen la información de la “muestra” o serie de datos, dándonos así información acerca de la magnitud del alejamiento de la distribución de datos en relación a un valor central o de concentración de los datos.
Un'elenco di consigli pratici su come impostare un'analisi descrittiva, dalla creazione del dataset alla scelta del tipo di variabili, alla valutazione degli indici univariati e dei grafici più opportuni.
1. Organización de datos
Se hace a través de tablas que pueden ser:
-una distribución de frecuencia simple
-distribución con frecuencia de intervalos
Frecuencias: la frecuencia es el nuero de veces que aparece una variable o dato nominal.
2. Variables de estadística
Conjunto de valores que puede tomar una variable se llama la escala de esa variable
3. Tablas de estadísticas
4. Frecuencia absoluta
Se llama frecuencia absoluta al número de veces que aparece un valor de la variable estadística.
5. Frecuencia relativa
El resultado de dividir la frecuencia absoluta de un determinado valor entre el número total de datos
6. Frecuencia absoluta acumulada
La suma de frecuencias absolutas de todos los valores iguales o inferiores al valor considerado
7. Frecuencia relativa acumulada
El resultado de dividir la frecuencia acumulada entre el número total de datos
8. Representaciones graficas
Principal Component Analysis and ClusteringUsha Vijay
Identifying the borrower segments from the give bank data set which has 27000 rows and 77 variable using PROC PRINCOMP. variables, it is important to reduce the data set to a smaller set of variables to derive a feasible
conclusion. With the effect of multicollinearity two or more variables can share the same plane in the in dimensions. Each row of the data can
be envisioned as a 77 dimensional graph and when we project the data as orthonormal, it is expected that the certain characteristics of the
data based on the plots to cluster together as principal components. In order to identify these principal components. PROC PRINCOMP is
executed with all the variables except the constant variables(recoveries and collection fees) and we derive a plot of Eigen values of all the
principal components
Correlaciones de Spearman Pearson
Como determinar el uso de dichas correlaciones.
entajas y desventajas de cada uno de ellos.
Aplicar usos de enfoques Pearson y enfoque Sperman a problemas estadísticos.
Tabla de Distribución de Frecuencias
Intervalo de Clase.
Numero de Clase.
Frecuencia simple.
Frecuencia Acumulada.
Medidas de Tendencia Central:
Media aritmética.
Mediana.
Moda.
Las Medidas de Dispersión nos resumen la información de la “muestra” o serie de datos, dándonos así información acerca de la magnitud del alejamiento de la distribución de datos en relación a un valor central o de concentración de los datos.
Un'elenco di consigli pratici su come impostare un'analisi descrittiva, dalla creazione del dataset alla scelta del tipo di variabili, alla valutazione degli indici univariati e dei grafici più opportuni.
1. Organización de datos
Se hace a través de tablas que pueden ser:
-una distribución de frecuencia simple
-distribución con frecuencia de intervalos
Frecuencias: la frecuencia es el nuero de veces que aparece una variable o dato nominal.
2. Variables de estadística
Conjunto de valores que puede tomar una variable se llama la escala de esa variable
3. Tablas de estadísticas
4. Frecuencia absoluta
Se llama frecuencia absoluta al número de veces que aparece un valor de la variable estadística.
5. Frecuencia relativa
El resultado de dividir la frecuencia absoluta de un determinado valor entre el número total de datos
6. Frecuencia absoluta acumulada
La suma de frecuencias absolutas de todos los valores iguales o inferiores al valor considerado
7. Frecuencia relativa acumulada
El resultado de dividir la frecuencia acumulada entre el número total de datos
8. Representaciones graficas
Principal Component Analysis and ClusteringUsha Vijay
Identifying the borrower segments from the give bank data set which has 27000 rows and 77 variable using PROC PRINCOMP. variables, it is important to reduce the data set to a smaller set of variables to derive a feasible
conclusion. With the effect of multicollinearity two or more variables can share the same plane in the in dimensions. Each row of the data can
be envisioned as a 77 dimensional graph and when we project the data as orthonormal, it is expected that the certain characteristics of the
data based on the plots to cluster together as principal components. In order to identify these principal components. PROC PRINCOMP is
executed with all the variables except the constant variables(recoveries and collection fees) and we derive a plot of Eigen values of all the
principal components
Correlaciones de Spearman Pearson
Como determinar el uso de dichas correlaciones.
entajas y desventajas de cada uno de ellos.
Aplicar usos de enfoques Pearson y enfoque Sperman a problemas estadísticos.
Tabla de Distribución de Frecuencias
Intervalo de Clase.
Numero de Clase.
Frecuencia simple.
Frecuencia Acumulada.
Medidas de Tendencia Central:
Media aritmética.
Mediana.
Moda.
Taming the ever-evolving Compliance Beast : Lessons learnt at LinkedIn [Strat...Shirshanka Das
Just when you think you have your Kafka and Hadoop clusters set up and humming and you’re well on your path to democratizing data, you realize that you now have a very different set of challenges to solve. You want to provide unfettered access to data to your data scientists, but at the same time, you need to preserve the privacy of your members, who have entrusted you with their data.
Shirshanka Das and Tushar Shanbhag outline the path LinkedIn has taken to protect member privacy in its scalable distributed data ecosystem built around Kafka and Hadoop.
They also discuss three foundational building blocks for scalable data management that can meet data compliance regulations: a centralized metadata system, a standardized data lifecycle management platform, and a unified data access layer. Some of these systems are open source and can be of use to companies that are in a similar situation. Along the way, they also look to the future—specifically, to the General Data Protection Regulation, which comes into effect in 2018—and outline LinkedIn’s plans for addressing those requirements.
But technology is just part of the solution. Shirshanka and Tushar also share the culture and process change they’ve seen happen at the company and the lessons they’ve learned about sustainable process and governance.
Presentacion nº3: MEDIDAS DE DISPERSIÓNElena Vargas
Medidas de dispersión: Concepto. Características y usos.
Rango
Desviaciones típicas.
Varianza
Coeficiente de variación.
Concepto. Características y utilidad
Medidas de dispersión: Concepto. Características y usos. Rango. Desviaciones típicas. Varianza y coeficiente de variación. De c/u Concepto, Características y utilidad
Diapositivas D.I.P.. sobre la importancia que tiene la interpol en HonduraspptxWalterOrdoez22
Es un conjunto de diapositivas creadas para la información sobre la importancia que tienen la interpol en honduras y los tratados entre ambas instituciones
Ipsos, empresa de investigación de mercados y opinión pública, divulgó su informe N°29 “Claves Ipsos” correspondiente al mes de abril, que encuestó a 800 personas con el fin de identificar las principales opiniones y comportamientos de las y los ciudadanos respecto de temas de interés para el país. En esta edición se abordó la a Carabineros de Chile, su evaluación, legitimidad en su actuar y el asesinato de tres funcionarios en Cañete. Además, se consultó sobre el Ejército y la opinión respecto de la marcha en Putre.
2. Una medida de dispersión permite cuantificar el grado de
dispersión de los datos con respecto a alguna medida de
tendencia central.
Al interpretar una medida de dispersión es importante tener
en cuenta lo siguiente: a menor valor obtenido menos
variabilidad de los datos y a mayor valor obtenido más
variabilidad entre los datos.
3. Medidas de
dispersión
Absolutas:
Rango o amplitud.
Rango intercuartilar.
Desviación semi_intercuartilar.
Desviación media
Varianza.
Desviación típica.
Relativas:
Coeficiente de variación.
4. Las medidas de dispersión absolutas se expresan usando la
unidad de medición de la variable.
Ejemplo:
Si se trata de estaturas se pueden expresar en metros,
centímetros, etc.
Si se trata del peso de un grupo de niños, estás pueden
expresarse en kilogramos.
Si se trata de mediciones de glicemia, triglicéridos o
colesterol, los valores se pueden expresar en mg/dl.
Las medidas de dispersión relativas no se expresan en las
unidades de medición de la variable. Por ejemplo, el
coeficiente de variación se expresa como una proporción.
6. Las medidas de dispersión absolutas que serán estudiadas acá
son:
1. Rango o amplitud.
2. Varianza.
3. Desviación típica.
7. Amplitud o Rango
Amplitud o rango: Se define como la diferencia entre el valor
máximo y el valor mínimo del conjunto de datos.
Amplitud o rango = Valor máximo – Valor mínimo.
Esta medida de dispersión se puede calcular si la variable está
medida en la escala de intervalo o la escala de razón.
Ejemplo 1: Calcular e interpretar el rango del siguiente conjunto
de estaturas (en metros): 1,74; 1,76; 1,74; 1,75; 1,75; 1,77.
Rango = Máximo – Mínimo = 1,77 mtrs – 1,74 mtrs = 0,03 mtrs
Esto nos indica que la diferencia entre la estatura del sujeto más
alto y el más bajo es igual 0,03 metros (3 cm)
8. Ejemplo 2: Para cada uno de los siguientes conjuntos
calcule el rango o amplitud. Compare los valores obtenidos
¿Qué puede concluir?
Conjunto 1: 10 10 10 10 10 10 10 10 15
Conjunto 2: 10 11 11 11 11 11 15 12 12
Conjunto 3: 6 6 5 6 6 7 7 8 10 9 9 8
9. Amplitud o Rango.
Ventajas:
Es de fácil cálculo e interpretación.
Desventajas:
1. No aporta información de la variabilidad de los datos con
respecto a alguna medida de tendencia central.
2. No aporta información de la variabilidad de los datos en
el centro de la distribución.
3. Se ve muy influenciada por valores extremos de la
distribución.
10. Varianza
Varianza: Se define como el cociente de la suma de las
desviaciones cuadráticas de los valores de la variable con
respecto a la media aritmética entre el total de casos.
( )
n
xx
Varianza
n
i
i∑=
−
= 1
2
La definición anterior corresponde a la varianza muestral
sesgada y se denota como S2
, donde n representa al tamaño de
la muestra.
La varianza poblacional es denotada por: σ2
.
11. Varianza sesgada e insesgada.
La varianza muestral sesgada se obtiene dividiendo la suma
de las desviaciones cuadráticas de los valores con respecto a la
media entre el tamaño de la muestra (n). Esta es denotada por
S2
.
( )
n
xx
S
n
i
i∑=
−
= 1
2
2
La varianza muestral insesgada se obtiene dividiendo la suma
de las desviaciones cuadráticas de los valores con respecto a la
media entre el tamaño de la muestra menos uno (n-1). Esta es
denotada por Ŝ2
.
( )
1
ˆ 1
2
2
−
−
=
∑=
n
xx
S
n
i
i
12. Desviación típica
Desviación típica: se define como la raíz cuadrada de la
varianza.
VarianzatípicaDesviación =
Notación:
S: denota la desviación típica muestral (de los datos de una
muestra)
σ: denota la desviación típica poblacional (de los datos de la
población)
13. Importancia de la desviación típica.
•Es la medida de dispersión más usada para describir un
conjunto de datos.
•Su cálculo toma en cuenta a todos los datos.
•Aporta información de la variabilidad de los datos con respecto
a la media aritmética.
•Es de gran utilidad en la inferencia estadística debido a sus
propiedades algebraicas.
14. Criterios para interpretar la desviación típica.
Asumiendo que la distribución de los datos es simétrica y
unimodal, se puede afirmar que:
•El 68,26% de los datos se encuentran en el intervalo con
límites inferior y superior igual a , respectivamente.
•El 95,45% de los datos se encuentran en el intervalo con
límites inferior y superior igual a , respectivamente
•El 99,73% de los datos se encuentran en el intervalo con
límites inferior y superior igual a , respectivamente
SxSx +− y
SxSx 2y2 +−
SxSx 3y3 +−
xSx − Sx +
68,26%
95,45%
Sx 2+Sx 2−
16. Coeficiente de variación (C.V)
Coeficiente de variación: Se denota como C.V. y se define
como el resultado de dividir la desviación típica por la media
aritmética.
Este estadístico debe usarse si la variable está medida en la escala
de razón.
Ejemplo 5: Suponga que la distribución de los pesos de un grupo
de mujeres tiene una media igual a 65 kgrs. y una desviación
típica igual a 2 kgrs. El coeficiente de variación para este
conjunto de datos es igual a:
031,0..
031,0
kgrs.65
kgrs.2
..
=
===
VC
x
S
VC
17. Criterios para comparar la variabilidad de los datos de dos o
más distribuciones
Si la media aritmética de las distribuciones es la misma o parecida
(1) y, además, las variables están expresadas en la misma unidad
de medida (2), entonces se comparan los valores de la varianza o
la desviación típica de las distribuciones.
En caso de no cumplirse alguna de las condiciones anteriores se
calcula y compara el valor del coeficiente de variación de cada
una de las distribuciones.
En cualquier caso, aquella distribución que presente el valor más
pequeño, al calcular la medida de dispersión adecuada, será la
más homogénea, es decir, la que presente menos variabilidad
entre los datos.
18. Ejemplo 3: Suponga que la nota promedio obtenida en
matemáticas por los alumnos de la sección A es igual a 14
puntos y la desviación típica es de 1,5 puntos. Suponga que la
nota media de este grupo en Inglés es 13,8 puntos con una
desviación típica igual a 1 punto. ¿En cuál asignatura la media
aritmética representa mejor al conjunto de notas?
Respuesta:
La media aritmética representa mejor al conjunto más
homogéneo, aquel cuyos datos están menos dispersos con
respecto a la media.
En el caso propuesto, la variable involucrada es la misma
(notas) y la media aritmética de los conjuntos es muy parecida
(13,8 ptos ≈14 ptos). Se compara la desviación típica de ambos
conjuntos y se concluye que la distribución de las notas de
Inglés es la más homogénea.