Este documento contiene información sobre estadística descriptiva y análisis exploratorio de datos. Explica conceptos como medidas de tendencia central, medidas de dispersión, distribución de frecuencias, representaciones gráficas, y estadísticos de asociación. También describe cómo obtener y usar el software R para realizar análisis estadísticos e incluye ejemplos de código R.
2. Estadística descriptiva
1. Medidas de tendencia
central(ubicación)
2. Medidas de dispersión
3. Medidas de posición
4. Medidas de forma y
concentración
5. Estadísticos de
asociación
1.- Distribución
de frecuencias:
Ordenar, agrupar,
resumir
Absolutas - relativas
2.-
Representaci-
ones graficas
3.- Análisis
exploratorio
de datos
4. Qué es R
• R es un entorno libre de análisis estadístico
de datos y de creación de gráficos
estadísticos
• Es un lenguaje de programación
• Se basa en una interfaz de usuario de líneas
de comandos
• Y, como diría alguno de mis alumnos, es feo
Lenguaje de software libre para la investigación estadistica
Fue desarrollado inicialmente por Robert Gentleman y Ross
Ihaka del Departamento de Estadística de la Universidad de
Auckland-Nueva Zelanda en 1996
5. Razones para utilizar (y no) utilizar
• Pros
– Es libre
– Flexibilidad
– Procedimientos
disponibles
– Se aprende
estadística
– Los gráficos
Contras
oAl principio suele ser
árido
oCuesta un poco si se
está habituado a trabajar
con otro tipo de
programas
8. Obtener R
• Acceder al directorio que contiene la
distribución
• Descargar el archivo ejecutable que
instala R
9. Instalar R
• Tras la descarga tendrás habrá que ejecutar
el archivo:
– R-3.0.1-win.exe
– Aparecerá un asistente
– Seleccionar las opciones que correspondan a tu
caso
10. Definiciones Básicas
• Objetos(base datos,vectores,matrices,funciones) Analisis y
gráficos
– Funciones
• nombre.de.la.función(argumento/s=,
opción/es=)
• Espacio o área de trabajo
• Directorio de trabajo(carpeta)
• Paquetes
• Archivos de comandos o scripts
11. Descripción de la interfaz gráfica de usuario
en R
• Ejecutar el
programa o el
acceso directo del
escritorio
• Apertura de la
consola de
comandos
12. Otras Interfaces Interesantes
• Hay variedad de interfaces para R
(Valero-Mora y Ledesma, 2012):
– R Commander – es un paquete de R
– RKWard – http://rkward.sourceforge.net
– Tinn-R – http://www.sciviews.org/Tinn-R
– Emacs – http://www.gnu.org/software/emacs
– RStudio – http://www.rstudio.com
13. Los objetos de R
• Uno objeto es una estructura de datos
con la que R puede trabajar
• Por ejemplo:
– Un conjunto de datos – base de datos
– El resultado de un análisis estadístico
– Una tabla de datos
– Una función
14. Tipos de objetos
• Vector (numéricos, caracteres, lógicos)
• Matrices (y arrays)
• Listas (pueden contener información de
diferente tipo)
• Tablas (de frecuencia o de contingencia)
• Data frame o base de datos
15. ¿Qué es un vector?
• Un vector es “conjunto ordenado de
números” (Venables et al., 2011, p. 7)
• Un vector es una colección ordenada de
datos del mismo tipo
• Atención a lo que nos referimos con
orden
16. Tipos de vectores
• Vectores numéricos
– Las edades de un grupo de amigos: 20, 25, 22,
21, 27, 28
• Vectores lógicos
– ¿Tienen novia los amigos?: TRUE, TRUE,
FALSE, FALSE, TRUE, FALSE (se truncan a
ceros y unos)
• Vectores cualitativos o de caracteres
– Nombres: Pedro, Manuel, José, Esteban, Raúl,
Damián
17. OPERACIONES
2 5 1 6 5 5 4 1
Para ingresar estos valores en una sesión de
R, asignándolos al objeto escribimos pepe
> pepe <- c(2,5,1,6,5,5,4,1)
y si escribimos
> pepe
y oprimimos enter, aparecerá lo siguiente
[1] 2 5 1 6 5 5 4 1
> t<-c(1,1.2,1.3,1,1.2,1.3,1.4)
> g<-c(5,4.5,5.5,4.7,5.1,4.4,4.8)
variable
Toma el valor
de
19. Estadística descriptiva
1. Distribución de frecuencias
2. Representaciones graficas
3. Análisis exploratorio de datos
4. Medidas de tendencia central(ubicación)
5. Medidas de dispersión
6. Medidas de posición
7. Medidas de forma y concentración
8. Estadísticos de asociación
25. Tema 1: Introdución 25
Bioestadística. U.
Málaga.
Gráficos para v. cualitativas
Diagramas de barras
Alturas proporcionales a las
frecuencias (abs. o rel.)
Se pueden aplicar también a
variables discretas
Diagramas de sectores (tartas,
polares)
No usarlo con variables
ordinales.
El área de cada sector es
proporcional a su frecuencia
(absolutas o relativas.)
26. Tema 1: Introdución 26
Bioestadística. U.
Málaga.
Gráficos diferenciales para variables
numéricas
Son diferentes en función de que
las variables sean discretas o
continuas. Valen con frec.
absolutas o relativas.
Diagramas barras para v. discretas
Se deja un hueco entre barras para
indicar los valores que no son posibles
Histogramas para v. continuas
El área que hay bajo el histograma
entre dos puntos cualesquiera indica la
cantidad (porcentaje o frecuencia) de
individuos en el intervalo.
0 1 2 3 4 5 6 7 Ocho o más
Número de hijos
100
200
300
400
Recuento
419
255
375
215
127
54
24 23 17
20 40 60 80
Edad del encuestado
50
100
150
200
250
Recuento
30. Analisis exploratorio de datos
Objetivo:
identificar el modelo teórico más adecuado para representar la
población de la cual proceden los datos muestrales.
Dicho análisis se basa en gráficos y estadísticos que permiten explorar
la distribución identificando características tales como: valores atípicos o
outliers, saltos o discontinuidades, concentraciones de valores, forma de
la distribución, etc.
Por otra parte, este análisis se puede realizar sobre todos los casos
conjuntamente o de forma separada por grupos.
. También permite comprobar, mediante técnicas gráficas y contrastes
no paramétricos, si los datos han sido extraídos de una población con
distribución aproximadamente normal.
Definido por John W. Tukey (E.D.A.: Exploratory data analysis)
tratamiento estadístico al que se someten las muestras recogidas
durante un proceso de investigación en cualquier campo científico
31. 31
TIPOS DE GRÁFICOS
5. Diagrama de Caja
- Permite identificar gráficamente la
mediana, los cuartiles 1 y 3
(percentiles 25 y 75), mínimo y
máximo de una variable.
- Sólo es útil para variables
cuantitativas.
-El eje x permite identificar la
poblacion en estudio.
- El eje y representa los valores de la
variable en estudio.
Estadística
1473584N =
HombresMujeres
Edad
100
90
80
70
60
50
40
30
20
10
0
Edad de las personas que se realizaron
angioplastía entre 1980 y 2000
www.est.uc3m.es/omar/Mayores25/.../Presentación%20Estadística.ppt
32. Tallos y hojas
stem(g)
The decimal point is 1 digit(s) to the right of the |
1 | 2
2 | 03558
3 | 444
4 | 5
34. 34
MEDIDAS DE TENDENCIA CENTRAL
-Media Aritmética (Promedio)
-Mediana
-Moda
n
x
x
n
i
i
1
Media Aritmética o Promedio
Mediana
)(EM kx
2
M
)1()(
E
kk xx
x
1x
2x
nx
Datos Cuantitativos
x
)1(x
)2(x
)(nx
Datos Cuantitativos ordenados de menor a mayor
Si n es par
Si n es impar
centrodeldato)( kx
repite"semásquedatoel"Mo
ModaDatos
Cualitativos y Cuantitativos
Estadística
38. 38
MEDIDAS DE DISPERSIÓN
-Rango
-Varianza
-Desviación Estándar
Rango
Varianza
x
1x
2x
nx
Datos Cuantitativos
Coeficiente de Variación
Comparación entre Variables
Se refiere al comportamiento de las variables cuantitativas en un
grupo. Por ejemplo: Si se tiene un conjunto de personas a las que
se les mide Estatura, Peso, Edad: Entre estas variables ¿cuál
presenta mayor variación?
)min()max( ii xxR
Desviación Típica o Estándar
2
1
21 1
22
1
2
2 1
)(
1
)(
xx
nn
x
n
x
n
xx
s
n
i
i
n
i
n
i
ii
n
i
i
2
ss
x
s
cv
Estadística
39. Con base de datos
memoria=read.csv("G:/memoria.csv")
mean(memoria[,15])
[1] 71.52174
memoria=read.csv("C:/Users/Advance/Deskto
p/memoria.csv")
sd(memoria[,15])
[1] 9.711518
39
40. 40
Percentiles, Deciles o Cuartiles
-Percentil (ejemplo: 25, 50, 75)
-Decil (ejemplo: 4, 5, 8)
-Cuartil (ejemplo: 1, 2, 3)
El Decil va de 1 a 10
El Decil 4 (4/10): es el valor de la variable que reúne al menos el 40% de los datos
Ejemplo: Si N=80, el 40% de 80 es 32; por lo tanto, se busca el dato que este en la posición 32.
Si N=85, el 40% de 85 es 34; por lo tanto se busca el dato que este en la posición 34.
Percentil, Decil o Cuartil: corresponde al valor que toma la variable (cuantitativa), cuando los n
datos están ordenados de Menor a Mayor
Estadística
El Percentil va de 1 a 100
El percentil 25 (25/100): es el valor de la variable que reúne al menos el 25% de los datos
Ejemplo: Si N=80, el 25% de 80 es 20; por lo tanto, se busca el dato que este en la posición 20.
Si N=85, el 25% de 85 es 21,25; por lo tanto se busca el dato que este en la posición 22.
El Cuartil va de 1 a 4
El Cuartil 3 (3/4): es el valor de la variable que reúne al menos el 75% de los datos
Ejemplo: Si N=80, el 75% de 80 es 60; por lo tanto, se busca el dato que este en la posición 60.
Si N=85, el 75% de 85 es 63,75; por lo tanto se busca el dato que este en la posición 64.
41. 41
Estadística
Otras medidas o Coeficientes
-Asimetría
-Kurtosis o Apuntamiento
Además de la posición y la dispersión de los datos, otra medida de interés en una distribución de frecuencias
es la simetría y el apuntamiento o kurtosis.
Coeficiente de Asimetría 3
1
3
)(
sn
xx
CA
n
i
i
Si CA=0 si la distribución es simétrica alrededor de la media.
Si CA<0 si la distribución es asimétrica a la izquierda
Si CA>0 si la distribución es asimétrica a la derecha
Coeficiente de Apuntamiento 4
1
4
)(
sn
xx
CAp
n
i
i
- Si CAp=0 la distribución se dice normal (similar
a la distribución normal de Gauss) y recibe el
nombre de mesocúrtica.
- Si CAp>0, la distribución es más puntiaguda que
la anterior y se llama leptocúrtica, (mayor
concentración de los datos en torno a la media).
- Si CAp<0 la distribución es más plana y se
llama platicúrtica.
42. 42
MEDIDAS DE ASOCIACIÓN LINEAL
- Covarianza
- Correlación
x
1x
2x
nx
Datos
Cuantitativos
Covarianza:
Recordemos que: Hasta ahora hemos estudiado las medidas tendencia
central (Media, Mediana, Moda) y dispersión
(Varianza y Desviación Estándar) para una Variable
Cuantitativa (x).
Es una medida de Variabilidad Conjunta entre dos variables (x1 , x2) o bien (x , y)
x y
)1(x )(y 1
)2(x )(y 2
)(nx )n(y
Si Cov(x,y) es positiva: la asociación entre x e y es directamente proporcional,
es decir que cuando x aumenta y también aumenta; y viceversa.
Si Cov(x,y) es negativa: la asociación entre x e y es inversamente proporcional,
es decir que cuando x aumenta y disminuye; y viceversa.
Si Cov(x,y) es cero: no existe asociación entre x e y.
n
i
ii )yy)(xx(
n
)y,xcov(
1
1
Estadística
43. CORRELACIONES
> t<-c(1,1.2,1.3,1,1.2,1.3,1.4)
> g<-c(5,4.5,5.5,4.7,5.1,4.4,4.8)
> cor(t,g)
[1] 0.02886751
> cor.test(t,g)
Pearson's product-moment correlation
data: t and g
t = 0.0646, df = 5, p-value = 0.951
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.7402836 0.7652891
sample estimates:
cor
0.02886751
44. 44
Objetivo 2
Estudiar si los valores de una
variable pueden ser utilizados para
predecir el valor de la otra
REGRESION LINEAL SIMPLE
Datos Cuantitativos
Determinar si existe relación
entre las variables x e y:
Coeficiente de Correlación
Objetivo 1
Determinar si dos variables están
asociadas y en qué sentido se da
la asociación.
Estudiar la dependencia de una
variable respecto de la otra:
Modelo de Regresión
Términos
Variable Respuesta (=variable dependiente)
Variable Explicativa (=variable Independiente)
Relación Lineal (modelo lineal)
Parámetros (intercepto y pendiente)
Intercepto (respuesta media)
Pendiente (efecto de la variable explicativa sobre la respuesta)
Error (residuo)
x y
)1(x )(y 1
)2(x )(y 2
)(nx )n(y
Estadística
47. Creación de objetos
• La creación de objetos se lleva a cabo
realizando una asignación
• Para ello utilizamos los símbolos <-, -> o =
– Los códigos parecidos a flecha funcionan en
ambos sentidos
– El símbolo igual sólo en un sentido
• Ejemplos
48. Creación de vectores
• La función c()
• La función assingn()
• Los dos puntos :
• La función seq()
• Distribuciones estadísticas
• Ejemplos
49.
50. ¿Qué es una base de datos?
• En R se le llama data frame
• Una especie de matriz bi-dimensional
– Columnas representan variables
– Filas representan personas, registros o casos
• Contiene diferentes tipos de datos (es un
tipo de lista)
• Ejemplo: iris
51. Funciones interesantes
• La función data()
• La función str()
• La función head()
• La función tail()
• La función View()
• La función dim()
52. Creación de bases de datos
• Existe la función data.frame()
– Hay que crear previamente un conjunto de
vectores
• A partir de otros objetos
as.data.frame()
• También podemos importar datos desde
archivos externos (Excel, SPSS, .csv, .txt)
Ejemplos