Análisis descriptivo
José Livia Segovia
http://www.mat.uda.cl/hsalinas/probabilidades.htm
Estadística descriptiva
1. Medidas de tendencia
central(ubicación)
2. Medidas de dispersión
3. Medidas de posición
4. Medidas de forma y
concentración
5. Estadísticos de
asociación
1.- Distribución
de frecuencias:
Ordenar, agrupar,
resumir
Absolutas - relativas
2.-
Representaci-
ones graficas
3.- Análisis
exploratorio
de datos
Análisis Estadístico con R
Obtención, Instalación y primer contacto con R
Jorge López Puga
Qué es R
• R es un entorno libre de análisis estadístico
de datos y de creación de gráficos
estadísticos
• Es un lenguaje de programación
• Se basa en una interfaz de usuario de líneas
de comandos
• Y, como diría alguno de mis alumnos, es feo
Lenguaje de software libre para la investigación estadistica
Fue desarrollado inicialmente por Robert Gentleman y Ross
Ihaka del Departamento de Estadística de la Universidad de
Auckland-Nueva Zelanda en 1996
Razones para utilizar (y no) utilizar
• Pros
– Es libre
– Flexibilidad
– Procedimientos
disponibles
– Se aprende
estadística
– Los gráficos
Contras
oAl principio suele ser
árido
oCuesta un poco si se
está habituado a trabajar
con otro tipo de
programas
Obtener R
• http://www.r-project.org
Obtener R
• Seleccionar un servidor
• Seleccionar un sistema operativo
Obtener R
• Acceder al directorio que contiene la
distribución
• Descargar el archivo ejecutable que
instala R
Instalar R
• Tras la descarga tendrás habrá que ejecutar
el archivo:
– R-3.0.1-win.exe
– Aparecerá un asistente
– Seleccionar las opciones que correspondan a tu
caso
Definiciones Básicas
• Objetos(base datos,vectores,matrices,funciones) Analisis y
gráficos
– Funciones
• nombre.de.la.función(argumento/s=,
opción/es=)
• Espacio o área de trabajo
• Directorio de trabajo(carpeta)
• Paquetes
• Archivos de comandos o scripts
Descripción de la interfaz gráfica de usuario
en R
• Ejecutar el
programa o el
acceso directo del
escritorio
• Apertura de la
consola de
comandos
Otras Interfaces Interesantes
• Hay variedad de interfaces para R
(Valero-Mora y Ledesma, 2012):
– R Commander – es un paquete de R
– RKWard – http://rkward.sourceforge.net
– Tinn-R – http://www.sciviews.org/Tinn-R
– Emacs – http://www.gnu.org/software/emacs
– RStudio – http://www.rstudio.com
Los objetos de R
• Uno objeto es una estructura de datos
con la que R puede trabajar
• Por ejemplo:
– Un conjunto de datos – base de datos
– El resultado de un análisis estadístico
– Una tabla de datos
– Una función
Tipos de objetos
• Vector (numéricos, caracteres, lógicos)
• Matrices (y arrays)
• Listas (pueden contener información de
diferente tipo)
• Tablas (de frecuencia o de contingencia)
• Data frame o base de datos
¿Qué es un vector?
• Un vector es “conjunto ordenado de
números” (Venables et al., 2011, p. 7)
• Un vector es una colección ordenada de
datos del mismo tipo
• Atención a lo que nos referimos con
orden
Tipos de vectores
• Vectores numéricos
– Las edades de un grupo de amigos: 20, 25, 22,
21, 27, 28
• Vectores lógicos
– ¿Tienen novia los amigos?: TRUE, TRUE,
FALSE, FALSE, TRUE, FALSE (se truncan a
ceros y unos)
• Vectores cualitativos o de caracteres
– Nombres: Pedro, Manuel, José, Esteban, Raúl,
Damián
OPERACIONES
2 5 1 6 5 5 4 1
Para ingresar estos valores en una sesión de
R, asignándolos al objeto escribimos pepe
> pepe <- c(2,5,1,6,5,5,4,1)
y si escribimos
> pepe
y oprimimos enter, aparecerá lo siguiente
[1] 2 5 1 6 5 5 4 1
> t<-c(1,1.2,1.3,1,1.2,1.3,1.4)
> g<-c(5,4.5,5.5,4.7,5.1,4.4,4.8)
variable
Toma el valor
de
u<-c("lima","tacna","lima","tacna","piura","tacna","piura","lima","lima","piura")
summary(u)
Length Class Mode
10 character character
t<-c(21,46,23,34,25,33,28,33,15,25)
summary(t)
Min. 1st Qu. Median Mean 3rd Qu. Max.
15.0 23.5 26.5 28.3 33.0 46.0
Estadística descriptiva
1. Distribución de frecuencias
2. Representaciones graficas
3. Análisis exploratorio de datos
4. Medidas de tendencia central(ubicación)
5. Medidas de dispersión
6. Medidas de posición
7. Medidas de forma y concentración
8. Estadísticos de asociación
Estadística con
t<-c(21,46,23,34,25,33,28,33,15,25)
g<-c(20,45,23,34,25,34,28,34,12,25)
tabla1<- table(t)
t
15 21 23 25 28 33 34 46
1 1 1 2 1 2 1 1
Cualitativo
u<-c("lima","tacna","lima","tacna","piura","tacna","piura","lima","lima","piura")
length(u)
[1] 10
> tabla1<- table(u)
> tabla1
u
lima piura tacna
4 3 3
> table(u)
u
lima piura tacna
4 3 3
Tabla de frecuencias: Porcentajes
table(u)/length(u)
u
lima piura tacna
0.4 0.3 0.3
PSPP - SPSS
Tema 1: Introdución 25
Bioestadística. U.
Málaga.
Gráficos para v. cualitativas
 Diagramas de barras
 Alturas proporcionales a las
frecuencias (abs. o rel.)
 Se pueden aplicar también a
variables discretas
 Diagramas de sectores (tartas,
polares)
 No usarlo con variables
ordinales.
 El área de cada sector es
proporcional a su frecuencia
(absolutas o relativas.)
Tema 1: Introdución 26
Bioestadística. U.
Málaga.
Gráficos diferenciales para variables
numéricas
 Son diferentes en función de que
las variables sean discretas o
continuas. Valen con frec.
absolutas o relativas.
 Diagramas barras para v. discretas
 Se deja un hueco entre barras para
indicar los valores que no son posibles
 Histogramas para v. continuas
 El área que hay bajo el histograma
entre dos puntos cualesquiera indica la
cantidad (porcentaje o frecuencia) de
individuos en el intervalo.
0 1 2 3 4 5 6 7 Ocho o más
Número de hijos
100
200
300
400
Recuento
419
255
375
215
127
54
24 23 17
20 40 60 80
Edad del encuestado
50
100
150
200
250
Recuento
sectores
table(u)
u
lima piura tacna
4 3 3
a<-table(u)
pie(a)
Histograma
hist(g)
Barras
barplot(g)
Analisis exploratorio de datos
Objetivo:
identificar el modelo teórico más adecuado para representar la
población de la cual proceden los datos muestrales.
Dicho análisis se basa en gráficos y estadísticos que permiten explorar
la distribución identificando características tales como: valores atípicos o
outliers, saltos o discontinuidades, concentraciones de valores, forma de
la distribución, etc.
Por otra parte, este análisis se puede realizar sobre todos los casos
conjuntamente o de forma separada por grupos.
. También permite comprobar, mediante técnicas gráficas y contrastes
no paramétricos, si los datos han sido extraídos de una población con
distribución aproximadamente normal.
Definido por John W. Tukey (E.D.A.: Exploratory data analysis)
tratamiento estadístico al que se someten las muestras recogidas
durante un proceso de investigación en cualquier campo científico
31
TIPOS DE GRÁFICOS
5. Diagrama de Caja
- Permite identificar gráficamente la
mediana, los cuartiles 1 y 3
(percentiles 25 y 75), mínimo y
máximo de una variable.
- Sólo es útil para variables
cuantitativas.
-El eje x permite identificar la
poblacion en estudio.
- El eje y representa los valores de la
variable en estudio.
Estadística
1473584N =
HombresMujeres
Edad
100
90
80
70
60
50
40
30
20
10
0
Edad de las personas que se realizaron
angioplastía entre 1980 y 2000
www.est.uc3m.es/omar/Mayores25/.../Presentación%20Estadística.ppt
Tallos y hojas
stem(g)
The decimal point is 1 digit(s) to the right of the |
1 | 2
2 | 03558
3 | 444
4 | 5
Cajas
boxplot(g)
34
MEDIDAS DE TENDENCIA CENTRAL
-Media Aritmética (Promedio)
-Mediana
-Moda
n
x
x
n
i
i

 1
Media Aritmética o Promedio
Mediana
)(EM kx
2
M
)1()(
E


kk xx
x
1x
2x

nx
Datos Cuantitativos
x
)1(x
)2(x

)(nx
Datos Cuantitativos ordenados de menor a mayor
Si n es par
Si n es impar
centrodeldato)( kx
repite"semásquedatoel"Mo 
ModaDatos
Cualitativos y Cuantitativos
Estadística
DESCRIPTIVOS
mean(x)
median(x)
sd(x)
var(x)
Summary(x)
> mean(t)
[1] 1.2
> median(t)
[1] 1.2
> sd(t)
[1] 0.1527525
> var(t)
[1] 0.02333333
> summary(t)
Min. 1st Qu. Median Mean 3rd Qu. Max.
1.0 1.1 1.2 1.2 1.3 1.4
> t<-c(1,1.2,1.3,1,1.2,1.3,1.4)
length(g)
[1] 10
summary(g)
Min. 1st Qu. Median Mean 3rd Qu. Max.
12.0 23.5 26.5 28.0 34.0 45.0
38
MEDIDAS DE DISPERSIÓN
-Rango
-Varianza
-Desviación Estándar
Rango
Varianza
x
1x
2x

nx
Datos Cuantitativos
Coeficiente de Variación
Comparación entre Variables
Se refiere al comportamiento de las variables cuantitativas en un
grupo. Por ejemplo: Si se tiene un conjunto de personas a las que
se les mide Estatura, Peso, Edad: Entre estas variables ¿cuál
presenta mayor variación?
)min()max( ii xxR 
Desviación Típica o Estándar
2
1
21 1
22
1
2
2 1
)(
1
)(
xx
nn
x
n
x
n
xx
s
n
i
i
n
i
n
i
ii
n
i
i




 
 

 
2
ss 
x
s
cv 
Estadística
Con base de datos
memoria=read.csv("G:/memoria.csv")
mean(memoria[,15])
[1] 71.52174
memoria=read.csv("C:/Users/Advance/Deskto
p/memoria.csv")
sd(memoria[,15])
[1] 9.711518
39
40
Percentiles, Deciles o Cuartiles
-Percentil (ejemplo: 25, 50, 75)
-Decil (ejemplo: 4, 5, 8)
-Cuartil (ejemplo: 1, 2, 3)
El Decil va de 1 a 10
El Decil 4 (4/10): es el valor de la variable que reúne al menos el 40% de los datos
Ejemplo: Si N=80, el 40% de 80 es 32; por lo tanto, se busca el dato que este en la posición 32.
Si N=85, el 40% de 85 es 34; por lo tanto se busca el dato que este en la posición 34.
Percentil, Decil o Cuartil: corresponde al valor que toma la variable (cuantitativa), cuando los n
datos están ordenados de Menor a Mayor
Estadística
El Percentil va de 1 a 100
El percentil 25 (25/100): es el valor de la variable que reúne al menos el 25% de los datos
Ejemplo: Si N=80, el 25% de 80 es 20; por lo tanto, se busca el dato que este en la posición 20.
Si N=85, el 25% de 85 es 21,25; por lo tanto se busca el dato que este en la posición 22.
El Cuartil va de 1 a 4
El Cuartil 3 (3/4): es el valor de la variable que reúne al menos el 75% de los datos
Ejemplo: Si N=80, el 75% de 80 es 60; por lo tanto, se busca el dato que este en la posición 60.
Si N=85, el 75% de 85 es 63,75; por lo tanto se busca el dato que este en la posición 64.
41
Estadística
Otras medidas o Coeficientes
-Asimetría
-Kurtosis o Apuntamiento
Además de la posición y la dispersión de los datos, otra medida de interés en una distribución de frecuencias
es la simetría y el apuntamiento o kurtosis.
Coeficiente de Asimetría 3
1
3
)(
sn
xx
CA
n
i
i




Si CA=0 si la distribución es simétrica alrededor de la media.
Si CA<0 si la distribución es asimétrica a la izquierda
Si CA>0 si la distribución es asimétrica a la derecha
Coeficiente de Apuntamiento 4
1
4
)(
sn
xx
CAp
n
i
i




- Si CAp=0 la distribución se dice normal (similar
a la distribución normal de Gauss) y recibe el
nombre de mesocúrtica.
- Si CAp>0, la distribución es más puntiaguda que
la anterior y se llama leptocúrtica, (mayor
concentración de los datos en torno a la media).
- Si CAp<0 la distribución es más plana y se
llama platicúrtica.
42
MEDIDAS DE ASOCIACIÓN LINEAL
- Covarianza
- Correlación
x
1x
2x

nx
Datos
Cuantitativos
Covarianza:
Recordemos que: Hasta ahora hemos estudiado las medidas tendencia
central (Media, Mediana, Moda) y dispersión
(Varianza y Desviación Estándar) para una Variable
Cuantitativa (x).
Es una medida de Variabilidad Conjunta entre dos variables (x1 , x2) o bien (x , y)
x y
)1(x )(y 1
)2(x )(y 2
 
)(nx )n(y
Si Cov(x,y) es positiva: la asociación entre x e y es directamente proporcional,
es decir que cuando x aumenta y también aumenta; y viceversa.
Si Cov(x,y) es negativa: la asociación entre x e y es inversamente proporcional,
es decir que cuando x aumenta y disminuye; y viceversa.
Si Cov(x,y) es cero: no existe asociación entre x e y.



n
i
ii )yy)(xx(
n
)y,xcov(
1
1
Estadística
CORRELACIONES
> t<-c(1,1.2,1.3,1,1.2,1.3,1.4)
> g<-c(5,4.5,5.5,4.7,5.1,4.4,4.8)
> cor(t,g)
[1] 0.02886751
> cor.test(t,g)
Pearson's product-moment correlation
data: t and g
t = 0.0646, df = 5, p-value = 0.951
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.7402836 0.7652891
sample estimates:
cor
0.02886751
44
Objetivo 2
Estudiar si los valores de una
variable pueden ser utilizados para
predecir el valor de la otra
REGRESION LINEAL SIMPLE
Datos Cuantitativos
Determinar si existe relación
entre las variables x e y:
Coeficiente de Correlación
Objetivo 1
Determinar si dos variables están
asociadas y en qué sentido se da
la asociación.
Estudiar la dependencia de una
variable respecto de la otra:
Modelo de Regresión
Términos
Variable Respuesta (=variable dependiente)
Variable Explicativa (=variable Independiente)
Relación Lineal (modelo lineal)
Parámetros (intercepto y pendiente)
Intercepto (respuesta media)
Pendiente (efecto de la variable explicativa sobre la respuesta)
Error (residuo)
x y
)1(x )(y 1
)2(x )(y 2
 
)(nx )n(y
Estadística
45
FIN SESION DESCRIPTIVA
46
Creación de objetos
• La creación de objetos se lleva a cabo
realizando una asignación
• Para ello utilizamos los símbolos <-, -> o =
– Los códigos parecidos a flecha funcionan en
ambos sentidos
– El símbolo igual sólo en un sentido
• Ejemplos
Creación de vectores
• La función c()
• La función assingn()
• Los dos puntos :
• La función seq()
• Distribuciones estadísticas
• Ejemplos
¿Qué es una base de datos?
• En R se le llama data frame
• Una especie de matriz bi-dimensional
– Columnas representan variables
– Filas representan personas, registros o casos
• Contiene diferentes tipos de datos (es un
tipo de lista)
• Ejemplo: iris
Funciones interesantes
• La función data()
• La función str()
• La función head()
• La función tail()
• La función View()
• La función dim()
Creación de bases de datos
• Existe la función data.frame()
– Hay que crear previamente un conjunto de
vectores
• A partir de otros objetos
as.data.frame()
• También podemos importar datos desde
archivos externos (Excel, SPSS, .csv, .txt)
Ejemplos

Descriptivo

  • 1.
    Análisis descriptivo José LiviaSegovia http://www.mat.uda.cl/hsalinas/probabilidades.htm
  • 2.
    Estadística descriptiva 1. Medidasde tendencia central(ubicación) 2. Medidas de dispersión 3. Medidas de posición 4. Medidas de forma y concentración 5. Estadísticos de asociación 1.- Distribución de frecuencias: Ordenar, agrupar, resumir Absolutas - relativas 2.- Representaci- ones graficas 3.- Análisis exploratorio de datos
  • 3.
    Análisis Estadístico conR Obtención, Instalación y primer contacto con R Jorge López Puga
  • 4.
    Qué es R •R es un entorno libre de análisis estadístico de datos y de creación de gráficos estadísticos • Es un lenguaje de programación • Se basa en una interfaz de usuario de líneas de comandos • Y, como diría alguno de mis alumnos, es feo Lenguaje de software libre para la investigación estadistica Fue desarrollado inicialmente por Robert Gentleman y Ross Ihaka del Departamento de Estadística de la Universidad de Auckland-Nueva Zelanda en 1996
  • 5.
    Razones para utilizar(y no) utilizar • Pros – Es libre – Flexibilidad – Procedimientos disponibles – Se aprende estadística – Los gráficos Contras oAl principio suele ser árido oCuesta un poco si se está habituado a trabajar con otro tipo de programas
  • 6.
  • 7.
    Obtener R • Seleccionarun servidor • Seleccionar un sistema operativo
  • 8.
    Obtener R • Accederal directorio que contiene la distribución • Descargar el archivo ejecutable que instala R
  • 9.
    Instalar R • Trasla descarga tendrás habrá que ejecutar el archivo: – R-3.0.1-win.exe – Aparecerá un asistente – Seleccionar las opciones que correspondan a tu caso
  • 10.
    Definiciones Básicas • Objetos(basedatos,vectores,matrices,funciones) Analisis y gráficos – Funciones • nombre.de.la.función(argumento/s=, opción/es=) • Espacio o área de trabajo • Directorio de trabajo(carpeta) • Paquetes • Archivos de comandos o scripts
  • 11.
    Descripción de lainterfaz gráfica de usuario en R • Ejecutar el programa o el acceso directo del escritorio • Apertura de la consola de comandos
  • 12.
    Otras Interfaces Interesantes •Hay variedad de interfaces para R (Valero-Mora y Ledesma, 2012): – R Commander – es un paquete de R – RKWard – http://rkward.sourceforge.net – Tinn-R – http://www.sciviews.org/Tinn-R – Emacs – http://www.gnu.org/software/emacs – RStudio – http://www.rstudio.com
  • 13.
    Los objetos deR • Uno objeto es una estructura de datos con la que R puede trabajar • Por ejemplo: – Un conjunto de datos – base de datos – El resultado de un análisis estadístico – Una tabla de datos – Una función
  • 14.
    Tipos de objetos •Vector (numéricos, caracteres, lógicos) • Matrices (y arrays) • Listas (pueden contener información de diferente tipo) • Tablas (de frecuencia o de contingencia) • Data frame o base de datos
  • 15.
    ¿Qué es unvector? • Un vector es “conjunto ordenado de números” (Venables et al., 2011, p. 7) • Un vector es una colección ordenada de datos del mismo tipo • Atención a lo que nos referimos con orden
  • 16.
    Tipos de vectores •Vectores numéricos – Las edades de un grupo de amigos: 20, 25, 22, 21, 27, 28 • Vectores lógicos – ¿Tienen novia los amigos?: TRUE, TRUE, FALSE, FALSE, TRUE, FALSE (se truncan a ceros y unos) • Vectores cualitativos o de caracteres – Nombres: Pedro, Manuel, José, Esteban, Raúl, Damián
  • 17.
    OPERACIONES 2 5 16 5 5 4 1 Para ingresar estos valores en una sesión de R, asignándolos al objeto escribimos pepe > pepe <- c(2,5,1,6,5,5,4,1) y si escribimos > pepe y oprimimos enter, aparecerá lo siguiente [1] 2 5 1 6 5 5 4 1 > t<-c(1,1.2,1.3,1,1.2,1.3,1.4) > g<-c(5,4.5,5.5,4.7,5.1,4.4,4.8) variable Toma el valor de
  • 18.
    u<-c("lima","tacna","lima","tacna","piura","tacna","piura","lima","lima","piura") summary(u) Length Class Mode 10character character t<-c(21,46,23,34,25,33,28,33,15,25) summary(t) Min. 1st Qu. Median Mean 3rd Qu. Max. 15.0 23.5 26.5 28.3 33.0 46.0
  • 19.
    Estadística descriptiva 1. Distribuciónde frecuencias 2. Representaciones graficas 3. Análisis exploratorio de datos 4. Medidas de tendencia central(ubicación) 5. Medidas de dispersión 6. Medidas de posición 7. Medidas de forma y concentración 8. Estadísticos de asociación
  • 20.
  • 21.
  • 22.
    Tabla de frecuencias:Porcentajes table(u)/length(u) u lima piura tacna 0.4 0.3 0.3
  • 23.
  • 25.
    Tema 1: Introdución25 Bioestadística. U. Málaga. Gráficos para v. cualitativas  Diagramas de barras  Alturas proporcionales a las frecuencias (abs. o rel.)  Se pueden aplicar también a variables discretas  Diagramas de sectores (tartas, polares)  No usarlo con variables ordinales.  El área de cada sector es proporcional a su frecuencia (absolutas o relativas.)
  • 26.
    Tema 1: Introdución26 Bioestadística. U. Málaga. Gráficos diferenciales para variables numéricas  Son diferentes en función de que las variables sean discretas o continuas. Valen con frec. absolutas o relativas.  Diagramas barras para v. discretas  Se deja un hueco entre barras para indicar los valores que no son posibles  Histogramas para v. continuas  El área que hay bajo el histograma entre dos puntos cualesquiera indica la cantidad (porcentaje o frecuencia) de individuos en el intervalo. 0 1 2 3 4 5 6 7 Ocho o más Número de hijos 100 200 300 400 Recuento 419 255 375 215 127 54 24 23 17 20 40 60 80 Edad del encuestado 50 100 150 200 250 Recuento
  • 27.
  • 28.
  • 29.
  • 30.
    Analisis exploratorio dedatos Objetivo: identificar el modelo teórico más adecuado para representar la población de la cual proceden los datos muestrales. Dicho análisis se basa en gráficos y estadísticos que permiten explorar la distribución identificando características tales como: valores atípicos o outliers, saltos o discontinuidades, concentraciones de valores, forma de la distribución, etc. Por otra parte, este análisis se puede realizar sobre todos los casos conjuntamente o de forma separada por grupos. . También permite comprobar, mediante técnicas gráficas y contrastes no paramétricos, si los datos han sido extraídos de una población con distribución aproximadamente normal. Definido por John W. Tukey (E.D.A.: Exploratory data analysis) tratamiento estadístico al que se someten las muestras recogidas durante un proceso de investigación en cualquier campo científico
  • 31.
    31 TIPOS DE GRÁFICOS 5.Diagrama de Caja - Permite identificar gráficamente la mediana, los cuartiles 1 y 3 (percentiles 25 y 75), mínimo y máximo de una variable. - Sólo es útil para variables cuantitativas. -El eje x permite identificar la poblacion en estudio. - El eje y representa los valores de la variable en estudio. Estadística 1473584N = HombresMujeres Edad 100 90 80 70 60 50 40 30 20 10 0 Edad de las personas que se realizaron angioplastía entre 1980 y 2000 www.est.uc3m.es/omar/Mayores25/.../Presentación%20Estadística.ppt
  • 32.
    Tallos y hojas stem(g) Thedecimal point is 1 digit(s) to the right of the | 1 | 2 2 | 03558 3 | 444 4 | 5
  • 33.
  • 34.
    34 MEDIDAS DE TENDENCIACENTRAL -Media Aritmética (Promedio) -Mediana -Moda n x x n i i   1 Media Aritmética o Promedio Mediana )(EM kx 2 M )1()( E   kk xx x 1x 2x  nx Datos Cuantitativos x )1(x )2(x  )(nx Datos Cuantitativos ordenados de menor a mayor Si n es par Si n es impar centrodeldato)( kx repite"semásquedatoel"Mo  ModaDatos Cualitativos y Cuantitativos Estadística
  • 35.
    DESCRIPTIVOS mean(x) median(x) sd(x) var(x) Summary(x) > mean(t) [1] 1.2 >median(t) [1] 1.2 > sd(t) [1] 0.1527525 > var(t) [1] 0.02333333 > summary(t) Min. 1st Qu. Median Mean 3rd Qu. Max. 1.0 1.1 1.2 1.2 1.3 1.4 > t<-c(1,1.2,1.3,1,1.2,1.3,1.4)
  • 36.
    length(g) [1] 10 summary(g) Min. 1stQu. Median Mean 3rd Qu. Max. 12.0 23.5 26.5 28.0 34.0 45.0
  • 38.
    38 MEDIDAS DE DISPERSIÓN -Rango -Varianza -DesviaciónEstándar Rango Varianza x 1x 2x  nx Datos Cuantitativos Coeficiente de Variación Comparación entre Variables Se refiere al comportamiento de las variables cuantitativas en un grupo. Por ejemplo: Si se tiene un conjunto de personas a las que se les mide Estatura, Peso, Edad: Entre estas variables ¿cuál presenta mayor variación? )min()max( ii xxR  Desviación Típica o Estándar 2 1 21 1 22 1 2 2 1 )( 1 )( xx nn x n x n xx s n i i n i n i ii n i i            2 ss  x s cv  Estadística
  • 39.
    Con base dedatos memoria=read.csv("G:/memoria.csv") mean(memoria[,15]) [1] 71.52174 memoria=read.csv("C:/Users/Advance/Deskto p/memoria.csv") sd(memoria[,15]) [1] 9.711518 39
  • 40.
    40 Percentiles, Deciles oCuartiles -Percentil (ejemplo: 25, 50, 75) -Decil (ejemplo: 4, 5, 8) -Cuartil (ejemplo: 1, 2, 3) El Decil va de 1 a 10 El Decil 4 (4/10): es el valor de la variable que reúne al menos el 40% de los datos Ejemplo: Si N=80, el 40% de 80 es 32; por lo tanto, se busca el dato que este en la posición 32. Si N=85, el 40% de 85 es 34; por lo tanto se busca el dato que este en la posición 34. Percentil, Decil o Cuartil: corresponde al valor que toma la variable (cuantitativa), cuando los n datos están ordenados de Menor a Mayor Estadística El Percentil va de 1 a 100 El percentil 25 (25/100): es el valor de la variable que reúne al menos el 25% de los datos Ejemplo: Si N=80, el 25% de 80 es 20; por lo tanto, se busca el dato que este en la posición 20. Si N=85, el 25% de 85 es 21,25; por lo tanto se busca el dato que este en la posición 22. El Cuartil va de 1 a 4 El Cuartil 3 (3/4): es el valor de la variable que reúne al menos el 75% de los datos Ejemplo: Si N=80, el 75% de 80 es 60; por lo tanto, se busca el dato que este en la posición 60. Si N=85, el 75% de 85 es 63,75; por lo tanto se busca el dato que este en la posición 64.
  • 41.
    41 Estadística Otras medidas oCoeficientes -Asimetría -Kurtosis o Apuntamiento Además de la posición y la dispersión de los datos, otra medida de interés en una distribución de frecuencias es la simetría y el apuntamiento o kurtosis. Coeficiente de Asimetría 3 1 3 )( sn xx CA n i i     Si CA=0 si la distribución es simétrica alrededor de la media. Si CA<0 si la distribución es asimétrica a la izquierda Si CA>0 si la distribución es asimétrica a la derecha Coeficiente de Apuntamiento 4 1 4 )( sn xx CAp n i i     - Si CAp=0 la distribución se dice normal (similar a la distribución normal de Gauss) y recibe el nombre de mesocúrtica. - Si CAp>0, la distribución es más puntiaguda que la anterior y se llama leptocúrtica, (mayor concentración de los datos en torno a la media). - Si CAp<0 la distribución es más plana y se llama platicúrtica.
  • 42.
    42 MEDIDAS DE ASOCIACIÓNLINEAL - Covarianza - Correlación x 1x 2x  nx Datos Cuantitativos Covarianza: Recordemos que: Hasta ahora hemos estudiado las medidas tendencia central (Media, Mediana, Moda) y dispersión (Varianza y Desviación Estándar) para una Variable Cuantitativa (x). Es una medida de Variabilidad Conjunta entre dos variables (x1 , x2) o bien (x , y) x y )1(x )(y 1 )2(x )(y 2   )(nx )n(y Si Cov(x,y) es positiva: la asociación entre x e y es directamente proporcional, es decir que cuando x aumenta y también aumenta; y viceversa. Si Cov(x,y) es negativa: la asociación entre x e y es inversamente proporcional, es decir que cuando x aumenta y disminuye; y viceversa. Si Cov(x,y) es cero: no existe asociación entre x e y.    n i ii )yy)(xx( n )y,xcov( 1 1 Estadística
  • 43.
    CORRELACIONES > t<-c(1,1.2,1.3,1,1.2,1.3,1.4) > g<-c(5,4.5,5.5,4.7,5.1,4.4,4.8) >cor(t,g) [1] 0.02886751 > cor.test(t,g) Pearson's product-moment correlation data: t and g t = 0.0646, df = 5, p-value = 0.951 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: -0.7402836 0.7652891 sample estimates: cor 0.02886751
  • 44.
    44 Objetivo 2 Estudiar silos valores de una variable pueden ser utilizados para predecir el valor de la otra REGRESION LINEAL SIMPLE Datos Cuantitativos Determinar si existe relación entre las variables x e y: Coeficiente de Correlación Objetivo 1 Determinar si dos variables están asociadas y en qué sentido se da la asociación. Estudiar la dependencia de una variable respecto de la otra: Modelo de Regresión Términos Variable Respuesta (=variable dependiente) Variable Explicativa (=variable Independiente) Relación Lineal (modelo lineal) Parámetros (intercepto y pendiente) Intercepto (respuesta media) Pendiente (efecto de la variable explicativa sobre la respuesta) Error (residuo) x y )1(x )(y 1 )2(x )(y 2   )(nx )n(y Estadística
  • 45.
  • 46.
  • 47.
    Creación de objetos •La creación de objetos se lleva a cabo realizando una asignación • Para ello utilizamos los símbolos <-, -> o = – Los códigos parecidos a flecha funcionan en ambos sentidos – El símbolo igual sólo en un sentido • Ejemplos
  • 48.
    Creación de vectores •La función c() • La función assingn() • Los dos puntos : • La función seq() • Distribuciones estadísticas • Ejemplos
  • 50.
    ¿Qué es unabase de datos? • En R se le llama data frame • Una especie de matriz bi-dimensional – Columnas representan variables – Filas representan personas, registros o casos • Contiene diferentes tipos de datos (es un tipo de lista) • Ejemplo: iris
  • 51.
    Funciones interesantes • Lafunción data() • La función str() • La función head() • La función tail() • La función View() • La función dim()
  • 52.
    Creación de basesde datos • Existe la función data.frame() – Hay que crear previamente un conjunto de vectores • A partir de otros objetos as.data.frame() • También podemos importar datos desde archivos externos (Excel, SPSS, .csv, .txt) Ejemplos