SlideShare una empresa de Scribd logo
1 de 45
1
Imagen popular de la estadística:
"Existen medias mentiras,
mentiras y estadísticas".
Dos significados:
(1) Colección de datos numéricos
(una estadística).
(2) Ciencia: obtener regularidades
de fenómenos de masas (la
estadística).
Estadísitica
"Más del 75% de los americanos blancos son propietarios de su casa
y menos del 50% de los hispanos y afroamericanos no son
propietarios de su casa. Aquí hay un abismo, el abismo de la
propiedad de la casa".
George W. Bush, Cleveland, 1 de julio de 2002
www.bushisms.com
2
La estadística surgió como una necesidad del estado:
el censo y su descripción política, geográfica y
económica.
En el siglo XVII y XVIII nace la probabilidad
aplicada a los juegos de azar que ejerce una fuerte
influencia sobre la estadística.
En el XIX empieza a aplicarse a cuestiones sociales.
Y actualmente se aplica a la historia, psicología,
pedagogía, ingeniería, biología, economía,
periodismo, política, medicina...
3
Definición de Estadística
La Estadística es la ciencia de la
• sistematización, recogida, ordenación y presentación
de los datos referentes a un fenómeno que presenta
variabilidad o incertidumbre para su estudio metódico,
con objeto de
• deducir las leyes que rigen esos fenómenos
• y poder hacer previsiones sobre los mismos, tomar
decisiones u obtener conclusiones.
4
Pasos en un estudio estadístico
• Plantear hipótesis sobre una población:
• Los fumadores tienen “más bajas” laborales que los
no fumadores.
• ¿En qué sentido? ¿Mayor número? ¿Tiempo medio?
• Decidir qué datos recoger (diseño de
experimentos)
– Qué individuos pertenecerán al estudio (muestras).
• Fumadores y no fumadores en edad laboral.
• Criterios de exclusión: ¿Cómo se eligen?
¿Descartamos los que padecen enfermedades crónicas?
– Qué datos recoger de los mismos (variables).
• Número de bajas.
• Tiempo de duración de cada baja.
• ¿Sexo? ¿Sector laboral? ¿Otros factores?
5
Pasos en un estudio estadístico (y 2)
• Recoger los datos (muestreo):
– ¿Estratificado? ¿Sistemáticamente?
• Describir (resumir) los datos obtenidos:
• Tiempo medio de baja en fumadores y no fumadores (estadísticos)
• % de bajas por fumadores y sexo (frecuencias), gráficos,...
• Realizar una inferencia sobre la población:
• Los fumadores están de baja al menos 10 días/año más de media
que los no fumadores.
• Cuantificar la confianza en la inferencia:
– Nivel de confianza del 95%
– Significación del contraste: p = 2%
6
Población y muestra
• Población (‘population’) es el conjunto sobre
el que estamos interesados en obtener
conclusiones (hacer inferencia).
– Normalmente es demasiado grande para
poder abarcarlo.
• Muestra (‘sample’) es un subconjunto de la
población al que tenemos acceso y sobre el que
realmente hacemos las observaciones
(mediciones)
– Debería ser “representativo”
– Esta formado por miembros
“seleccionados” de la población
(individuos, unidades experimentales).
7
Variables
• Una variable es una característica observable que varía
entre los diferentes individuos de una población. La
información que disponemos de cada individuo es resumida
en variables.
• En los individuos de la población
española, de uno a otro es variable:
– El grupo sanguíneo
• {A, B, AB, O}  Var. Cualitativa
– Su nivel de felicidad “declarado”
• {Deprimido, Ni fu ni fa, Muy Feliz}  Var.
Ordinal
– El número de hijos
• {0,1,2,3,...}  Var. Numérica discreta
– La altura
• {1,62 ; 1,74; ...}  Var. Numérica continua
8
• Es buena idea codificar las
variables como números para
poder procesarlas con facilidad en
un ordenador.
• Es conveniente asignar
“etiquetas” a los valores de las
variables para recordar qué
significan los códigos numéricos.
– Sexo (Cualit: Códigos arbitrarios)
• 1 = Hombre
• 2 = Mujer
– Raza (Cualit: Códigos arbitrarios)
• 1 = Blanca
• 2 = Negra,...
– Felicidad Ordinal: Respetar un
orden al codificar.
• 1 = Muy feliz
• 2 = Bastante feliz
• 3 = No demasiado feliz
• Se pueden asignar códigos a
respuestas especiales como
• 0 = No sabe
• 99 = No contesta...
• Estas situaciones deberán ser
tenidas en cuentas en el análisis.
Datos perdidos (‘missing data’)
9
• Los posibles valores de una variable suelen
denominarse modalidades. Las modalidades pueden
agruparse en clases (intervalos)
– Edades:
• Menos de 20 años, de 20 a 50 años, más de 50 años
– Hijos:
• Menos de 3 hijos, De 3 a 5, 6 o más hijos
• Las modalidades/clases deben formar un sistema
exhaustivo y excluyente
– Exhaustivo: No podemos olvidar ningún posible valor de la
variable
– Mal: ¿Cuál es su color del pelo: (Rubio, Moreno)?
– Bien: ¿Cuál es su grupo sanguíneo?
– Excluyente: Nadie puede presentar dos valores
simultáneos de la variable
• Estudio sobre el ocio
– Mal: De los siguientes, qué le gusta: (deporte, cine)
– Bien: Le gusta el deporte: (Sí, No)
– Bien: Le gusta el cine: (Sí, No)
En un programa para la detección de hipertensión en una muestra
de 30 hombres en edades entre 30 y 40 años, la distribución de la
presión diastólica (mínima) en mm Hg fue la siguiente:
75
80
85
100
110
95
90
95
90
80
65
100
70
90
95
85
120
80
75
60
70
90
95
110
90
65
75
85
85
70
La variable en estudio es :
Presión diastólica (medida en mm de Hg)
una variable numérica continua.
Ejemplo:
11
Tablas de frecuencia
• Exponen la información recogida en la muestra de
manera inteligente:
– Frecuencias absolutas: Contabilizan el número de individuos
de cada modalidad.
– Frecuencias relativas (porcentajes unitarios): Ídem, pero
dividido por el total, normalizadas.
– Frecuencias acumuladas absolutas y relativas: Acumulan las
frecuencias absolutas y relativas. Son especialmente útiles
para calcular cuantiles (como veremos más adelante).
60 65 65 70 70 70 75 75 75 80
80 80 85 85 85 85 90 90 90 90
90 95 95 95 95 100 100 110 110 120
Ordenamos los datos en forma creciente:
La amplitud total A = 120 – 60 =
En este caso , entonces, la tabla de frecuencias tendrá
aproximadamente 6 clases de amplitud 10 unidades en
cada clase.
Número de clases:
60
Aprox. 6 clases
K = 30 = 5.48
Extensión del intervalo : H = A/ K = 60/6 = 10
13
60 - 70
x f fr F Fr
70 - 80
80 - 90
90 - 100
100 - 110
110 - 120
total
3
6
7
9
2
30
2
0.1
0.2
0.07
0.23
0.3
1.0
0.07
3
9
16
27
29
25
0.1
0.3
0.53
0.83
0.90
1.00
120 - 130 1 0.03 30
0.97
Variable Frecuencia
Frecuencia
normalizada
Frecuencia
absoluta
Frecuencia
absoluta norm.
14
0
2
4
6
8
10
60 70 80 90 100 110 120 130 mm de Hg
f
Histograma de la distribución de presión diastólica en
mm de Hg según las frecuencias absolutas:
15
Gráficos para variables
cualitativas
• Diagramas de barras
– Alturas proporcionales a
las frecuencias (abs. o rel.)
– Se pueden aplicar también
a variables discretas
• Diagramas de sectores
(tartas, polares)
– El área de cada sector es
proporcional a su
frecuencia (abs. o rel.)
16
Gráficos para variables cualitativas (y 2)
• Pictogramas
– Fáciles de
entender.
– Cada modalidad
debe ser
proporcional a la
frecuencia.
De los dos
pictogramas,
¿cuál dirías que es
incorrecto?
17
Gráficos diferenciales para
variables numéricas
Son diferentes en función de que las
variables sean discretas o continuas.
Valen con frec. absolutas o relativas.
– Diagramas barras para v.
discretas
• Se deja un hueco entre barras para
indicar los valores que no son posibles
– Histogramas para v. continuas
• El área que hay bajo el histograma
entre dos puntos cualesquiera indica la
cantidad (porcentaje o frecuencia) de
individuos en el intervalo.
0 1 2 3 4 5 6 7 Ocho o más
Número de hijos
100
200
300
400
Recue
nto
419
255
375
215
127
54
24 23 17
20 40 60 80
Edad del encuestado
50
100
150
200
250
Recue
nto
18
Diagramas integrales
• Cada uno de los anteriores diagramas tiene su correspondiente
diagrama integral. Se realizan a partir de las frecuencias acumuladas.
Indican, para cada valor de la variable, la cantidad (frecuencia) de
individuos que poseen un valor inferior o igual al mismo.
19
Parámetros y estadísticos
• Parámetro: Es una cantidad numérica
calculada sobre una población.
– La altura media de los individuos de un
país.
– La idea es resumir toda la información
que hay en la población en unos pocos
números (parámetros).
•Estadístico: Ídem (cambiar población por muestra).
–La altura media de los que estamos en este aula.
•Somos una muestra (¿representativa?) de la población.
–Si un estadístico se usa para aproximar un parámetro también
se le suele llamar estimador.
20
Estadísticos de forma intuitiva
21
• Posición
– Dividen un conjunto ordenado de datos en grupos con la misma
cantidad de individuos.
• Cuantiles, percentiles, cuartiles, deciles,...
• Centralización
– Indican valores con respecto a los que los datos parecen agruparse.
• Media, mediana y moda
• Dispersión
– Indican la mayor o menor concentración de los datos con respecto
a las medidas de centralización.
• Desviación típica, coeficiente de variación, rango, varianza
• Forma
– Asimetría
– Apuntamiento o curtosis
Estadísticos
22
Estadísticos de posición
• Se define el cuantil de orden a como un valor
de la variable por debajo del cual se encuentra
una frecuencia acumulada a.
• Casos particulares son los percentiles,
cuartiles, deciles, quintiles,...
23
• Percentil de orden k = cuantil de orden k/100
– La mediana es el percentil 50.
– El percentil de orden 15 deja por debajo al 15% de
las observaciones. Por encima queda el 85%.
• Cuartiles: Dividen a la muestra en 4 grupos
con frecuencias similares.
– Primer cuartil = Percentil 25 = Cuantil 0,25.
– Segundo cuartil = Percentil 50 = Cuantil 0,5 =
mediana.
– Tercer cuartil = Percentil 75 = cuantil 0,75.
24
– Ejemplos: El 5% de los recién nacidos tiene un peso
demasiado bajo. ¿Qué peso se considera “demasiado
bajo”?
• Percentil 5 o cuantil 0,05.
– ¿Qué peso es superado sólo por el 25% de los
individuos?
• Percentil 75.
– El colesterol se distribuye simétricamente en la
población. Se considera patológico los valores extremos.
El 90% de los individuos son normales. ¿Entre qué
valores se encuentran los individuos normales?
• Entre el percentil 5 y el 95.
– ¿Entre qué valores se encuentran la mitad de los
individuos “más normales” de una población?
• Entre 1º y 3º cuartil (Q1 y Q3).
25
105 110 112 112 118 119 120 120 120
125 126 127 128 130 132 133 134 135
138 138 138 138 141 142 144 145 146
148 148 148 149 150 150 150 151 151
153 153 154 154 154 154 155 156 156
158 160 160 160 163 164 164 165 166
168 168 170 172 172 176 179
Niveles de Hb en 61 adultos normales
Un resumen de esta serie en 5 valores
Min = 105 ; Max =179; Q1 = 133.5 ; Q3 = 159 ; Q2 = Mn = 149.5
179
105 133.5 149.5 159
IQR = Q3 - Q1
Recorrido intercuartílico
Min Max
Mn
149.5
(Mediana de los datos superiores) Q1 Q3 (Mediana de los datos superiores)
133.5
159
(“Box-and-Whisker” plot)
26
Centralización
• Añaden unos cuantos casos particulares a las
medidas de posición. Son medidas que buscan
posiciones (valores) con respecto a los que los
datos muestran tendencia a agruparse.
• Media (‘mean’) Es la media aritmética (promedio)
de los valores de una variable. Suma de los
valores dividido por el tamaño muestral.
– Media de {2, 2, 3, 7} es (2+2+3+7)/4 = 3,5
– Conveniente cuando los datos se concentran
simétricamente con respecto a ese valor. Muy
sensible a valores extremos.
– Centro de gravedad de los datos.
27
Centralización
• Mediana (‘median’) Es un valor que divide a las
observaciones en dos grupos con el mismo
número de individuos (percentil 50). Si el número
de datos es par, se elige la media de los dos datos
centrales.
– Mediana de 1, 2, 4, 5, 6, 6, 8 es 5
– Mediana de 1, 2, 4, 5, 6, 6, 8, 9 es (5+6)/2 = 5,5
– Es conveniente cuando los datos son
asimétricos. No es sensible a valores extremos.
• Mediana de 1, 2, 4, 5, 6, 6, 800 es 5. ¡La media es
117,7!
• Moda (‘mode’) Es el/los valor/es donde la
distribución de frecuencia alcanza un máximo.
28
Altura mediana
29
Asimetría o sesgo
• Una distribución es simétrica si la
mitad izquierda de su distribución es
la imagen especular de su mitad
derecha.
• En las distribuciones simétricas
media y mediana coinciden. Si sólo
hay una moda también coincide.
• La asimetría es positiva o negativa
en función de a qué lado se
encuentra la cola de la distribución.
• La media tiende a desplazarse hacia
las valores extremos (colas).
• Las discrepancias entre las medidas
de centralización son indicación de
asimetría.
30
Apuntamiento o curtosis (kurtosis)
Leptocúrtica
138
108
102
97
92
87
82
77
72
67
62
57
52
47
42
37
32
27
16
3
Frecuencia
400
300
200
100
0
Platicúrtica
84
81
78
75
72
69
66
63
60
57
54
51
48
45
160
140
120
100
80
60
40
Los gráficos poseen la misma media y
desviación típica, pero diferente grado
de apuntamiento o curtosis.
• La curtosis nos indica el grado de apuntamiento (aplastamiento) de
una distribución con respecto a la distribución normal o gaussiana.
Es adimensional.
• Platicúrtica: curtosis < 0
• Mesocúrtica: curtosis = 0
• Leptocúrtica: curtosis > 0
Mesocúrtica
99
93
89
85
81
77
73
69
65
61
57
53
49
45
41
37
32
27
Frecuencia
300
200
100
0
31
•Miden el grado de dispersión (variabilidad)
de los datos, independientemente de su causa.
•Amplitud o Rango (‘range’):
La diferencia entre las
observaciones extremas.
– 2,1,4,3,8,4. El rango es 8-1=7
– Es muy sensible a los valores
extremos.
•Rango intercuartílico (‘interquartile range’):
– Es la distancia entre el primer y tercer cuartil.
• Rango intercuartílico = P75 - P25
– Parecida al rango, pero eliminando las observaciones más extremas
inferiores y superiores.
– No es tan sensible a valores extremos.
Medidas de dispersión
32
x
Fr
1
0.75
0.5
0.25
0
P25 P50 P75
Q1 Q2 Q3
mediana
Recorrido o rango
intercuartílico
33
• Varianza S2 (‘Variance’): Mide el promedio de las desviaciones (al
cuadrado) de las observaciones con respecto a la media.
– Es sensible a valores extremos (alejados de la media).
– Sus unidades son el cuadrado de las de la variable.
• Desviación típica (‘standard deviation’)
Es la raíz cuadrada de la varianza. Tiene las misma dimensionalidad
(unidades) que la variable.
 

i
i x
x
n
S 2
2
)
(
1
2
S
S 
34
• Centrados en la media y a una desviación típica de distancia
tenemos más de la mitad de las observaciones (izq.)
• A dos desviaciones típicas las tenemos a casi todas (dcha.)
35
• Coeficiente de variación
• Es la razón entre la desviación típica y la media.
– Mide la desviación típica en forma de
“qué tamaño tiene con respecto a la media”
– También se la denomina variabilidad relativa.
– Es frecuente mostrarla en porcentajes
• Si la media es 80 y la desviación típica 20 entonces CV=20/80=0,25=25%
(variabilidad relativa)
• Es una cantidad adimensional. Interesante para comparar la
variabilidad de diferentes variables.
– Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan
más dispersión en peso que en altura.
• No debe usarse cuando la variable presenta valores negativos o
donde el valor 0 sea una cantidad fijada arbitrariamente
– Por ejemplo 0ºC ≠ 0ºF
• Los ingenieros electrónicos hablan de la razón ‘señal/ruido’ (su
inverso).
x
S
CV 
36
Desigualdad de Chebyshev (1821-1894)
Si un conjunto de datos posee una varianza pequeña
no existirán "muchos valores" alejados de la media.
Precisemos: sea el intervalo alrededor de la media:

 k
x
x
k
x i 





 


 



 


 

0
2
0
2
2
2
2
)
(
1
)
(
1
)
(
1














i
entorno
del
fuera
i
i
i
entorno
del
dentro
i
i
i
i
i
f
x
x
n
f
x
x
n
S
f
x
x
n
S
37
Demostración:










entorno
del
fuera
i
i
i
entorno
del
fuera
i
i
entorno
del
fuera
i
i
f
n
S
k
f
S
k
n
f
x
x
n
S
1
1
)
(
1
2
2
2
2
2
2
2
1
1
k
f
n
entorno
del
fuera
i
i 

La frecuencia relativa de los
datos que caen fuera del intervalo
de centro media y radio k veces
la varianza es igual o menor que
1/k2
38
39
•Han vuelto a pedirle una millonada al decano de la
facultad de fisicas para hacer un experimento.
- ¡Otra vez ! Pero bueno, ¿por qué no podéis ser como
los matemáticos, que se apañan solo con papel, lápiz y
una papelera ? ¿O como los filósofos, que sólo
necesitan papel y lápiz ?
•En cierta ocasión le preguntaron a un vendedor que como
podia vender tan baratos sus sandwiches de conejo, a lo
que respondió :
-"bueno, tengo que admitir que hay un poco de carne de
caballo. Pero la mezcla es solo 50:50 ; uso el mismo numero
de conejos que de caballos".
[ Darrel Huff, "Como mentir con la estadística".]
40
Gráficos de tallos y hojas del estadístico John Tukey
41
La enfermera Florence Nightingale recopiló datos
estadísticos sobre mortalidad en los hospitales militares
británicos... guerra de Crimea. Consecuencia disminución
de la tasa de mortalidad.
42
Fue John Tukeyquien inventó en bigote.
Se extiende a 1.5 IQR de los cuartiles. Así vemos
los datos atípicos.
En un gráfico de caja es muy útil para representar
diferencias entre grupos.
43
Filtrado: tenemos tendencia fuerte a olvidar los fracasos
y concentrarnos en los éxitos y aciertos. Tragaperras,
fracasos bursátiles y financieros, curanderos
El valor medio de unas medidas normalmente es igual
para un pequeño conjunto que para uno grande, pero los
valores extremos varían muchísimo. Pensemos en el
caudal de un río. El caudal medio de un año coincide con
el de 25 años. Un desbordamiento se recuerda fuertemente...
44
Como siempre nos quedamos con los extremos no es
extraño que en deportes, ciencia o arte denigremos las
figuras de hoy en comparación con las del pasado.
Otra consecuencia: las noticias internacionales son peores
que las nacionales, peores que las regionales, peores
que las locales que son peores que las del entorno
inmediato.
45

 




i
i
i
i y
x
y
x
dy
d
0
)
(
2
)
( 2
x
x
n
y
ny
y
x
y
x
i
i
i i
i
i i
i








 
 
1
0
2
2
La desviación típica es menor a todas las desviaciones
cuadráticas respecto a cualquier promedio m
(mirar librito de bachillerato)

Más contenido relacionado

Similar a 11_EstadisticaDescritivatotal.ppt

diapositivas de estadistica.ppt
diapositivas de estadistica.pptdiapositivas de estadistica.ppt
diapositivas de estadistica.pptmigueldelgado153
 
Terminos Básicos de Estadística
Terminos Básicos de EstadísticaTerminos Básicos de Estadística
Terminos Básicos de EstadísticaJuleidy Castro
 
Clase1 - Estadística Preceptores
Clase1 - Estadística PreceptoresClase1 - Estadística Preceptores
Clase1 - Estadística PreceptoresAlejandra Camors
 
UNI1 - INTRODUCCIÓN A LA ESTADÍSTICA.pdf
UNI1 - INTRODUCCIÓN A LA ESTADÍSTICA.pdfUNI1 - INTRODUCCIÓN A LA ESTADÍSTICA.pdf
UNI1 - INTRODUCCIÓN A LA ESTADÍSTICA.pdfAli Al-Saachez
 
Clase1 estadística preceptores
Clase1 estadística preceptoresClase1 estadística preceptores
Clase1 estadística preceptoresAlejandra Camors
 
Presentación de ESTADÍSTICA unidimensional ESO.pdf
Presentación de ESTADÍSTICA unidimensional ESO.pdfPresentación de ESTADÍSTICA unidimensional ESO.pdf
Presentación de ESTADÍSTICA unidimensional ESO.pdfAlfredoManuelRuizLpe
 
Estadistica tablas y graficos
Estadistica  tablas y graficosEstadistica  tablas y graficos
Estadistica tablas y graficosPaula Diaz
 
Estadistica tablas y graficos
Estadistica  tablas y graficosEstadistica  tablas y graficos
Estadistica tablas y graficosPaula Diaz
 
Introducción a la Estadísitica Descriptiva
Introducción a la Estadísitica DescriptivaIntroducción a la Estadísitica Descriptiva
Introducción a la Estadísitica DescriptivaSalLpezTorres1
 
Estadistica_Descriptiva_II (1).pptx
Estadistica_Descriptiva_II (1).pptxEstadistica_Descriptiva_II (1).pptx
Estadistica_Descriptiva_II (1).pptxJinethVega1
 
Estadistica Descriptiva
Estadistica DescriptivaEstadistica Descriptiva
Estadistica DescriptivaPZB200
 

Similar a 11_EstadisticaDescritivatotal.ppt (20)

diapositivas de estadistica.ppt
diapositivas de estadistica.pptdiapositivas de estadistica.ppt
diapositivas de estadistica.ppt
 
ESTADISTICA
ESTADISTICAESTADISTICA
ESTADISTICA
 
Estadistica mate
Estadistica mateEstadistica mate
Estadistica mate
 
Terminos Básicos de Estadística
Terminos Básicos de EstadísticaTerminos Básicos de Estadística
Terminos Básicos de Estadística
 
Clase1 - Estadística Preceptores
Clase1 - Estadística PreceptoresClase1 - Estadística Preceptores
Clase1 - Estadística Preceptores
 
UNI1 - INTRODUCCIÓN A LA ESTADÍSTICA.pdf
UNI1 - INTRODUCCIÓN A LA ESTADÍSTICA.pdfUNI1 - INTRODUCCIÓN A LA ESTADÍSTICA.pdf
UNI1 - INTRODUCCIÓN A LA ESTADÍSTICA.pdf
 
Clase1 estadística preceptores
Clase1 estadística preceptoresClase1 estadística preceptores
Clase1 estadística preceptores
 
Presentación de ESTADÍSTICA unidimensional ESO.pdf
Presentación de ESTADÍSTICA unidimensional ESO.pdfPresentación de ESTADÍSTICA unidimensional ESO.pdf
Presentación de ESTADÍSTICA unidimensional ESO.pdf
 
Estadistica tablas y graficos
Estadistica  tablas y graficosEstadistica  tablas y graficos
Estadistica tablas y graficos
 
Estadistica tablas y graficos
Estadistica  tablas y graficosEstadistica  tablas y graficos
Estadistica tablas y graficos
 
3eso quincena11
3eso quincena113eso quincena11
3eso quincena11
 
dispersion.pdf
dispersion.pdfdispersion.pdf
dispersion.pdf
 
Estadistica DS
Estadistica DSEstadistica DS
Estadistica DS
 
Introducción a la Estadísitica Descriptiva
Introducción a la Estadísitica DescriptivaIntroducción a la Estadísitica Descriptiva
Introducción a la Estadísitica Descriptiva
 
Estadistica_Descriptiva_II (1).pptx
Estadistica_Descriptiva_II (1).pptxEstadistica_Descriptiva_II (1).pptx
Estadistica_Descriptiva_II (1).pptx
 
Clase 02
Clase 02Clase 02
Clase 02
 
Estadistica Descriptiva
Estadistica DescriptivaEstadistica Descriptiva
Estadistica Descriptiva
 
Estadística Descriptiva
Estadística DescriptivaEstadística Descriptiva
Estadística Descriptiva
 
Estadistica
EstadisticaEstadistica
Estadistica
 
Estadistica
EstadisticaEstadistica
Estadistica
 

Más de cochachi

GuiaU1MateDos.ppt
GuiaU1MateDos.pptGuiaU1MateDos.ppt
GuiaU1MateDos.pptcochachi
 
16032020_900pm_5e703d313abee.ppt
16032020_900pm_5e703d313abee.ppt16032020_900pm_5e703d313abee.ppt
16032020_900pm_5e703d313abee.pptcochachi
 
Unidad didáctica - física 10° - copia.pptx
Unidad didáctica -  física 10° - copia.pptxUnidad didáctica -  física 10° - copia.pptx
Unidad didáctica - física 10° - copia.pptxcochachi
 
ELECTRODINAMICA.pptx
ELECTRODINAMICA.pptxELECTRODINAMICA.pptx
ELECTRODINAMICA.pptxcochachi
 
ELECTROSTATICA (2).pdf
ELECTROSTATICA (2).pdfELECTROSTATICA (2).pdf
ELECTROSTATICA (2).pdfcochachi
 
ELECTROSTATICA.pptx
ELECTROSTATICA.pptxELECTROSTATICA.pptx
ELECTROSTATICA.pptxcochachi
 
diapositivas-de-fisica-trabajo-potencia-y-energia-lemus-2-1 (1).pptx
diapositivas-de-fisica-trabajo-potencia-y-energia-lemus-2-1 (1).pptxdiapositivas-de-fisica-trabajo-potencia-y-energia-lemus-2-1 (1).pptx
diapositivas-de-fisica-trabajo-potencia-y-energia-lemus-2-1 (1).pptxcochachi
 
clase-muestra-mate.pptx
clase-muestra-mate.pptxclase-muestra-mate.pptx
clase-muestra-mate.pptxcochachi
 
Secciones_Conicas.ppt
Secciones_Conicas.pptSecciones_Conicas.ppt
Secciones_Conicas.pptcochachi
 
ENERGIA_NUCLEAR.ppt
ENERGIA_NUCLEAR.pptENERGIA_NUCLEAR.ppt
ENERGIA_NUCLEAR.pptcochachi
 
trabajo mecanico.ppt
trabajo mecanico.ppttrabajo mecanico.ppt
trabajo mecanico.pptcochachi
 
clase-8-bf.ppt
clase-8-bf.pptclase-8-bf.ppt
clase-8-bf.pptcochachi
 
codominancia-120527224901-phpapp01.pdf
codominancia-120527224901-phpapp01.pdfcodominancia-120527224901-phpapp01.pdf
codominancia-120527224901-phpapp01.pdfcochachi
 
clase-8-bf.ppt
clase-8-bf.pptclase-8-bf.ppt
clase-8-bf.pptcochachi
 
tipossangrehumana-130915222056-phpapp01.pdf
tipossangrehumana-130915222056-phpapp01.pdftipossangrehumana-130915222056-phpapp01.pdf
tipossangrehumana-130915222056-phpapp01.pdfcochachi
 
Clase_2_GeneticaMendeliana_Bach_2010.ppt
Clase_2_GeneticaMendeliana_Bach_2010.pptClase_2_GeneticaMendeliana_Bach_2010.ppt
Clase_2_GeneticaMendeliana_Bach_2010.pptcochachi
 
Inteligencia_Emocional.ppt
Inteligencia_Emocional.pptInteligencia_Emocional.ppt
Inteligencia_Emocional.pptcochachi
 
mendel-1-435439-downloadable-2032031.pdf
mendel-1-435439-downloadable-2032031.pdfmendel-1-435439-downloadable-2032031.pdf
mendel-1-435439-downloadable-2032031.pdfcochachi
 
Herencia_XL_2010.ppt
Herencia_XL_2010.pptHerencia_XL_2010.ppt
Herencia_XL_2010.pptcochachi
 
8448609964_u02_prs_001.pptx
8448609964_u02_prs_001.pptx8448609964_u02_prs_001.pptx
8448609964_u02_prs_001.pptxcochachi
 

Más de cochachi (20)

GuiaU1MateDos.ppt
GuiaU1MateDos.pptGuiaU1MateDos.ppt
GuiaU1MateDos.ppt
 
16032020_900pm_5e703d313abee.ppt
16032020_900pm_5e703d313abee.ppt16032020_900pm_5e703d313abee.ppt
16032020_900pm_5e703d313abee.ppt
 
Unidad didáctica - física 10° - copia.pptx
Unidad didáctica -  física 10° - copia.pptxUnidad didáctica -  física 10° - copia.pptx
Unidad didáctica - física 10° - copia.pptx
 
ELECTRODINAMICA.pptx
ELECTRODINAMICA.pptxELECTRODINAMICA.pptx
ELECTRODINAMICA.pptx
 
ELECTROSTATICA (2).pdf
ELECTROSTATICA (2).pdfELECTROSTATICA (2).pdf
ELECTROSTATICA (2).pdf
 
ELECTROSTATICA.pptx
ELECTROSTATICA.pptxELECTROSTATICA.pptx
ELECTROSTATICA.pptx
 
diapositivas-de-fisica-trabajo-potencia-y-energia-lemus-2-1 (1).pptx
diapositivas-de-fisica-trabajo-potencia-y-energia-lemus-2-1 (1).pptxdiapositivas-de-fisica-trabajo-potencia-y-energia-lemus-2-1 (1).pptx
diapositivas-de-fisica-trabajo-potencia-y-energia-lemus-2-1 (1).pptx
 
clase-muestra-mate.pptx
clase-muestra-mate.pptxclase-muestra-mate.pptx
clase-muestra-mate.pptx
 
Secciones_Conicas.ppt
Secciones_Conicas.pptSecciones_Conicas.ppt
Secciones_Conicas.ppt
 
ENERGIA_NUCLEAR.ppt
ENERGIA_NUCLEAR.pptENERGIA_NUCLEAR.ppt
ENERGIA_NUCLEAR.ppt
 
trabajo mecanico.ppt
trabajo mecanico.ppttrabajo mecanico.ppt
trabajo mecanico.ppt
 
clase-8-bf.ppt
clase-8-bf.pptclase-8-bf.ppt
clase-8-bf.ppt
 
codominancia-120527224901-phpapp01.pdf
codominancia-120527224901-phpapp01.pdfcodominancia-120527224901-phpapp01.pdf
codominancia-120527224901-phpapp01.pdf
 
clase-8-bf.ppt
clase-8-bf.pptclase-8-bf.ppt
clase-8-bf.ppt
 
tipossangrehumana-130915222056-phpapp01.pdf
tipossangrehumana-130915222056-phpapp01.pdftipossangrehumana-130915222056-phpapp01.pdf
tipossangrehumana-130915222056-phpapp01.pdf
 
Clase_2_GeneticaMendeliana_Bach_2010.ppt
Clase_2_GeneticaMendeliana_Bach_2010.pptClase_2_GeneticaMendeliana_Bach_2010.ppt
Clase_2_GeneticaMendeliana_Bach_2010.ppt
 
Inteligencia_Emocional.ppt
Inteligencia_Emocional.pptInteligencia_Emocional.ppt
Inteligencia_Emocional.ppt
 
mendel-1-435439-downloadable-2032031.pdf
mendel-1-435439-downloadable-2032031.pdfmendel-1-435439-downloadable-2032031.pdf
mendel-1-435439-downloadable-2032031.pdf
 
Herencia_XL_2010.ppt
Herencia_XL_2010.pptHerencia_XL_2010.ppt
Herencia_XL_2010.ppt
 
8448609964_u02_prs_001.pptx
8448609964_u02_prs_001.pptx8448609964_u02_prs_001.pptx
8448609964_u02_prs_001.pptx
 

Último

Clasificaciones, modalidades y tendencias de investigación educativa.
Clasificaciones, modalidades y tendencias de investigación educativa.Clasificaciones, modalidades y tendencias de investigación educativa.
Clasificaciones, modalidades y tendencias de investigación educativa.José Luis Palma
 
La empresa sostenible: Principales Características, Barreras para su Avance y...
La empresa sostenible: Principales Características, Barreras para su Avance y...La empresa sostenible: Principales Características, Barreras para su Avance y...
La empresa sostenible: Principales Características, Barreras para su Avance y...JonathanCovena1
 
Qué es la Inteligencia artificial generativa
Qué es la Inteligencia artificial generativaQué es la Inteligencia artificial generativa
Qué es la Inteligencia artificial generativaDecaunlz
 
La triple Naturaleza del Hombre estudio.
La triple Naturaleza del Hombre estudio.La triple Naturaleza del Hombre estudio.
La triple Naturaleza del Hombre estudio.amayarogel
 
TECNOLOGÍA FARMACEUTICA OPERACIONES UNITARIAS.pptx
TECNOLOGÍA FARMACEUTICA OPERACIONES UNITARIAS.pptxTECNOLOGÍA FARMACEUTICA OPERACIONES UNITARIAS.pptx
TECNOLOGÍA FARMACEUTICA OPERACIONES UNITARIAS.pptxKarlaMassielMartinez
 
Historia y técnica del collage en el arte
Historia y técnica del collage en el arteHistoria y técnica del collage en el arte
Historia y técnica del collage en el arteRaquel Martín Contreras
 
SEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptx
SEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptxSEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptx
SEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptxYadi Campos
 
Lecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdadLecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdadAlejandrino Halire Ccahuana
 
Identificación de componentes Hardware del PC
Identificación de componentes Hardware del PCIdentificación de componentes Hardware del PC
Identificación de componentes Hardware del PCCesarFernandez937857
 
TIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptx
TIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptxTIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptx
TIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptxlclcarmen
 
RETO MES DE ABRIL .............................docx
RETO MES DE ABRIL .............................docxRETO MES DE ABRIL .............................docx
RETO MES DE ABRIL .............................docxAna Fernandez
 
Planificacion Anual 4to Grado Educacion Primaria 2024 Ccesa007.pdf
Planificacion Anual 4to Grado Educacion Primaria   2024   Ccesa007.pdfPlanificacion Anual 4to Grado Educacion Primaria   2024   Ccesa007.pdf
Planificacion Anual 4to Grado Educacion Primaria 2024 Ccesa007.pdfDemetrio Ccesa Rayme
 
cortes de luz abril 2024 en la provincia de tungurahua
cortes de luz abril 2024 en la provincia de tungurahuacortes de luz abril 2024 en la provincia de tungurahua
cortes de luz abril 2024 en la provincia de tungurahuaDANNYISAACCARVAJALGA
 
EXPANSIÓN ECONÓMICA DE OCCIDENTE LEÓN.pptx
EXPANSIÓN ECONÓMICA DE OCCIDENTE LEÓN.pptxEXPANSIÓN ECONÓMICA DE OCCIDENTE LEÓN.pptx
EXPANSIÓN ECONÓMICA DE OCCIDENTE LEÓN.pptxPryhaSalam
 
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIARAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIACarlos Campaña Montenegro
 
Ejercicios de PROBLEMAS PAEV 6 GRADO 2024.pdf
Ejercicios de PROBLEMAS PAEV 6 GRADO 2024.pdfEjercicios de PROBLEMAS PAEV 6 GRADO 2024.pdf
Ejercicios de PROBLEMAS PAEV 6 GRADO 2024.pdfMaritzaRetamozoVera
 
Ecosistemas Natural, Rural y urbano 2021.pptx
Ecosistemas Natural, Rural y urbano  2021.pptxEcosistemas Natural, Rural y urbano  2021.pptx
Ecosistemas Natural, Rural y urbano 2021.pptxolgakaterin
 
2024 - Expo Visibles - Visibilidad Lesbica.pdf
2024 - Expo Visibles - Visibilidad Lesbica.pdf2024 - Expo Visibles - Visibilidad Lesbica.pdf
2024 - Expo Visibles - Visibilidad Lesbica.pdfBaker Publishing Company
 

Último (20)

Clasificaciones, modalidades y tendencias de investigación educativa.
Clasificaciones, modalidades y tendencias de investigación educativa.Clasificaciones, modalidades y tendencias de investigación educativa.
Clasificaciones, modalidades y tendencias de investigación educativa.
 
La empresa sostenible: Principales Características, Barreras para su Avance y...
La empresa sostenible: Principales Características, Barreras para su Avance y...La empresa sostenible: Principales Características, Barreras para su Avance y...
La empresa sostenible: Principales Características, Barreras para su Avance y...
 
Qué es la Inteligencia artificial generativa
Qué es la Inteligencia artificial generativaQué es la Inteligencia artificial generativa
Qué es la Inteligencia artificial generativa
 
La triple Naturaleza del Hombre estudio.
La triple Naturaleza del Hombre estudio.La triple Naturaleza del Hombre estudio.
La triple Naturaleza del Hombre estudio.
 
TECNOLOGÍA FARMACEUTICA OPERACIONES UNITARIAS.pptx
TECNOLOGÍA FARMACEUTICA OPERACIONES UNITARIAS.pptxTECNOLOGÍA FARMACEUTICA OPERACIONES UNITARIAS.pptx
TECNOLOGÍA FARMACEUTICA OPERACIONES UNITARIAS.pptx
 
Historia y técnica del collage en el arte
Historia y técnica del collage en el arteHistoria y técnica del collage en el arte
Historia y técnica del collage en el arte
 
SEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptx
SEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptxSEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptx
SEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptx
 
Lecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdadLecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdad
 
Identificación de componentes Hardware del PC
Identificación de componentes Hardware del PCIdentificación de componentes Hardware del PC
Identificación de componentes Hardware del PC
 
TIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptx
TIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptxTIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptx
TIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptx
 
RETO MES DE ABRIL .............................docx
RETO MES DE ABRIL .............................docxRETO MES DE ABRIL .............................docx
RETO MES DE ABRIL .............................docx
 
Planificacion Anual 4to Grado Educacion Primaria 2024 Ccesa007.pdf
Planificacion Anual 4to Grado Educacion Primaria   2024   Ccesa007.pdfPlanificacion Anual 4to Grado Educacion Primaria   2024   Ccesa007.pdf
Planificacion Anual 4to Grado Educacion Primaria 2024 Ccesa007.pdf
 
cortes de luz abril 2024 en la provincia de tungurahua
cortes de luz abril 2024 en la provincia de tungurahuacortes de luz abril 2024 en la provincia de tungurahua
cortes de luz abril 2024 en la provincia de tungurahua
 
EXPANSIÓN ECONÓMICA DE OCCIDENTE LEÓN.pptx
EXPANSIÓN ECONÓMICA DE OCCIDENTE LEÓN.pptxEXPANSIÓN ECONÓMICA DE OCCIDENTE LEÓN.pptx
EXPANSIÓN ECONÓMICA DE OCCIDENTE LEÓN.pptx
 
Sesión de clase: Fe contra todo pronóstico
Sesión de clase: Fe contra todo pronósticoSesión de clase: Fe contra todo pronóstico
Sesión de clase: Fe contra todo pronóstico
 
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIARAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
 
Unidad 3 | Metodología de la Investigación
Unidad 3 | Metodología de la InvestigaciónUnidad 3 | Metodología de la Investigación
Unidad 3 | Metodología de la Investigación
 
Ejercicios de PROBLEMAS PAEV 6 GRADO 2024.pdf
Ejercicios de PROBLEMAS PAEV 6 GRADO 2024.pdfEjercicios de PROBLEMAS PAEV 6 GRADO 2024.pdf
Ejercicios de PROBLEMAS PAEV 6 GRADO 2024.pdf
 
Ecosistemas Natural, Rural y urbano 2021.pptx
Ecosistemas Natural, Rural y urbano  2021.pptxEcosistemas Natural, Rural y urbano  2021.pptx
Ecosistemas Natural, Rural y urbano 2021.pptx
 
2024 - Expo Visibles - Visibilidad Lesbica.pdf
2024 - Expo Visibles - Visibilidad Lesbica.pdf2024 - Expo Visibles - Visibilidad Lesbica.pdf
2024 - Expo Visibles - Visibilidad Lesbica.pdf
 

11_EstadisticaDescritivatotal.ppt

  • 1. 1 Imagen popular de la estadística: "Existen medias mentiras, mentiras y estadísticas". Dos significados: (1) Colección de datos numéricos (una estadística). (2) Ciencia: obtener regularidades de fenómenos de masas (la estadística). Estadísitica "Más del 75% de los americanos blancos son propietarios de su casa y menos del 50% de los hispanos y afroamericanos no son propietarios de su casa. Aquí hay un abismo, el abismo de la propiedad de la casa". George W. Bush, Cleveland, 1 de julio de 2002 www.bushisms.com
  • 2. 2 La estadística surgió como una necesidad del estado: el censo y su descripción política, geográfica y económica. En el siglo XVII y XVIII nace la probabilidad aplicada a los juegos de azar que ejerce una fuerte influencia sobre la estadística. En el XIX empieza a aplicarse a cuestiones sociales. Y actualmente se aplica a la historia, psicología, pedagogía, ingeniería, biología, economía, periodismo, política, medicina...
  • 3. 3 Definición de Estadística La Estadística es la ciencia de la • sistematización, recogida, ordenación y presentación de los datos referentes a un fenómeno que presenta variabilidad o incertidumbre para su estudio metódico, con objeto de • deducir las leyes que rigen esos fenómenos • y poder hacer previsiones sobre los mismos, tomar decisiones u obtener conclusiones.
  • 4. 4 Pasos en un estudio estadístico • Plantear hipótesis sobre una población: • Los fumadores tienen “más bajas” laborales que los no fumadores. • ¿En qué sentido? ¿Mayor número? ¿Tiempo medio? • Decidir qué datos recoger (diseño de experimentos) – Qué individuos pertenecerán al estudio (muestras). • Fumadores y no fumadores en edad laboral. • Criterios de exclusión: ¿Cómo se eligen? ¿Descartamos los que padecen enfermedades crónicas? – Qué datos recoger de los mismos (variables). • Número de bajas. • Tiempo de duración de cada baja. • ¿Sexo? ¿Sector laboral? ¿Otros factores?
  • 5. 5 Pasos en un estudio estadístico (y 2) • Recoger los datos (muestreo): – ¿Estratificado? ¿Sistemáticamente? • Describir (resumir) los datos obtenidos: • Tiempo medio de baja en fumadores y no fumadores (estadísticos) • % de bajas por fumadores y sexo (frecuencias), gráficos,... • Realizar una inferencia sobre la población: • Los fumadores están de baja al menos 10 días/año más de media que los no fumadores. • Cuantificar la confianza en la inferencia: – Nivel de confianza del 95% – Significación del contraste: p = 2%
  • 6. 6 Población y muestra • Población (‘population’) es el conjunto sobre el que estamos interesados en obtener conclusiones (hacer inferencia). – Normalmente es demasiado grande para poder abarcarlo. • Muestra (‘sample’) es un subconjunto de la población al que tenemos acceso y sobre el que realmente hacemos las observaciones (mediciones) – Debería ser “representativo” – Esta formado por miembros “seleccionados” de la población (individuos, unidades experimentales).
  • 7. 7 Variables • Una variable es una característica observable que varía entre los diferentes individuos de una población. La información que disponemos de cada individuo es resumida en variables. • En los individuos de la población española, de uno a otro es variable: – El grupo sanguíneo • {A, B, AB, O}  Var. Cualitativa – Su nivel de felicidad “declarado” • {Deprimido, Ni fu ni fa, Muy Feliz}  Var. Ordinal – El número de hijos • {0,1,2,3,...}  Var. Numérica discreta – La altura • {1,62 ; 1,74; ...}  Var. Numérica continua
  • 8. 8 • Es buena idea codificar las variables como números para poder procesarlas con facilidad en un ordenador. • Es conveniente asignar “etiquetas” a los valores de las variables para recordar qué significan los códigos numéricos. – Sexo (Cualit: Códigos arbitrarios) • 1 = Hombre • 2 = Mujer – Raza (Cualit: Códigos arbitrarios) • 1 = Blanca • 2 = Negra,... – Felicidad Ordinal: Respetar un orden al codificar. • 1 = Muy feliz • 2 = Bastante feliz • 3 = No demasiado feliz • Se pueden asignar códigos a respuestas especiales como • 0 = No sabe • 99 = No contesta... • Estas situaciones deberán ser tenidas en cuentas en el análisis. Datos perdidos (‘missing data’)
  • 9. 9 • Los posibles valores de una variable suelen denominarse modalidades. Las modalidades pueden agruparse en clases (intervalos) – Edades: • Menos de 20 años, de 20 a 50 años, más de 50 años – Hijos: • Menos de 3 hijos, De 3 a 5, 6 o más hijos • Las modalidades/clases deben formar un sistema exhaustivo y excluyente – Exhaustivo: No podemos olvidar ningún posible valor de la variable – Mal: ¿Cuál es su color del pelo: (Rubio, Moreno)? – Bien: ¿Cuál es su grupo sanguíneo? – Excluyente: Nadie puede presentar dos valores simultáneos de la variable • Estudio sobre el ocio – Mal: De los siguientes, qué le gusta: (deporte, cine) – Bien: Le gusta el deporte: (Sí, No) – Bien: Le gusta el cine: (Sí, No)
  • 10. En un programa para la detección de hipertensión en una muestra de 30 hombres en edades entre 30 y 40 años, la distribución de la presión diastólica (mínima) en mm Hg fue la siguiente: 75 80 85 100 110 95 90 95 90 80 65 100 70 90 95 85 120 80 75 60 70 90 95 110 90 65 75 85 85 70 La variable en estudio es : Presión diastólica (medida en mm de Hg) una variable numérica continua. Ejemplo:
  • 11. 11 Tablas de frecuencia • Exponen la información recogida en la muestra de manera inteligente: – Frecuencias absolutas: Contabilizan el número de individuos de cada modalidad. – Frecuencias relativas (porcentajes unitarios): Ídem, pero dividido por el total, normalizadas. – Frecuencias acumuladas absolutas y relativas: Acumulan las frecuencias absolutas y relativas. Son especialmente útiles para calcular cuantiles (como veremos más adelante).
  • 12. 60 65 65 70 70 70 75 75 75 80 80 80 85 85 85 85 90 90 90 90 90 95 95 95 95 100 100 110 110 120 Ordenamos los datos en forma creciente: La amplitud total A = 120 – 60 = En este caso , entonces, la tabla de frecuencias tendrá aproximadamente 6 clases de amplitud 10 unidades en cada clase. Número de clases: 60 Aprox. 6 clases K = 30 = 5.48 Extensión del intervalo : H = A/ K = 60/6 = 10
  • 13. 13 60 - 70 x f fr F Fr 70 - 80 80 - 90 90 - 100 100 - 110 110 - 120 total 3 6 7 9 2 30 2 0.1 0.2 0.07 0.23 0.3 1.0 0.07 3 9 16 27 29 25 0.1 0.3 0.53 0.83 0.90 1.00 120 - 130 1 0.03 30 0.97 Variable Frecuencia Frecuencia normalizada Frecuencia absoluta Frecuencia absoluta norm.
  • 14. 14 0 2 4 6 8 10 60 70 80 90 100 110 120 130 mm de Hg f Histograma de la distribución de presión diastólica en mm de Hg según las frecuencias absolutas:
  • 15. 15 Gráficos para variables cualitativas • Diagramas de barras – Alturas proporcionales a las frecuencias (abs. o rel.) – Se pueden aplicar también a variables discretas • Diagramas de sectores (tartas, polares) – El área de cada sector es proporcional a su frecuencia (abs. o rel.)
  • 16. 16 Gráficos para variables cualitativas (y 2) • Pictogramas – Fáciles de entender. – Cada modalidad debe ser proporcional a la frecuencia. De los dos pictogramas, ¿cuál dirías que es incorrecto?
  • 17. 17 Gráficos diferenciales para variables numéricas Son diferentes en función de que las variables sean discretas o continuas. Valen con frec. absolutas o relativas. – Diagramas barras para v. discretas • Se deja un hueco entre barras para indicar los valores que no son posibles – Histogramas para v. continuas • El área que hay bajo el histograma entre dos puntos cualesquiera indica la cantidad (porcentaje o frecuencia) de individuos en el intervalo. 0 1 2 3 4 5 6 7 Ocho o más Número de hijos 100 200 300 400 Recue nto 419 255 375 215 127 54 24 23 17 20 40 60 80 Edad del encuestado 50 100 150 200 250 Recue nto
  • 18. 18 Diagramas integrales • Cada uno de los anteriores diagramas tiene su correspondiente diagrama integral. Se realizan a partir de las frecuencias acumuladas. Indican, para cada valor de la variable, la cantidad (frecuencia) de individuos que poseen un valor inferior o igual al mismo.
  • 19. 19 Parámetros y estadísticos • Parámetro: Es una cantidad numérica calculada sobre una población. – La altura media de los individuos de un país. – La idea es resumir toda la información que hay en la población en unos pocos números (parámetros). •Estadístico: Ídem (cambiar población por muestra). –La altura media de los que estamos en este aula. •Somos una muestra (¿representativa?) de la población. –Si un estadístico se usa para aproximar un parámetro también se le suele llamar estimador.
  • 21. 21 • Posición – Dividen un conjunto ordenado de datos en grupos con la misma cantidad de individuos. • Cuantiles, percentiles, cuartiles, deciles,... • Centralización – Indican valores con respecto a los que los datos parecen agruparse. • Media, mediana y moda • Dispersión – Indican la mayor o menor concentración de los datos con respecto a las medidas de centralización. • Desviación típica, coeficiente de variación, rango, varianza • Forma – Asimetría – Apuntamiento o curtosis Estadísticos
  • 22. 22 Estadísticos de posición • Se define el cuantil de orden a como un valor de la variable por debajo del cual se encuentra una frecuencia acumulada a. • Casos particulares son los percentiles, cuartiles, deciles, quintiles,...
  • 23. 23 • Percentil de orden k = cuantil de orden k/100 – La mediana es el percentil 50. – El percentil de orden 15 deja por debajo al 15% de las observaciones. Por encima queda el 85%. • Cuartiles: Dividen a la muestra en 4 grupos con frecuencias similares. – Primer cuartil = Percentil 25 = Cuantil 0,25. – Segundo cuartil = Percentil 50 = Cuantil 0,5 = mediana. – Tercer cuartil = Percentil 75 = cuantil 0,75.
  • 24. 24 – Ejemplos: El 5% de los recién nacidos tiene un peso demasiado bajo. ¿Qué peso se considera “demasiado bajo”? • Percentil 5 o cuantil 0,05. – ¿Qué peso es superado sólo por el 25% de los individuos? • Percentil 75. – El colesterol se distribuye simétricamente en la población. Se considera patológico los valores extremos. El 90% de los individuos son normales. ¿Entre qué valores se encuentran los individuos normales? • Entre el percentil 5 y el 95. – ¿Entre qué valores se encuentran la mitad de los individuos “más normales” de una población? • Entre 1º y 3º cuartil (Q1 y Q3).
  • 25. 25 105 110 112 112 118 119 120 120 120 125 126 127 128 130 132 133 134 135 138 138 138 138 141 142 144 145 146 148 148 148 149 150 150 150 151 151 153 153 154 154 154 154 155 156 156 158 160 160 160 163 164 164 165 166 168 168 170 172 172 176 179 Niveles de Hb en 61 adultos normales Un resumen de esta serie en 5 valores Min = 105 ; Max =179; Q1 = 133.5 ; Q3 = 159 ; Q2 = Mn = 149.5 179 105 133.5 149.5 159 IQR = Q3 - Q1 Recorrido intercuartílico Min Max Mn 149.5 (Mediana de los datos superiores) Q1 Q3 (Mediana de los datos superiores) 133.5 159 (“Box-and-Whisker” plot)
  • 26. 26 Centralización • Añaden unos cuantos casos particulares a las medidas de posición. Son medidas que buscan posiciones (valores) con respecto a los que los datos muestran tendencia a agruparse. • Media (‘mean’) Es la media aritmética (promedio) de los valores de una variable. Suma de los valores dividido por el tamaño muestral. – Media de {2, 2, 3, 7} es (2+2+3+7)/4 = 3,5 – Conveniente cuando los datos se concentran simétricamente con respecto a ese valor. Muy sensible a valores extremos. – Centro de gravedad de los datos.
  • 27. 27 Centralización • Mediana (‘median’) Es un valor que divide a las observaciones en dos grupos con el mismo número de individuos (percentil 50). Si el número de datos es par, se elige la media de los dos datos centrales. – Mediana de 1, 2, 4, 5, 6, 6, 8 es 5 – Mediana de 1, 2, 4, 5, 6, 6, 8, 9 es (5+6)/2 = 5,5 – Es conveniente cuando los datos son asimétricos. No es sensible a valores extremos. • Mediana de 1, 2, 4, 5, 6, 6, 800 es 5. ¡La media es 117,7! • Moda (‘mode’) Es el/los valor/es donde la distribución de frecuencia alcanza un máximo.
  • 29. 29 Asimetría o sesgo • Una distribución es simétrica si la mitad izquierda de su distribución es la imagen especular de su mitad derecha. • En las distribuciones simétricas media y mediana coinciden. Si sólo hay una moda también coincide. • La asimetría es positiva o negativa en función de a qué lado se encuentra la cola de la distribución. • La media tiende a desplazarse hacia las valores extremos (colas). • Las discrepancias entre las medidas de centralización son indicación de asimetría.
  • 30. 30 Apuntamiento o curtosis (kurtosis) Leptocúrtica 138 108 102 97 92 87 82 77 72 67 62 57 52 47 42 37 32 27 16 3 Frecuencia 400 300 200 100 0 Platicúrtica 84 81 78 75 72 69 66 63 60 57 54 51 48 45 160 140 120 100 80 60 40 Los gráficos poseen la misma media y desviación típica, pero diferente grado de apuntamiento o curtosis. • La curtosis nos indica el grado de apuntamiento (aplastamiento) de una distribución con respecto a la distribución normal o gaussiana. Es adimensional. • Platicúrtica: curtosis < 0 • Mesocúrtica: curtosis = 0 • Leptocúrtica: curtosis > 0 Mesocúrtica 99 93 89 85 81 77 73 69 65 61 57 53 49 45 41 37 32 27 Frecuencia 300 200 100 0
  • 31. 31 •Miden el grado de dispersión (variabilidad) de los datos, independientemente de su causa. •Amplitud o Rango (‘range’): La diferencia entre las observaciones extremas. – 2,1,4,3,8,4. El rango es 8-1=7 – Es muy sensible a los valores extremos. •Rango intercuartílico (‘interquartile range’): – Es la distancia entre el primer y tercer cuartil. • Rango intercuartílico = P75 - P25 – Parecida al rango, pero eliminando las observaciones más extremas inferiores y superiores. – No es tan sensible a valores extremos. Medidas de dispersión
  • 32. 32 x Fr 1 0.75 0.5 0.25 0 P25 P50 P75 Q1 Q2 Q3 mediana Recorrido o rango intercuartílico
  • 33. 33 • Varianza S2 (‘Variance’): Mide el promedio de las desviaciones (al cuadrado) de las observaciones con respecto a la media. – Es sensible a valores extremos (alejados de la media). – Sus unidades son el cuadrado de las de la variable. • Desviación típica (‘standard deviation’) Es la raíz cuadrada de la varianza. Tiene las misma dimensionalidad (unidades) que la variable.    i i x x n S 2 2 ) ( 1 2 S S 
  • 34. 34 • Centrados en la media y a una desviación típica de distancia tenemos más de la mitad de las observaciones (izq.) • A dos desviaciones típicas las tenemos a casi todas (dcha.)
  • 35. 35 • Coeficiente de variación • Es la razón entre la desviación típica y la media. – Mide la desviación típica en forma de “qué tamaño tiene con respecto a la media” – También se la denomina variabilidad relativa. – Es frecuente mostrarla en porcentajes • Si la media es 80 y la desviación típica 20 entonces CV=20/80=0,25=25% (variabilidad relativa) • Es una cantidad adimensional. Interesante para comparar la variabilidad de diferentes variables. – Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan más dispersión en peso que en altura. • No debe usarse cuando la variable presenta valores negativos o donde el valor 0 sea una cantidad fijada arbitrariamente – Por ejemplo 0ºC ≠ 0ºF • Los ingenieros electrónicos hablan de la razón ‘señal/ruido’ (su inverso). x S CV 
  • 36. 36 Desigualdad de Chebyshev (1821-1894) Si un conjunto de datos posee una varianza pequeña no existirán "muchos valores" alejados de la media. Precisemos: sea el intervalo alrededor de la media:   k x x k x i                       0 2 0 2 2 2 2 ) ( 1 ) ( 1 ) ( 1               i entorno del fuera i i i entorno del dentro i i i i i f x x n f x x n S f x x n S
  • 38. 38
  • 39. 39 •Han vuelto a pedirle una millonada al decano de la facultad de fisicas para hacer un experimento. - ¡Otra vez ! Pero bueno, ¿por qué no podéis ser como los matemáticos, que se apañan solo con papel, lápiz y una papelera ? ¿O como los filósofos, que sólo necesitan papel y lápiz ? •En cierta ocasión le preguntaron a un vendedor que como podia vender tan baratos sus sandwiches de conejo, a lo que respondió : -"bueno, tengo que admitir que hay un poco de carne de caballo. Pero la mezcla es solo 50:50 ; uso el mismo numero de conejos que de caballos". [ Darrel Huff, "Como mentir con la estadística".]
  • 40. 40 Gráficos de tallos y hojas del estadístico John Tukey
  • 41. 41 La enfermera Florence Nightingale recopiló datos estadísticos sobre mortalidad en los hospitales militares británicos... guerra de Crimea. Consecuencia disminución de la tasa de mortalidad.
  • 42. 42 Fue John Tukeyquien inventó en bigote. Se extiende a 1.5 IQR de los cuartiles. Así vemos los datos atípicos. En un gráfico de caja es muy útil para representar diferencias entre grupos.
  • 43. 43 Filtrado: tenemos tendencia fuerte a olvidar los fracasos y concentrarnos en los éxitos y aciertos. Tragaperras, fracasos bursátiles y financieros, curanderos El valor medio de unas medidas normalmente es igual para un pequeño conjunto que para uno grande, pero los valores extremos varían muchísimo. Pensemos en el caudal de un río. El caudal medio de un año coincide con el de 25 años. Un desbordamiento se recuerda fuertemente...
  • 44. 44 Como siempre nos quedamos con los extremos no es extraño que en deportes, ciencia o arte denigremos las figuras de hoy en comparación con las del pasado. Otra consecuencia: las noticias internacionales son peores que las nacionales, peores que las regionales, peores que las locales que son peores que las del entorno inmediato.
  • 45. 45        i i i i y x y x dy d 0 ) ( 2 ) ( 2 x x n y ny y x y x i i i i i i i i             1 0 2 2 La desviación típica es menor a todas las desviaciones cuadráticas respecto a cualquier promedio m (mirar librito de bachillerato)