2. ¿Qué es analizar datos?
Las técnicas de análisis son mecanismos utlizados
para convertr los datos en información útl .
Convierten los datos en
conocimiento
7. ¿Qué tipo de datos tenemos?
Revisar la METADATA: Datos e información
sobre los datos. De dónde vienen, cuáles son sus
parámetros, cómo se recolectaron, etc.
8. NIVEL EDUCATIVO: El último año aprobado por la persona.
1= primaria incompleta
2= primaria completa
3=secundaria incompleta
4=secundaria completa
5=universitaria
9. ¿Qué tipos de variables tenemos?
Categóricas (cualitatvas): Describen características.
Nominal: Establecen relaciones de pertenencia.
{femenino, masculino} {nacional, extranjero}
Ordinal: Se pueden ordenar de mayor a menor
{primaria, secundaria, universitaria} {pequeño, grande}
10. ¿Qué tipos de variables tenemos?
Cuanttatvas: Variables numéricas
Discretos: Números enteros. Ejm: número de hijos,
cantidad de automóviles.
Contnuos: Datos numéricos que pueden recibir
cualquier valor (por ejemplo pueden tener decimales). Ejm:
ingreso, longitud, distancia.
12. La idea es plantear preguntas que se puedan
responder con los datos que tenemos.
La pregunta debe tener siempre dos componentes:
Variable + el valor que queremos obtener
Ejm: ¿Cuántas mujeres tienen estudios universitarios?
¿Cúal es el promedio de edad de los alumnos de la
UCR?
Valor
VariablesValor
Variables
Plantearse preguntas de análisis
14. ¿Qué tipos de análisis
podemos hacer?
(algunos ejemplos)
15. Empecemos por el descriptivo
Describe las principales características del conjunto de datos.
Permite obtener conclusiones del conjunto de datos que
tenemos pero no de la población.
-Organiza los datos
-Resume sus principales características
-Podemos elaborar tablas, gráficos y calcular operaciones.
La clave está en interpretar los resultados.
16. Medidas de posición
Permiten agrupar o resumir en un número la posición
de los datos.
MEDIA: es el promedio
MEDIANA: valor central de los datos
MODA: es el valor que más se repite
CUARTILES: divide el grupo de datos en 4 partes
19. Aunque el promedio es la medida de
posición más conocida, la mediana es
preferible cuando:
•
La distribución es asimétrica
•
Hay muchos valores extremos o
outliers.
20. Medidas de dispersión
Permiten ver que tan dispersos o separados
están los datos entre sí.
RANGO: diferencia entre el mínimo y el
máximo.
DESVIACIÓN ESTÁNDAR: mide la dispersión
de los datos alrededor de la media.
21. Tablas: frecuencia
Es una tabla que resume la frecuencia con la que aparece una
observación. Esta puede ser absoluta o relativa (frecuencia
absoluta/total de observaciones).
Sexo Frecuencia
absoluta
Frecuencia relativa
Femenino 64 57,15%
Masculino 48 42,85%
TOTAL 112 100%
22. Tablas: cruzadas (de contingencia)
Tablas que combinan dos variables
Sexo Asiste a la universidad
Sí No TOTAL
Femenino 45 19 64
Masculino 35 13 48
TOTAL 80 32 112
23. Usar gráficos
Es una forma fácil de ver cómo se distribuye
una variable categórica o discreta
Barras
27. Ejemplo
Tenemos una base de datos de salarios de 5500
funcionarios que laboran jornada completa en una
universidad pública.
Las varibles son: puesto (cualitatva), salario
(cuanttatva) y años de servicio (cuanttatva).
28. ¿Qué cálculos podemos
hacer?Con las variables cualitativas podemos calcular
frecuencias, porcentajes.
Preguntas como:
¿Qué cantidad de puestos tiene la institución?
R/: Hay 50 puestos diferentes
¿Cuál es el puesto con mayor cantidad de
funcionarios?
29. ¿Cuál es el salario promedio del
funcionario universitario?
$2099,7
¿Es correcto? ¿Adecuado?
31. Jornada Cantidad de
funcionarios
Salario promedio
0.125 474 1752,9
0.25 1122 1716,6
0.5 819 1254,2
0.75 275 1115,1
1 5503 2310,23
1.125 22 2736,25
1.25 231 3158,4
TOTAL 8446 2099,3
Vemos que hay 7 tipos de jornadas diferentes y que el
promedio de salario varía según el tipo de jornada. Además si
vemos la cantidad de puestos tenemos que hay 48 categorías
de puestos diferentes.
¡Y Tablas!
32. Pareciera ser que entre más años de servicio tenga el funcionario en
la insttución, mayor es su salario.
33. PROMEDIO= $1397,2
MEDIANA= $699
MIN= $130,7
MAX = $3102,9
DESVIACION ESTÁNDAR= 729,8
Salarios de profesores interinos licenciados que trabajan jornada
completa y tenen 10 años de servicio
34. Resumiendo
Una vez que identficamos las variables que tenemos y
planteamos preguntas:
1. Calcular la estadística descriptiva de las variables de
interés: esto nos da una idea de cómo se comportan los
datos, cómo están distribuidos y si hay valores
extremos.
2. Tabular frecuencias y porcentajes.
3. Hacer uso de gráficos que faciliten el entendimiento de
los datos.
4. Buscar patrones y respuestas a las preguntas
planteadas.
35. ¿Qué programas usamos para el
análisis?
•
Hojas de cálculo
•
Software estadístico: R, Stata, SPSS.
•
Otras herramientas: Open Refine,
Tableau, MySQL.
37. Porcentajes
Si tenemos un total de N elementos y queremos calcular que
porcentaje representan k elementos de ese total aplicamos la
fórmula:
38. Puntos porcentuales vs cambio
porcentual
Por ejemplo podemos decir que la cantidad de
personas desempleadas creció un 15% entre el 2014 y
el 2015.
39. Puntos porcentuales vs cambio
porcentual
Los puntos porcentuales se usan para medir la
diferencia entre dos porcentajes.
Si la tasa de desempleo pasó de 9% a 12% aumentó 3
puntos porcentuales. El cambio porcentual sería de un
33,3%.
40. Ajuste por inflación
El dinero pierde su valor en el tiempo $1000 valían más hace
10 años que ahora. La culpable:
La inflación
Cuando comparamos dos montos de diferentes periodos es
necesario ajustar por inflación.
41. Ajuste por inflación
Cuando NO ajustamos por inflación los montos están es
términos nominales (corrientes).
Cuando ajustamos por inflación están en términos reales
(constantes).
42. Ajuste por inflación
Usamos el Índice de precios al consumidor (IPC). El IPC siempre
toma como referencia un año base, donde el índice es igual a
100.
1. Convertimos los montos a dólares (pesos, colones..)
constantes (dólares del año base):
2. Calculamos el cambio porcentual
44. Comparaciones
Si el DF tiene más habitantes que Chiapas……Un titular como:
“Presupuesto del DF para carreteras cuadruplicó al de Chiapas”,
es obvio.
Es mejor calcular el gasto per cápita o hacer comparaciones con
un punto de referencia.
Tomar en cuenta a la población
48. Comparaciones
Comparar los mismos periodos.
Verificar que la metodología de un indicador no haya cambiado.
Con presupuesto estar pendiente de posibles cambios en
programas o funciones de dependencias que puedan explicar
cambios “extraños”.
Comparar “manzanas” con
“manzanas”
49. Comparaciones
Comparar áreas con cosas “conocidas”: canchas de fútbol,
ciudades, poblaciones, etc.
Buscar referencias comprensibles
para la audiencia
51. Cuidar la unidad base
A: “El rendimiento académico está peor porque 60% de los
colegios tuvieron resultados peores que el año anterior”.
B: “El rendimiento académico mejoró este año porque el 80%
de los estudiantes obtuvieron mejores calificaciones que el año
anterior”.
52. Cuidar la unidad base
Es importante pensar cuál es la mejor forma de medir el
fenómeno que queremos analizar, qué unidad o variable vamos
a tomar como punto de referencia.
53. Tener el panorama completo
Un dato aislado no sirve de mucho si no conocemos la
distribución de los datos
El promedio
estaría sesgado
54. Generalizaciones a la población
Los sondeos no permiten hacer generalizaciones para TODA la
población.
55. Verificar afirmaciones de la fuente
Solicitar de dónde provienen los datos con los que hace esa
afirmación.
56. Recursos
“The New Precision Journalism”-Philip Meyer
http://www.unc.edu/~pmeyer/book/Chapter1.
htm
“Naked Statistics”- Charles Wheelan
“How to lie with Statistics”-Darrel Huf