Este documento presenta información sobre el manejo y análisis de datos. Explica diferentes formatos de almacenamiento de datos, incluyendo formato de texto y binario. También discute temas como tipos de datos, ajustes de inflación y temporadas, estacionariedad, transformación logarítmica y modelos de promedio constante. El objetivo es proveer una introducción a conceptos básicos para el análisis estadístico de series de tiempo.
2. Como Manejar Datos Conociendo Tus Datos Ajustes De Inflación Ajustes De Temporadas Estacionariedad y Diferenciación Transformación Logarítmica Modelos del Promedio Constante Temas Importantes
4. El material bruto que se usa para el estudio estadístico y el subsecuente desarrollo de pronósticos es llamado datos. Los datos son almacenados en las computadoras básicamente en dos formas: Formato de Texto Formato Binario Text (ASCII) Data
5. Los datos almacenados en Formato de Texto, son almacenados por la computadora en su memoria como una secuencia de caracteres. Ej. 1.5 es almacenado como el carácter “1” seguido de “.” seguido de “5” Datos en Formato de Texto son datos que pueden ser impresos en la pantalla de la computadora o en un papel como una secuencia familiar de símbolos de un teclado, en donde cada símbolo representa el contenido de un Byte de espacio. Formato de Texto
6. En Formato Binario los datos son almacenados en patrones de bytes que no necesariamente corresponden al código numérico utilizado en caracteres escritos con un teclado o por una impresora. Estos pueden corresponder a números binarios arbitrarios menores de 32 o mayores que 127. La mayor parte de las computadoras guardan sus archivos en algún tipo de Formato Binario XLS (Excel Spreadsheet) SF (Statgraphicsfile) Etc… Formato Binario
8. El Formato de Texto es el medio universal para la transferencia de información entre diferentes programas de computadoras, ya que toda computadora que interactúa con humanos debe ser capaz de leer y escribir texto. Cuando escribes en un teclado de computadoras estas trasmitiendo una secuencia de caracteres, que la computadora separa. Lo importante no es lo que la computadora hace internamente con los caracteres, sino que debe ser capaz de convertir a texto para el uso de “input” o “output”. De esta forma los programas de computadora constantemente se comunican entre si vía texto. El Medio Universal
12. La Fuente De Datos Y Las Unidades Grafica Los Datos
13. Preguntas que debe hacerse el estadístico antes de analizar los datos: ¿De donde provienen los datos? ¿Cómo fueron originalmente recolectados? ¿Por quién? ¿Con que frecuencia? ¿Bajo que condiciones? ¿Dónde han estado los datos? ¿Por qué otro sistema de análisis estos datos han pasado? ¿Cómo han sido ajustados, agregados, promediados y manejados? La Fuente De Datos Y Las Unidades
14. ¿Son datos limpios o sucios? ¿Hay errores en la entrada de datos? ¿Hay datos perdidos? ¿Están los periodos de tiempo mal alineados? ¿Han ocurrido cambios en el método de reportar los datos? ¿Ocurrieron eventos extraños o inusuales? ¿En que unidades son medidos los datos? ¿Se le ha aplicado ajuste de temporadas? Y si se le aplicó; ¿Cómo? ¿Los datos son medidos en totales anuales o mensuales? ¿Los datos son nominales o se le aplicó el ajuste de inflación para convertirlos en unidades constantes de intercambio? ¿Representan la condición actual de algo, o si representa cambios absolutos de un periodo a otro, o la representación del porciento de cambio entre un periodo y otro? ¿Son consistentes las unidades entre las variable?
15. Cuando desarrolles tu análisis es compulsorio el que coloques tus variables indicando su fuente u origen, las unidades de medición y cualquier problema o situación que tengas constancia. El desarrollo o montaje, la limpieza de los datos, su ajuste y el documentar las unidades de dichos datos aunque es el trabajo mas tedioso, es a la vez el trabajo más importante en el desarrollo de una investigación estadística. El eludir estos detalles conduce a serios errores en el desarrollo de modelos. De trabajar estos detalles aprenderás mucho de las fuerzas o tendencias que están influenciando los datos que deseas utilizar para el desarrollo de predicciones.
16. Envolverse en estos detalles te ayuda a comprender mejor como los datos deben estar organizados para que su obtención, su organización, su integración, su resumen sea óptimo proveyéndote así un mejor modelo de predicción y análisis.
17. Antes de que de alguna manera comiences a manejar los datos que has obtenido debes desarrollar una imagen grafica de los datos para que puedas tener una idea de su comportamiento y propiedades cualitativas. Grafica Los Datos
25. El Ajuste de Inflación consiste en dividir la serie de tiempo monetaria por el índice de precios. No importa si cuando la serie de tiempo fue preparada originalmente, ya sea en dólares nominales o corrientes. Una vez se ha realizado el ajuste de inflación la serie de tiempo queda expresada en dólares corrientes.
26. Inflación es regularmente un indicador muy significativo relacionado al crecimiento aparente en una serie medida en algún tipo de medio de intercambio monetario. Ejemplo de Monedas: Dólares Yen Libras Pesos Euro Etc…
27. Si ha ocurrido crecimiento real, mediante el ajuste de inflación lo descubres. Puedes mediante este ajuste estabilizar la fluctuaciones de temporadas que se observan en los datos. Este tipo de ajuste no siempre es necesario cuando se manejan variables monetarias. En ocasiones es mas simple predecir datos en términos nominales o usar la transformación logarítmica para estabilizar la varianza. El ajuste de inflación es una importante herramienta para el análisis de datos económicos que no debes descartar.
28. Consumer Price Index (CPI) Producer Price Index (PPI) GDP Implicit Price Deflator ChainTypeIndex Es muy importante que sepas escoger el tipo de Indicador de Precio para que tu análisis sea optimo. Algunos Índices De Precios
29. En esta grafica referente a venta de automóviles se ven presentados los datos en dólares nominales, graficados junto al CPI de los últimos 25 años.
30. En esta grafica se observan los datos de la venta de automóviles dividida por el CPI, removiendo así la tendencia ascendente de los datos y acentuando los cambios de temporadas y su componentes cíclicos.
31.
32. Recuerda que algo que deseas evitar es que algunas variables tengan ajuste de inflación mientras que otras no estén ajustadas. Este error te producirá aparentes relaciones no lineales, lo cual será producto de la inconsistencia de las variables.
33. OJO Recuerda que el ajuste de inflación es solo útil cuando estas trabajando con datos que se expresan en unidades monetarias.
36. Ajuste Multiplicativo El incremento en la amplitud de la variaciones en las temporadas observables en esta grafica son indicativas de un patrón multiplicativo de temporada. Este efecto de temporadas se expresa en si mismo en términos de porcentaje. Tal que la magnitud absoluta de las variaciones de temporadas incrementan según la serie aumenta por asunto de tiempo.
37. Estos patrones pueden ser removidos por el ajuste multiplicativo de temporadas, el cual se obtiene cuando divides cada valor de la serie por el índice de temporada( numero en la cercanía de 1.0) que representa el porcentaje que típicamente se observa en esa temporada. Ej.: Si en Diciembre las ventas típicamente son 130% de lo normal mensualmente (basado en datos recolectados) entonces ajustas la temporada dividiendo por 1.3 .
38. Esta grafica expresa el ajuste de temporadas de la venta de autos , la cual se obtiene dividiendo los valores de las ventas de cada mes por el índice de temporada estimado.
39. Observe que los patrones pronunciados de temporadas han desaparecido y que lo que queda son las secuencias y los componentes cíclicos de los datos, aunque queda un poco de ruido aleatorio.
40. Este ajuste es un ajuste alterno como lo es el ajuste multiplicativo de temporadas. En una serie de tiempo cuyas variaciones de temporadas son contantes en su magnitud, independientemente del actual promedio del nivel de la serie; es una serie de tiempo candidata a usar el ajuste sumatorio de temporadas. Ajuste Sumatorio
41. En el ajuste sumatorio de temporadas cada valor de la serie de tiempo es ajustado sumándole o restándole una cantidad que representa la cantidad absoluta por la cual el valor en esa serie durante el año tiende a estar por encima o por debajo de lo normal. Esto será estimado de datos previamente recolectados.
42. Este tipo de ajuste es escaso. Pero una serie de tiempo que posee naturalmente un patrón multiplicativo de temporada es fácilmente convertible a una serie con ajuste sumatorio de temporada aplicándole la transformación logarítmica a los datos originales. Si estas usando ajuste de temporadas conjunto con la transformación logarítmica, probablemente podrás usar el ajuste sumatorio en vez del ajuste multiplicativo.
43. Cuando se examina series de tiempo en fuentes como Datadisk, etc…, los acrónimos son: SA = “seasonallyadjusted” NSA= “notseasonallyadjusted” SAAR= “seasonallyadjustedannualrate” SAAR es una serie de tiempo en la cual cada valor de los periodos han sido ajustados para temporada y entonces multiplicado por el numero de periodos en el año. Acrónimos
45. ESTACIONARIEDAD ESTADISTICA Una serie de tiempo estacionaria es aquella cuyas propiedades estadísticas como la media, varianza, auto correlación, son todas constantes en el tiempo. ESTACIONARIEDAD Y DIFERENCIACIÓN
46. Una serie estacionaria es relativamente fácil de predecir, simplemente hay que predecir que sus propiedades estadísticas son las mismas en el futuro como lo han sido en el pasado. Para esto se utilizan las transformadas, invirtiendo las transformadas se consiguen las predicciones para la serie original. ESTACIONARIEDAD Y DIFERENCIACIÓN
47. Otra razón para utilizar una serie de tiempo estacionaria es para poder obtener estadísticas significativas de la muestra, como medias, varianzas y correlaciones con otras variables. Estas estadísticas son útiles como descriptores del comportamiento futuro. ESTACIONARIEDAD Y DIFERENCIACIÓN
48. La primera diferencial de una serie de tiempo es la serie de cambios de un período a otro. Si Y (t) denota el valor del tiempo de la serie de Y en el período t, entonces la primera diferencial de Y en el período t es igual a Y(t) - Y(t-1). ESTACIONARIEDAD Y DIFERENCIACIÓN
49. Si la primera diferencial de Y está estacionaria y completamente al azar, entonces Y es descrito por un modelo de paseo aleatorio (cada valor es un paso al azar lejos del valor anterior). ESTACIONARIEDAD Y DIFERENCIACIÓN
50. Si la primera diferencia de Y está estacionaria, pero no completamente al azar entonces un modelo más sofisticadas como el suaviza miento exponencial puede ser mas apropiado para describirlo. ESTACIONARIEDAD Y DIFERENCIACIÓN
54. Propiedad de linealización La función LOG tiene la propiedad: LOG (X * Y) = log (X) + log (y) es decir, el logaritmo de un producto es igual a la suma de los logaritmos. Transformación logarítmica
55. Si tomamos logaritmos de las variables que están relacionadas multiplicativamente y / o creciendo de manera exponencial con el tiempo, a menudo podemos explicar su comportamiento con los modelos lineales. Transformación logarítmica
57. Tenga en cuenta que la transformación logarítmica convierte el patrón de crecimiento exponencial a un patrón de crecimiento lineal, y al mismo tiempo convierte la multiplicación (varianza proporcional) de patrones temporales en una suma de patrón estacional (varianza constante) . Transformación logarítmica
58. Requerimiento positivo y la elección de base. La transformación logarítmica se puede aplicar únicamente a los datos que sean estrictamente positivos y no se puede tomar el logaritmo de cero o de un número negativo. Transformación logarítmica
59. Además, hay dos tipos de logaritmos en el uso estándar: logaritmos "naturales" y logaritmos de base 10. La única diferencia entre los dos es una constante de escala, que no es realmente importante para los propósitos de modelado. Transformación logarítmica
60. Primera diferencia de cambio LOG La serie DIFF (log (y)) representa el cambio porcentual en Y de período a período. El cambio porcentual en Y en el período t se define como (Y (t) - Y (t-1)) / Y (t-1). Transformación logarítmica
61. Deflación Descenso del nivel de precios debido, generalmente, a una fase de depresión económica o a otras causas. Pobre deflactor Registro de una serie que a menudo tiene un efecto muy similar a la deflación que amortigua los patrones de crecimiento exponencial. Transformación logarítmica
62. Tendencias en unidades registradas igual al crecimiento porcentual. Por lo general, la tendencia se estima con mayor precisión mediante el ajuste de un modelo estadístico que incluye explícitamente un parámetro de tendencia local o global, como una tendencia lineal o del paso aleatorio con derivada lineal o modelo exponencial. Transformación logarítmica
63. Cuando un modelo de este tipo se utiliza junto con una transformación logarítmica, su parámetro de tendencia puede interpretarse como una tasa de crecimiento porcentual. Transformación logarítmica
64. Errores en las unidades registradas = percentage de error Otra característica interesante del logaritmo es que los errores en la predicción de la serie registrada puede ser interpretado como porcentaje de error en la predicción de la serie original, aunque los porcentajes son relativos a los valores de pronóstico, no los valores reales. Transformación logarítmica
65. Las propiedades estadísticas de porcentaje de error suelen ser muy similares a las del porcentaje del valor real. Transformación logarítmica
66. A los efectos de pronósticos estadísticos, el tipo más simple no trivial de series de tiempo es la que está estacionaria completamente al azar, es decir una serie "White Noise". Modelo del Promedio Constante
67. Un ejemplo es la serie # 1 en la foto: Modelo del Promedio Constante
68. La ecuación de pronóstico para el modelo de promedio es la siguiente: donde la constante estimada (alfa) es la media muestral de Y. Modelo del Promedio Constante
69. La desviación estándar estimada de los errores de pronóstico (el error de pronóstico estándar), lo que determina es el ancho de los límites de confianza en torno a los pronósticos, que es aproximadamente igual a la desviación estándar de la muestra de Y. Modelo del Promedio Constante
70. Este modeloes la piedra angular de una serie de modelos más sofisticados, incluyendo paseo aleatorio y modelos ARIMA. ARIMA es un modelo estadístico que utiliza variaciones y regresiones de datos estadísticos con el fin de encontrar patrones para una predicción hacia el futuro. Modelo del Promedio Constante
71. R. Nau (2005) Decision 411 Forecasting http://www.duke.edu/~rnau/411home.htm Statistics For Business and Economics, Sixth Edition , Dellen/MacMillan. James T. McClave and P. George Benson. Bibliografía