Es material de estudio para la materia Procesamiento Estocástico y Simulación de la carrera Licenciatura en Infomática de la Universidad Blas Pascal (Córdoba -Argentina).
Parte del material me fué facilitado por compañeros que ya terminaron.
1. PES-SanPi
Módulo 1: Pruebas de Hipótesis...........................................................................................................5
REVISIÓN DE ELEMENTOS DE PROBABILIDAD Y ESTADÍSTICA..................................... 5
INTERVALO DE CONFIANZA .....................................................................................................5
Contrastes de hipótesis..................................................................................................................... 7
PROBABILIDADES DE LOS DIFERENTES TIPOS DE ERRORES........................................ 10
Tipos de errores.............................................................................................................................. 10
Ejemplo en la cual se indica el procedimiento para la prueba de hipótesis................................12
Ejemplo...................................................................................................................................12
Ejemplo 2................................................................................................................................13
Distribución chi-cuadrado.............................................................................................................. 14
Distribución t de Student................................................................................................................14
Pruebas sobre la varianza y la media de una normal .................................................................14
Pruebas sobre una proporción ............................................................................................... 15
Pruebas para verificar modelos de probabilidad.................................................................... 15
Pruebas de tablas de contingencia ......................................................................................... 16
Pruebas para comparar poblaciones ...................................................................................... 17
Módulo 2: Simulación........................................................................................................................17
Elementos de un modelo de simulación......................................................................................... 17
Generación de números aleatorios .................................................................................................17
Método de Montecarlo y otras formas de generar variables ......................................................... 18
Simulación de fenómenos de espera.......................................................................................19
Longitud de las corridas ................................................................................................................ 20
Módulo 3: Regresión y Correlación................................................................................................... 20
Modelo lineal general ....................................................................................................................21
Estimación de una recta de regresión.............................................................................................21
Coeficientes de determinación y correlación ................................................................................ 21
Relaciones lineales..................................................................................................................... 22
Prueba t (de Student): ................................................................................................................23
Prueba F (de Fisher)................................................................................................................... 23
Verificaciones gráficas de los residuos: .....................................................................................24
Verificación de errores............................................................................................................24
Módulo 4: Series de Tiempo...............................................................................................................26
Series temporales: definición; comportamientos estacionarios y no estacionarios........................26
Tendencia (T)..............................................................................................................................26
Variaciones estacionales (S)....................................................................................................... 27
Variaciones cíclicas (C) ............................................................................................................. 28
Variaciones irregulares o aleatorias (I).......................................................................................29
Series de tiempo............................................................................................................................. 29
Herramientas para analizar series de tiempo: función de autocorrelación..................................... 32
Identificación y estimación de modelos ........................................................................................ 35
Construcción de modelos de pronóstico.........................................................................................35
Actividades.........................................................................................................................................42
m1 | actividad 1...................................................................................................................................42
m1 | actividad 2...................................................................................................................................48
m1 | actividad 3...................................................................................................................................50
Tipos de errores.............................................................................................................................. 50
m1 | actividad 4...................................................................................................................................51
Pruebas de hipótesis que permiten verificar la elección del modelo..........................................52
Cantidad de Visitas por Día y por Cliente .....................................................................................52
Duración de las Visitas ..................................................................................................................54
1/96
3. PES-SanPi
Procedimientos Estocáticos y Simulación
Módulo 1: Pruebas de Hipótesis
Revisión de elementos de Probabilidad y Estadística. Pruebas de hipótesis:pasos en su realización;
errores tipo I y II; probabilidades de los diferentes tipos de errores. Distribuciones t de Student y
chi-cuadrado. Pruebas sobre la varianza y la media de una normal. Pruebas sobre una proporción.
Pruebas para verificar modelos de probabilidad. Pruebas de tablas de contingencia. Pruebas para
comparar poblaciones. Aplicación: casos de estudio.
Módulo 2: Simulación
Elementos de un modelo de simulación. Generación de números aleatorios. Método de Montecarlo
y otras formas de generar variables. Longitud de las corridas. Resolución de problemas simples.
Transferencia de los conceptos a la resolución de problemas complejos: estudio de casos.
Módulo 3: Regresión y Correlación Modelo lineal general.
Estimación de una recta de regresión. Coeficientes de determinación y correlación. Pruebas de
hipótesis asociadas. Verificaciones gráficas de los residuos. Aplicación a un caso de estudio.
Módulo 4: Series de Tiempo
Series temporales: definición; comportamientos estacionarios y no estacionarios. Herramientas para
analizar series de tiempo: función de autocorrelación. Identificación y estimación de modelos.
Construcción de modelos de pronóstico. Aplicación a un caso de estudio.
3/96
4. PES-SanPi
Módulo 1: Pruebas de Hipótesis
REVISIÓN DE ELEMENTOS DE PROBABILIDAD Y ESTADÍSTICA
Cuando se solicita analizar qué modelo de probabilidad puede ser usado para representar a una
variable determinada:
1. Ver qué tipo de variable es: cualitativa (atributos) o cuantitativa. Si es cuantitativa puede ser
discreta (cantidad finita de valores por ej. conteo, cantidad) o continua (puede tomar
cualquier valor en un intervalo –por ej. tiempo, temperatura, porcentajes-).
2. Sobre la variable se realiza un análisis descriptivo:
a. Método tabular: tablas de frecuencias (cantidad observada, observada acumulada,
relativas –cant/total-, relativas acumuladas, porcentual –relativa*100-, porcentual
acumulada)
Frecuencia Frecuencia Frecuencia Frec. Relat. Frecuencia Frec. Porc.
n
observada acumulada relativa Acumulada porcentual Acumulada
b. Método gráfico gráficos,
i. Datos cualitativos:
1. barras (separadas), y
2. torta (%)
ii. Datos cuantitativos:
1. histogramas,
2. ojivas (acumulada),
3. dispersión,
4. de puntos
c. Cálculo de medidas
i. de ubicación (media, mediana, moda –ésta no se calcula para datos continuos
de series simples-),
ii. de dispersión (rango, varianza, desviación estándar)
iii. de forma (coeficiente de asimetría): distribución sesgada
sesgado a la izquierda sesgado a la derecha
CA<0 CA>0
3. Determinar la distribución de frecuencia
a. Datos discretos: binomial, de Poisson, hipergeométrica
b. Datos continuos: uniforme, normal, exponencial
INTERVALO DE CONFIANZA
Para valorar el posible error de estimar las propiedades poblacionales a partir de cantidad obtenidas
en la muestra.
α σ α σ
Intervalo de confianza para la media ICµ ;...% = x − ( z − ) ; x + (z − ) donde (z-α/2) se
2 n 2 n
toma de tabla de valor de z.
4/96
5. PES-SanPi
Nivel de 99,73 99 98 96 95,45 95 90 80 68,27 50
confianza
Zα/2 3,00 2,58 2,33 2,05 2,00 1,96 1,645 1,28 1,00 0,6745
α .01 .05 .10
α/2 .005 .025 .05
( n − 1) s 2 (n − 1) s 2
Intervalo de confianza para la varianza ICσ ,...% = 2
2
;
x( n − 1)α / 2 x (2n − 1)1− α / 2
(n − 1) s 2 (n − 1) s 2
Intervalo de confianza para el desvío ICσ ,...% = ; 2
x (2n − 1)α / 2 x ( n − 1)1− α / 2
Características de cada distribución
Tipo de variable
Cualitativas
Cuantitativa Discretas Distribuciones discreta de la probabilidad
• Binomial: dos posibilidades (éxito – fracaso). Es la que
maneja la distribución de la probabilidad de obtener cierta
cantidad de éxitos al realizar una cantidad de experimentos
con probabilidad de éxito constante y con ensayos
independientes.
• de Poisson: probabilidad de ocurrencia en un intervalo
especificado de tiempo o espacio.
• Hipergeométrica: como la binomial pero los intentos no son
independientes y con un tamaño de muestra grande en
relación al tamaño de la población.
Continuas Distribuciones continuas de la probabilidad
•
Uniforme: Es la distribución donde todos los
eventos elementales tienen la misma probabilidad.
• Normal: su función de densidad tiene
forma de campana y se determina con la
media y la desviación estándar.
media, mediana y moda cercanas
desvío mucho < a media
coeficiente de asimetría cercano a cero
histograma con forma acampanada
▪ ojiva curva con forma de S
• Exponencial: probabilidad de ocurrencias de un evento en el
tiempo o espacio.
Media > mediana
Mediana > moda
Desvío = media
Coeficiente de asimetría 2
Insesgado . Un estimador es insesgado si el valor promedio o esperanza matemática del estimador
5/96
6. PES-SanPi
es igual al valor del parámetro.
Cuando un estimador es sesgado se puede introducir una corrección que elimine el sesgo.
Consistente . Un estimador es consistente, si a medida que aumenta el tamaño de la muestra, el
valor del estimador se acerca al valor del parámetro.
Eficiente o de varianza mínima . Si se toman dos muestras aleatorias del mismo tamaño
provenientes de la misma población y si con cada una de estas muestras se obtiene un estimador
insesgado, es eficiente el que tenga menor varianza.
Suficiente . Un estimador es suficiente si para calcularlo se utiliza toda la información suministrada
por la muestra.
Parámetros de población Estadísticos de muestra
Media µ x
Varianza σ 2
s2
Desvío estándar σ s
Contrastes de hipótesis
Una hipótesis estadística es una asunción relativa a una o varias poblaciones, que puede ser cierta o
no. Las hipótesis estadísticas se pueden contrastar con la información extraída de las muestras y
tanto si se aceptan como si se rechazan se puede cometer un error.
La hipótesis formulada con intención de rechazarla se llama hipótesis nula y se representa por H0.
Rechazar H0 implica aceptar una hipótesis alternativa (Ha).
La situación se puede esquematizar:
Los pasos necesarios para realizar un contraste relativo a un parámetro θ son:
Paso 1: Plantear la hipótesis nula Ho y la hipótesis alternativa Ha.
Cualquier investigación estadística implica la existencia de hipótesis o afirmaciones acerca de las
poblaciones que se estudian.
La hipótesis nula (Ho) se refiere siempre a un valor especificado del PARÁMETRO DE
POBLACIÓN, no a una estadística de muestra. La letra H significa hipótesis y el subíndice cero no
hay diferencia. Por lo general hay un "no" en la hipótesis nula que indica que "no hay cambio"
Podemos rechazar o aceptar Ho.
La hipótesis nula es una afirmación que no se rechaza a menos que los datos muestrales
proporcionen evidencia convincente de que es falsa. El planteamiento de la hipótesis nula siempre
contiene un signo de igualdad con respecto al valor especificado del parámetro.
1.1. Establecer la hipótesis nula en términos de igualdad
H0: θ = θ0
La hipótesis alternativa (Ha) es cualquier hipótesis que difiera de la hipótesis nula. Es una
afirmación que se acepta si los datos muestrales proporcionan evidencia suficiente de que la
hipótesis nula es falsa. Se le conoce también como la hipótesis de investigación. El planteamiento
6/96
7. PES-SanPi
de la hipótesis alternativa nunca contiene un signo de igualdad con respecto al valor especificado
del parámetro.
1.2. Establecer la hipótesis alternativa, que puede hacerse de tres maneras, dependiendo del interés
del investigador
H0: θ ≠ θ0 θ > θ0 θ < θ0
en el primer caso se habla de contraste bilateral o de dos colas, y en los otros dos de lateral
(derecho en el 2º caso, o izquierdo en el 3º) o una cola.
Paso 2: Seleccionar el nivel de significación: nivel crítico para 〈
Elección de un estadístico de prueba que permita verificar la hipótesis, adopción de una
probabilidad para la zona de rechazo (especificar el nivel de significancia α para la prueba – error
tipo I 〈 pequeña, pero tienden a error tipo II- 〈=generalmente entre .05 y .01) y especificación de
cuáles son los valores de dicho estadístico que conducen a rechazar la hipótesis (establecer regla de
rechazo); SIEMPRE CON PARÁMETROS POBLACIONALES, no muestrales.
nivel de significación: Probabilidad de rechazar la hipótesis nula cuando es verdadera. Se le denota
mediante la letra griega α, también es denominada como nivel de riesgo, este término es mas
adecuado ya que se corre el riesgo de rechazar la hipótesis nula, cuando en realidad es verdadera.
Este nivel esta bajo el control de la persona que realiza la prueba.
Si suponemos que la hipótesis planteada es verdadera, entonces, el nivel de significación indicará la
probabilidad de no aceptarla, es decir, estén fuera de área de aceptación. El nivel de confianza (1-〈),
indica la probabilidad de aceptar la hipótesis planteada, cuando es verdadera en la población.
La distribución de muestreo de la estadística de prueba se divide en dos regiones, una región de
rechazo (conocida como región crítica) y una región de no rechazo (aceptación). Si la estadística de
prueba cae dentro de la región de aceptación, no se puede rechazar la hipótesis nula.
La región de rechazo puede considerarse como el conjunto de valores de la estadística de prueba
que no tienen posibilidad de presentarse si la hipótesis nula es verdadera. Por otro lado, estos
valores no son tan improbables de presentarse si la hipótesis nula es falsa. El valor crítico separa la
región de no rechazo de la de rechazo.
Paso 3: Cálculo del valor estadístico de prueba
Valor determinado a partir de la información muestral, que se utiliza para determinar si se rechaza la
hipótesis nula., existen muchos estadísticos de prueba, para nuestro caso utilizaremos los
estadísticos z y t. La elección de uno de estos depende de la cantidad de muestras que se toman, si
las muestras de la prueba son iguales a 30 o mas se utiliza el estadístico z, en caso contrario se
utiliza el estadístico t.
Tipos de prueba
a) Prueba bilateral o de dos extremos: la
hipótesis planteada se formula con la igualdad
Ejemplo
H0 : µ = 200
7/96
8. PES-SanPi
H1 : µ ≠ 200
b) Pruebas unilateral o de un extremo: la hipótesis planteada se formula con ≥ o ≤
Ho : µ ≥ 200 Ho : µ ≤ 200
Ha : µ < 200 Ha : µ > 200
Muestra grande - ⌠ Conocida
En las pruebas de hipótesis para la media (μ), cuando se conoce
la desviación estándar (σ) poblacional, o cuando el valor de la
muestra es grande (30 o más), el valor estadístico de prueba es z
y se determina a partir de:
Muestra grande - ⌠ Desconocida
El valor estadístico z, para muestra grande y desviación estándar
poblacional desconocida se determina por la ecuación:
Muestra pequeña - σ Desconocida
En la prueba para una media poblacional con muestra pequeña y
desviación estándar poblacional desconocida se utiliza el valor
estadístico t.
Paso 4: Formular la regla de decisión
Se establece las condiciones específicas en la que se rechaza la hipótesis nula y las condiciones en
que no se rechaza la hipótesis nula. La región de rechazo define la ubicación de todos los valores
que son tan grandes o tan pequeños, que la probabilidad de que se presenten bajo la suposición de
que la hipótesis nula es verdadera, es muy remota
8/96
9. PES-SanPi
Distribución muestral del valor estadístico z, con prueba de una cola a la derecha
Valor critico: Es el punto de división entre la región en la que se rechaza la hipótesis nula y la
región en la que no se rechaza la hipótesis nula.
Paso 5: Tomar una decisión.
En este último paso de la prueba de hipótesis, se calcula el estadístico de prueba, se compara con el
valor crítico y se toma la decisión de rechazar o no la hipótesis nula. Tenga presente que en una
prueba de hipótesis solo se puede tomar una de dos decisiones: aceptar o rechazar la hipótesis nula.
Debe subrayarse que siempre existe la posibilidad de rechazar la hipótesis nula cuando no debería
haberse rechazado (error tipo I). También existe la posibilidad de que la hipótesis nula se acepte
cuando debería haberse rechazado (error de tipo II).
PROBABILIDADES DE LOS DIFERENTES TIPOS DE ERRORES
Tipos de errores
Cualquiera sea la decisión tomada a partir de una prueba de hipótesis, ya sea de aceptación de la Ho
o de la Ha, puede incurrirse en error:
Un error tipo I se presenta si la hipótesis nula Ho es rechazada cuando es verdadera y debía ser
aceptada. La probabilidad de cometer un error tipo I se denomina con la letra alfa α
Un error tipo II, se denota con la letra griega β se presenta si la hipótesis nula es aceptada cuando de
hecho es falsa y debía ser rechazada.
En cualquiera de los dos casos se comete un error al tomar una decisión equivocada.
En la siguiente tabla se muestran las decisiones que pueden tomar el investigador y las
consecuencias posibles.
Investigador
Hipotesis nula Se acepta Ho Se rechaza Ho
Ho es verdadera Decisión correcta Error tipo I (α)
Ho es falsa Error tipo II (β) Decisión correcta
(*) Decisión correcta que se busca
α = p(rechazar H0|H0 cierta)
β= p(aceptar H0|H0 falsa)
Potencia =1- β = p(rechazar H0|H0 falsa)
Detalles a tener en cuenta
1. α y β están inversamente relacionadas.
2. Sólo pueden disminuirse las dos, aumentando n.
Para que cualquier ensayo de hipótesis sea bueno, debe diseñarse de forma que minimice los errores
de decisión. En la práctica un tipo de error puede tener más importancia que el otro, y así se tiene a
conseguir poner una limitación al error de mayor importancia. La única forma de reducir ambos
tipos de errores es incrementar el tamaño de la muestra, lo cual puede ser o no ser posible.
La probabilidad de cometer un error de tipo II denotada con la letra griega beta β, depende de la
diferencia entre los valores supuesto y real del parámetro de la población. Como es más fácil
encontrar diferencias grandes, si la diferencia entre la estadística de muestra y el correspondiente
parámetro de población es grande, la probabilidad de cometer un error de tipo II, probablemente sea
pequeña.
El estudio y las conclusiones que obtengamos para una población cualquiera, se habrán apoyado
exclusivamente en el análisis de una parte de ésta. De la probabilidad con la que estemos dispuestos
a asumir estos errores, dependerá, por ejemplo, el tamaño de la muestra requerida. Las
contrastaciones se apoyan en que los datos de partida siguen una distribución normal.
9/96
10. PES-SanPi
Existe una relación inversa entre la magnitud de los errores α y β: conforme a aumenta, β
disminuye. Esto obliga a establecer con cuidado el valor de a para las pruebas estadísticas. Lo ideal
sería establecer α y β.En la práctica se establece el nivel α y para disminuir el Error β se incrementa
el número de observaciones en la muestra, pues así se acortan los limites de confianza respecto a la
hipótesis planteada .La meta de las pruebas estadísticas es rechazar la hipótesis planteada. En otras
palabras, es deseable aumentar cuando ésta es verdadera, o sea, incrementar lo que se llama poder
de la prueba (1- β) La aceptación de la hipótesis planteada debe interpretarse como que la
información aleatoria de la muestra disponible no permite detectar la falsedad de esta hipótesis
Tipo I (α es la probabilidad de cometer error tipo I): en la práctica, la persona que efectúa la
prueba de hipótesis, especifica la máxima probabilidad permisible (llamada nivel de significancia)
para la prueba, de cometer un error de tipo I. Se acostumbran valores .05 y .01 para el nivel de
significancia. Si el costo de cometer un error de tipo I es alto, se debería escoger un valor pequeño
de nivel de significancia. Si el costo no es alto, lo adecuado sería usar un valor mayor (el valor
pequeño de nivel de significancia tiende a error de tipo II).
Tipo II (β es la probabilidad de cometer error tipo II): la probabilidad de un error de tipo II
depende del valor de μ (media de la población). Para valores de μ cercanos a μ 0 (valor supuesto de
la media de población), la probabilidad de cometer error tipo II puede ser alta.
Debido a la incertidumbre de cometer un error tipo II, en estadística se recomienda usar la
redacción “no rechazar Ho” en lugar de “aceptar Ho” lo que implica la recomendación de detener
cualquier juicio y acción. (ver pag 364)
Pasos:
• Formular Ho y Ha.
• Usar el nivel de significancia α para establecer la regla de rechazo, basado en el estadístico de
prueba z.
• Despejar el valor de la media de la muestra x .
• Usar medias más bajas y estimar la probabilidad de que el punto medio muestral real sea mayor.
• La probabilidad de rechazar correctamente Ho cuando es falsa, se llama potencia de la prueba
(1-β).
Valor p (nivel observado de significancia para la prueba): si el valor p es menor que el nivel de
significancia α (p< α), se puede rechazar la hipótesis nula (Ho). Rechazar Ho si p< α.
1. Se toma el valor de Z o de T, se busca en la tabla de distribución normal estándar,
2. Se resta p= 0.5000 – valor de tabla (si es prueba bilateral p=(0.5000 – valor de tabla)*2,
3. Se rechaza o no Ho si p< α
Controlando el tamaño de la muestra, es posible manejar la probabilidad de cometer error tipo I y
II.
( zα + z β ) 2 σ 2
n=
(µ 0 − µ a ) 2
10/96
11. PES-SanPi
Ejemplo en la cual se indica el procedimiento para la prueba de
hipótesis
Ejemplo
El jefe de la Biblioteca Especializada de la Facultad de Ingeniería Eléctrica y Electrónica de la
UNAC manifiesta que el número promedio de lectores por día es de 350. Para confirmar o no este
supuesto se controla la cantidad de lectores que utilizaron la biblioteca durante 30 días. Se considera
el nivel de significancia de 0.05
Datos:
Día Usuarios Día Usuarios Día Usuario
1 356 11 305 21 429
2 427 12 413 22 376
3 387 13 391 23 328
4 510 14 380 24 411
5 288 15 382 25 397
6 290 16 389 26 365
7 320 17 405 27 405
8 350 18 293 28 369
9 403 19 276 29 429
10 329 20 417 30 364
11/96
12. PES-SanPi
Solución: Se trata de un problema con una media poblacional: muestra grande y desviación estándar
poblacional desconocida.
Paso 01: Seleccionamos la hipótesis nula y la hipótesis alternativa
Ho: μ═350
Ha: μ≠ 350
Paso 02: Nivel de confianza o significancia 95%
α═0.05
Paso 03: Calculamos o determinamos el valor estadístico de prueba
De los datos determinamos: que el estadístico de prueba es t, debido a que el numero de muestras es
igual a 30, conocemos la media de la población, pero la desviación estándar de la población es
desconocida, en este caso determinamos la desviación estándar de la muestra y la utilizamos en la
formula reemplazando a la desviación estándar de la población.
Calculamos la desviación estándar muestral y la media:
Media 372.8
Desviación estándar 52.4143965
Paso 04: Formulación de la regla de decisión.
La regla de decisión la formulamos teniendo en cuenta que esta es una prueba de dos colas, la mitad
de 0.05, es decir 0.025, esta en cada cola. el área en la que no se rechaza Ho esta entre las dos colas,
es por consiguiente 0.95. El valor critico para 0.05 da un valor de Zc = 1.96.
Por consiguiente la regla de decisión: es rechazar la hipótesis nula y aceptar la hipótesis alternativa,
si el valor Z calculado no queda en la región comprendida entre -1.96 y +1.96. En caso contrario no
se rechaza la hipótesis nula si Z queda entre -1.96 y +1.96.
Paso 05: Toma de decisión.
En este ultimo paso comparamos el estadístico de prueba calculado mediante el Software Minitab
que es igual a Z = 2.38 y lo comparamos con el valor critico de Zc = 1.96. Como el estadístico de
prueba calculado cae a la derecha del valor critico de Z, se rechaza Ho. Por tanto no se confirma el
supuesto del Jefe de la Biblioteca.
Conclusiones:
Se rechaza la hipótesis nula (Ho), se acepta la hipótesis alterna (Ha) a un nivel de significancia de α
= 0.05. La prueba resultó ser significativa.
La evidencia estadística no permite aceptar la aceptar la hipótesis nula.
Ejemplo 2
Genero n Media Desvio SE mean
Femenino 181 72847 37773 2808
Masculino 229 75734 32320 2136
Diferencias de medias 2887
12/96
13. PES-SanPi
Distribución chi-cuadrado
• Como test de independencia: para determinar si 2 variables son independientes.
• Como test de bondad de ajuste: para determinar si se rechaza una distribución hipotética de
probabilidades para una población.
• Para estimar la varianza de una población normalmente distribuida.
Distribución t de Student
• Para estimar la media de una población normalmente distribuida cuando el tamaño de la muestra
es pequeño.
• Cuando se desconoce la desviación de una población y debe ser estimada con lo datos de la
muestra.
Pruebas sobre la varianza y la media de una normal
Prueba unilateral
A la derecha: Rechazar Ho si χ > χ α2 (varianza) z > zα t > tα (media)
2
• o o
µ
zona de rechazo
• A la izquierda: Rechazar Ho si χ
2
< χ 12− α (varianza) o z < − zα o t < − tα (media)
µ
zona de rechazo
Prueba bilateral
Rechazar Ho si
• Varianza: χ > χ α / 2 o χ < χ 1− α / 2
2 2 2 2
• Media: z > zα / 2 o z < − zα / 2 o t > tα /2 o t < − tα /2
µ
zonas de rechazo
VARIANZA (chi-cuadrado): para saber si se obtuvieron los valores muestrales por casualidad
1. Hipótesis Ho y Ha
(n − 1) s 2
2. Estadístico de prueba χ 2 =
σ 2
3. Regla de rechazo: Rechazar Ho si χ ...χ α
2 2
4. Cálculo (estimación del estadístico con los datos de la muestra)
5. Contraste y decisión (rechazar o no rechazar Ho)
MEDIA (t de Student): para saber si se obtuvieron los valores muestrales por casualidad
13/96
14. PES-SanPi
1. Hipótesis Ho y Ha
2. Estadístico de prueba:
x− µ x− µ
a. n ≥ 30 z= o z=
σ / n s/ n
x− µ x− µ
b. n < 30 z= o t=
σ / n s/ n
3. Regla de rechazo: Rechazar Ho si z...zα (este último es según valor en TABLA)
4. Cálculo (estimación del estadístico con los datos de la muestra)
5. Contraste y decisión (rechazar o no rechazar Ho)
Pruebas sobre una proporción
p − p0
El estadístico para pruebas respecto a una proporción poblacional es z =
σ p
proporción p (1 − p )
donde p es la proporción poblacional dada, p = y σ p =
total n
Pruebas para verificar modelos de probabilidad
Pruebas de hipótesis que permiten verificar la elección del modelo
A fin de realizar estas verificaciones, los investigadores han desarrollado dos pruebas de hipótesis,
la de Kolmogorov y la chi-cuadrado de Pearson.
• Prueba de hipótesis Chi-cuadrado de Pearson TABLA
La prueba de bondad de ajuste chi-cuadrado: al decidir la cantidad de intervalos a utilizar, es
conveniente trabajar con la mayor cantidad posible, porque de esa cantidad dependen directamente
los grados de libertad del estadístico.
Sin embargo, como contrapartida, todas las frecuencias esperadas deben ser mayores que cinco (5),
porque de otro modo se tiende a rechazar injustamente la hipótesis.
El problema es que al aumentar la cantidad de intervalos se disminuyen las frecuencias esperadas.
Una solución de compromiso se obtiene mediante una clasificación inicial en muchos intervalos y
un posterior agrupamiento de aquellos intervalos cuyas frecuencias esperadas sean demasiado
pequeñas.
Por su parte, la prueba de bondad de ajuste chi-cuadrado de Pearson permite, al igual que la de
Kolmogorov, analizar si un modelo representa correctamente el comportamiento de una variable,
con la ventaja de que es aplicable tanto a variables discretas como continuas. A fin de experimentar
con esta herramienta proponemos su aplicación en el siguiente problema. Para muestras de más de
50 datos.
1. Hipótesis Ho y Ha
( f i − ei ) 2 (ni − fei ) 2
2. Estadístico de prueba χ 2
= ∑ o χ
2
= ∑
ei fei
3. Tabla de distribución
Datos individuales
Frecuencia Probabilidad Frecuencia esperada (fe) (ni − fe) 2
x
(ni) (según tabla) Po ni*po fe
No pueden ser valores menores
14/96
15. PES-SanPi
a 5. Se deben agrupar. Sumatoria = x2
Datos agrupados
x− x
( ) (x es
s
Frecuencia el valor del Probabilidad
Frecuencia (ni − fe) 2
Intervalo límite mayor esperada (fe)
(ni) (según tabla) Po fe
en el intervalo) n*po
Límite Límite
menor mayor
* del límite mayor
Sumatoria = x2
rango
* Cantidad de intervalos: n amplitud de cada intervalo:
n
4. Regla de rechazo: Rechazar Ho si χ 2 > χ (2k − ...;α ) donde k es la cantidad de categorías o
intervalos
a. Grados de libertad: k-1: para distribución multinomial
b. Grados de libertad: k-2: para distribución de Poisson
c. Grados de libertad: k-3: para distribución normal
5. Cálculo
6. Contraste y decisión (rechazar o no rechazar Ho)
• Kolmogorov TABLA
Para muestras menores a 50 datos. Sólo datos continuos.
Prueba de Smirnov - Kolmogorov - Valores individuales. Para realizar la prueba de S-K no se
requiere que las observaciones estén distribuidas en intervalos de clase, sino que puede realizarse
sin agrupar los valores en intervalos de clase, principalmente cuando el tamaño de la muestra es
pequeño. En este caso es necesario ordenar los valores en forma ascendente, de menor a mayor, y
calcular, para cada valor observado las distribuciones teóricas F(Xi) y empíricas Sn(Xi).
1. Hipótesis Ho y Ha
2. Estadístico de prueba valor =máx | sn - fo|
3. Regla de rechazo: Rechazar Ho si valor > valorn;α (tabla)
4. Cálculo de una tabla
Frecuencia Sn x− x Fo
Intervalo
(ni) (ni/total)
Sn acumulado z= (tabla)
Sn-fo
s
5. Contraste y decisión (rechazar o no rechazar Ho)
Pruebas de tablas de contingencia
En el análisis de variables cualitativas (atributos) no se utilizan medidas como la media o la
varianza. En estos casos, nuestra atención debe enfocarse hacia el modo en que se distribuyen los
valores de la variable.
Para este ítem se debe utilizar la prueba de tabla de contingencia. Se trata de una prueba chi-
cuadrado que permite analizar si dos atributos pueden considerarse independientes entre sí.
15/96
16. PES-SanPi
Prueba de independencia (chi-cuadrado)
1. Hipótesis Ho y Ha
( f i − ei ) 2
2. Estadístico de prueba y Tabla χ = ∑
2
ei
Frecuencia esperada eij ( fij − eij ) 2
fij
(Suma renglón*suma columna)/total eij
Sumar la columna = x2
Datos individuales
1. Regla de rechazo: Rechazar Ho si χ 2 > χ α2 (los grados de libertad se calculan = cantidad
de renglones – 1 * cantidad de columnas – 1 )
2. Cálculo
3. Contraste y decisión (rechazar o no rechazar Ho)
Pruebas para comparar poblaciones
Módulo 2: Simulación
Elementos de un modelo de simulación
Se plantea
• Objetivo
• Variable exógena: es externa al sistema, no puede ser controlada por este. Sus variaciones
afectan a los resultados.
• Variable de resultado: es representativa de la salida del sistema, está condicionada por sus
actividades.
• Parámetro
• Programa
• Resumen
• Criterio de decisión
Generación de números aleatorios
Con la calculadora para generar un número aleatorio entre 0.000 y 0.999 se presiona SHIFT-RAN#
Dependen de la distribución
Método de Montecarlo Método Algoritmo del Teorema del Límite Central
• Variables cualitativas (atributos) • Variable continua: NORMAL
• Variable discreta: POISSON
• Variable continua: EXPONENCIAL
Variables cualitativas (método de Montecarlo)
Atributo Probabilidad Probabilidad Acumulada
16/96
17. PES-SanPi
1. se genera número random con calculadora.
2. se busca la primer probabilidad acumulada que supera el número random
3. se toma el atributo correspondiente
Variables cuantitativa-discreta-POISSON (método de Montecarlo)
Con valor de media µ
x Probabilidad según tabla de Probabilidad
Poisson Acumulada
1. se genera número random con calculadora.
2. se busca la primer probabilidad acumulada que supera el número random
3. se toma el valor de x correspondiente
Variables cuantitativa-continua-EXPONENCIAL (método de Montecarlo)
Con valor de media µ
Distribución acumulada exponencial: x = − µ * ln[1 − random]
Donde ln es logaritmo natural (en la calculadora es ln)
Variables cuantitativa-continua-NORMAL (método de Algoritmo del Teorema del Límite Central)
Con valor de media µ y desvío estándar σ
1. se generan con calculadora 12 números random.
2. se suman
3. z = ∑ random − 6
4. x = µ + z * σ
Método de Montecarlo y otras formas de generar variables
Para representar la evolución de un sistema a lo largo del tiempo.
• Montecarlo
Sólo con variables con probabilidades acumuladas (Poisson, exponencial) y variables cualitativas
1. se construye una tabla de probabilidades acumuladas con la variable (en general se hace con
100-200)
Variable aleatoria Probabilidad Probabilidad
(exógena) (tabla) acumulada
Unos 12 números
2. se genera con la calculadora un número random y se busca la primera probabilidad
acumulada que es mayor al número random.
3. Se calcula el desvío estándar de la variable de resultado (unos 20 renglones)
4. Longitud de las corridas (una corrida es la aplicación del modelo de simulación para obtener
una muestra de la variable resultado): se calcula n con el desvío obtenido, eligiendo un error
(en general es .10 o menos) y un nivel de confianza (por ejemplo 95% corresponde z=1.96,
o se puede usar 2 para redondear)
σ σ 2
Cálculo de n: Si el error de aproximación es ε = ± Z σ al despejar n que da n = ( zα / 2 ) siendo
n ε
σ el desvío, Z con el nivel de confianza elegido por el usuario se toma de la tabla y el valor de ε lo
elije el usuario.
Valores de Zα/2 para los niveles de confianza de uso más común
Nivel de confianza α α/2 Zα/2
90% .10 .05 1.645
17/96
18. PES-SanPi
95% .05 .025 1.96
99% .01 .005 2.576
5. Se presenta un resumen de los resultados
6. Se presentan con tablas.
7. Se toma una decisión
Resumen: se generan m series (corridas) de n valores (se debe calcular la longitud de las corridas),
luego se calcula x de las m series, la que se aproxima a la x real con un error dado.
• Algoritmo del Teorema del Límite Central
Para variable continua con distribución NORMAL
1. Se generan 12 números random y se los suma.
2. se averigua el valor z=(suma de los random)-6
3. Obtener normal deseada: X=media+z*desvío
4. Se hace tabla
Variable aleatoria
Nro de orden Frecuencia relativa
(ordenada de menor a mayor)
5. Se busca el valor con frecuencia acumulada más cercano a la proporción buscada.
6. se calcula n con la proporción buscada, eligiendo un error y un nivel de confianza. (longitud
de las corridas).
Z p (1 − p)
Cálculo de n: Si el error de aproximación es ε = ± al despejar n queda
n
z p (1 − p ) 2
n = ( α /2 ) siendo p la proporción poblacional, Z con el nivel de confianza elegido por el
E
usuario se toma de la tabla y el valor de ε lo elije el usuario.
Valores de Zα/2 para los niveles de confianza de uso más común
Nivel de confianza α α/2 Zα/2
90% .10 .05 1.645
95% .05 .025 1.96
99% .01 .005 2.576
7. Se presenta un resumen de los resultados
8. Se presentan con tablas.
9. Se toma una decisión
Simulación de fenómenos de espera
Se debe tener en cuenta:
• La secuencia en que se producen las llegadas. La estrategia habitual es trabajar con series largas
(1000 ó 2000 valores) y utilizar varias secuencias (por lo menos 5). Luego los promedios
resumen los resultados.
• Las condiciones iniciales adoptadas. Generalmente se hacen unos 100 pasos de cálculo iniciales
para estabilizar el sistema e independizarlo de las condiciones iniciales. El tramo inicial no se
considera en las estadísticas.
σ σ 2
Cálculo de n: Si el error de aproximación es ε = ± Z α / 2 al despejar n que da n = ( zα / 2 )
n ε
siendo σ el desvío, Z con el nivel de confianza elegido por el usuario se toma de la tabla y el valor
de ε lo elije el usuario.
18/96
19. PES-SanPi
Valores de Zα/2 para los niveles de confianza de uso más común
Nivel de confianza α α/2 Zα/2
90% .10 .05 1.645
95% .05 .025 1.96
99% .01 .005 2.576
Longitud de las corridas
Promedio
σ
n > ( zα /2 ) 2 z se toma de TABLA de valores zα /2
error
Frecuencia relativa acumulada
zα proporción (1 − proporción) 2
n> ( /2
) z se toma de TABLA de valores zα /2
error
Módulo 3: Regresión y Correlación
La relación entre 2 o más variables de tipo cuantitativo se analiza con herramientas de regresión y
correlación. Por ej. La relación entre peso y altura (son dos variables relacionadas).
1. Se adquiere la muestra
2. Se puede representar en un gráfico de dispersión (para suponer si existe una relación lineal
entre las variables).
y
ordenada
al origen
x
Se puede representar formalmente la relación y = α + β x + ε
Donde:
• α es la ordenada al origen
• β es la pendiente de la recta
• ε es la variación aleatoria (se supone con distribución normal, media cero, y cierta varianza). Se
verifica con gráfica de probabilidad normal (ver verificaciones gráficas de los residuos).
La media se representa por la recta y = α + β x (Cuando se habla de promedio es y = b0 + b1 x )
ˆ
Para estimar la media y la varianza (en la relación entre 2 o más variables) se usa el método de los
mínimos cuadrados (para encontrar la recta que reduce al mínimo la suma de cuadrados de los
errores).
mín ∑ ( y i − y i ) 2 (donde y es el valor observado, e y es el valor estimado)
ˆ ˆ
Este método devuelve algún modelo PERO no se asegura que sea confiable. Por ello se realizan
verificaciones sobre el modelo:
• Verificación de errores (o residuos): para ver si es conceptualmente correcto (con tablas de
cálculos y gráficos)
• Validación de los términos del modelo: distribución t de Student y F de Fisher
• Valoración de la capacidad predictiva del modelo: coeficiente de determinación
19/96
20. PES-SanPi
Modelo lineal general
Modelo de regresión lineal simple: aplicando el análisis de regresión se puede plantear una ecuación
que muestre cómo se relaciona la variable dependiente y con la variable independiente x.
El modelo de regresión y = β 0 + β 1 x + ε
Ecuación de regresión ε ( y ) = β 0 + β 1 x
Parámetros desconocidos βo y β1
Con los datos de la muestra
x y
Ecuación estimada de regresión y = b0 + b1 x
ˆ
Estadísticos de la muestra bo y b1 → proporcionan los estimados de Bo y B1
∑ xy − (∑ x ∑ y ) / n
b1 = b0 = y − b1 x
∑ x 2 − (∑ x) 2 / n
Observación: al estimado b1 con la calculadora se deben manejar tantos dígitos significativos
como sea posible en los pasos intermedios. Se recomienda usar, cuando menos, 4 dígitos
significativos.
Estimación de una recta de regresión
Cálculo de ecuación de regresión sin utilizar una ordenada al origen, usando el criterio de los
cuadrados mínimos:
mín ∑ e 2 = ( y i − bx) 2
d ∑ ( y − bx) 2
= − 2 ∑ ( y − bx) x
db
∑ yx
− 2 ∑ ( yx − bx) 2 = 0 despejando b se tiene b =
∑ x2
A partir de esta fórmula se puede calcular b.
Coeficientes de determinación y correlación
Coeficiente de determinación: Valoración de la capacidad predictiva del modelo
SSR
r2 =
SST
Suma de cuadrados debida a regresión SSR = ∑ ( y − y )
2
• ˆ → variacion explicada
∑ yi
donde y = b0 + b1 x
ˆ y=
n
Suma total de cuadrados SST = ∑ ( y − y ) o SST=SSR+SSE
2
•
• Suma de cuadrados debida al error SSE = ∑ ( y − y )
ˆ 2 → variacion inexplicada.
La relación SSR/SST puede asumir valores entre cero y uno (el coeficiente de determinación da una
medida entre 0 y 1), y se usa para evaluación de la bondad de ajuste para la ecuación de regresión.
Se evalúa la capacidad predictiva del modelo. Por ej. r 2 = 0.88 -> 88% de acierto
20/96
21. PES-SanPi
Coeficiente de correlación rxy = ( signob1 ) r 2
El coeficiente de correlación de Pearson es un índice estadístico que mide la relación lineal entre
dos variables cuantitativas. A diferencia de la covarianza, la correlación de Pearson es
independiente de la escala de medida de las variables.
El cálculo del coeficiente de correlación lineal se realiza dividiendo la covarianza por el producto
de las desviaciones estándar de ambas variables:
En el caso de una relación lineal entre dos variables, el coeficiente de determinación y el coeficiente
de correlación permiten tener medidas de la intensidad de una relación. El coeficiente de
determinación da una medida entre 0 y 1, mientras que el coeficiente de correlación da una medida
entre -1 y +1.
• Un valor de +1 indica que las dos variables (x e y) tienen una relación lineal positiva perfecta
(todos los puntos de datos están en una línea recta con pendiente positiva).
• Un valor de -1 indica que las dos variables (x e y) tienen una relación lineal negativa perfecta
(todos los puntos de datos están en una línea recta con pendiente negativa).
• Un valor de cercano a 0 indica que las dos variables (x e y) no tienen una relación lineal (ver
pruebas de hipótesis de significancia)
El coeficiente de correlación se restringe a una relación lineal entre dos variables.
Relaciones lineales
• Positiva: la pendiente B1 es positiva (B1>0) E(y)
Orientada al
origen Bo la pendiente
B1 es positiva
x
• Negativa: la pendiente B1 es negativa (B1<0)
E(y)
Orientada al la pendiente B1
origen Bo es negativa
• No hay relación: la pendiente B1 es cero (B1=0)
E(y) x
la pendiente B1
Orientada al es cero
origen Bo
x
Pruebas de hipótesis asociadas: Validación de los términos del modelo
Pruebas de hipótesis: para determinar si el valor de β1 es cero.
Pruebas de significancia: la ecuación de regresión lineal simple ( y = β 0 + β 1 x + ε ) indica que el
21/96
22. PES-SanPi
valor medio (ŷ) o esperado de y es una función lineal de x.
• Si el valor de β1 es cero,
ε ( y) = β 0 + β 1 x
ε ( y ) = β 0 + (0) x = β 0
ˆ
El valor medio de y ( y ) no depende del valor de x y en consecuencia se concluye que x e y no
tienen relación lineal.
• Si el valor de β1 no es igual a cero, se concluye de que las dos variables se relacionan.
Prueba t (de Student):
sólo se puede usar cuando hay 1 variable independiente
El modelo de regresión lineal simple es y = β 0 + β 1 x + ε . Si x e y tienen relación lineal, debe
suceder que β 1 ≠ 0 . Con la Prueba t se ve si se puede concluir que β 1 ≠ 0 . Ésta debe indicar la
misma conclusión que la prueba F.
Hipótesis: Ho: β 1 = 0 Ha: β 1 ≠ 0
• Si se rechaza Ho, la conclusión será que β 1 ≠ 0 y que hay una relación estadísticamente
significativa entre las dos variables.
• Si no se puede rechazar Ho, no hay la evidencia suficiente para decir que existe una relación
significativa.
b1
Estadístico de prueba: t =
sb1
s
Desviación estándar estimada de b1: sb1 =
∑ x − (∑ x) 2 / n
2
SSE
Error estándar del estimado: s = MSE =
n− 2
Regla de rechazo: Rechazar Ho si t<-tα/2 o t>tα/2
Donde tα/2 se basa en una distribución t con n-2 grados de libertad.
Observación: cuando se realiza la prueba t para calcular la ordenada al origen (b0) tα/2 el valor del
nivel de significancia α se calcula para el lado izquierdo, por ejemplo: nivel de significancia 0.05
que se debe dividir por 2=0.025, a eso debo hacer 1-0.025= 0.975
Prueba F (de Fisher)
También se puede usar la prueba F para probar si la regresión es significativa (si existe una relación
significativa). Ésta debe indicar la misma conclusión que la prueba t.
Pero cuando hay más de una variable independiente sólo se puede usar la prueba F para ver si
hay una relación significativa general.
Hipótesis: Ho: β 1 = 0 Ha: β 1 ≠ 0
MSR
Estadístico de prueba: F =
MSE
MSR: SSR/1 MSE: SSE/n-2
Regla de rechazo: Rechazar Ho si F> Fα
Donde Fα se basa en una distribución F con 1 grado de libertad en el numerador y n-2 grados de
22/96
23. PES-SanPi
libertad en el denominador.
Fuente de Grados de Estadístico de
Suma de cuadrados Cuadrado medio
variación libertad prueba F
SSR (suma de SSR
Regresión cuadrados debida a 1 MSR =
regresión) 1
SSE (suma de MSR
SSE F=
Error cuadrados debida al n-2 MSE = MSE
error) n− 2
SST (suma total de
Total n-1
cuadrados)
Verificaciones gráficas de los residuos:
Verificación de errores
Residual en la observación i y i − y i
ˆ
El i-ésimo residual es el error debido al uso de la ecuación de regresión para predecir el valor de y.
x y Valor estimado y = b0 + b1 x
ˆ Residuales y − y ˆ
Se usa para determinar si son adecuados los supuestos que se hicieron sobre el modelo de regresión
(si es adecuado el modelo supuesto de regresión).
Los residuales dan información acerca de ε. Para describir si las hipótesis acerca de ε son adecuadas
se realizan análisis de residuales:
• Gráfica de residuales en función de x (los valores de x se
Residual
representan en el eje horizontal y los residuales en el eje Patrón adecuado
vertical. Se grafica un punto para cada residual.)
o Si la hipótesis de que la varianza de ε es igual para
todos los valores de x, la gráfica debe mostrar un patrón 0
similar a una banda horizontal de puntos.
x
o Si la varianza de ε no es igual para todos los valores de x.
Residual varianza no constante
0
x
o O puede que se llegue a la conclusión de que el forma inadecuada
Residual del modelo
modelo no es una representación adecuada de la
relación entre las variables.
0
x
23/96
24. PES-SanPi
• ˆ ˆ
Gráfica de residuales en función de y (los valores de y se representan en el eje horizontal y los
residuales en el eje vertical. Se grafica un punto para cada residual.)
Su aspecto es igual que el de la gráfica de residuales en función residual
de x.
0
y
ˆ
• Gráfica de residuales estandarizados
residual
Desviación estándar del i-ésimo residual s y − y = s 1 − h siendo s y − y
ˆ ˆ estandarizado
la desviación estándar del residual i, s el error estándar del estimado
0
1 (x − x)2
y h= +
n ∑ (x − x)2
y− y ˆ x
Residual normalizado para la observación i
s y− y
ˆ
Al trabajar con una gráfica de residuales estandarizados cabe esperar que, aproximadamente el 95%
de los residuales estandarizados están entre -2 y +2.
Residual
estandarizado
(x − x)2 1 (x − x)2 o normalizado
i x x− x (x − x)2 h= + s y− y = s 1 − h
ˆ y− y
ˆ
∑ (x − x)2 n ∑ (x − x)2 y− y ˆ
s y− y
ˆ
• Gráfica de probabilidad normal
Para determinar la validez de la hipótesis que el término de error tiene distribución normal.
Si se satisface la hipótesis de normalidad, el residual estandarizado mínimo debe estar cerca del
mínimo punto normal, el residual siguiente al mínimo debe estar cerca del punto normal siguiente al
máximo, y así sucesivamente.
Residual Residual estandarizado residual − media
i x y
estandarizado ordenado desvío
Si se trazara una gráfica, los puntos deberían agruparse estrechamente cerca de una línea a 45º que
pase por el origen:
o En general mientras más cerca estén los puntos de la línea a 45º, es mayor la evidencia
que respalda el supuesto de normalidad.
Residuales línea a 45º
estandarizados
Escalas normales
24/96
25. PES-SanPi
o Cualquier curvatura apreciable en la gráfica de probabilidad normal se considera como
prueba de que los residuales no provienen de una distribución normal.
Módulo 4: Series de Tiempo
Series temporales: definición; comportamientos estacionarios y no
estacionarios
Se denomina PROCESO a cualquier fenómeno que cambia o evoluciona con el tiempo.
Un proceso estocástico es un fenómenoestadístico que varía con el tiempo. Entonces para cada
instante de tiempo t se tiene una variable aleatoria Zt. El conjunto de variables ; {Z1, Z2, ….Zn} se
denomina proceso estocástico. Si en cada instante t se realiza una extracción al azar de la variable
Zt, se obtiene un conjunto de observaciones del proceso estocástico.
Este conjunto de observaciones se denomina SERIE DE TIEMPO.
Series de tiempo: es un conjunto de observaciones de una variable realizadas a intervalos regulares
y ordenadas conforme a su aparición cronológica.
Las series de tiempo se suelen presentar por medio de una ecuación matemática que describa los
valores de la variable observada como una función del tiempo, es decir (Y =f(t)).
Las series se registran habitualmente como un conjunto de pares ordenados de valores, con el
tiempo expresado en forma de indicadores: 1; 2; 3; …
t Zt
1
2
3
Gráficamente se representa en un par de ejes coordenados (en abscisas se representa el tiempo y en
las ordenas los valores observados de la variable).
Existen diferentes métodos para analizar una serie de tiempo, siendo uno de ellos el modelo de
descomposición , el cual considera que la serie está compuesta de cuatro patrones básicos: la
tendencia (T), las variaciones estacionales (S), las variaciones cíclicas (C) y las variaciones
irregulares o aleatorias (I). Por lo tanto, interesa:
• Comportamiento histórico de la variable: si existen patrones de comportamiento o si la serie
tiene una elevada aleatoriedad.
o Series estacionarias: conservan sus propiedades a lo largo del tiempo (media, varianza y
covarianza interna)
o Series no estacionarias: pueden presentar diferentes tipos de cambios que en general resultan
predecibles, sistemáticos.
Tendencia: orientación general de la serie (ascendente o descendente)
Fluctuación estacional: comportamiento aproximadamente periódico (en períodos
menores al año)
• Pronóstico: se asume que los comportamientos de los datos en el pasado seguirán
manifestándose en el futuro.
Tendencia (T)
Es la componente que indica la evolución de la variable a través del tiempo, evolución que se va a
medir como un crecimiento o descenso constante en un período de tiempo prolongado. El período
de observación de la variable ha de ser suficientemente largo como para incluir dos o más ciclos
económicos y así poder tener una idea sobre la evolución real de la variable. Lo que mide la
25/96
26. PES-SanPi
tendencia es la variación promedio de la variable por unidad de tiempo. Esta tendencia se suele
describir mediante una recta o algún tipo de curva lisa.
En la figura siguiente se puede observar que a pesar de tener altibajos durante todo el período de
observación, la tendencia (T) de las tasas de desempleo es a disminuir.
Variaciones estacionales (S)
Corresponde a los movimientos en una serie de tiempo, que ocurren año tras año en los mismos
meses o períodos del año poco más o menos con la misma intensidad. También se aplica la
variación estacional a otros movimientos periódicos por naturaleza, como los que ocurren en un día,
una semana o un mes, cuyo período es como máximo un año.
Entre los factores más importantes que originan variaciones estacionales, se encuentran las
condiciones climáticas, las costumbres sociales y las fiestas religiosas. Las climáticas son la causa
más importante de las variaciones estacionales en la producción agrícola, la construcción y el
turismo.
26/96
27. PES-SanPi
En la figura puede observarse que generalmente el PIB en los meses de noviembre y diciembre está
en su punto máximo y en los meses de enero, marzo y junio en su punto mínimo, presentándose
más o menos el mismo comportamiento todos los años. La situación descrita se considera una
variación estacional.
Existen diversas razones para calcular las variaciones estacionales; si se sabe que los precios de
algunos artículos tienen una fluctuación caracteristica, es posible comprar en época de precio bajo y
reservar los artículos para su posterior empleo o venta. Antes de tomar una decisión a este respecto
debe tenerse en cuenta el costo de almacenamiento y otros costos que impliquen la operación.
Una razón para medir los movimientos estacionales es la de ajustar los datos estadísticamente
respecto a tales movimientos, quedando así las series compuestas únicamente por la tendencia, los
movimientos cíclicos y las variaciones aleatorias. Los datos en esa forma son más fáciles de
interpretar para muchos fines, por disminuir la probabilidad de error en la apreciación de la causa de
cualquier movimiento observado. Por ejemplo, si no se han ajustado los datos, puede tomarse un
alza estacional por una mejora en la condición del negocio o viceversa.
Los índices estacionales son las medidas de las variaciones estacionales en la marcha de cualquier
variable. Al hacer los análisis de las variaciones estacionales se deben utilizar como máximo
datos trimestrales o semestrales.
Variaciones cíclicas (C)
Son los movimientos ascendentes y descendentes de la variable, los cuales difieren de las
variaciones estacionales en que se extienden por períodos de tiempo más o menos largos (2 o más
años) y, supuestamente, resultan de un conjunto de causas totalmente diferentes que en general son
de naturaleza económica y reflejan el estado de las actividades comerciales de tiempo en tiempo.
Los períodos recurrentes de expansión, cúspide, contracción y sima constituyen las 4 fases de un
ciclo y se consideran causados por factores diferentes del clima y las costumbres sociales que
contribuyen a las variaciones estacionales. La principal diferencia entre las variaciones cíclicas y las
estacionales es que en las estacionales la periodicidad es de un año como máximo, mientras que en
las cíclicas esta periodicidad es mayor; por esta razón para detectar las variaciones cíclicas se debe
tener una serie suficientemente larga.
27/96
28. PES-SanPi
Variaciones irregulares o aleatorias (I)
Se deben a razones aleatorias o esporádicas y por lo tanto impredecibles. No obstante, estos sucesos
se pueden reconocer e identificar fácilmente. Las variaciones aleatorias son de dos clases:
a) variaciones provocadas por acontecimientos especiales, como elecciones, guerras,
inundaciones, terremotos, huelgas, etc.
b) variaciones aleatorias o por casualidad, cuyas causas no se pueden señalar en forma exacta.
Las variaciones aleatorias a menudo son poco importantes y se suelen considerar como parte de las
estacionales o cíclicas o simplemente se las ignora.
Series de tiempo
Una serie de tiempo es un conjunto de observaciones de una variable, realizadas a intervalos
regulares y ordenadas conforme a su aparición cronológica. Bajo esta definición se pueden
encuadrar, por ejemplo, las ventas mensuales de una empresa o el consumo anual de energía
eléctrica en una ciudad.
Las series se registran habitualmente como un conjunto de pares ordenados de valores, con el
tiempo expresado en forma de indicadores: 1, 2, 3, ... Para ejemplificar, podemos plantear el caso de
una empresa cuyas ventas en los últimos años han sido las siguientes:
t Zt
1 25
2 28
3 29
4 30
5 33
6 32
7 34
8 34
9 36
10 35
Este concepto admite una representación gráfica en un par de ejes coordenados, donde en las
abscisas se representa el tiempo, y en las ordenadas los valores observados de la variable. La gráfica
de la serie anterior es la siguiente:
28/96
29. PES-SanPi
La Estadística ha orientado una parte muy importante de su trabajo al desarrollo de métodos y
modelos que permiten estudiar las series temporales. Ese interés se justifica en el hecho de que las
organizaciones sociales de todo tipo requieren información basada en esa clase de datos.
Los tipos de información que interesa adquirir a partir de esos estudios son los siguientes:
• Comportamientos históricos de la variable: es importante investigar si existen patrones o si
la serie tiene una elevada aleatoriedad. En general, estas propiedades se relacionan con el
fenómeno analizado. Por ejemplo, si un shopping registra la cantidad de visitas diarias
recibidas puede determinar cómo varía el flujo de personas a lo largo de la semana o
verificar si las actividades de promoción dan buenos resultados.
• Pronósticos: en las tareas de planificación es preciso estimar los valores futuros de las
principales variables involucradas. Por ejemplo, al realizar su presupuesto anual una
empresa industrial debe cuantificar los valores que durante el siguiente año tendrán variables
como ventas, pérdidas por roturas de piezas o materia prima u horas hombre de trabajo
perdidas por inasistencias.
En lo que refiere a los comportamientos, se distingue entre series estacionarias y no estacionarias.
Las primeras son aquellas que conservan sus propiedades a lo largo del tiempo. Dichas propiedades
son la media, la varianza y la covarianza interna (variación conjunta entre periodos consecutivos).
Por su parte, las no estacionarias pueden presentar diferentes tipos de cambios que en general
resultan predecibles, sistemáticos. Entre los comportamientos predecibles más conocidos se
encuentran la tendencia y la fluctuación estacional. Se denomina tendencia a una orientación
general de la serie, que puede ser ascendente o descendente. La cantidad de habitantes de un país,
por ejemplo, registrada entre los años 1900 y 2000, presenta tendencia creciente. En cambio, el
porcentaje de mortalidad infantil, desde 1900 hasta el presente, tiene tendencia decreciente.
Por su parte, la fluctuación estacional define un comportamiento aproximadamente periódico, en
periodos menores al año. Por ejemplo, la serie de ventas mensuales de una heladería registra
siempre picos en verano y valles en invierno; si bien los valores no se repiten exactamente, sus
29/96
30. PES-SanPi
variaciones son similares año tras año. En cuanto a la identificación de comportamientos, se
denomina en lenguaje técnico: “análisis de series”, y para realizarla se utilizan diversas
herramientas.
Un buen diagrama, por ejemplo, permite construir una idea preliminar sobre las variaciones
observadas. Por otra parte, calcular promedios móviles y representarlos gráficamente mejora la
apreciación anterior.
La herramienta clave en el proceso de análisis se denomina “función de autocorrelación” (en
adelante se la referencia como FAC). Esta función representa de manera cuantitativa el nivel de
relación existente entre los valores actuales de la serie y sus precedentes.
Sucede que cada uno de los comportamientos típicos de una serie temporal tiene su correspondiente
FAC. Es decir que si la serie tiene tendencia, las autocorrelaciones se presentan de un modo que es
característico de la tendencia; si tiene estacionalidad, la FAC adopta una estructura periódica, y así
para todos los comportamientos.
El otro objetivo del estudio de series es la realización de pronósticos. Para ello se asume que los
comportamientos de los datos en el pasado seguirán manifestándose en el futuro. El recurso
operativo utilizado es representar la serie con una función (modelo) y utilizar dicho modelo para
pronosticar.
Para el caso de las ventas que utilizamos como ejemplo, es posible suponer que las mismas tienen
una tendencia creciente. Este tipo de comportamiento puede ser representado mediante un modelo
de regresión, es decir, con las herramientas trabajadas en el módulo 3 de la presente asignatura. En
efecto, si a los datos del ejemplo les aplicamos una regresión lineal, se obtiene como ordenada al
origen el valor 25,533 y como pendiente el de 1,03.
Luego, el efecto de la tendencia puede representarse con la siguiente recta:
Tt = 25,533 + 1,03t donde t es el indicador del intervalo temporal
La recta estimada permite pronosticar que en el tiempo 11 las ventas deben alcanzar 37,7 y que en
el tiempo 12 su valor puede trepar a 38,8.
En la siguiente figura se observan la traza observada y la recta estimada.
La proyección de esa función, más allá del tiempo 10, permite realizar los pronósticos.
30/96
31. PES-SanPi
Ahora bien, las rectas de regresión no son el único modelo de pronóstico. De hecho, en el presente
módulo se trabajan otras herramientas.
Por ejemplo, para series que se mantienen estacionarias y presentan un componente aleatorio fuerte,
pueden aplicarse el modelo autorregresivo o los métodos de suavizado exponencial. El primero
pronostica mediante una regresión simple del nuevo valor de la serie en función del inmediato
anterior.
En cambio, los de suavizado utilizan un promedio de los últimos valores observados.
Si la serie tiene una tendencia dominante, como se anticipó, se utiliza una proyección de dicho
efecto. Por otra parte, si presenta el efecto conjunto de tendencia y fluctuación estacional, se utiliza
el denominado modelo multiplicativo.
Este método apela a representar ambos efectos por separado y pronostica por medio de un producto
de los dos componentes.
En suma, en series de tiempo es preciso realizar dos tareas diferentes. Por una parte se analizan los
comportamientos presentes en la serie y por la otra se elige el modelo de pronóstico más
conveniente. Por supuesto, los resultados del análisis permiten una elección adecuada del modelo.
Herramientas para analizar series de tiempo: función de
autocorrelación
La identificación de comportamiento: son los análisis de series. Por ejemplo con diagramas,
cálculo de promedios móviles y su representación gráfica.
En el análisis de un proceso estocástico juega un rol fundamental la función de autocorrelación
(FAC). Indica la MEMORIA del proceso, es decir la “medida” en que las observaciones pasadas
inciden en las presentes.
Se conforma con los coeficientes de autocorrelación p(k), funciones de los sucesivos
desplazamientos o retardos k. La representación gráfica se denomina CORRELOGRAMA (FAC).
Para k= 0 es p(0) }= 1, es decir la correlación de todo proceso consigo mismo es la unidad.
31/96
32. PES-SanPi
Herramientas:
• La herramienta clave es la Función de Autocorrelación FAC: representa de manera
cuantitativa el nivel de relación existente entre los valores actuales de la serie y sus precedentes.
Cada comportamiento típico tiene su correspondiente FAC.
1. Determinar promedio y desvío
2. Calcular el producto del primer orden
Parejas de Producto
Zt
valores Zt-1 (Zt-promedio)*(Zt-1-
i promedio)
1 Valor 2 Valor 1
2 Valor 3 Valor 2
3 Valor 4 Valor 3
4
TOTAL
Se determina autocovarianza (total del producto / i) y autocorrelación
(autocovarianza/desvío/desvío)
Leyenda: “El coeficiente de autocorrelación de primer orden es … Esto quiere decir que
existe una relación lineal entre valores consecutivos de la serie”
Ejemplo
valores Yt
t
1 1604
2 1531
3 1606
...
n 1482
valores Zt Producto
Zt-1
t (Zt)*(Zt-1)
1 1531 1604 2455724
2 1606 1531 2458786
3 1523 1606 2445938
4 1590 1523
... .. ... ...
n-1 1482 n-2
TOTAL
3. Calcular el producto de segundo orden
Parejas de Producto
Zt
valores Zt-1 (Zt-promedio)*(Zt-1-
i promedio)
1 Valor 3 Valor 1
2 Valor 4 Valor 2
32/96
33. PES-SanPi
3 Valor 5 Valor 3
4
TOTAL
Se determina autocovarianza (total del producto / i) y autocorrelación
(autocovarianza/desvío/desvío)
Leyenda: “El coeficiente de autocorrelación de segundo orden es … Esto quiere decir que
existe una relación lineal entre valores consecutivos de la serie”
4. Calcular el producto de tercer orden
Parejas de Producto
Zt
valores Zt-1 (Zt-promedio)*(Zt-1-
i promedio)
1 Valor 4 Valor 1
2 Valor 5 Valor 2
3 Valor 6 Valor 3
4
TOTAL
Se determina autocovarianza (total del producto / i) y autocorrelación
(autocovarianza/desvío/desvío)
Leyenda: “El coeficiente de autocorrelación de tercer orden vale…”
5. Calcular el producto de cuarto orden
Parejas de valores Zt Producto
Zt-1
i (Zt-promedio)*(Zt-1-promedio)
1 Valor 5 Valor 1
2 Valor 6 Valor 2
3 Valor 7 Valor 3
4
TOTAL
Se determina autocovarianza (total del producto / i) y autocorrelación
(autocovarianza/desvío/desvío)
Leyenda: “El coeficiente de autocorrelación de cuarto orden vale…”
6. Componer los resultado de autocorrelación en una relación de tipo funcional
Retardo Autocorrelación
1
2
3
4
33/96
34. PES-SanPi
7. Se grafica los resultados obtenidos de autocorrelación
0,4
2
0,2 4
Autocorrelación 0
-0,2
3
-0,4
1 Retardo
8. Interpretación: “La serie tiene un comportamiento… En el correlograma se observa…”
• Gráficos de series.
∑ (nvaloresmasrecientesdedatos)
• Gráficos de los promedios móviles. Promedio móvil =
n
Error de pronóstico
Valor de la Pronóstico con
(valor de la serie- Error de pronóstico al
Tiempo serie de promedios
pronóstico con cuadrado
tiempo móviles
promedios móviles)
TOTALES
Identificación y estimación de modelos
Para la interpretación de resultados de cada serie, se analiza si es estacionaria o no estacionaria. Y
se reflexiona sobre cuál puede ser el modelo adecuado para pronosticar en cada caso.
Construcción de modelos de pronóstico
• Este tipo de comportamiento puede ser representado mediante un modelo de regresión (con las
herramientas trabajadas en regresión y correlación).
• Modelo autorregresivo: para series que se mantienen estacionarias y presentan un componente
aleatorio fuerte. Se pronostica mediante una regresión simple del nuevo valor de la serie en
función del inmediato anterior.
X t = C + ∑ Φ i X t− i + ε t
n Xt Xt-1 (Xt-1)Xt (Xt-1)2
TOTAL
∑ (( X t − 1 ) X t ) − ∑ ( X t − 1 ) ∑ ( X t ) / n
Φ =
∑ (( X t − 1 ) 2 ) − (∑ X t − 1 ) 2 / n
C = X t − φ X t− 1
Modelo autorregresivo
n Xt Xt-1 (Xt-1)Xt (Xt-1)2 X t = C + φ X t − 1 Error Error2
34/96
35. PES-SanPi
X t − (C + φ X t − 1 )
TOTAL
MSE (error cuadrático medio)
• Promedios móviles: se promedia cada grupo sucesivo de puntos de datos.
• Promedios móviles ponderados: se calcula un promedio ponderado de los valores de datos en
el pasado. La suma de los factores de ponderación debe ser igual a 1.
• Modelo de suavizamiento exponencial: para series que se mantienen estacionarias y
presentan un componente aleatorio fuerte. Utilizan un promedio de los últimos valores
observados. Una buena señal es que la FAC presenta sólo uno o dos coeficientes de
correlación significativamente diferentes de cero. Hay que probar con distintos valores del
coeficiente alfa y adoptar el que hace mínima la suma de cuadrados de los errores.
Ft + 1 = α Yt + (1 − α ) Ft
Donde α es la constante de suavizamiento
1. F1=primer valor de Y
2. F2 = α Yt + (1 − α ) F1
3. F3 = α Y2 + (1 − α ) F2
4. F4 = α Y3 + (1 − α ) F3
5. …
Cálculo del error cuadrático medio en los pronósticos para predecir la demanda del servicio con
α=.1
Pronóstico con Error del Error del pronóstico al
Tiem Valor de la serie
suavizamiento pronóstico cuadrado
po de tiempo (Yt)
exponencial (Ft) (Yt - Ft) (Yt - Ft)2
TOTAL
MSE (error cuadrático medio)
Cálculo del error cuadrático medio en los pronósticos para predecir la demanda del servicio con
α=.2
Pronóstico con Error del Error del pronóstico al
Tiem Valor de la serie
suavizamiento pronóstico cuadrado
po de tiempo (Yt)
exponencial (Ft) (Yt - Ft) (Yt - Ft)2
TOTAL
MSE (error cuadrático medio)
Cálculo del error cuadrático medio en los pronósticos para predecir la demanda del servicio con
α=.3
Tiem Valor de la serie Pronóstico con Error del Error del pronóstico al
po de tiempo (Yt) suavizamiento pronóstico cuadrado
exponencial (Ft) (Yt - Ft) (Yt - Ft)2
TOTAL
MSE (error cuadrático medio)
35/96
36. PES-SanPi
Constante de suavizamiento MSE (error cuadrático medio)
Con α=.1
Con α=.2
Con α=.3
Se elije el que de menor valor de MSE
Interpretación: “Como vemos que para el conjunto de valores de datos con el que contamos, la
constante de suavizamiento α=… produce mayor precisión (valor de MSE)”.
• Proyección de tendencias: si la serie tiene una tendencia dominante. Presenta un aumento o
disminución consistentes a través del tiempo.
Ecuación de tendencia lineal Tt = b0 + b1t t= tiempo
Cálculo de la pendiente (b1) y la ordenada al origen (b0)
∑ tY (∑ t ∑ Y ) / n
b1 =
∑ t 2 − (∑ t ) 2 / n
b0 = Y − b1t
t Yt tYt t2
Pendiente: Ver valor de b1 (positivo, negativo o cero)
• Modelo multiplicativo: si presenta el efecto conjunto de tendencia y fluctuación estacional.
Representa ambos efectos por separado y pronostica por medio de un producto de los dos
componentes. Se multiplican los componentes de la serie de tiempo, entre sí, para identificar el
valor real de la serie de tiempo. Cuando se suponen presentes los cuatro componentes de
tendencia, cíclico, estacional e irregular, se obtiene Yt = Tt * C t * S t * I t . Cuando no se modela el
componente cíclico se obtiene Yt = Tt * S t * I t
En el caso de tener varios modelos, se adopta en que obtenga la menor suma (con la suma de
cuadrados de los errores, o el promedio de la suma de cuadrados).
Modelo Ajuste
MSE
MSE
MSE
Leyenda: “Considerando los modelos trabajados, el … presenta un menor error de ajuste (valor
de MSE)”
Error cuadrático medio: método con el que se mide la precisión de un modelo de pronóstico
∑ error 2
(calidad de ajuste): MSE =
n
36/96