Curso = Metodos Tecnicas y Modelos de Enseñanza.pdf
Practica 4 analsis temporal epidemias
1. Epidemiología Agrícola - FIT612 – Verano, 2014. Dr. Gustavo Mora Aguilera 1
PRÁCTICA 4. ANALISIS EXPLORATORIO
TEMPORAL DE EPIDEMIAS
INTRODUCCIÓN:
Exploración gráfica de epidemias en su dimensión temporal
Una pregunta fundamental en la caracterización de epidemias es qué criterios se
deben considerar para decidir el análisis cuantitativo más apropiado (i.e. qué modelo
seleccionar). Esta etapa exploratoria en el análisis es tan fundamental como el mismo
análisis numérico. En la literatura es frecuente encontrar errores analíticos por omitir la
exploración gráfica de una epidemia(s). Un análisis sofisticado, desde el punto de vista de
la aplicación de modelos, no garantiza una correcta caracterización de las epidemias, por lo
que se puede afirmar que la caracterización del progreso temporal de una epidemia incluye
un análisis gráfico y la aplicación de modelos epidemiológicos.
Gráficamente, una curva epidemiológica se representa mediante la intensidad de
enfermedad en su forma acumulada y/o no acumulada, con respecto al tiempo como
variable independiente. Generalmente, se emplea la incidencia y severidad en su forma
acumulada cuando interesa determinar la ´velocidad´ de una epidemia (tasa) por medio del
ajuste a modelos epidemiológicos clásicos como el logístico.
EXPLORACION GRAFICA
El análisis numérico del progreso temporal de una enfermedad debe iniciar con la
representación gráfica de los datos de intensidad de enfermedad (incidencia o severidad)
con respecto al tiempo. El objetivo de esta etapa es explorar la curva epidemiológica
generada antes de proceder al uso de modelos estadísticos. ¿Qué características de una
curva debemos observar? Una curva en realidad contiene más información que una tasa
epidemiológica, la cual en general se emplea como un promedio de todo el proceso
epidemiológico. Existen otras variables o parámetros que representan atributos de forma de
la curva, localización con respecto al tiempo o de integración que es necesario conocer para
una completa exploración de epidemias (Figura 9).
Eficiencia en el tiempo de procesado de los datos y una aceptable parsimonia
analítica son el resultado de asumir como regla una exploración gráfica de las curvas
epidemiológicas previo al análisis estadístico que usualmente implica una completa
caracterización de epidemias.
2. Epidemiología Agrícola - FIT612 – Verano, 2014. Dr. Gustavo Mora Aguilera 2
Figura 1. Variables de localización, conformación e integración asociadas con una curva de progreso de
enfermedad, donde:Yo and Yf= intensidad inicial y final de enfermedad, Xo, T50 y Tt= tiempo de inicio de
epidemia con respecto a siembra o a un evento fenológico, tiempo al 50% de intensidad de enfermedad y
duración total de epidemia, respectivamente. AUDPC= área bajo la curva de progreso de enfermedad y r= es
tasa promedio de infección aparente. C = forma de la curva (adaptado de Mora-Aguilera et al.,
Phytopathology 1996).
Específicamente, la exploración gráfica nos puede asistir en los siguientes aspectos:
Preseleccionar un modelo(s) para describir una epidemia(s) con base en la forma de la
curva y punto de inflección de la curva.
Corregir por presencia de asímptota inferior o superior de una curva en caso de aplicar
modelos linearizados. Los modelos lienarizados por su transformación logarítmica son
afectados por la presencia de valores asintóticos.
Corregir por proyección a cero con respecto a intensidad de enfermedad
Definir si es necesario corregir por Yf y seleccionar valores de Yf en caso de aplicar
modelos no flexibles.
Determinar si es necesario realizar correcciones por crecimiento o pérdida de tejido del
hospedante lo cual ocasiona dilución de la intensidad de enfermedad.
Generar nuevos valores mediante interpolación de mediciones de intensidad cunado el
número de los mismos es reducido. En modelos no lineales (flexibles) es importante
tener un total de observaciones igual a tres veces el número de parámetros en el modelo.
Realizar interpretaciones biológicas previo a un análisis formal. p.e. detectar posibles
variables climáticas y de manejo del cultivo asociadas con cambios de enfermedad
Determinar el posible efecto de la variable de intensidad de enfermedad seleccionada
(incidencia o severidad) en el tipo de curva resultante.
Determinar el posible efecto de la periodicidad de medición en el tipo de curva
resultante.
Valorar el posible efecto de tamaño y esquema de muestreo en la forma de la curva
resultante.
DaysafterTransplant
DiseaseIncidence
Xo T
Tt=TotalEpidemicduration
Yf
Yo
1.0
0
0.5 time
Yo
Yf
rG
50
c
AUDPC
3. Epidemiología Agrícola - FIT612 – Verano, 2014. Dr. Gustavo Mora Aguilera 3
OBJETIVO:
Efectuar un análisis exploratorio de curvas epidémicas de diversas entidades
biológicas mediante el uso de software complementario como MS Excel y
SAS®.
PROCEDIMIENTO:
Genera gráficos temporales con base en los artículos publicados que se
proporcionaran para ese fin. Calcula en caso necesario la incidencia acumulada
(Yi%) en el tiempo i con respecto a la población total (N) en la unidad
experimental o unidad espacial de interés:
Yi(%)=Σyi/N
Emplea las herramientas estadísticas de SAS® integradas en el Anexo 1 de la
presente práctica para generar análisis indicados por el instructor.
Genera un programa de SAS y realiza las gráficas por cada epidemia
seleccionada.
TU TURNO:
1. ¿Cuál es la interpretación gráfica de las curvas por entidad biológica en términos
de?:
a) La población empleada y su delimitación espacio-temporal.
b) Número e intervalo de mediciones
c) Tipo de variable de daño
d) Estima los parámetros gráficos posibles con base en la inspección de
gráfica y empleando la Figura 1.
e) Como podría el patosistema influir en los atributos de los parámetros
epidemiológicos.
4. Epidemiología Agrícola - FIT612 – Verano, 2014. Dr. Gustavo Mora Aguilera 4
Anexo 1. Procedimientos estadísticos de SAS® en Análisis Epidemiológicos
a) Matriz de datos. Constituye el eje principal para el desarrollo de cualquier análisis. Está
conformada por n número de variables de tipo cualitativas (alfanuméricas) y cuantitativas
(numéricas); y n número de observaciones.
La matriz de datos debe estar estructurada de una forma lógica y acorde a las necesidades del
análisis que se desea realizar. Se recomienda realizar una depuración simple eliminando,
corrigiendo y/o identificando valores o datos no válidos, confusos, erróneos, etc., con fines de
garantizar la valides y efectividad de los análisis.
En la matriz es importante dar importancia a la nomenclatura y orden de las variables ya que
durante análisis exploratorios es común generar ideas, asumpciones u otros desarrollos
conceptuales que requieren la trazabilidad de variables.
1. Ejemplo de estructura de una matriz de datos (Romero, M. G., 2004)
Epidemia fecha severidad
acumulada
AL-0 1 6.67
AL-0 2 31.67
AL-0.5 3 79.33
AL-0.5 4 95
AL-0.5 5 100
. . .
. . .
. . .
NOTA: Puntos sugieren continuidad de la matriz
b) Vaciado de matriz en SAS. Al contar con la matriz depurada, ésta se exporta a SAS desde
cualquier paquete de captura (p.e. Excel) mediante el copiado y pegado de la matriz. Se debe
poner especial énfasis en la estructura requerida por SAS.
DATA (asignar nombre a la matriz, máximo 8 caracteres sin espacio);
INPUT (variables, máximo 6 caracteres por variable sin espacio. Variables alfanuméricas
deben contar con el símbolo $ para su identificación, p.e. Epidemia $...);
CARDS;
(pegar datos)
c) Orden de datos. En SAS, se realiza mediante el procedimiento PROC SORT. Implica el
ordenamiento alfabético de la matriz en análisis. En múltiples ocasiones, se cuenta con datos u
observaciones desorganizadas que SAS no reconoce al realizar los procedimientos estadísticos
por lo cual es necesario realizar este procedimiento. El orden se puede realizar por n variables
mediante la especificación BY.
d) Verificación de errores. Es importante que una vez obtenida la matriz depurada se realice la
verificación de la matriz que se usará en los análisis. Para ello, es recomendable usar el
procedimiento PROC PRINT que ‘imprime’ la matriz introducida a SAS.
El resultado de esta impresión de datos es una réplica del cómo se empleará la matriz para
realizar cualquier análisis estadístico. Es común que en ocasiones las matrices a pesar de la
depuración previa tengan errores de captura, omisiones u otros errores que se muestran
mediante un punto (.). Se tendrá una matriz lista cuando la impresión corresponda a los valores
reales de la matriz tanto en variables como observaciones.
5. Epidemiología Agrícola - FIT612 – Verano, 2014. Dr. Gustavo Mora Aguilera 5
Ejemplo de resultado mediante PROC PRINT
Obs Epidem fecha Sev
1 AL-0 1 6.67
2 AL-0 2 31.67
3 AL-0.5 3 79.33
4 AL-0.5 4 95
5 AL-0.5 5 100
e) Títulos y etiquetas. A medida que se avanza en análisis estadísticos de SAS se anidan diversos
procedimientos y funciones que en ocasiones resulta difícil identificar cambios o
modificaciones mínimas. Para lo cual, en SAS es posible etiquetar y rotular cada uno de los
procedimientos y acciones que se efectúan en el programa.
Estas etiquetas y títulos se pueden adicionar al programa mediante las siguientes
especificaciones:
Títulos. Se especifica mediante la palabra Title más el número de títulos que se desea
incorporar y el nombre del título entre comilla simple (‘). También es recomendable colocarse
entre el final de un procedimiento y el run. Ejemplo:
PROC GLM DATA=(HLB); BY (Edo);
MODEL (y = sev_per);
OUTPUT OUT = plotdat1 predicted= PyL residuals = RyL;
TITLE1 ‘Cálculo de valores residuales y predichos mediante GLM';
RUN;
Etiquetas. Existen, principalmente, dos formas de colocar etiquetas dentro del programa de
SAS; una es visible en los resultados de los procedimientos por medio de un asterisco al inicio
de la etiqueta y el título entre comilla simple (‘). Ejemplo:
* ‘Cálculo de valores residuales y predichos mediante GLM';
Otra forma de etiquetas son no visibles en los resultados escribiendo al inicio y final del
título los caracteres /* como se muestra en el siguiente ejemplo:
/* Cálculo de valores residuales y predichos mediante GLM */
f) Generación de nuevas variables. A menudo es necesario crear nuevas variables que resultan
de los análisis exploratorios al momento de realizarlos. La generación de estas nuevas variables
se realiza entre las variables (INPUT) y el inicio de los datos (CARDS) indicados en el inciso b,
como se muestra en el siguiente ejemplo:
DATA roya;
INPUT epidem $ fecha $ inc sev…;
Y=sev/100
CARDS;
g) Análisis exploratorios y otros:
a. Estadísticos descriptivos. Se obtienen mediante PROC UNIVARIATE que calcula
estadísticos tales como medidas de tendencia central, probabilidad y conteos generales.
b. Tablas de frecuencia. Se obtienen mediante PROC FREQ que calcula frecuencias de
acuerdo con las especificaciones dadas, p. e. INC*SEV calcula las frecuencias de
severidad (SEV) dadas las clases de incidencia (INC).
6. Epidemiología Agrícola - FIT612 – Verano, 2014. Dr. Gustavo Mora Aguilera 6
c. Histogramas de frecuencia. Obtenidos mediante PROC CHART, genera gráficos
frecuenciales de una variable con respecto de otra que funge como clase o categoría.
d. Gráficos bidimensionales. Se generan a partir de PROC PLOT ó PROC GPLOT y el
resultado es una gráfica de una variable X con respecto de Y.
e. Función LAG. Especifica el número de valores rezagados de n observaciones en una
matriz de datos. Al igual que la generación de nuevas variables se obtiene mediante la
función LAG<n> (variable) entre INPUT y CARDS o bien se puede integrar a un
modelo dentro de procedimientos establecidos, ejemplo:
DATA epidem;
INPUT epidem $ fecha $ inc sev…;
LAG1(INC)
CARDS;
f. Otros parámetros. Durante el curso, se analizarán parámetros estadísticos que ayudan
a realizar un análisis cuantitativo. Entre algunos otros, se emplearán parámetros como
r2
, suma de cuadrados del error, datos predichos y residuales, parámetros de ajuste,
límite inferior y superior, etc., los cuales dependen del contexto del análisis y del tema
específico del curso. A continuación se muestra ejemplo de cálculo de valores
predichos, residuales y limites del modelo en una regresión lineal:
1. Entrada de datos (INPUT) para cálculo de una regresión en SAS
DATA epidem;
INPUT epidem dia Inc;
CARDS;
Datos…
PROC SORT; BY epidem;
PROC NLIN best=5 g4singular method=dud; BY epidem;
PARAMETERS C= 1 to 10 BY 0.5 B=10 to 240 BY 10;
MODEL inc=1.-EXP(-((dia/b)**C));
output out=residual p=PincW r=RincW parms=c b
sse=SS_error;
2. Salida (OUTPUT) de la regresión
------------------------------- S=1 T=1 D=1.5 --------------------------------
Non-Linear Least Squares Summary Statistics Dependent Variable IA
Source DF Sum of Squares Mean Square
Regression 2 2.5252723521 1.2626361761
Residual 7 0.0050933008 0.0007276144
Uncorrected Total 9 2.5303656529
(Corrected Total) 8 1.4228562719
------------------------------- S=1 T=1 D=1.5 --------------------------------
Parameter Estimate Asymptotic Asymptotic 95 %
Std. Error Confidence Interval
Lower Upper
C 8.9336776 0.7623792556 7.13092268 10.73643257
B 187.4243355 1.2633648616 184.43692832 190.41174266
7. Epidemiología Agrícola - FIT612 – Verano, 2014. Dr. Gustavo Mora Aguilera 7
Ejercicio 1 (NOTA: Copia y pega el siguiente ejercicio en SAS. Realiza las modificaciones pertinentes)
DATA TEST;
INPUT patos trat t y;
CARDS;
AL-0 1 1 6.67
AL-0 1 2 31.67
AL-0 1 3 79.33
AL-0 1 4 95
AL-0 1 5 100
AL-0 1 6 .
AL-0 1 7 .
AL-0 1 8 .
AL-0.5 1 1 1.83
AL-0.5 1 2 5
AL-0.5 1 3 24.67
AL-0.5 1 4 31.5
AL-0.5 1 5 33
AL-0.5 1 6 50
AL-0.5 1 7 61.5
AL-0.5 1 8 78.5
AL-1 1 1 1.17
AL-1 1 2 3
AL-1 1 3 10
AL-1 1 4 14.33
AL-1 1 5 15
AL-1 1 6 18
AL-1 1 7 30.67
AL-1 1 8 42.67
;
NOTA: las palabras entre paréntesis () ó comillas son modificables de acuerdo a la estructura de la matriz. Los paréntesis
son sólo con fines ilustrativos y deben borrarse al introducir los valores adecuados. P.e. (variables) - incid
/* Verificación de matriz y orden */
PROC PRINT;
TITLE1 'Titulo';
PROC SORT; BY (variables);
PROC PLOT; BY (variables);
PLOT y*t / vpos=15 hpos=30;
RUN;
PROC CHART; BY (variables);
VBAR (variables);
RUN;
/* Estadísticos descriptivos */
PROC SORT; BY (variables);
PROC UNIVARIATE; BY (variables);
VAR (variables);
RUN;
/* Gráficos bidimensionales (X Y) */
PROC GPLOT; BY (variables);
8. Epidemiología Agrícola - FIT612 – Verano, 2014. Dr. Gustavo Mora Aguilera 8
PLOT (var*var) /vpos=10 hpos=30;
TITLE1 ‘Titulo';
RUN;
/* Cálculo de parámetros mediante regresión lineal simple */
PROC GLM DATA=(nombre data); by (variables);
MODEL (var = var);
OUTPUT OUT = plotdat1 predicted= PyL residuals = RyL;
TITLE1 ‘Titulo';
RUN;
/* Gráficos de datos anidados */
PROC PLOT DATA=plotdat1; by (variable);
PLOT PyL*t='p' yL*t='*' / overlay vpos=10 hpos=30;
PLOT RyL*PyL='o'/ vref=0 vpos=10 hpos=30;
RUN;