1. Epidemiología Agrícola - FIT612 – 2013. Dr. Gustavo Mora Aguilera (1)
PRÁCTICA 1. GLOSARIO DE PROCEDIMIENTOS
ESTADÍSTICOS BÁSICOS EMPLEADOS EN SAS®
PARA ANÁLISIS EPIDEMIOLÓGICOS.
OBJETIVO:
Identificar la aplicación, funcionalidad y fines teórico-prácticos de procedimientos
estadísticos (simples y complejos) de SAS® empleados en el análisis e interpretación de
fenómenos epidemiológicos.
INTRODUCCIÓN
Durante el desarrollo de curso de Epidemiología Agrícola (FIT612) será recurrente el uso de
funciones y procedimientos estadísticos con fines de análisis procesos epidemiológicos. En este
contexto, resulta de vital importancia el uso de paquetes estadísticos que permitan realizar
dichos análisis. Para tal fin se empleará como programa principal SAS (Statistical Analisys
System), aunque durante el desarrollo del curso se emplearán programas simples que
complementan y enriquecen el análisis tal como MS Excel.
Para el empleo de SAS durante el curso se requerirá de procedimientos básicos y complejos en
los cuales se determinan parámetros de uso en el ámbito de la epidemiologia como orden,
estadísticos descriptivos, de probabilidad y otros.
A continuación, de manera general, se desglosan los procedimientos generales que se usarán en
análisis epidemiológicos durante el curso.
a) Matriz de datos. Constituye el eje principal para el desarrollo de cualquier análisis. Está
conformada por n número de variables de tipo cualitativas (alfanuméricas) y cuantitativas
(numéricas); y n número de observaciones.
La matriz de datos debe estar estructurada de una forma lógica y acorde a las necesidades
del análisis que se desea realizar. Se recomienda realizar una depuración simple eliminando,
corrigiendo y/o identificando valores o datos no válidos, confusos, erróneos, etc., con fines
de garantizar la valides y efectividad de los análisis.
En la matriz es importante dar importancia a la nomenclatura y orden de las variables ya
que durante análisis exploratorios es común generar ideas, asumpciones u otros desarrollos
conceptuales que requieren la trazabilidad de variables.
1. Ejemplo de estructura de una matriz de datos (Romero, M. G., 2004)
Epidemia fecha severidad
acumulada
AL-0 1 6.67
AL-0 2 31.67
AL-0.5 3 79.33
AL-0.5 4 95
AL-0.5 5 100
. . .
. . .
. . .
NOTA: Puntos sugieren continuidad de la matriz
2. Epidemiología Agrícola - FIT612 – 2013. Dr. Gustavo Mora Aguilera (2)
b) Vaciado de matriz en SAS. Al contar con la matriz depurada, ésta se exporta a SAS desde
cualquier paquete de captura (p.e. Excel) mediante el copiado y pegado de la matriz. Se
debe poner especial énfasis en la estructura requerida por SAS.
DATA (asignar nombre a la matriz, máximo 8 caracteres sin espacio);
INPUT (variables, máximo 6 caracteres por variable sin espacio. Variables
alfanuméricas deben contar con el símbolo $ para su identificación, p.e. Epidemia $...);
CARDS;
(pegar datos)
c) Orden de datos. En SAS, se realiza mediante el procedimiento PROC SORT. Implica el
ordenamiento alfabético de la matriz en análisis. En múltiples ocasiones, se cuenta con
datos u observaciones desorganizadas que SAS no reconoce al realizar los procedimientos
estadísticos por lo cual es necesario realizar este procedimiento. El orden se puede realizar
por n variables mediante la especificación BY.
d) Verificación de errores. Es importante que una vez obtenida la matriz depurada se realice
la verificación de la matriz que se usará en los análisis. Para ello, es recomendable usar el
procedimiento PROC PRINT que ‘imprime’ la matriz introducida a SAS.
El resultado de esta impresión de datos es una réplica del cómo se empleará la matriz para
realizar cualquier análisis estadístico. Es común que en ocasiones las matrices a pesar de la
depuración previa tengan errores de captura, omisiones u otros errores que se muestran
mediante un punto (.). Se tendrá una matriz lista cuando la impresión corresponda a los
valores reales de la matriz tanto en variables como observaciones.
Ejemplo de resultado mediante PROC PRINT
Obs Epidem fecha Sev
1 AL-0 1 6.67
2 AL-0 2 31.67
3 AL-0.5 3 79.33
4 AL-0.5 4 95
5 AL-0.5 5 100
e) Títulos y etiquetas. A medida que se avanza en análisis estadísticos de SAS se anidan
diversos procedimientos y funciones que en ocasiones resulta difícil identificar cambios o
modificaciones mínimas. Para lo cual, en SAS es posible etiquetar y rotular cada uno de los
procedimientos y acciones que se efectúan en el programa.
Estas etiquetas y títulos se pueden adicionar al programa mediante las siguientes
especificaciones:
Títulos. Se especifica mediante la palabra Title más el número de títulos que se desea
incorporar y el nombre del título entre comilla simple (‘). También es recomendable
colocarse entre el final de un procedimiento y el run. Ejemplo:
PROC GLM DATA=(HLB); BY (Edo);
MODEL (y = sev_per);
OUTPUT OUT = plotdat1 predicted= PyL residuals = RyL;
TITLE1 ‘Cálculo de valores residuales y predichos mediante GLM';
RUN;
Etiquetas. Existen, principalmente, dos formas de colocar etiquetas dentro del
programa de SAS; una es visible en los resultados de los procedimientos por medio de un
asterisco al inicio de la etiqueta y el título entre comilla simple (‘). Ejemplo:
* ‘Cálculo de valores residuales y predichos mediante GLM';
3. Epidemiología Agrícola - FIT612 – 2013. Dr. Gustavo Mora Aguilera (3)
Otra forma de etiquetas son no visibles en los resultados escribiendo al inicio y final del
título los caracteres /* como se muestra en el siguiente ejemplo:
/* Cálculo de valores residuales y predichos mediante GLM */
f) Generación de nuevas variables. A menudo es necesario crear nuevas variables que
resultan de los análisis exploratorios al momento de realizarlos. La generación de estas
nuevas variables se realiza entre las variables (INPUT) y el inicio de los datos (CARDS)
indicados en el inciso b, como se muestra en el siguiente ejemplo:
DATA roya;
INPUT epidem $ fecha $ inc sev…;
Y=sev/100
CARDS;
g) Análisis exploratorios y otros:
a. Estadísticos descriptivos. Se obtienen mediante PROC UNIVARIATE que calcula
estadísticos tales como medidas de tendencia central, probabilidad y conteos
generales.
b. Tablas de frecuencia. Se obtienen mediante PROC FREQ que calcula frecuencias
de acuerdo con las especificaciones dadas, p. e. INC*SEV calcula las frecuencias de
severidad (SEV) dadas las clases de incidencia (INC).
c. Histogramas de frecuencia. Obtenidos mediante PROC CHART, genera gráficos
frecuenciales de una variable con respecto de otra que funge como clase o
categoría.
d. Gráficos bidimensionales. Se generan a partir de PROC PLOT ó PROC GPLOT y
el resultado es una gráfica de una variable X con respecto de Y.
e. Función LAG. Especifica el número de valores rezagados de n observaciones en
una matriz de datos. Al igual que la generación de nuevas variables se obtiene
mediante la función LAG<n> (variable) entre INPUT y CARDS o bien se puede
integrar a un modelo dentro de procedimientos establecidos, ejemplo:
DATA epidem;
INPUT epidem $ fecha $ inc sev…;
LAG1(INC)
CARDS;
f. Otros parámetros. Durante el curso, se analizarán parámetros estadísticos que
ayudan a realizar un análisis cuantitativo. Entre algunos otros, se emplearán
parámetros como r2
, suma de cuadrados del error, datos predichos y residuales,
parámetros de ajuste, límite inferior y superior, etc., los cuales dependen del
contexto del análisis y del tema específico del curso. A continuación se muestra
ejemplo de cálculo de valores predichos, residuales y limites del modelo en una
regresión lineal:
1. Entrada de datos (INPUT) para cálculo de una regresión en SAS
DATA epidem;
INPUT epidem dia Inc;
CARDS;
Datos…
PROC SORT; BY epidem;
PROC NLIN best=5 g4singular method=dud; BY epidem;
4. Epidemiología Agrícola - FIT612 – 2013. Dr. Gustavo Mora Aguilera (4)
PARAMETERS C= 1 to 10 BY 0.5 B=10 to 240 BY 10;
MODEL inc=1.-EXP(-((dia/b)**C));
output out=residual p=PincW r=RincW parms=c b
sse=SS_error;
2. Salida (OUTPUT) de la regresión
------------------------------- S=1 T=1 D=1.5 --------------------------------
Non-Linear Least Squares Summary Statistics Dependent Variable IA
Source DF Sum of Squares Mean Square
Regression 2 2.5252723521 1.2626361761
Residual 7 0.0050933008 0.0007276144
Uncorrected Total 9 2.5303656529
(Corrected Total) 8 1.4228562719
------------------------------- S=1 T=1 D=1.5 --------------------------------
Parameter Estimate Asymptotic Asymptotic 95 %
Std. Error Confidence Interval
Lower Upper
C 8.9336776 0.7623792556 7.13092268 10.73643257
B 187.4243355 1.2633648616 184.43692832 190.41174266
Ejercicio 1 (NOTA: Copia y pega el siguiente ejercicio en SAS. Realiza las modificaciones pertinentes)
DATA TEST;
INPUT patos trat t y;
CARDS;
AL-0 1 1 6.67
AL-0 1 2 31.67
AL-0 1 3 79.33
AL-0 1 4 95
AL-0 1 5 100
AL-0 1 6 .
AL-0 1 7 .
AL-0 1 8 .
AL-0.5 1 1 1.83
AL-0.5 1 2 5
AL-0.5 1 3 24.67
AL-0.5 1 4 31.5
AL-0.5 1 5 33
AL-0.5 1 6 50
AL-0.5 1 7 61.5
AL-0.5 1 8 78.5
AL-1 1 1 1.17
AL-1 1 2 3
AL-1 1 3 10
AL-1 1 4 14.33
AL-1 1 5 15
AL-1 1 6 18
AL-1 1 7 30.67
AL-1 1 8 42.67
;
NOTA: las palabras entre paréntesis () ó comillas son modificables de acuerdo a la estructura de la matriz. Los
paréntesis son sólo con fines ilustrativos y deben borrarse al introducir los valores adecuados. P.e. (variables) - incid
5. Epidemiología Agrícola - FIT612 – 2013. Dr. Gustavo Mora Aguilera (5)
/* Verificación de matriz y orden */
PROC PRINT;
TITLE1 'Titulo';
PROC SORT; BY (variables);
PROC PLOT; BY (variables);
PLOT y*t / vpos=15 hpos=30;
RUN;
PROC CHART; BY (variables);
VBAR (variables);
RUN;
/* Estadísticos descriptivos */
PROC SORT; BY (variables);
PROC UNIVARIATE; BY (variables);
VAR (variables);
RUN;
/* Gráficos bidimensionales (X Y) */
PROC GPLOT; BY (variables);
PLOT (var*var) /vpos=10 hpos=30;
TITLE1 ‘Titulo';
RUN;
/* Cálculo de parámetros mediante regresión lineal simple */
PROC GLM DATA=(nombre data); by (variables);
MODEL (var = var);
OUTPUT OUT = plotdat1 predicted= PyL residuals = RyL;
TITLE1 ‘Titulo';
RUN;
/* Gráficos de datos anidados */
PROC PLOT DATA=plotdat1; by (variable);
PLOT PyL*t='p' yL*t='*' / overlay vpos=10 hpos=30;
PLOT RyL*PyL='o'/ vref=0 vpos=10 hpos=30;
RUN;
**********************************************
TU TURNO¡
1. Reporte la explicación de los procedimientos y especificaciones de SAS empleados en
la presente práctica.
2. Genere combinaciones de procedimientos y especificaciones.
**********************************************