SlideShare una empresa de Scribd logo
1 de 55
SURKY BONILLA,LUIS PONS ,JUAN
                     FERREIRA
R   es un lenguaje muy usado para crear
  modelos matematicos en base a data.
 El comando lm ( en r) es usado para crear
  modelos lineales. Tambien         para buscar
  regresion lineal, varianza y covarianza.
 Provee    ademas muchos recursos para
  normalizar dispersion de valores en graficas
  e identificar relaciones y patrones.
   Los pasos de un modelo lineal son:
       1. Escribir el modelo matemático con todas sus
        hipótesis.
        2. Estimación de los parámetros del modelo.
        3. Inferencias sobre los parámetros.
        4. Diagnóstico del modelo.
 La  función que realiza los modelos lineales
  en R es lm "lineal model".
 Este   objeto puede ser utilizado para
  cualquier función para realizar un análisis de
  la varianza (medida de la dispersion) , un
  modelo autoregresivo etc…
 La función lm tiene la siguiente sintaxis:
 lm(formula, data, subset, weights, method =
  "qr", model = TRUE, x = FALSE, y = FALSE, qr
  = TRUE, contrasts = NULL, ...)
 En “formula” ponemos el modelo expresado:
  y ~ x1+ x2 + ...+ xn
 En “data” especificamos el data frame que
  contiene las variables del modelo en el caso
  de que trabajemos con un data frame.
 En “subset” especificamos un subconjunto de
  observaciones para validar posteriormente el
  modelo.
 En  “weights” especificamos los pesos, es muy
  útil si buscamos mínimos cuadrados
  ponderados.
 Con “method” especificamos el método. Si
  no entramos ninguno , sólo es posible
  obtener el modelo por mínimos cuadrados
  ponderados.
 En “model” con “TRUE” decimos a R que ha
  de guardarse en el objeto, la matriz del
  modelo, el “frame”, etc.. En “contrast”
  pode-mos especificar objetos con los que
  realizar contrastes sobre los parámetros.
 Tenemos múltiples opciones, para ver cuales
  son empleamos la ayuda (?lm) y asi vemos la
  documentación R sobre el procedimiento lm.
 Eltiempo que tarda un sistema informático
 en red en ejecutar una instrucción depende
 del número de usuarios conectados a él. Si
 no hay usuarios el tiempo es 0. Tenemos los
 siguientes datos:
 Nº   usuarios   Tiempo de ejecución
 10                     1
 15                     1.2
 20                     2
 20                     2.1
 25                      2.2
 30                      2
 30                     1.9
 Se  pretende ajustar un modelo lineal sin
  término independiente, construir la tabla
  ANOVA y comparar el modelo con el de
  término     independiente.     Veamos las
  instrucciones en R:
 > tiempo <- c(1,1.2,2,2.1,2.2,2,1.9)
 > usuarios <- c(10,15,20,20,25,30,30)
 > ejemplo <-lm(tiempo~usuarios-1)
 # El modelo se crea en un objeto.
   > summary (ejemplo)
   Call: lm (formula = tiempo ~ usuarios - 1)
   Residuals:
    Min           1Q          Median         3Q            Max
   -0.4831 -0.1873          0.2056       0 .3127         0.5113
   Coefficients:
    Estimate Std. Error t value Pr(>|t|)
   usuarios 0.079437 0.006496 12.23 1.82e-05 ***
   ---
   Signif. codes: 0 „***‟ 0.001 „**‟ 0.01 „*‟ 0.05 „.‟ 0.1 „ ‟ 1
   Residual standard error: 0.3871 on 6 degrees of freedom
   Multiple R-squared: 0.9614, Adjusted R-squared: 0.955
   F-statistic: 149.5 on 1 and 6 DF, p-value: 1.821e-05
 En  este caso el modelo resultante sería:
  tiempo de ejecución=0.0794         usuarios,
  también vemos que es un excelente modelo
  lineal ya que el Multiple R-Squared: 0.9614
  (coeficiente de determinación ajustado) es
  bastante próximo a 1 (el mejor valor
  posible).
 Para construir la tabla del análisis de la
  varianza emplearemos „anova‟ como objeto.
 > an. varianza<-anova (ejemplo)
 > summary (an. varianza)
     Df                Sum      Sq Mean Sq F value Pr(>F)
   Min.:1.00 Min.:0.8989 Min.:0.1498 Min.:149.5 Min. :1.821e-
    05
    1st Qu.:2.25 1st Qu.: 6.2744 1st Qu.: 5.7126 1st Qu.:149.5
    1st Qu.:1.821e-05
    Median :3.50 Median :11.6500 Median :11.2755 Median
    :149.5 Median :1.821e-05
    Mean :3.50 Mean :11.6500 Mean :11.2755 Mean :149.5
    Mean :1.821e-05
    3rd Qu.:4.75 3rd Qu.:17.0256 3rd Qu.:16.8383 3rd
    Qu.:149.5 3rd Qu.:1.821e-05
    Max. :6.00 Max. :22.4011 Max. :22.4011 Max. :149.5 Max.
    :1.821e-05
     NA's : 1.0 NA's :1.000e+00
 Los   modelos lineales (regresion, ANOVA,
  ANCOVA), se basan en los siguientes
  supuestos:
 1. Los errores se distribuyen normalmente.
 2. La varianza es constante.
 3. La variable respuesta se relaciona
     linealmente con la(s) variable(s)
     independiente(s).
 Aunque      existen  diferentes    tipos  de
  distribuciones, en general, las exponenciales
  son las mas comunes y segun la aplicacion.
 Asi por ejemplo la distribucion exponencial
  ha     ganado     mucha    importancia     en
  aplicaciones     en  diversas    ciencias   y
  disciplinas, en particular      en actuaria,
  seguros de perdida , donde se hacen mas
  realistas.
 Poisson, muy útiles para conteos (p.e.
 numero de muertos por accidentes de
 trafico; numero de dias con heladas en el
 mes de enero; numero de colonias de
 bacterias en una placa de agar; numero de
 especies de plantas leñosas en un cuadrado
 de muestreo de 10 m2).
 Binomiales,    de    gran    utilidad    para
 proporciones y datos de presencia/ausencia
 (p.e. tasas de mortalidad; tasas de infección;
 porcentaje de parasitismo; porcentaje de
 éxito reproductivo; presencia o ausencia de
 una determinada especie.
    Muy útiles con datos que muestran un
    coeficiente de variación constante, esto es,
    en donde la varianza aumenta según
    aumenta la media de la muestra de manera
    constante (p.e. numero de presas comidas
    por un predador en función del numero de
    presas disponibles).
 glm   (formula, family = gaussian, data,
  weights, subset, na.action, start = NULL,
  etastart, mustart, offset, control = list(...),
  model = TRUE, method = "glm.fit", x = FALSE,
  y = TRUE, contrasts = NULL, ...)
 Formula: descripcion del modelo ; Family :
  tipo de funcion, binomial ,gausiana etc. ;
  cada subcomando permite mas detalle, segun
  las necesidades . ( ver R)
>  library (MASS)
 > data (menarche) ( primer periodo )
 > head (menarche)
 Age      Total   Menarche
     1     9.21     376 0
     2    10.21     200 0
     3    10.58      93 0
     4    10.83     120 2
     5    11.08      90 2
     6    11.33      88 5
   Para modelar estos datos usando glm convertimos
    los datos en una matriz de numeros de quienes han
    alcanzado la menarquia y quienes no.
   > yes <- menarche $ Menarche
   > no <- menarche Total - menarche$Menarche
   > y <- c bind(yes, no)
   > head(y)
           yes         no
   [1,]     0         376
   [2,]     0         200
   [3,]     0           93
   [4,]     2         118
   [5,]     2           88
   [6,]     5           83
 Usando   este comando en R
  > mod.6 <- glm (y menarche$Age, family=
  binomial(link="logit")) donde se puede ver
  que la respuesta es binaria. Donde la
  funcion “logit” su uso tipico es en casos 1,0
  ; si ,no; vivo,muerto; continuo,discreto,etc.
  lineariza el modelo y permite una mejor
  interpretacion ; recordemos a mayor
  dispersion de los datos, usualmente es mu-
  cho mas dificil ponerlos en una ecuacion,
  que podamos utilizar para predicciones etc.
   Call: glm(formula = y 1 + menarche$Age, family =
    binomial(link = "logit"))
   Deviance Residuals:
   Min        1Q        Median 3Q              Max
   -2.0363 -0.9953 -0.4900 0.7780 1.3675
   Coefficients:
   Estimate Std. Error z value Pr(>|z|)
   (Intercept) -21.22639 0.77068 -27.54 <2e-16 ***
   Menarche $ Age 1.63197 0.05895 27.68 <2e-16 ***
   ---
   Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
   (Dispersion parameter for binomial family taken to be 1)
   Null deviance: 3693.884 on 24 degrees of freedom
   Residual deviance: 26.703 on 23 degrees of freedom
   AIC: 114.76
>  anova(mod.6, test="Chisq")
 Analysis of Deviance Table
 Model: binomial, link: logit
 Response: y
 Terms added sequentially (first to last)
 Df Deviance Resid. Df Resid. Dev P(>|Chi|)
 NULL 24 3693.9
 menarche$Age 1 3667.2 23 26.7 0.0
 which in this case is 26.7, and is still highly
  significant.
 En    muchas ocasiones, sin embargo,
  encontramos con que uno o varios de estos
  supuestos no se cumplen. Estos problemas
  se pueden llegar a solucionar mediante la
  transformación de la variable respuesta (por
  ejemplo tomando logaritmos).
 Sin embargo estas transformaciones no
  siempre consiguen corregir la falta de
  normalidad, la heterocedasticidad (varianza
  no constante) o la no linealidad de nuestros
  datos.
 Muchas veces es difícil interpretar los resultados
  obtenidos y a veces se complica aun mas cuando
  utilizamos otro tipo de transformaciones, como
  las exponenciales, las potencias, etc..
 Una alternativa a la transformación de la
  variable respuesta y a la falta de normalidad es
  el uso de los modelos lineales generalizados.
 GLM son una extensión de los modelos lineales
  que permiten utilizar distribuciones no normales
  de los errores (Binomiales, Poisson, Gamma,
  etc.) y varianzas no constantes.
 Específicamente,  podemos considerar utilizar
   GLM cuando la variable respuesta es:
 un conteo de casos (p.e. abundancia de una
  especie);
 un conteo de casos expresados como
  proporciones (p.e. porcentaje de plantas
  muertas en un experimento de vivero);
 una respuesta binaria (p.e. vivo o muerto,
  infectado o no infectado, etc.)
 Area de seguros en general, perdida y
  desastres.
R   es muy util para analizar data sobre
  supervivencia ; los datos se convierten en
  formato “data frame” primero ; luego se
  pueden     usar   comandos    para    hacer
  inferencias sobre ratas de eventos (EVENT
  RATES).
 En R usualmente se pueden ademas crear
  funciones especificas, o caracteristicas
  adicionales que nos facilite analizar
  cualquier “data frame”. La biblioteca de R
  ,como es “open source” crece cada vez mas.
 El  análisis formal y detallado de las
 curvas de sobrevivencia (“análisis de
 sobrevivencia”) trata del estudio      de la
 distribución de los       tiempos de vida.
 Usualmente se aplica a poblaciones
 humanas      pero    puede ser    igualmente
 utilizado con cualquier población donde
 se sigan los individuos, uno a uno, hasta la
 ocurrencia de un evento (usualmente la
 muerte).
 También      puede      usarse con procesos,
  fenomenos ,maquinarias o cualquier caso en
  donde la respuesta individual en el tiempo
  sea binaria : ocurre – no ocurre; 1,0 ; si,no;
 Mas aun     la funcion survreg() ,puede ser
  usada      para     analizar    ,distribuciones
  parametricas incluyendo, Weibull,
 exponencial,     lognormal, and loglogistic
  distribuciones. Un listado mas completo
  puedes         ser       encontrado         bajo
  survreg.distributions.
   En general, los análisis de sobreviviencia
    presentan las siguientes características:

 1. Los tiempos (de respuesta) no están
  usualmente distribuidos normalmente.
 2.   Usualmente tampoco se puede esperar a
  que todos los individuos de una población
  produzcan “el evento” que se está estudiando.
  Por ejemplo, en pacientes humanos que están en
  un protocolo experimental de drogas específicas,
  no todos de ellos continúan con el protocolo o
  algunos de ellos abandonan antes de que finalice
  el experimento.
Supongamos que T denota el tiempo de vida de
 una variable aleatoria. Este tomará valores entre
 (0, ∞) y su distribución continua puede ser
 expresada por una función de distribución
 acumulada F con una función de densidad f.
 Para describir los tiempos de vida es usual
 trabajar con las siguientes funciones:

   Función de sobrevivencia, que es la probabilidad
    de que un individuo esté vivo (o sin presentar el
    evento) en un tiempo dado:

   S(t) = 1 - F (t) = P(T > t)

 Y la función acumulada de riesgo, que define la
   probabilidad acumulada de que el sujeto
   presente el evento en el tiempo t considerando
   que ha estado libre de el en los tiempos
   anteriores:
    H (t) = ∫ h(s) ds donde la integral se calcula
     entre 0 y s.

    Todas ellas están relacionadas de la forma:

      h(t) = f (t)/S(t) ,   H (t) =- log S (t)
   Ahora bien, es necesario considerar los individuos que no alcanzan el
    evento durante el tiempo del análisis (“censored” en inglés).
    El método mas comúnmente utilizado es el de Kaplan-Meier, donde la
    función de sobreviviencia S(t) se estima mediante la fórmula:

                             S (t) = r(ti ) – di / r(ti)

    donde r(ti) es el número de casos vivos (que no han presentado el
    evento), es decir el número de individuos “a riesgo” y di el número
    de muertos (eventos) ocurridos en el intervalo Ii= [ti, ti+1).

    La función de riesgo es estimada por:




                           H (t) = d j / r(t j )
 Aqui   analizaremos un Data Base de las
  muertes de un cementerio , para obtener
  diversos resultados que nos ayuden a ilustrar
  los usos de algunas funciones de R.
 Lo mas facil es tomar la data y llevarla a
  Excel para ir creando un “data frame ” y
  facilitar su interface con R via la funcion
  .csv.
 Es importante crear columnas con nombres
  sobre ellas que faciliten manipularlas en R.
   Importaremos la data via excel usando :
    Tumbas <- read.csv (file=”todos_all.csv”,
    header=TRUE)
    Luego aplicamos la funcion “summary” para
    obtener algunos datos iniciales.
    Note que se han construido 6 columnas con
    nacimiento (year) ,muerte(year) ,
    cementerio (1 o 2) , sexo, edad, status.
 Elpaso siguiente consiste en importar los
 datos a R . Para ello y suponiendo que estos
 se encuentran registrados en Excel, lo mas
 fácil es grabar la matriz de datos mediante la
 opción (en Excel) “grabar como archivo
 separado por comas (csv)”. El archivo de
 datos debe estar ordenado con las variables
 en las columnas y los casos en las filas. El
 nombre de las variables debe estar en la
 primera fila y deben ser claros .
 Estearchivo contiene las siguientes
 variables:

 Cem  : cementerio. 1 = Sur, 2 = Este ; Sexo : 1
  = masculino, 2 = femenino Nacimiento : año
  de nacimiento Muerte : año de muerte
 Edad : Edad de muerte


 Status: 1 = muerto, 2 = vivo (¿Cuántos casos
 vivos hay en estos datos?)
 El  archivo csv puede ser leído en R
 utilizando la función read.csv(). Por
 ejemplo
  suponiendo que el archivo de datos se llama
  “todos_all.csv” y queremos ingresarlo a una
  tabla de datos (“data frame”) llamado
  “tumbas”, debemos ejecutar el siguiente
   comando:
 Tumbas  <- read.csv(file=”todos_all.csv”,
  header=TRUE)
 La opción header=TRUE indica que los
  nombres de las variables se encuentran en la
  primera línea.
> summary(tumbas)
         cem                         sexo                 nacimiento             muerte              edad

 Min.            :1.000   Min.          :1.000   Min.          :1806   Min.          :1868   Min.       :     0.00

 1st Qu.:1.000                   1st Qu.:1.000          1st Qu.:1907          1st Qu.:1979   1st Qu.: 50.00

 Median          :2.000   Median :1.000          Median :1920          Median :1990          Median : 69.00

 Mean            :1.530   Mean          :1.444   Mean          :1922   Mean          :1985   Mean       : 62.54

 3rd Qu.:2.000                   3rd Qu.:2.000          3rd Qu.:1936          3rd Qu.:1997   3rd Qu.: 79.00

 Max.            :2.000   Max.          :2.000   Max.          :2004   Max.          :2006   Max.       :101.00

        status

 Min.            :1

 1st Qu.:1

 Median          :1

 Mean            :1

 3rd Qu.:1

 Max.            :1
 La función “summary” aplicada a una tabla
 de datos nos muestra, para cada variable, el
 valor mínimo, máximo, la media, la mediana
 y el primer y tercer cuartil. Si queremos ver
 la tabla por cementerio, por ejemplo,
 podemos utilizar un subconjunto de datos
 mediante la función
 summary(tumbas[cem==1]), en este caso
 para el Cementerio del Sur solamente.
Histogram of edad
            400
            300
Frequency
            200
            100
            0




                  0   20   40       60         80   100

                                 edad
Las rutinas de sobrevivencia funcionan
con objetos de la clase Surv, que es una
estructura de datos que combina el tiempo
y los eventos.
Esta función toma dos argumentos: el
tiempo y el código que indica el evento.
Así:
> attach(tumbas)
> tumbas.surv <- Surv(edad, status)
Asi se crea un objeto de sobrevivencia con
todos los datos del archivo, utilizando la
variable edad como indicador del tiempo y
status como indicador del evento. NOTA: el
programa asume que el evento ocurre si la
variable que lo define toma valor de 1. En caso
diferente, este valor debe ser indicado
explícitamente        (ejemplo      Surv(edad,
status==3), el código 3 indica que la
persona murió). Usaremos Kaplan –Mier si hay
datos perdidos.
   Si hay datos perdidos se puede usar K-M para la función de
    sobrevivencia y se logra con función survfit().

   > survfit(tumbas.surv)
   Call: survfit(formula = tumbas.surv)

         n       events       median    0.95LCL 0.95UCL
       1675        1675         69          67     70

   Podemos así identificar el tiempo mediano de
    sobrevivencia y los intervalos de confianza de 95% para
    este valor. En este caso y como todos los individuos
    presentaron el evento, la mediana de la sobrevivencia
    coincide con la mediana de tiempo de vida.
   > summary(surv.all, cedad)
   Call: survfit(formula= tumbas.surv)
   time n.risk n.event      survival std.err lower 95% CI upper 95% CI
   0     1675       26      0.98448 0.00302 0.978575 0.99042
   5     1625       26      0.96896 0.00424 0.960685 0.97730
   10    1618       9       0.96358 0.00458 0.954653 0.97260
   15    1599       23      0.94985 0.00533 0.939456 0.96036
   20    1569       26      0.93433 0.00605 0.922541 0.94627
   30    1469       100     0.87463 0.00809 0.858912 0.89063
   40    1371       101     0.81433 0.00950 0.795918 0.83316
   50    1269       109     0.74925 0.01059 0.728781 0.77030
   60    1102       183     0.64000 0.01173 0.617421 0.66340
   70    809        305     0.45791 0.01217 0.434662 0.48240
   80    411        388     0.22627 0.01022 0.207093 0.24722
   90    112        289     0.05373 0.00551 0.043949 0.06569
   100   6          86      0.00239 0.00119 0.000897 0.00636
 Latabla presenta los valores de la función de
 sobrevivencia para los tiempo especificados.
 Así, la probabilidad de que un individuo se
 encuentre libre de evento (vivo) a los 5 años
 es de 0.96996 y para los 80 años de 0.22627.
R  es un lenguaje gratuito, muy flexible que
  permite construir modelos y manipular data
  de diversas maneras y tipos .
 En el caso de la ACTUARIA su uso se ha
  extendido en campos como :
  la teoria de la utilidad ; los seguros; los
  modelos individuales y colectivos; teoria
  del riesgo; teoria de la ruina; premiums
  (costo de polizas) ; modelos generalizados
  etc. ,ecologia,ciencias,otras disciplinas etc.
 http://127.0.0.1:26705/library/stats/html/l
  m.html : Fitting Linear Models.
 Modern Actuarial Risk Theory , J. Dhaene, S.
  Vanduffel, MJ Goovaerts, R. Kaas, D. Vyncke
  – 2005.

 http://www.maths.lancs.ac.uk/~lucy/course
  s/CFAS404/notes/mathematics-for-
  statistics.pdf.
 http://www.maths.lancs.ac.uk/~lucy/course
  s/CFAS422/notes/course-notes-pink.pdf.

Más contenido relacionado

La actualidad más candente

Separata de medidas variabilidad o dispersion
Separata de medidas variabilidad o dispersionSeparata de medidas variabilidad o dispersion
Separata de medidas variabilidad o dispersion
Luis Alberto Fernandez
 
Coeficiente de variación
Coeficiente de variaciónCoeficiente de variación
Coeficiente de variación
oaca54
 
Logica-difusa-simulink-casos
Logica-difusa-simulink-casosLogica-difusa-simulink-casos
Logica-difusa-simulink-casos
Dave R Rdez
 
Distribuciones Muestrales
Distribuciones MuestralesDistribuciones Muestrales
Distribuciones Muestrales
Hector Funes
 
Series1 - Analisis de series temporales
Series1 - Analisis de series temporalesSeries1 - Analisis de series temporales
Series1 - Analisis de series temporales
Miguel Jerez
 

La actualidad más candente (19)

Distribuciones continuas
Distribuciones continuasDistribuciones continuas
Distribuciones continuas
 
Diapositiva jr
Diapositiva jrDiapositiva jr
Diapositiva jr
 
Coeficiente de variación
Coeficiente de variaciónCoeficiente de variación
Coeficiente de variación
 
Tutorial eviews (normalidad)
Tutorial eviews (normalidad)Tutorial eviews (normalidad)
Tutorial eviews (normalidad)
 
distribuciones
distribuciones distribuciones
distribuciones
 
Separata de medidas variabilidad o dispersion
Separata de medidas variabilidad o dispersionSeparata de medidas variabilidad o dispersion
Separata de medidas variabilidad o dispersion
 
For mulario correla-01
For mulario correla-01For mulario correla-01
For mulario correla-01
 
Estadistica aplicada
Estadistica aplicadaEstadistica aplicada
Estadistica aplicada
 
Coeficiente de variación
Coeficiente de variaciónCoeficiente de variación
Coeficiente de variación
 
Logica-difusa-simulink-casos
Logica-difusa-simulink-casosLogica-difusa-simulink-casos
Logica-difusa-simulink-casos
 
Presentación de estadistica
Presentación de estadisticaPresentación de estadistica
Presentación de estadistica
 
Distribución muestral de medias
Distribución muestral de mediasDistribución muestral de medias
Distribución muestral de medias
 
Distribuciones Muestrales
Distribuciones MuestralesDistribuciones Muestrales
Distribuciones Muestrales
 
Teorema del limite central
Teorema del limite centralTeorema del limite central
Teorema del limite central
 
Interfaz grafica del metodo de biseccion en matlab
Interfaz grafica del metodo  de biseccion en matlabInterfaz grafica del metodo  de biseccion en matlab
Interfaz grafica del metodo de biseccion en matlab
 
Series1 - Analisis de series temporales
Series1 - Analisis de series temporalesSeries1 - Analisis de series temporales
Series1 - Analisis de series temporales
 
Medidas de dispersión
Medidas de dispersiónMedidas de dispersión
Medidas de dispersión
 
Intervalos de confianza
Intervalos de confianzaIntervalos de confianza
Intervalos de confianza
 
Unidad 4
Unidad 4Unidad 4
Unidad 4
 

Destacado

Ejercicios resueltos en r
Ejercicios resueltos en rEjercicios resueltos en r
Ejercicios resueltos en r
zasque11
 
Introducción a la Programación en R
Introducción a la Programación en RIntroducción a la Programación en R
Introducción a la Programación en R
Rosa E Padilla
 
Laboratorio Probabilidad 1/3
Laboratorio Probabilidad 1/3Laboratorio Probabilidad 1/3
Laboratorio Probabilidad 1/3
cbpresentaciones
 
Scheduling power-aware abstract
Scheduling power-aware abstractScheduling power-aware abstract
Scheduling power-aware abstract
Vincenzo De Maio
 
Introduzione a R
Introduzione a RIntroduzione a R
Introduzione a R
MCalderisi
 

Destacado (20)

Presentation R
Presentation RPresentation R
Presentation R
 
Ejercicios resueltos en r
Ejercicios resueltos en rEjercicios resueltos en r
Ejercicios resueltos en r
 
LENGUAJE DE PROGRAMACION R
LENGUAJE DE PROGRAMACION RLENGUAJE DE PROGRAMACION R
LENGUAJE DE PROGRAMACION R
 
Introducción a la Programación en R
Introducción a la Programación en RIntroducción a la Programación en R
Introducción a la Programación en R
 
Curso de R: 1.1. introducción al lenguaje (Objetos y operadores básicos)
Curso de R: 1.1. introducción al lenguaje (Objetos y operadores básicos)Curso de R: 1.1. introducción al lenguaje (Objetos y operadores básicos)
Curso de R: 1.1. introducción al lenguaje (Objetos y operadores básicos)
 
Laboratorio Probabilidad 1/3
Laboratorio Probabilidad 1/3Laboratorio Probabilidad 1/3
Laboratorio Probabilidad 1/3
 
Linguaggio R, principi e concetti
Linguaggio R, principi e concettiLinguaggio R, principi e concetti
Linguaggio R, principi e concetti
 
R_note_ODE_ver1.0
R_note_ODE_ver1.0R_note_ODE_ver1.0
R_note_ODE_ver1.0
 
Elisa Teodoro, Clase 5, Funciones
Elisa Teodoro, Clase 5, FuncionesElisa Teodoro, Clase 5, Funciones
Elisa Teodoro, Clase 5, Funciones
 
Ruby es un lenguaje de programación interpretado
Ruby es un lenguaje de programación interpretadoRuby es un lenguaje de programación interpretado
Ruby es un lenguaje de programación interpretado
 
Scheduling power-aware abstract
Scheduling power-aware abstractScheduling power-aware abstract
Scheduling power-aware abstract
 
Introduzione a R
Introduzione a RIntroduzione a R
Introduzione a R
 
Elisa Teodoro, Aplicacion de Derivadas, Clase 2
Elisa Teodoro, Aplicacion de Derivadas, Clase 2Elisa Teodoro, Aplicacion de Derivadas, Clase 2
Elisa Teodoro, Aplicacion de Derivadas, Clase 2
 
Programacion en R
Programacion en RProgramacion en R
Programacion en R
 
Horoscopo test1
Horoscopo test1Horoscopo test1
Horoscopo test1
 
Seguridad en las comunicaciones móviles - Hack&Beers Valencia
Seguridad en las comunicaciones móviles - Hack&Beers ValenciaSeguridad en las comunicaciones móviles - Hack&Beers Valencia
Seguridad en las comunicaciones móviles - Hack&Beers Valencia
 
SEBASTIAN_CRESPO MANUAL R
SEBASTIAN_CRESPO MANUAL RSEBASTIAN_CRESPO MANUAL R
SEBASTIAN_CRESPO MANUAL R
 
Abstract tesi
Abstract tesiAbstract tesi
Abstract tesi
 
MULTIPLICACIÓN EN CUADRÍCULA
MULTIPLICACIÓN EN CUADRÍCULAMULTIPLICACIÓN EN CUADRÍCULA
MULTIPLICACIÓN EN CUADRÍCULA
 
ECUACIONES DIFERENCIALES CON DERIVE
ECUACIONES DIFERENCIALES CON DERIVEECUACIONES DIFERENCIALES CON DERIVE
ECUACIONES DIFERENCIALES CON DERIVE
 

Similar a Introduction to R by David Lucy Cap 12-16

Medidas De DispersióN
Medidas De DispersióNMedidas De DispersióN
Medidas De DispersióN
guest7376ed
 
Capítulo 07 interpretación de resultados
Capítulo 07 interpretación de resultadosCapítulo 07 interpretación de resultados
Capítulo 07 interpretación de resultados
Sergio Valenzuela Mayer
 

Similar a Introduction to R by David Lucy Cap 12-16 (20)

Anova
AnovaAnova
Anova
 
Simulacion uam
Simulacion uamSimulacion uam
Simulacion uam
 
Ejemplos aplicados en R.docx
Ejemplos aplicados en R.docxEjemplos aplicados en R.docx
Ejemplos aplicados en R.docx
 
Distribución normal
Distribución normalDistribución normal
Distribución normal
 
Compilacion econometria con Eviews
Compilacion econometria con EviewsCompilacion econometria con Eviews
Compilacion econometria con Eviews
 
Normalidad uni y multivariante en r
Normalidad uni y multivariante en rNormalidad uni y multivariante en r
Normalidad uni y multivariante en r
 
Estimación estadística
Estimación estadísticaEstimación estadística
Estimación estadística
 
Weibull - Oaplo.pdf
Weibull - Oaplo.pdfWeibull - Oaplo.pdf
Weibull - Oaplo.pdf
 
Biometria clase 3
Biometria clase 3Biometria clase 3
Biometria clase 3
 
Biometria clase 3
Biometria clase 3Biometria clase 3
Biometria clase 3
 
Apuntes simulación y optimización de procesos químicos
Apuntes simulación y optimización de procesos químicosApuntes simulación y optimización de procesos químicos
Apuntes simulación y optimización de procesos químicos
 
Biometria clase 1_2a
Biometria clase 1_2aBiometria clase 1_2a
Biometria clase 1_2a
 
Medidas De DispersióN
Medidas De DispersióNMedidas De DispersióN
Medidas De DispersióN
 
Selecccion de-variable-y-construccion-del-modelo
Selecccion de-variable-y-construccion-del-modeloSelecccion de-variable-y-construccion-del-modelo
Selecccion de-variable-y-construccion-del-modelo
 
2 modelos lineales
2 modelos lineales2 modelos lineales
2 modelos lineales
 
2 modelos lineales
2 modelos lineales2 modelos lineales
2 modelos lineales
 
2 modelos lineales
2 modelos lineales2 modelos lineales
2 modelos lineales
 
2 modelos lineales
2 modelos lineales2 modelos lineales
2 modelos lineales
 
Analisis numerico y Teorias de errores
Analisis numerico y Teorias de erroresAnalisis numerico y Teorias de errores
Analisis numerico y Teorias de errores
 
Capítulo 07 interpretación de resultados
Capítulo 07 interpretación de resultadosCapítulo 07 interpretación de resultados
Capítulo 07 interpretación de resultados
 

Más de Luis Pons

Distribucion de Laplace
Distribucion de LaplaceDistribucion de Laplace
Distribucion de Laplace
Luis Pons
 
Distribucion de Laplace
Distribucion de LaplaceDistribucion de Laplace
Distribucion de Laplace
Luis Pons
 
Estado Finito de Cadenas de Markov
Estado Finito de Cadenas de MarkovEstado Finito de Cadenas de Markov
Estado Finito de Cadenas de Markov
Luis Pons
 
Informacion De Cascadas
Informacion De CascadasInformacion De Cascadas
Informacion De Cascadas
Luis Pons
 
Relaciones Positivas y Negativas
Relaciones Positivas y NegativasRelaciones Positivas y Negativas
Relaciones Positivas y Negativas
Luis Pons
 
Equlibrium, mutual funds and sharpe ratio
Equlibrium, mutual funds and sharpe ratioEqulibrium, mutual funds and sharpe ratio
Equlibrium, mutual funds and sharpe ratio
Luis Pons
 
Introducción a la econometría y teoría de precios
Introducción a la econometría y teoría de preciosIntroducción a la econometría y teoría de precios
Introducción a la econometría y teoría de precios
Luis Pons
 
Desarrollo de las escalas de personalidad de comrey
Desarrollo de las escalas de personalidad de comreyDesarrollo de las escalas de personalidad de comrey
Desarrollo de las escalas de personalidad de comrey
Luis Pons
 
Conoce tus datos
Conoce tus datosConoce tus datos
Conoce tus datos
Luis Pons
 

Más de Luis Pons (9)

Distribucion de Laplace
Distribucion de LaplaceDistribucion de Laplace
Distribucion de Laplace
 
Distribucion de Laplace
Distribucion de LaplaceDistribucion de Laplace
Distribucion de Laplace
 
Estado Finito de Cadenas de Markov
Estado Finito de Cadenas de MarkovEstado Finito de Cadenas de Markov
Estado Finito de Cadenas de Markov
 
Informacion De Cascadas
Informacion De CascadasInformacion De Cascadas
Informacion De Cascadas
 
Relaciones Positivas y Negativas
Relaciones Positivas y NegativasRelaciones Positivas y Negativas
Relaciones Positivas y Negativas
 
Equlibrium, mutual funds and sharpe ratio
Equlibrium, mutual funds and sharpe ratioEqulibrium, mutual funds and sharpe ratio
Equlibrium, mutual funds and sharpe ratio
 
Introducción a la econometría y teoría de precios
Introducción a la econometría y teoría de preciosIntroducción a la econometría y teoría de precios
Introducción a la econometría y teoría de precios
 
Desarrollo de las escalas de personalidad de comrey
Desarrollo de las escalas de personalidad de comreyDesarrollo de las escalas de personalidad de comrey
Desarrollo de las escalas de personalidad de comrey
 
Conoce tus datos
Conoce tus datosConoce tus datos
Conoce tus datos
 

Introduction to R by David Lucy Cap 12-16

  • 1. SURKY BONILLA,LUIS PONS ,JUAN FERREIRA
  • 2.
  • 3. R es un lenguaje muy usado para crear modelos matematicos en base a data.  El comando lm ( en r) es usado para crear modelos lineales. Tambien para buscar regresion lineal, varianza y covarianza.  Provee ademas muchos recursos para normalizar dispersion de valores en graficas e identificar relaciones y patrones.
  • 4. Los pasos de un modelo lineal son:  1. Escribir el modelo matemático con todas sus hipótesis.  2. Estimación de los parámetros del modelo.  3. Inferencias sobre los parámetros.  4. Diagnóstico del modelo.
  • 5.  La función que realiza los modelos lineales en R es lm "lineal model".  Este objeto puede ser utilizado para cualquier función para realizar un análisis de la varianza (medida de la dispersion) , un modelo autoregresivo etc…  La función lm tiene la siguiente sintaxis:  lm(formula, data, subset, weights, method = "qr", model = TRUE, x = FALSE, y = FALSE, qr = TRUE, contrasts = NULL, ...)
  • 6.  En “formula” ponemos el modelo expresado: y ~ x1+ x2 + ...+ xn  En “data” especificamos el data frame que contiene las variables del modelo en el caso de que trabajemos con un data frame.  En “subset” especificamos un subconjunto de observaciones para validar posteriormente el modelo.
  • 7.  En “weights” especificamos los pesos, es muy útil si buscamos mínimos cuadrados ponderados.  Con “method” especificamos el método. Si no entramos ninguno , sólo es posible obtener el modelo por mínimos cuadrados ponderados.
  • 8.  En “model” con “TRUE” decimos a R que ha de guardarse en el objeto, la matriz del modelo, el “frame”, etc.. En “contrast” pode-mos especificar objetos con los que realizar contrastes sobre los parámetros.  Tenemos múltiples opciones, para ver cuales son empleamos la ayuda (?lm) y asi vemos la documentación R sobre el procedimiento lm.
  • 9.  Eltiempo que tarda un sistema informático en red en ejecutar una instrucción depende del número de usuarios conectados a él. Si no hay usuarios el tiempo es 0. Tenemos los siguientes datos:
  • 10.  Nº usuarios Tiempo de ejecución  10 1  15 1.2  20 2  20 2.1  25 2.2  30 2  30 1.9
  • 11.  Se pretende ajustar un modelo lineal sin término independiente, construir la tabla ANOVA y comparar el modelo con el de término independiente. Veamos las instrucciones en R:  > tiempo <- c(1,1.2,2,2.1,2.2,2,1.9)  > usuarios <- c(10,15,20,20,25,30,30)  > ejemplo <-lm(tiempo~usuarios-1)  # El modelo se crea en un objeto.
  • 12. > summary (ejemplo)  Call: lm (formula = tiempo ~ usuarios - 1)  Residuals:  Min 1Q Median 3Q Max  -0.4831 -0.1873 0.2056 0 .3127 0.5113  Coefficients:  Estimate Std. Error t value Pr(>|t|)  usuarios 0.079437 0.006496 12.23 1.82e-05 ***  ---  Signif. codes: 0 „***‟ 0.001 „**‟ 0.01 „*‟ 0.05 „.‟ 0.1 „ ‟ 1  Residual standard error: 0.3871 on 6 degrees of freedom  Multiple R-squared: 0.9614, Adjusted R-squared: 0.955  F-statistic: 149.5 on 1 and 6 DF, p-value: 1.821e-05
  • 13.  En este caso el modelo resultante sería: tiempo de ejecución=0.0794 usuarios, también vemos que es un excelente modelo lineal ya que el Multiple R-Squared: 0.9614 (coeficiente de determinación ajustado) es bastante próximo a 1 (el mejor valor posible).  Para construir la tabla del análisis de la varianza emplearemos „anova‟ como objeto.  > an. varianza<-anova (ejemplo)  > summary (an. varianza)
  • 14. Df Sum Sq Mean Sq F value Pr(>F)  Min.:1.00 Min.:0.8989 Min.:0.1498 Min.:149.5 Min. :1.821e- 05  1st Qu.:2.25 1st Qu.: 6.2744 1st Qu.: 5.7126 1st Qu.:149.5 1st Qu.:1.821e-05  Median :3.50 Median :11.6500 Median :11.2755 Median :149.5 Median :1.821e-05  Mean :3.50 Mean :11.6500 Mean :11.2755 Mean :149.5 Mean :1.821e-05  3rd Qu.:4.75 3rd Qu.:17.0256 3rd Qu.:16.8383 3rd Qu.:149.5 3rd Qu.:1.821e-05  Max. :6.00 Max. :22.4011 Max. :22.4011 Max. :149.5 Max. :1.821e-05  NA's : 1.0 NA's :1.000e+00
  • 15.
  • 16.  Los modelos lineales (regresion, ANOVA, ANCOVA), se basan en los siguientes supuestos:  1. Los errores se distribuyen normalmente.  2. La varianza es constante.  3. La variable respuesta se relaciona linealmente con la(s) variable(s) independiente(s).
  • 17.  Aunque existen diferentes tipos de distribuciones, en general, las exponenciales son las mas comunes y segun la aplicacion.  Asi por ejemplo la distribucion exponencial ha ganado mucha importancia en aplicaciones en diversas ciencias y disciplinas, en particular en actuaria, seguros de perdida , donde se hacen mas realistas.
  • 18.  Poisson, muy útiles para conteos (p.e. numero de muertos por accidentes de trafico; numero de dias con heladas en el mes de enero; numero de colonias de bacterias en una placa de agar; numero de especies de plantas leñosas en un cuadrado de muestreo de 10 m2).
  • 19.  Binomiales, de gran utilidad para proporciones y datos de presencia/ausencia (p.e. tasas de mortalidad; tasas de infección; porcentaje de parasitismo; porcentaje de éxito reproductivo; presencia o ausencia de una determinada especie.
  • 20. Muy útiles con datos que muestran un coeficiente de variación constante, esto es, en donde la varianza aumenta según aumenta la media de la muestra de manera constante (p.e. numero de presas comidas por un predador en función del numero de presas disponibles).
  • 21.  glm (formula, family = gaussian, data, weights, subset, na.action, start = NULL, etastart, mustart, offset, control = list(...), model = TRUE, method = "glm.fit", x = FALSE, y = TRUE, contrasts = NULL, ...)  Formula: descripcion del modelo ; Family : tipo de funcion, binomial ,gausiana etc. ; cada subcomando permite mas detalle, segun las necesidades . ( ver R)
  • 22. > library (MASS)  > data (menarche) ( primer periodo )  > head (menarche)  Age Total Menarche  1 9.21 376 0  2 10.21 200 0  3 10.58 93 0  4 10.83 120 2  5 11.08 90 2  6 11.33 88 5
  • 23. Para modelar estos datos usando glm convertimos los datos en una matriz de numeros de quienes han alcanzado la menarquia y quienes no.  > yes <- menarche $ Menarche  > no <- menarche Total - menarche$Menarche  > y <- c bind(yes, no)  > head(y)  yes no  [1,] 0 376  [2,] 0 200  [3,] 0 93  [4,] 2 118  [5,] 2 88  [6,] 5 83
  • 24.  Usando este comando en R > mod.6 <- glm (y menarche$Age, family= binomial(link="logit")) donde se puede ver que la respuesta es binaria. Donde la funcion “logit” su uso tipico es en casos 1,0 ; si ,no; vivo,muerto; continuo,discreto,etc. lineariza el modelo y permite una mejor interpretacion ; recordemos a mayor dispersion de los datos, usualmente es mu- cho mas dificil ponerlos en una ecuacion, que podamos utilizar para predicciones etc.
  • 25. Call: glm(formula = y 1 + menarche$Age, family = binomial(link = "logit"))  Deviance Residuals:  Min 1Q Median 3Q Max  -2.0363 -0.9953 -0.4900 0.7780 1.3675  Coefficients:  Estimate Std. Error z value Pr(>|z|)  (Intercept) -21.22639 0.77068 -27.54 <2e-16 ***  Menarche $ Age 1.63197 0.05895 27.68 <2e-16 ***  ---  Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1  (Dispersion parameter for binomial family taken to be 1)  Null deviance: 3693.884 on 24 degrees of freedom  Residual deviance: 26.703 on 23 degrees of freedom  AIC: 114.76
  • 26. > anova(mod.6, test="Chisq")  Analysis of Deviance Table  Model: binomial, link: logit  Response: y  Terms added sequentially (first to last)  Df Deviance Resid. Df Resid. Dev P(>|Chi|)  NULL 24 3693.9  menarche$Age 1 3667.2 23 26.7 0.0  which in this case is 26.7, and is still highly significant.
  • 27.  En muchas ocasiones, sin embargo, encontramos con que uno o varios de estos supuestos no se cumplen. Estos problemas se pueden llegar a solucionar mediante la transformación de la variable respuesta (por ejemplo tomando logaritmos).  Sin embargo estas transformaciones no siempre consiguen corregir la falta de normalidad, la heterocedasticidad (varianza no constante) o la no linealidad de nuestros datos.
  • 28.  Muchas veces es difícil interpretar los resultados obtenidos y a veces se complica aun mas cuando utilizamos otro tipo de transformaciones, como las exponenciales, las potencias, etc..  Una alternativa a la transformación de la variable respuesta y a la falta de normalidad es el uso de los modelos lineales generalizados.  GLM son una extensión de los modelos lineales que permiten utilizar distribuciones no normales de los errores (Binomiales, Poisson, Gamma, etc.) y varianzas no constantes.
  • 29.  Específicamente, podemos considerar utilizar GLM cuando la variable respuesta es:  un conteo de casos (p.e. abundancia de una especie);  un conteo de casos expresados como proporciones (p.e. porcentaje de plantas muertas en un experimento de vivero);  una respuesta binaria (p.e. vivo o muerto, infectado o no infectado, etc.)  Area de seguros en general, perdida y desastres.
  • 30.
  • 31. R es muy util para analizar data sobre supervivencia ; los datos se convierten en formato “data frame” primero ; luego se pueden usar comandos para hacer inferencias sobre ratas de eventos (EVENT RATES).  En R usualmente se pueden ademas crear funciones especificas, o caracteristicas adicionales que nos facilite analizar cualquier “data frame”. La biblioteca de R ,como es “open source” crece cada vez mas.
  • 32.  El análisis formal y detallado de las curvas de sobrevivencia (“análisis de sobrevivencia”) trata del estudio de la distribución de los tiempos de vida. Usualmente se aplica a poblaciones humanas pero puede ser igualmente utilizado con cualquier población donde se sigan los individuos, uno a uno, hasta la ocurrencia de un evento (usualmente la muerte).
  • 33.  También puede usarse con procesos, fenomenos ,maquinarias o cualquier caso en donde la respuesta individual en el tiempo sea binaria : ocurre – no ocurre; 1,0 ; si,no;  Mas aun la funcion survreg() ,puede ser usada para analizar ,distribuciones parametricas incluyendo, Weibull,  exponencial, lognormal, and loglogistic distribuciones. Un listado mas completo puedes ser encontrado bajo survreg.distributions.
  • 34. En general, los análisis de sobreviviencia presentan las siguientes características:  1. Los tiempos (de respuesta) no están usualmente distribuidos normalmente.  2. Usualmente tampoco se puede esperar a que todos los individuos de una población produzcan “el evento” que se está estudiando. Por ejemplo, en pacientes humanos que están en un protocolo experimental de drogas específicas, no todos de ellos continúan con el protocolo o algunos de ellos abandonan antes de que finalice el experimento.
  • 35. Supongamos que T denota el tiempo de vida de una variable aleatoria. Este tomará valores entre (0, ∞) y su distribución continua puede ser expresada por una función de distribución acumulada F con una función de densidad f.  Para describir los tiempos de vida es usual trabajar con las siguientes funciones:  Función de sobrevivencia, que es la probabilidad de que un individuo esté vivo (o sin presentar el evento) en un tiempo dado:  S(t) = 1 - F (t) = P(T > t)
  • 36.
  • 37.  Y la función acumulada de riesgo, que define la probabilidad acumulada de que el sujeto presente el evento en el tiempo t considerando que ha estado libre de el en los tiempos anteriores:  H (t) = ∫ h(s) ds donde la integral se calcula entre 0 y s. Todas ellas están relacionadas de la forma:  h(t) = f (t)/S(t) , H (t) =- log S (t)
  • 38. Ahora bien, es necesario considerar los individuos que no alcanzan el evento durante el tiempo del análisis (“censored” en inglés). El método mas comúnmente utilizado es el de Kaplan-Meier, donde la función de sobreviviencia S(t) se estima mediante la fórmula: S (t) = r(ti ) – di / r(ti) donde r(ti) es el número de casos vivos (que no han presentado el evento), es decir el número de individuos “a riesgo” y di el número de muertos (eventos) ocurridos en el intervalo Ii= [ti, ti+1). La función de riesgo es estimada por: H (t) = d j / r(t j )
  • 39.  Aqui analizaremos un Data Base de las muertes de un cementerio , para obtener diversos resultados que nos ayuden a ilustrar los usos de algunas funciones de R.  Lo mas facil es tomar la data y llevarla a Excel para ir creando un “data frame ” y facilitar su interface con R via la funcion .csv.  Es importante crear columnas con nombres sobre ellas que faciliten manipularlas en R.
  • 40. Importaremos la data via excel usando : Tumbas <- read.csv (file=”todos_all.csv”, header=TRUE) Luego aplicamos la funcion “summary” para obtener algunos datos iniciales. Note que se han construido 6 columnas con nacimiento (year) ,muerte(year) , cementerio (1 o 2) , sexo, edad, status.
  • 41.
  • 42.  Elpaso siguiente consiste en importar los datos a R . Para ello y suponiendo que estos se encuentran registrados en Excel, lo mas fácil es grabar la matriz de datos mediante la opción (en Excel) “grabar como archivo separado por comas (csv)”. El archivo de datos debe estar ordenado con las variables en las columnas y los casos en las filas. El nombre de las variables debe estar en la primera fila y deben ser claros .
  • 43.  Estearchivo contiene las siguientes variables:  Cem : cementerio. 1 = Sur, 2 = Este ; Sexo : 1 = masculino, 2 = femenino Nacimiento : año de nacimiento Muerte : año de muerte  Edad : Edad de muerte  Status: 1 = muerto, 2 = vivo (¿Cuántos casos vivos hay en estos datos?)
  • 44.  El archivo csv puede ser leído en R utilizando la función read.csv(). Por ejemplo suponiendo que el archivo de datos se llama “todos_all.csv” y queremos ingresarlo a una tabla de datos (“data frame”) llamado “tumbas”, debemos ejecutar el siguiente comando:
  • 45.  Tumbas <- read.csv(file=”todos_all.csv”, header=TRUE)  La opción header=TRUE indica que los nombres de las variables se encuentran en la primera línea.
  • 46. > summary(tumbas) cem sexo nacimiento muerte edad Min. :1.000 Min. :1.000 Min. :1806 Min. :1868 Min. : 0.00 1st Qu.:1.000 1st Qu.:1.000 1st Qu.:1907 1st Qu.:1979 1st Qu.: 50.00 Median :2.000 Median :1.000 Median :1920 Median :1990 Median : 69.00 Mean :1.530 Mean :1.444 Mean :1922 Mean :1985 Mean : 62.54 3rd Qu.:2.000 3rd Qu.:2.000 3rd Qu.:1936 3rd Qu.:1997 3rd Qu.: 79.00 Max. :2.000 Max. :2.000 Max. :2004 Max. :2006 Max. :101.00 status Min. :1 1st Qu.:1 Median :1 Mean :1 3rd Qu.:1 Max. :1
  • 47.  La función “summary” aplicada a una tabla de datos nos muestra, para cada variable, el valor mínimo, máximo, la media, la mediana y el primer y tercer cuartil. Si queremos ver la tabla por cementerio, por ejemplo, podemos utilizar un subconjunto de datos mediante la función summary(tumbas[cem==1]), en este caso para el Cementerio del Sur solamente.
  • 48. Histogram of edad 400 300 Frequency 200 100 0 0 20 40 60 80 100 edad
  • 49. Las rutinas de sobrevivencia funcionan con objetos de la clase Surv, que es una estructura de datos que combina el tiempo y los eventos. Esta función toma dos argumentos: el tiempo y el código que indica el evento. Así: > attach(tumbas) > tumbas.surv <- Surv(edad, status)
  • 50. Asi se crea un objeto de sobrevivencia con todos los datos del archivo, utilizando la variable edad como indicador del tiempo y status como indicador del evento. NOTA: el programa asume que el evento ocurre si la variable que lo define toma valor de 1. En caso diferente, este valor debe ser indicado explícitamente (ejemplo Surv(edad, status==3), el código 3 indica que la persona murió). Usaremos Kaplan –Mier si hay datos perdidos.
  • 51. Si hay datos perdidos se puede usar K-M para la función de sobrevivencia y se logra con función survfit().  > survfit(tumbas.surv)  Call: survfit(formula = tumbas.surv)  n events median 0.95LCL 0.95UCL  1675 1675 69 67 70  Podemos así identificar el tiempo mediano de sobrevivencia y los intervalos de confianza de 95% para este valor. En este caso y como todos los individuos presentaron el evento, la mediana de la sobrevivencia coincide con la mediana de tiempo de vida.
  • 52. > summary(surv.all, cedad)  Call: survfit(formula= tumbas.surv)  time n.risk n.event survival std.err lower 95% CI upper 95% CI  0 1675 26 0.98448 0.00302 0.978575 0.99042  5 1625 26 0.96896 0.00424 0.960685 0.97730  10 1618 9 0.96358 0.00458 0.954653 0.97260  15 1599 23 0.94985 0.00533 0.939456 0.96036  20 1569 26 0.93433 0.00605 0.922541 0.94627  30 1469 100 0.87463 0.00809 0.858912 0.89063  40 1371 101 0.81433 0.00950 0.795918 0.83316  50 1269 109 0.74925 0.01059 0.728781 0.77030  60 1102 183 0.64000 0.01173 0.617421 0.66340  70 809 305 0.45791 0.01217 0.434662 0.48240  80 411 388 0.22627 0.01022 0.207093 0.24722  90 112 289 0.05373 0.00551 0.043949 0.06569  100 6 86 0.00239 0.00119 0.000897 0.00636
  • 53.  Latabla presenta los valores de la función de sobrevivencia para los tiempo especificados. Así, la probabilidad de que un individuo se encuentre libre de evento (vivo) a los 5 años es de 0.96996 y para los 80 años de 0.22627.
  • 54. R es un lenguaje gratuito, muy flexible que permite construir modelos y manipular data de diversas maneras y tipos .  En el caso de la ACTUARIA su uso se ha extendido en campos como : la teoria de la utilidad ; los seguros; los modelos individuales y colectivos; teoria del riesgo; teoria de la ruina; premiums (costo de polizas) ; modelos generalizados etc. ,ecologia,ciencias,otras disciplinas etc.
  • 55.  http://127.0.0.1:26705/library/stats/html/l m.html : Fitting Linear Models.  Modern Actuarial Risk Theory , J. Dhaene, S. Vanduffel, MJ Goovaerts, R. Kaas, D. Vyncke – 2005.  http://www.maths.lancs.ac.uk/~lucy/course s/CFAS404/notes/mathematics-for- statistics.pdf.  http://www.maths.lancs.ac.uk/~lucy/course s/CFAS422/notes/course-notes-pink.pdf.