Este documento presenta un análisis estadístico mediante modelos de efectos mixtos funcionales realizado por Elvira Delgado Márquez para su maestría en la Universidad de Granada. El trabajo incluye una revisión de la literatura sobre modelos FANOVA y efectos mixtos con correlación temporal o espacial, y desarrolla un estudio de simulación inspirado en un experimento sobre curvas de percepción táctil para investigar el efecto del truncamiento y las funciones ortonormales en las estimaciones.
El documento describe los elementos clave para diagnosticar y analizar un modelo de regresión lineal. Explica que la diagnosis es necesaria para determinar qué suposiciones del modelo son válidas y cuáles no a través del análisis de gráficos de residuos y estadísticos. También cubre factores que afectan los datos, como valores atípicos, y diferentes tipos de gráficos útiles para la diagnosis, como gráficos de residuos y de regresión parcial.
El documento proporciona una introducción al análisis multivariante. Explica que este conjunto de métodos estadísticos permite analizar datos con múltiples variables medidas para cada sujeto u objeto estudiado. Describe los objetivos del análisis multivariante y clasifica sus técnicas en métodos de dependencia, interdependencia y estructurales. Además, presenta ejemplos de aplicaciones del análisis multivariante en diversas áreas como la medicina, biología, sociología e investigación de mercados.
Este documento compara diferentes estrategias de inferencia estadística para el análisis de datos con valores faltantes mediante una simulación. Describe los mecanismos de no respuesta y los primeros métodos heurísticos como el análisis de casos completos y disponibles. Luego introduce métodos de imputación simple como la imputación mediante la media, la regresión y la regresión estocástica para sustituir los valores faltantes. El objetivo es analizar cómo afectan estas estrategias a las estimaciones y conclusiones para ayudar a los
Este documento trata sobre la estadística aplicada a la educación superior. Introduce el tema de la investigación educativa y la brecha entre la teoría y la práctica. Explica que la experimentación es importante para guiar el desarrollo de ambientes de aprendizaje efectivos mediante el diseño de experimentos. Luego describe conceptos estadísticos como la regresión lineal simple, el diagrama de dispersión y el método de mínimos cuadrados para modelar las relaciones entre variables.
El documento presenta información sobre métodos de análisis multivariado. Explica que estos métodos permiten analizar múltiples variables medidas para cada sujeto de estudio de forma simultánea. Describe brevemente los métodos de análisis factorial, análisis de correspondencias y análisis de cluster, incluyendo sus objetivos, etapas y usos comunes. Finalmente, incluye un ejemplo de tablas de resultados de un análisis de cluster.
Este documento describe experimentos de dos factores, en los que se varían dos factores (reactivos y catalizadores) para determinar su efecto en la producción de un proceso químico. Presenta una tabla con los resultados de las combinaciones de tres reactivos y cuatro catalizadores. Explica que el propósito general de estos experimentos es determinar si las medias de tratamiento (producciones) se ven afectadas por la variación de los factores individuales (reactivo o catalizador) o ambos factores.
Este documento presenta un análisis de medidas repetidas para comparar los cambios en el volumen de lesiones hiperintensas en pacientes con esclerosis múltiple tratados con interferón beta durante tres años. Los resultados muestran que los cambios en el volumen no son iguales a lo largo de los tres años y que el volumen promedio disminuye linealmente con el tiempo.
Este documento presenta una introducción al análisis exploratorio de datos multivariantes. Explica que el objetivo del AED es examinar los datos antes de aplicar técnicas estadísticas para comprender las relaciones entre variables. Luego describe las etapas del AED, incluyendo preparar los datos, realizar análisis univariado y bivariado, y evaluar supuestos como normalidad y linealidad. Finalmente, provee detalles sobre métodos específicos para cada etapa como gráficos, medidas y pruebas estadísticas.
El documento describe los elementos clave para diagnosticar y analizar un modelo de regresión lineal. Explica que la diagnosis es necesaria para determinar qué suposiciones del modelo son válidas y cuáles no a través del análisis de gráficos de residuos y estadísticos. También cubre factores que afectan los datos, como valores atípicos, y diferentes tipos de gráficos útiles para la diagnosis, como gráficos de residuos y de regresión parcial.
El documento proporciona una introducción al análisis multivariante. Explica que este conjunto de métodos estadísticos permite analizar datos con múltiples variables medidas para cada sujeto u objeto estudiado. Describe los objetivos del análisis multivariante y clasifica sus técnicas en métodos de dependencia, interdependencia y estructurales. Además, presenta ejemplos de aplicaciones del análisis multivariante en diversas áreas como la medicina, biología, sociología e investigación de mercados.
Este documento compara diferentes estrategias de inferencia estadística para el análisis de datos con valores faltantes mediante una simulación. Describe los mecanismos de no respuesta y los primeros métodos heurísticos como el análisis de casos completos y disponibles. Luego introduce métodos de imputación simple como la imputación mediante la media, la regresión y la regresión estocástica para sustituir los valores faltantes. El objetivo es analizar cómo afectan estas estrategias a las estimaciones y conclusiones para ayudar a los
Este documento trata sobre la estadística aplicada a la educación superior. Introduce el tema de la investigación educativa y la brecha entre la teoría y la práctica. Explica que la experimentación es importante para guiar el desarrollo de ambientes de aprendizaje efectivos mediante el diseño de experimentos. Luego describe conceptos estadísticos como la regresión lineal simple, el diagrama de dispersión y el método de mínimos cuadrados para modelar las relaciones entre variables.
El documento presenta información sobre métodos de análisis multivariado. Explica que estos métodos permiten analizar múltiples variables medidas para cada sujeto de estudio de forma simultánea. Describe brevemente los métodos de análisis factorial, análisis de correspondencias y análisis de cluster, incluyendo sus objetivos, etapas y usos comunes. Finalmente, incluye un ejemplo de tablas de resultados de un análisis de cluster.
Este documento describe experimentos de dos factores, en los que se varían dos factores (reactivos y catalizadores) para determinar su efecto en la producción de un proceso químico. Presenta una tabla con los resultados de las combinaciones de tres reactivos y cuatro catalizadores. Explica que el propósito general de estos experimentos es determinar si las medias de tratamiento (producciones) se ven afectadas por la variación de los factores individuales (reactivo o catalizador) o ambos factores.
Este documento presenta un análisis de medidas repetidas para comparar los cambios en el volumen de lesiones hiperintensas en pacientes con esclerosis múltiple tratados con interferón beta durante tres años. Los resultados muestran que los cambios en el volumen no son iguales a lo largo de los tres años y que el volumen promedio disminuye linealmente con el tiempo.
Este documento presenta una introducción al análisis exploratorio de datos multivariantes. Explica que el objetivo del AED es examinar los datos antes de aplicar técnicas estadísticas para comprender las relaciones entre variables. Luego describe las etapas del AED, incluyendo preparar los datos, realizar análisis univariado y bivariado, y evaluar supuestos como normalidad y linealidad. Finalmente, provee detalles sobre métodos específicos para cada etapa como gráficos, medidas y pruebas estadísticas.
El documento describe varios diseños y análisis estadísticos para experimentos con un solo factor, incluyendo: 1) el diseño completamente al azar de ANOVA, 2) notación de puntos, 3) ANOVA para diseño completamente al azar, 4) cálculos manuales y diagramas de cajas, 5) comparaciones múltiples, 6) comparación con un control, 7) contrastes, 8) verificación de supuestos como normalidad y varianza constante, 9) diseños en bloques completos al azar y 10) diseños en cuadros latinos y grecolatin
El documento presenta información sobre un módulo de estadística aplicada a la educación superior que se desarrollará del 20 de mayo al 10 de junio de 2013. Incluye conceptos clave como regresión lineal simple, correlación lineal simple, diseños experimentales y análisis de varianza. El autor enfatiza la importancia de utilizar métodos estadísticos para validar hipótesis de manera científica.
Este documento discute los diferentes tipos de muestreo y cómo determinar el tamaño de muestra. Explica que existen dos tipos de diseños de investigación: diseños no experimentales y diseños experimentales. También describe los tres principales tipos de muestreo probabilístico - muestreo aleatorio simple, muestreo aleatorio proporcional y muestreo aleatorio estratificado - y las fórmulas para calcular el tamaño de muestra en cada caso. El objetivo es orientar a los investigadores sobre qué muestreo usar y cómo calcular el tamaño de muestra
Análisis factorial aplicado en la elaboración de una tesisJuan F.Guevara
Este documento explica el análisis factorial aplicado en una tesis. Resume que el análisis factorial reduce muchas variables a factores más simples. Describe los pasos para aplicar el análisis factorial incluyendo calcular el índice KMO y prueba de esfericidad de Bartlett, extraer factores revisando los autovalores, y rotar los factores para mejor interpretación. El análisis factorial ayuda a reducir y organizar variables en una investigación.
Este documento describe el análisis de factores como una técnica estadística multivariada que reduce un conjunto de variables a un número menor de factores subyacentes. Explica que el análisis de factores busca identificar las variables latentes comunes que explican las correlaciones entre las variables observadas originales. También detalla los diferentes métodos de factorización y tipos de factores, así como las aplicaciones e implicaciones del análisis de factores para el desarrollo de instrumentos.
El documento describe el análisis de varianza factorial (ANOVA factorial), un método estadístico que permite evaluar el efecto individual y conjunto de dos o más factores sobre una variable dependiente. Explica que en un ANOVA factorial existen hipótesis nulas para cada factor y combinación de factores, y que se usan estadísticos F para decidir si se aceptan o rechazan dichas hipótesis.
Este documento presenta el uso de varias técnicas estadísticas multivariadas para analizar el rendimiento académico de estudiantes en una institución de educación superior. Las técnicas incluyen análisis de correspondencia, análisis de clúster, análisis de covarianza y regresión logística, las cuales se aplican a las calificaciones de los estudiantes y variables socioeconómicas. Los resultados indican que el análisis de covarianza permite comparar secciones de cursos eliminando el efecto de
Este documento trata sobre el análisis exploratorio de datos multivariantes. Explica conceptos como la homocedasticidad, la identificación de datos atípicos a través de gráficos de cajas, diagramas de dispersión y caras de Chernoff. También cubre la detección de datos ausentes, clasificándolos en aleatorios o no aleatorios dependiendo de si siguen o no un patrón sistemático.
El documento proporciona una introducción al análisis de varianza (ANOVA) y describe los modelos de ANOVA, el ANOVA unifactorial y multifactorial entre grupos, y el ANOVA con medidas repetidas. Explica los supuestos del ANOVA, los tipos de diseños experimentales, y cómo utilizar el programa SPSS para realizar diferentes tipos de ANOVA.
Este documento proporciona una introducción a conceptos básicos de estadística como muestra, población, variable, dato y parámetro. Explica los tipos de estadística como descriptiva, inferencial y aplicada. También describe pasos para un estudio estadístico, tipos de muestreo, variables y tablas de frecuencias. El objetivo es brindar una visión general de los principales elementos y métodos de la estadística.
Este documento introduce los conceptos básicos del análisis de datos categóricos. Explica que los datos categóricos miden variables en grupos limitados en lugar de valores continuos. También define variables independientes y dependientes, y describe las escalas de medición nominal, ordinal y de conteo para variables categóricas. Además, introduce las distribuciones binomial y multinomial para modelar datos categóricos, y métodos estadísticos como estimación por máxima verosimilitud e intervalos de confianza.
El documento proporciona definiciones y clasificaciones de la simulación. Define la simulación como el acto de imitar o fingir una acción cuando en realidad no se está llevando a cabo. Clasifica los modelos de simulación como estáticos-dinámicos, determinísticos-estocásticos, discretos-continuos, físicos-analógicos. También describe procedimientos como la definición del sistema, formulación del modelo, recolección de datos, verificación e interpretación.
Este documento introduce conceptos básicos de estadística aplicada a la educación superior. Explica la diferencia entre estadística descriptiva e inferencial, y define población, variables, atributos y los elementos que componen una variable como nombre, definición, valores posibles y procedimiento de clasificación. También clasifica variables en cualitativas, cuantitativas discretas y continuas. El objetivo es proporcionar una introducción a métodos estadísticos útiles para la educación superior.
el análisis de la varianza (ANOVA, según terminología inglesa) es una colección de modelos estadísticos y sus procedimientos asociados, en el cual la varianza está particionada en ciertos componentes debidos a diferentes variables explicativas.
La estadística estudia la recolección, análisis e interpretación de datos para ayudar en la toma de decisiones o explicar fenómenos. Se divide en estadística descriptiva, que resume y describe datos, y estadística inferencial, que genera modelos e inferencias sobre los datos considerando su aleatoriedad. El rango identifica la dispersión de datos en una muestra como la diferencia entre el valor máximo y mínimo.
Este documento describe la aplicación de un programa informático de estadística inferencial para resolver ejercicios y problemas en la carrera de comercio exterior. Presenta objetivos de identificar y aplicar correctamente un programa para realizar cálculos estadísticos. Explica conceptos como correlación, regresión lineal, hipótesis estadísticas y pruebas. Finalmente introduce el programa SPSS y su capacidad para procesar grandes volúmenes de datos.
Cómo realizar "paso a paso" un contraste de hipótesis con SPSS para WindowsJairo Acosta Solano
Cuando queremos evaluar el grado de asociación o independencia entre una variable cuantitativa y una variable categórica (y recuérdese que ésta clasifica o diferencia a los individuos en grupos, tantos como categorías tiene dicha variable), el procedimiento estadístico inferencial recurre a comparar las medias de la distribuciones de la variable cuantitativa en los diferentes grupos establecidos por la variable categórica. Si ésta tiene solo dos categorías (es dicotómica), la comparación de medias entre dos grupos independientes se lleva a cabo por el test t de Student; si tiene tres o más categorías, la comparación de medias entre tres o más grupos independientes se realiza a través de un modelo matemático más general, el Análisis de la Varianza (ANOVA). En ambos casos, las pruebas estadísticas son exigentes con ciertos requisitos previos: la distribución Normal de la variable cuantitativa en los grupos que se comparan y la homogeneidad de varianzas en las poblaciones de las que proceden los grupos; su no cumplimiento conlleva la necesidad de recurrir a pruebas
estadísticas no paramétricas. En este documento se enseña a hacer estos análisis con el programa SPSS para Windows.
La estadística descriptiva se utiliza para obtener, organizar, presentar y describir un conjunto de datos mediante tablas, medidas numéricas o gráficos, y calcula parámetros como las medidas de centralización y dispersión. La estadística inferencial permite inferir propiedades y tendencias de una muestra aplicando el análisis estadístico. El documento también define términos como población, muestra, variable, escalas de medición y otros conceptos estadísticos fundamentales.
El documento analiza los efectos de la globalización en los estados nacionales y los derechos fundamentales. Sostiene que aunque la globalización ha expandido los espacios económicos y sociales, no ha ocurrido lo mismo con los espacios políticos. Esto ha debilitado a los estados y reducido su capacidad para garantizar los derechos fundamentales. También argumenta que la lógica del mercado choca con la esencia de los estados y la política, socavando los valores y principios de los estados constitucionales.
Este documento presenta las posiciones y resultados de la primera ronda de la Liga Casildense de Fútbol luego de 4 fechas. Lideran 9 de Julio y Argentino con 10 y 9 puntos respectivamente, seguidos por Casilda con 8 puntos. En la parte inferior de la tabla se ubican Unión Casildense y Matienzo con 0 y 1 punto. Se detallan los goleadores de cada partido y los resultados de los 14 equipos participantes.
El documento describe varios diseños y análisis estadísticos para experimentos con un solo factor, incluyendo: 1) el diseño completamente al azar de ANOVA, 2) notación de puntos, 3) ANOVA para diseño completamente al azar, 4) cálculos manuales y diagramas de cajas, 5) comparaciones múltiples, 6) comparación con un control, 7) contrastes, 8) verificación de supuestos como normalidad y varianza constante, 9) diseños en bloques completos al azar y 10) diseños en cuadros latinos y grecolatin
El documento presenta información sobre un módulo de estadística aplicada a la educación superior que se desarrollará del 20 de mayo al 10 de junio de 2013. Incluye conceptos clave como regresión lineal simple, correlación lineal simple, diseños experimentales y análisis de varianza. El autor enfatiza la importancia de utilizar métodos estadísticos para validar hipótesis de manera científica.
Este documento discute los diferentes tipos de muestreo y cómo determinar el tamaño de muestra. Explica que existen dos tipos de diseños de investigación: diseños no experimentales y diseños experimentales. También describe los tres principales tipos de muestreo probabilístico - muestreo aleatorio simple, muestreo aleatorio proporcional y muestreo aleatorio estratificado - y las fórmulas para calcular el tamaño de muestra en cada caso. El objetivo es orientar a los investigadores sobre qué muestreo usar y cómo calcular el tamaño de muestra
Análisis factorial aplicado en la elaboración de una tesisJuan F.Guevara
Este documento explica el análisis factorial aplicado en una tesis. Resume que el análisis factorial reduce muchas variables a factores más simples. Describe los pasos para aplicar el análisis factorial incluyendo calcular el índice KMO y prueba de esfericidad de Bartlett, extraer factores revisando los autovalores, y rotar los factores para mejor interpretación. El análisis factorial ayuda a reducir y organizar variables en una investigación.
Este documento describe el análisis de factores como una técnica estadística multivariada que reduce un conjunto de variables a un número menor de factores subyacentes. Explica que el análisis de factores busca identificar las variables latentes comunes que explican las correlaciones entre las variables observadas originales. También detalla los diferentes métodos de factorización y tipos de factores, así como las aplicaciones e implicaciones del análisis de factores para el desarrollo de instrumentos.
El documento describe el análisis de varianza factorial (ANOVA factorial), un método estadístico que permite evaluar el efecto individual y conjunto de dos o más factores sobre una variable dependiente. Explica que en un ANOVA factorial existen hipótesis nulas para cada factor y combinación de factores, y que se usan estadísticos F para decidir si se aceptan o rechazan dichas hipótesis.
Este documento presenta el uso de varias técnicas estadísticas multivariadas para analizar el rendimiento académico de estudiantes en una institución de educación superior. Las técnicas incluyen análisis de correspondencia, análisis de clúster, análisis de covarianza y regresión logística, las cuales se aplican a las calificaciones de los estudiantes y variables socioeconómicas. Los resultados indican que el análisis de covarianza permite comparar secciones de cursos eliminando el efecto de
Este documento trata sobre el análisis exploratorio de datos multivariantes. Explica conceptos como la homocedasticidad, la identificación de datos atípicos a través de gráficos de cajas, diagramas de dispersión y caras de Chernoff. También cubre la detección de datos ausentes, clasificándolos en aleatorios o no aleatorios dependiendo de si siguen o no un patrón sistemático.
El documento proporciona una introducción al análisis de varianza (ANOVA) y describe los modelos de ANOVA, el ANOVA unifactorial y multifactorial entre grupos, y el ANOVA con medidas repetidas. Explica los supuestos del ANOVA, los tipos de diseños experimentales, y cómo utilizar el programa SPSS para realizar diferentes tipos de ANOVA.
Este documento proporciona una introducción a conceptos básicos de estadística como muestra, población, variable, dato y parámetro. Explica los tipos de estadística como descriptiva, inferencial y aplicada. También describe pasos para un estudio estadístico, tipos de muestreo, variables y tablas de frecuencias. El objetivo es brindar una visión general de los principales elementos y métodos de la estadística.
Este documento introduce los conceptos básicos del análisis de datos categóricos. Explica que los datos categóricos miden variables en grupos limitados en lugar de valores continuos. También define variables independientes y dependientes, y describe las escalas de medición nominal, ordinal y de conteo para variables categóricas. Además, introduce las distribuciones binomial y multinomial para modelar datos categóricos, y métodos estadísticos como estimación por máxima verosimilitud e intervalos de confianza.
El documento proporciona definiciones y clasificaciones de la simulación. Define la simulación como el acto de imitar o fingir una acción cuando en realidad no se está llevando a cabo. Clasifica los modelos de simulación como estáticos-dinámicos, determinísticos-estocásticos, discretos-continuos, físicos-analógicos. También describe procedimientos como la definición del sistema, formulación del modelo, recolección de datos, verificación e interpretación.
Este documento introduce conceptos básicos de estadística aplicada a la educación superior. Explica la diferencia entre estadística descriptiva e inferencial, y define población, variables, atributos y los elementos que componen una variable como nombre, definición, valores posibles y procedimiento de clasificación. También clasifica variables en cualitativas, cuantitativas discretas y continuas. El objetivo es proporcionar una introducción a métodos estadísticos útiles para la educación superior.
el análisis de la varianza (ANOVA, según terminología inglesa) es una colección de modelos estadísticos y sus procedimientos asociados, en el cual la varianza está particionada en ciertos componentes debidos a diferentes variables explicativas.
La estadística estudia la recolección, análisis e interpretación de datos para ayudar en la toma de decisiones o explicar fenómenos. Se divide en estadística descriptiva, que resume y describe datos, y estadística inferencial, que genera modelos e inferencias sobre los datos considerando su aleatoriedad. El rango identifica la dispersión de datos en una muestra como la diferencia entre el valor máximo y mínimo.
Este documento describe la aplicación de un programa informático de estadística inferencial para resolver ejercicios y problemas en la carrera de comercio exterior. Presenta objetivos de identificar y aplicar correctamente un programa para realizar cálculos estadísticos. Explica conceptos como correlación, regresión lineal, hipótesis estadísticas y pruebas. Finalmente introduce el programa SPSS y su capacidad para procesar grandes volúmenes de datos.
Cómo realizar "paso a paso" un contraste de hipótesis con SPSS para WindowsJairo Acosta Solano
Cuando queremos evaluar el grado de asociación o independencia entre una variable cuantitativa y una variable categórica (y recuérdese que ésta clasifica o diferencia a los individuos en grupos, tantos como categorías tiene dicha variable), el procedimiento estadístico inferencial recurre a comparar las medias de la distribuciones de la variable cuantitativa en los diferentes grupos establecidos por la variable categórica. Si ésta tiene solo dos categorías (es dicotómica), la comparación de medias entre dos grupos independientes se lleva a cabo por el test t de Student; si tiene tres o más categorías, la comparación de medias entre tres o más grupos independientes se realiza a través de un modelo matemático más general, el Análisis de la Varianza (ANOVA). En ambos casos, las pruebas estadísticas son exigentes con ciertos requisitos previos: la distribución Normal de la variable cuantitativa en los grupos que se comparan y la homogeneidad de varianzas en las poblaciones de las que proceden los grupos; su no cumplimiento conlleva la necesidad de recurrir a pruebas
estadísticas no paramétricas. En este documento se enseña a hacer estos análisis con el programa SPSS para Windows.
La estadística descriptiva se utiliza para obtener, organizar, presentar y describir un conjunto de datos mediante tablas, medidas numéricas o gráficos, y calcula parámetros como las medidas de centralización y dispersión. La estadística inferencial permite inferir propiedades y tendencias de una muestra aplicando el análisis estadístico. El documento también define términos como población, muestra, variable, escalas de medición y otros conceptos estadísticos fundamentales.
El documento analiza los efectos de la globalización en los estados nacionales y los derechos fundamentales. Sostiene que aunque la globalización ha expandido los espacios económicos y sociales, no ha ocurrido lo mismo con los espacios políticos. Esto ha debilitado a los estados y reducido su capacidad para garantizar los derechos fundamentales. También argumenta que la lógica del mercado choca con la esencia de los estados y la política, socavando los valores y principios de los estados constitucionales.
Este documento presenta las posiciones y resultados de la primera ronda de la Liga Casildense de Fútbol luego de 4 fechas. Lideran 9 de Julio y Argentino con 10 y 9 puntos respectivamente, seguidos por Casilda con 8 puntos. En la parte inferior de la tabla se ubican Unión Casildense y Matienzo con 0 y 1 punto. Se detallan los goleadores de cada partido y los resultados de los 14 equipos participantes.
El documento trata sobre la responsabilidad de los ciudadanos en el cuidado del medio ambiente. Argumenta que cada persona debe asumir su rol en proteger los recursos naturales para garantizar la existencia humana en el planeta. Además, propone que se deben unir esfuerzos colectivos a través de acciones concretas y políticas públicas reales para remediar el daño ambiental.
Este documento describe los objetivos, materiales, sustancias, equipos y procedimiento de una práctica de laboratorio para determinar la cantidad de ácido acetilsalicílico contenido en tabletas de aspirina. Explica que se pesó una cantidad de polvo de aspirina, se agregó una solución de hidróxido de sodio y se tituló con ácido sulfúrico para calcular el contenido de principio activo y compararlo con los parámetros de referencia. También brinda información sobre el uso y dosificación de la aspirina para tratar dolor,
Este documento define y explica conceptos clave relacionados con la metodología de la acción didáctica, como proceso didáctico, método, estrategia, actividad, tarea, procedimiento, mediación e interacción. También describe enfoques didácticos como la globalización e interdisciplinariedad, y cómo organizar contenidos curriculares en el aula a través de unidades didácticas, centros de interés y proyectos de trabajo.
Ciclame [pdf] como plantar ciclame jardimdaterra.blogspot.com.brJardimdaTerra
Muitos jardineiros amadores desistem de cultivar essas flores por considerá-las muito complexas. Entretanto especialistas afirmam que o seu cultivo pode ser bastante simples, a partir do momento em que se compreende o seu processo de desenvolvimento.
http://jardimdaterra.blogspot.com.br/search/label/Ciclame
El emprendimiento se define como la forma de pensar, sentir y actuar para iniciar un proyecto identificando ideas u oportunidades, buscando crear o formar algo nuevo.
Este documento describe la prueba de glucosa posprandial, la cual mide los niveles de glucosa en la sangre después de comer para evaluar el control de la diabetes. Se requiere que el paciente ayune por 12 horas antes de la prueba, coma una comida alta en carbohidratos, y luego se extraiga sangre 2 horas después para medir los niveles de glucosa. Los resultados ayudan a determinar si un paciente tiene diabetes u otro trastorno relacionado con la insulina.
Este documento proporciona información sobre las temperaturas recomendadas y máximas para un PC, posibles fallas relacionadas con altas temperaturas, y un tutorial paso a paso para instalar el programa Core Temp para monitorear las temperaturas del procesador.
Este documento es un resumen de un curso de Informática III sobre algoritmos de redes sociales impartido por la maestra Minerva Marcos a la alumna Denicia Molina Luz del Carmen en la Preparatoria "2 de Octubre de 1968" de la Benemérita Universidad Autónoma de Puebla.
Abel cortese enciclopedia de-desarrollo_personal_parte1mlagos01
Este documento es una enciclopedia sobre el desarrollo personal que contiene secciones sobre el desarrollo psicológico, mental, profesional y físico. La sección sobre el desarrollo psicológico se enfoca en el tema de la autoestima y explica que la autoestima es la evaluación positiva que una persona tiene de sí misma, que es fundamental para el éxito y bienestar de una persona, y que influye en áreas como la confianza, salud, rendimiento y motivación.
Una red LAN conecta computadoras y periféricos en un área local como una oficina o casa, una red MAN es más grande que una LAN y conecta dispositivos en un área metropolitana, y una red WAN se extiende a través de varias ubicaciones físicas como una zona, país o continente para proveer servicios de red a larga distancia.
Abel cortese enciclopedia de-desarrollo_personal_parte1mlagos01
Este documento presenta una enciclopedia sobre el desarrollo personal dividida en secciones sobre desarrollo psicológico, mental, profesional y físico. La sección sobre desarrollo psicológico se enfoca en el tema de la autoestima y cómo esta afecta la personalidad, confianza, salud y desempeño de una persona. Explica que la autoestima se refiere a cómo una persona se evalúa y valora a sí misma, y que tener una autoestima positiva es fundamental para alcanzar el éxito y bienestar
Se realizó una encuesta sobre el Síndrome de Angelman en Argentina y otros países de Latinoamérica entre el 26 de marzo y el 15 de abril. Se recibieron 104 respuestas que aportaron datos valiosos sobre diversos aspectos de la población con Angelman. La información recabada ya está a disposición de un neurólogo que investiga este síndrome en Argentina en colaboración con especialistas estadounidenses.
Jaimie Howell Jones has over 20 years of experience in marine roles including as a marine superintendent, vessel master, instructor, and inspector. She holds numerous certifications including a Master Unlimited license and has experience working for companies like Swiber, Noble Denton, Seadrill, Chevron, and Global Offshore Industries in locations around the world.
El joven pastor mentiroso solía gritar "¡El lobo!" para burlarse de los aldeanos, pero cuando realmente atacó un lobo, nadie creyó sus gritos y el lobo destrozó su rebaño. La moraleja es que a un mentiroso nunca se le cree, incluso cuando dice la verdad.
Hernán Cortés dirigió una expedición desde Cuba en 1519 que llegó a la ciudad azteca de Tenochtitlan, donde Moctezuma II les dio la bienvenida pensando que eran dioses. Cortés apresó a Moctezuma y comenzaron los enfrentamientos con los aztecas, pero Cortés estableció alianzas con enemigos de los aztecas y aprovechó enfermedades y escasez de recursos para finalmente conquistar la ciudad.
Este documento describe los beneficios de implementar un sistema de gestión de relaciones con clientes (CRM) en una empresa. Un CRM permite centralizar y sistematizar la información sobre clientes de diferentes áreas de la empresa para mejorar las ventas y la atención al cliente. Sin un CRM, las empresas enfrentan desafíos como la falta de información actualizada sobre clientes y la dispersión de datos. El documento argumenta que un CRM bien implementado puede aumentar las ventas, reducir costos y brindar una ventaja competitiva.
Este documento presenta los objetivos, justificación y actividades de un laboratorio sobre regresión y correlación lineal. El objetivo general es caracterizar situaciones mediante análisis estadístico bivariante y determinar las relaciones entre variables. Se justifica el uso de regresión lineal simple y múltiple para interpretar correlaciones. Las actividades incluyen crear un mapa mental con conceptos bivariantes, definir términos clave y seleccionar una opción de laboratorio.
Manual de prácticas de estadistica administrativaAlvaro Chavez
Este documento presenta 7 prácticas relacionadas con técnicas estadísticas. La Práctica 1 cubre el análisis de regresión simple, la Práctica 2 trata sobre regresión múltiple, y la Práctica 3 explica los coeficientes de correlación simple y múltiple. Las Prácticas 4-7 abordan temas como series de tiempo, diseños experimentales y evaluación de calidad en el servicio. El objetivo general es que los estudiantes apliquen estas técnicas estadísticas para explicar las
T026800007004 0-felvir rivas-_trabajofinaldefensa-000Cleto de la Torre
Este documento presenta un trabajo de grado sobre la estimación de parámetros en modelos estadísticos lineales de rango incompleto a través de la inversa generalizada. El objetivo es comparar los parámetros estimados utilizando la inversa generalizada con los métodos de mínimos cuadrados y máxima verosimilitud. Se analizan conceptos como sistemas de ecuaciones lineales, inversa generalizada, modelo lineal de rango completo y rango incompleto. Finalmente, se aplica el método a un conjunto de datos reales para estimar parámetros y compar
Este documento presenta un resumen de los modelos lineales de regresión, ANOVA y ANCOVA. Explica los conceptos básicos detrás de cada análisis y cómo ajustarlos en R. También discute los supuestos estadísticos comunes a estos modelos y pasos para evaluar la validez del modelo, como explorar los residuos. El documento contiene ejemplos y ejercicios para ilustrar los diferentes análisis.
Este documento presenta un resumen de los modelos lineales de regresión, ANOVA y ANCOVA. Explica los conceptos básicos detrás de cada análisis y cómo ajustarlos en R. También cubre la interpretación de los parámetros del modelo, la evaluación de supuestos y ejemplos prácticos.
Este documento presenta un modelo lineal de regresión simple para explicar la relación entre la velocidad de 50 coches y la distancia que les lleva frenar. Se ajusta un modelo de regresión usando la función lm() en R y se resume la información clave del modelo, incluyendo los coeficientes estimados, su significación estadística, y medidas como el R-cuadrado y la desviación estándar residual. Finalmente, se grafica la recta de regresión sobre los datos para ilustrar visualmente la relación lineal.
Este documento presenta un resumen de los conceptos básicos de los modelos lineales como la regresión, ANOVA y ANCOVA. Explica cómo ajustar estos modelos en R y analizar los resultados, incluyendo la interpretación de los parámetros del modelo y la evaluación de los supuestos. También cubre temas como el cambio del nivel de referencia, la homogeneidad de pendientes y diferentes tipos de sumas de cuadrados.
Este documento presenta una introducción a los modelos lineales de regresión, ANOVA y ANCOVA. Explica los conceptos básicos detrás de cada análisis y cómo se ajustan los modelos lineales en R. También discute los supuestos estadísticos comunes a estos modelos y los pasos importantes antes de realizar un análisis, como formular el problema correctamente y revisar los datos.
Este documento presenta varios ejercicios y problemas relacionados con la inferencia estadística. El primer ejercicio cubre la estadística descriptiva de una variable unidimensional y la comparación de subgrupos. Los siguientes ejercicios cubren modelos de probabilidad comunes y pruebas de hipótesis e intervalos de confianza para una y dos muestras. Al final se presentan cuatro problemas que involucran estas técnicas.
Este documento presenta un libro sobre probabilidad y estadística y sus aplicaciones en ingeniería y ciencias. El libro está dividido en tres partes: la primera cubre fenómenos probabilísticos, la segunda cubre estadística descriptiva e inferencial, y la tercera cubre modelos de regresión lineal. El libro provee una introducción completa a estos conceptos y su aplicación en problemas prácticos de ingeniería.
Probabilidad y estadistica aplicaciones a la ingenieria y las cienciasBRAULIOANTONIODAMIAN
Este documento presenta un libro de texto sobre probabilidad y estadística y sus aplicaciones en ingeniería y ciencias. El libro está dividido en tres partes: la primera cubre conceptos básicos de probabilidad, la segunda cubre estadística descriptiva e inferencial, y la tercera cubre modelos de regresión. El documento incluye biografías de los autores, agradecimientos, palabras de los autores sobre el estilo y contenido del libro, y una lista de temas cubiertos en cada parte.
Con la información dada, podemos afirmar lo siguiente:
1. La función f es diferenciable en x=3. Esto significa que en este punto existe la derivada f'(3).
2. El valor de la derivada f'(3) es 0.6.
3. El hecho de que f'(3)=0.6 nos indica que cuando x está cerca de 3, f aumenta a una tasa de 0.6 unidades por cada unidad de aumento de x. En otras palabras, f es una función creciente en los valores de x cercanos a 3.
4. No podemos afirmar nada sobre los valores de f
INFORME FINAL_ESTADISTICA APLICADA AL SECTOR SALUD.docxAnalexisHidalgo
Este documento presenta un informe final sobre estadística aplicada al sector salud que incluye análisis de regresión simple y múltiple, distribución normal y tablas de contingencia. Se analizan variables como salario, sexo, nivel educativo, categoría laboral y clasificación étnica de los empleados para determinar las relaciones entre ellas. Los resultados muestran diferencias significativas en el salario entre categorías laborales pero no entre grupos étnicos, e indican que el modelo de regresión múltiple explica el 65,1%
Este documento presenta un resumen de los conceptos básicos de diseño factorial con dos y tres factores. En primer lugar, introduce los conceptos clave de diseño factorial, incluidos factores cualitativos y cuantitativos, efectos principales e interacciones. Luego, describe los pasos para el análisis factorial, incluida la selección de objetivos, diseño del estudio y tamaño de muestra. Finalmente, proporciona detalles sobre diseños factoriales específicos con dos y tres factores.
El documento describe el software estadístico Infostat desarrollado por profesionales de la estadística aplicada en Argentina. Explica cómo realizar análisis de varianza para diferentes diseños experimentales como diseños completamente al azar, diseños de bloques completos al azar y diseños de cuadrado latino usando Infostat. Proporciona ejemplos con datos ficticios para ilustrar cómo crear archivos en Excel e Infostat y cómo interpretar los resultados de los análisis de varianza.
El documento define la simulación como el uso de modelos para investigar hipótesis sobre sistemas complejos. Explica que la simulación implica crear un modelo matemático del sistema, realizar experimentos con el modelo en una computadora, y analizar los resultados para comprender el comportamiento del sistema real. También describe las etapas típicas de un estudio de simulación, como definir el sistema, formular el modelo, validar los resultados, y experimentar e interpretar los datos generados.
El documento define la simulación como el uso de modelos para investigar hipótesis sobre sistemas complejos. Explica que la simulación implica crear un modelo matemático del sistema, implementarlo en una computadora para realizar experimentos, y validar que los resultados del modelo coinciden con el comportamiento real del sistema. También describe las etapas típicas de un estudio de simulación, incluyendo la definición del sistema, formulación del modelo, recolección de datos, implementación, verificación, validación, experimentación e interpretación de resultados.
El documento describe el análisis de varianza multivariado con permutaciones (ADONIS) para comparar comunidades. ADONIS particiona la suma de cuadrados entre grupos usando matrices de distancia y permutaciones. Se implementa en QEco usando la función vegan de R. El usuario especifica la medida de distancia, transformación, y estructura factorial. ADONIS prueba la igualdad de medias multivariadas entre grupos y factores, e identifica diferencias significativas.
Este documento presenta un resumen de las clases sincrónicas de introducción al análisis econométrico impartidas por el Ec. José Luis Bernardo Vélez. Se explican conceptos básicos como regresión lineal simple y múltiple, y se detallan los pasos para la construcción y validación de modelos econométricos. El documento también cubre temas como las variables, los tipos de datos, y los supuestos y limitaciones de los métodos de regresión.
1. Trabajo de investigación:
ANÁLISIS ESTADÍSTICO MEDIANTE
MODELOS DE EFECTOS MIXTOS
FUNCIONALES
Máster Oficial en Estadística Aplicada
Departamento de Estadística e Investigación Operativa
Universidad de Granada
Alumna: Elvira Delgado Márquez
Tutora: Dra. Dña. Mª Dolores Ruiz Medina
Curso: 2011 – 2012
2.
3. Máster Oficial en Estadística Aplicada
Análisis Estadístico mediante
Modelos de Efectos Mixtos Funcionales
Trabajo de Investigación realizado por Elvira Delgado Márquez y
dirigido por la Profesora Dña. Mª Dolores Ruiz Medina
Vº Bº
Dra. Dña. Mª Dolores Ruiz Medina
Departamento de Estadística e Investigación Operativa
Universidad de Granada
Curso 2011 – 2012
4.
5. Agradecimientos
Deseo comenzar la redacción de esta Memoria manifestando mi más sincero
agradecimiento a todas aquellas personas que me han apoyado en todo momento con su ánimo,
estímulo y continuo apoyo.
En primer lugar, quiero manifestar mi más profundo agradecimiento a la Dra. Dª María
Dolores Ruiz Medina, tutora del presente trabajo, por su imprescindible ayuda plasmada en cada
una de las sesiones de trabajo, y por su infatigable labor de mejora continua.
Al director de la Escuela Técnica Superior de Ingenieros Industriales de la Universidad
de Castilla – La Mancha en Ciudad Real, el Dr. D. Jesús F. López Fidalgo, por poner a mi
disposición todos los recursos necesarios para poder llevar a cabo este proyecto y sobre todo por
creer en mí y en este proyecto.
A mis amigos y amigas del Área de Estadística e Investigación Operativa de la
Universidad de Castilla – La Mancha ya que he contado con su apoyo, tanto moral como
profesional, en todo momento y a mis vecinos de despacho Iván, Carlos y Ángela.
No puedo olvidarme de todos mis amigos y amigas, que por suerte son muchos, porque
siempre han mostrado interés por este proyecto y siempre me han animado a seguir adelante, en
especial, Irene y Antonio Jesús.
Por último, pero no por ello menos importante, a mi familia.
6.
7. Índice
Introducción General __________________________________________________ 7
Capítulo 1: Bibliografía reciente sobre análisis FANOVA y modelos de efectos
mixtos con correlación temporal
1. Análisis de datos funcionales y Análisis de Componentes Principales
Funcional y Análisis Funcional de la Varianza _________________________ 13
2. Análisis a partir de bases de wavelets: Estimación no paramétrica y Contraste
de significación e interacción _______________________________________ 19
3. Modelos de regresión espacial heterogéneos funcionales _________________ 40
Capítulo 2: Análisis de Componentes Principales Funcional de modelos de efectos
mixtos para curvas de percepción.
1. Introducción ____________________________________________________ 47
2. Generación de curvas _____________________________________________ 50
3. Cálculo de los autovalores y autovectores empíricos _____________________ 52
4. Planteamiento del modelo funcional de efectos mixtos en términos de
proyecciones y estimación de los efectos fijos y varianza asintótica del
estimador de proyección del efecto fijo _______________________________ 55
5. Análisis empírico de la sensibilidad de la metodología propuesta al orden de
truncamiento ____________________________________________________ 66
Capítulo 3: Líneas abiertas
1. Diseños D – óptimos en el contexto de modelos lineales Hilbert – valuados __ 89
2. Diseño experimental D – óptimo en un contexto funcional ________________ 91
8.
9. Apéndices
1. Introducción a wavelets ___________________________________________ 95
2. Espacios de Besov _______________________________________________ 100
3. Espacios de Sobolev ______________________________________________ 102
Referencias bibliográficas _______________________________________________ 105
10.
11. INTRODUCCI´ON GENERAL
En el presente trabajo se realiza un an´alisis estad´ıstico considerando modelos de efectos mixtos
funcionales. Este tipo de modelos aparecen en numerosas disciplinas de la ciencia como la medicina,
la geoestad´ıstica, la meteorolog´ıa, etc, aunque la principal aplicaci´on se puede encontrar en la
medicina. Se han realizado numerosos estudios a partir de informaci´on muestral funcional haciendo
uso de modelos de efectos mixtos pudiendo destacar los trabajos desarrollados por Abramovich y
Angelini (2006), Angelini, De Canditiis y Leblanc (2003), Ruiz Medina y Salmer´on (2009 y 2010),
Ruiz Medina y Espejo (2012), Ruiz Medina (2011), Ramsay y Silverman (2002, 2005), Ferraty y
Vieu (2006), etc.
En el primer cap´ıtulo se realiza una revisi´on sobre la bibliograf´ıa m´as relevante en relaci´on
con los modelos FANOVA, contemplando el caso de modelos mixtos con correlaci´on temporal y/o
espacial. En particular, en la primera secci´on, se introduce el concepto de dato funcional y se hace
referencia a la bibliograf´ıa base m´as destacada, mencionando las referencias cl´asicas de Ramsay
y Silverman ([31] y [32]), Ferraty y Vieu ([24]) y Ramsay, Hooker y Graves ([30]. Debido, princi-
palmente, a 3 caracter´ısticas de los datos funcionales: La dimensi´on, la correlaci´on y los espacios
de funciones involucrados en los valores de las variables aleatorias Hilbert-valuadas subyacentes,
hacen que los m´etodos cl´asicos estad´ısticaos tradicionales no puedan ser aplicados o se queden cor-
tos. Una de las t´ecnicas m´as utilizadas en el an´alisis de este tipo de datos ha sido el An´alisis de
Componentes Principales. En esta misma secci´on, en un segundo apartado, se realiza una revisi´on
del trabajo de Benco, H¨ardle y Kneip [10] en el que se desarrolla de forma detallada la aplicaci´on
7
12. de la t´ecnica de Componentes Principales cuando se tiene informaci´on muestral funcional, es decir,
cuando la muestra esta constituida por la observaciones de funciones aleatorias independientes e
id´enticamente distribuidas. El desarrollo de Karhunen - L´oeve para procesos estoc´asticos propor-
ciona una herramienta ´optima para la descripci´on de las propiedades de segundo orden de dichos
procesos. En un ´ultimo apartado de esta primera secci´on, se justifica la necesidad de adaptar la
t´ecnica del An´alisis de la Varianza (ANOVA) para el caso de disponer de datos funcionales dando
lugar al An´alisis de la Varianza Funcional (FANOVA).
En la segunda secci´on primero nos vamos a centrar en la descripci´on del modelo de efectos fijos
funcionales (con par´ametros funcionales en el tiempo) y el ANOVA funcional para contrastes lineales
de significaci´on. Se establecer´a la metodolog´ıa aplicada en el cap´ıtulo 2 para el an´alisis estad´ıstico
del modelo de efectos mixtos funcional considerado en la secci´on 2.2, como una alternativa a la
metodolog´ıa de desarrollada en la secci´on 2.3. En este caso partiremos del modelo de efectos fijos
funcional definido por Zoglat [44]
Y (t) = Xβ(t) + σǫ(t) t ∈ [0, 1].
Donde Y ∈ Ln
2 es el vector de datos funcionales o curvas observadas de dimensi´on n × 1.
Yi, Yj (i = j) son independientes e id´enticamente distribuidas. β = (β1, . . . , βp)′ ∈ Lp
2 vector de
funciones cuadrado-integrables (par´ametros funcionales del modelo). X = (xij) es una matriz n×p
cuyos elementos son n´umeros reales, ǫ = (ǫ1, . . . , ǫn)′ ∈ Ln
2 con ǫi, ǫj (i = j) son independientes
e id´enticamente distribuidas con operador de auto-covarianza Rǫ = E[ǫ ⊗ ǫ] = E[ǫi ⊗ ǫi], i, j =
1, . . . , n.
En este caso, se analizar´a la estimaci´on de β ∈ L2
p a trav´es de los dos m´etodos de estimaci´on
habituales: El M´etodo de M´ınimos cuadrados y el M´etodo de M´axima verosimilitud.
A continuaci´on nos centraremos en el modelo de efecto mixtos funcional (con par´ametros deter-
min´ısticos y aleatorios funcionales en el tiempo, informaci´on completa, curvas), donde se estiman
los par´ametros del modelo y se contrasta la significaci´on de los efectos fijos funcionales mediante
integraci´on en el tiempo y suma en los tratamientos de los efectos aleatorios. Se proporciona el
contexto general te´orico para el desarrollo del ejemplo analizado en el cap´ıtulo 2 sobre curvas de
percepci´on t´actil.
8
13. En este caso estudiaremos el modelo definido por Abramovich y Angelini [2]
dYi,l(t) = mi(t)dt + Vl(t)dt + εWi,l(t) i = 1, . . . , r ; l = 1, . . . , m ; t ∈ [0, 1].
Donde mi(t) son funciones de efectos fijos. Vl(t) son funciones de efectos aleatorios modeladas
como realizaciones independientes de un proceso estoc´astico de media cero V (t). Wi,l(t) son reali-
zaciones independientes de un proceso de Wiener cl´asico. Vl(t) y Wi,l(t) son independientes entre
s´ı.
En el ´ultimo apartado de esta secci´on nos centraremos en el enfoque no param´etrico penalizado
para cuando se tiene obsevaci´on parcial de las curvas o datos funcionales, aunque se conoce, por
informaci´on previa, la naturaleza funcional de la respuesta, o bien, que se tiene una mejor repre-
sentaci´on en t´erminos de funciones por la naturaleza del fen´omeno estudiado o experimento. Se
obtiene as´ı una reconstrucci´on o estimaci´on de los efectos fijos y aleatorios funcionales, mediante
minimizaci´on del error cuadr´atico medio integrado. Aunque, como en la implementaci´on de la me-
todolog´ıa para el c´alculo del estimador no param´etrico se proyecta en una base de wavelets que
genera un espacio del n´ucleo reproductor (en el modelo de efectos mixtos coincide con el RKHS del
efecto aleatorio), se reduce el problema a la estimaci´on finito - dimensional, en t´erminos de proyec-
ciones, de los efectos fijos y aleatorios funcionales, que ser´ıa como un enfoque pseudoparam´etrico.
Se tendr´en observaciones correlacionadas en el tiempo y heterog´eneas.
Se analizar´a el problema de regresi´on no param´etrico cl´asico con ruido aditivo considerado por
Angelini, De Canditiis y Leblanc [5]:
(ti, Yi) Yi = f(ti) + σεi donde E[εi] = 0 E[ε2
i ] = 1.
Donde las εi son variables aleatorias incorreladas y (ti) es un dise˜no determin´ıstico (no necesa-
riamente regular). El valor de σ puede ser conocido o no.
El objetivo principal es estimar la funci´on desconocida f en un entorno no param´etrico. Este
problema se ha estudiado bajo dos conjuntos diferentes de presunciones sobre la funci´on f:
1. Modelo de efectos fijos: f es considerado como una funci´on determin´ıstica y la clase F es una
bola en un espacio de Sobolev de regularidad s.
Las observaciones, Y = (Y1, . . . , Yn)′, son independientes.
9
14. 2. Modelo de efectos mixtos: f es de la forma
f(t) = µ(t) +
√
bz(t),
donde µ es una funci´on determin´ıstica y z es un proceso estoc´astico. Adem´as, de acuerdo a la
estructura de covarianza elegida para el proceso estoc´astico z, f se encontrar´a en un espacio
m´as grande que el espacio de Sobolev considerado en el caso anterior. Las observaciones,
Y = (Y1, . . . , Yn)′, son variables correladas ya que son observaciones perturbadas de puntos
de discretizaci´on del proceso f.
En la ´ultima secci´on de este cap´ıtulo, se describe el modelo de efectos mixtos espacial, introduci-
do en Cressie y Johannesson [15], donde se considera el predictor kriging de rango fijo de proyecci´on,
basado en bases ortonormales generales. Es una versi´on espacial del modelo de la secci´on 2.3, en el
caso del efecto aleatorio. En cambio, en el efecto fijo, se modeliza mediante una matriz del dise˜no
con un n´umero finito de columnas infinito - dimensionales, definidas por las localizaciones posibles
de observaci´on o candidatos. (Conjunto finito de covariables observables en infinitas localizaciones
espaciales). Las observaciones se consideran espacialmente correladas, bajo un modelo heterog´eneo
de funci´on de covarianza.
En el segundo cap´ıtulo se va a desarrollar un estudio de simulaci´on, inspirado en el expe-
rimento desarrollado en el ao 2003 [37] por los profesores Essick y Spitzner de la Universidad de
Carolina del Norte, para investigar la influencia del nivel de truncamiento y del sistema ortonormal
de funciones sobre las estimaciones de proyecci´on, derivadas mediante implementaci´on de una ver-
si´on funcional del enfoque emp´ırico bayesiano desarrollado en por M. Dolores Ugarte et al [40]. En
el experimento referido, cada uno de los 32 individuos fue expuesto de forma repetida al movimiento
de un suave, peque˜no y altamente controlado pincel movido en una l´ınea recta sobre su cara. El
sistema de coordenadas fue cuidadosamente calibrado para que los datos de diferentes individuos
puedan ser comparados de forma directa. El pincel se movi´o a una velocidad constante. Tras la
exposici´on ciega al est´ımulo, al individuo se le proporcion´o una imagen a tama˜no real de su cara
sobre la que dibuj´o el camino del est´ımulo que hab´ıa percibido. Un l´apiz digital se utiliz´o para
almacenar las coordenadas (x, y) de su dibujo en un intervalo de tiempo uniformemente espaciado.
Para poder obtener una representaci´on lo m´as pr´oxima posible a los datos que se obtuvieron en
el experimento, se han generado las curvas de las respuestas de los individuos siguiendo el siguiente
10
15. modelo param´etrico:
X(t) = A sin(Bπt) + F sin(Gπt) + Ht
Y (t) = a + bt
donde
A ∼ N(0,1 + 0,01 ∗ Nivel; 0,01)
B ∼ N(3 + [0,01; 0,015] ∗ Nivel; [0,01; 0,015])
F ∼ N(0,1 + 0,01 ∗ Nivel; 0,01)
G ∼ N(4 + 0,01 ∗ Nivel; 0,01)
H ∼ N(0,2 + 0,01 ∗ Nivel; 0,01)
a ∼ N(0,03 + [0,01; 0,015] ∗ Nivel; [0,01; 0,015])
b ∼ N(1 + 0,02 ∗ Nivel; 0,02)
Para realizar la descomposici´on en Componentes Principales Funcionales para obtener el orden
de truncamiento T para una proporci´on de variabilidad explicada del 95 % se utiliz´o la metodolog´ıa
desarrollada en el trabajo de Benco, H¨ardle y Kneip [10].
Se define el modelo de efectos mixtos adecuado a la simulaci´on realizada y al experimento como:
(Zp)672×T = (aj,3,1, . . . , aj,3,T )
′
+ (m3,1, . . . m3,T )
′
= (DF )672×3(ξp)3×T + (DR)672×96(ζp)96×T + (εp)672×T
p = 1, . . . , 672.
As´ı, de los datos (Zp), p = 1, . . . , 672, siguiendo la metodolog´ıa desarrollada por Ugarte, Goicoa
y Militino [40], podemos ajustar el modelo de efectos mixtos por m´axima verosimilitud restringida,
obteniendo los estimadores ξp, σζ,p, y σε,p, respectivamente de los T primeros coeficientes de Fourier
de la curva de efectos fijos, con respecto a la base de autofunciones emp´ırica, de las curvas que
definen los efectos aleatorios para los 32 individuos analizados y de las varianzas asint´oticas de los
estimadores de proyecci´on de las curvas de efectos fijos, ambos con respecto a la misma base de
autofunciones emp´ırica truncada.
En el tercer cap´ıtulo se formular´an diferentes l´ıneas de investigaci´on en el contexto de los
11
16. modelos lineales de efectos mixtos Hilbert - valuados. Espec´ıficamente, la investigaci´on que se plan-
tea se centra especialmente en la derivaci´on de modelos funcionales para el an´alisis experimental
a partir de infinitos candidatos potencialmente observables, as´ı como en el problema del an´alisis
estad´ıstico de infinito posibles tratamientos, a partir de las t´ecnicas de diseo experimental ´optimo,
combinadas con la proyecci´on en bases ortogonales apropiadas. En particular, se abordar´a la exten-
si´on del planteamiento de las t´ecnicas de Diseo D-´optimos al contexto de los modelos de efectos fijos
funcionales, formulados en t´erminos de curvas de efectos fijos cuyas observaciones se encuentran
correlacionadas para diferentes tratamientos.
12
17. CAP´ITULO 1: BIBLIOGRAF´IA RECIENTE SOBRE AN´ALISIS
FANOVA Y MODELOS DE EFECTOS MIXTOS CON CORRE-
LACI´ON TEMPORAL
1. An´alisis de Datos Funcionales y An´alisis de Componentes Prin-
cipales Funcional
1.1. An´alisis de datos funcionales (ADF)
En los ´ultimos a˜nos, los avances en la tecnolog´ıa inform´atica, los modernos equipos de recolec-
ci´on y almacenamiento datos y los avances en los diferentes campos de la ciencia ha permitido a los
investigadores recoger y disponer de datos de alta resoluci´on digitalizados que representan objetos
complejos como curvas, superficies o cualquier elemento que var´ıa sobre un continuo (tiempo, es-
pacio, longitud de onda, probabilidad, etc.). Ejemplos de este tipo de datos son los datos recogidos
por sism´ografos, datos referentes a explosiones nucleares, datos sobre temperatura precipitaciones,
datos m´edicos (electroencefalogramas, electrocardiogramas), datos financieros, etc.
El An´alisis de Datos Funcional (ADF) es la rama de la estad´ıstica que analiza los datos que
proporcionan informaci´on sobre las curvas, superficies o cualquier otra forma que cambia en un
continuo. El ADF, a pesar de ser una disciplina temprana, inici´o sus pasos en la d´ecada de los
60 del siglo XX, es una de las que m´as ha avanzado en el campo de la estad´ıstica con multitud
13
18. de publicaciones y estudios. De entre toda la literatura referente a datos funcionales, es necesario
destacar como referencias b´asicas, los libros de Ramsay y Silverman [30] y [31] y Ferraty y Vieu [24]
tratando muchos de los problemas b´asicos de la estad´ıstica funcional. El primer libro publicado por
Ramsay y Silverman [31] tiene un car´acter m´as aplicado en el que se estudian soluciones a problemas
sobre conjuntos de datos concretos. Desde el punto de vista computacional hay que destacar el libro
publicado por Ramsay, Hooker y Graves [30] centr´andose en los aspectos computacionales en R y
MATLAB.
En internet podemos encontrar gran cantidad de informaci´on referente a datos funcionales,
destacando las p´aginas webs mantenida por Ramsay http://www.functionaldata.org y la del grupo
de Ferrat y Vieu, http://www.lsp.ups-tls.fr/staph.
En el ADF, la unidad b´asica de informaci´on es la funci´on o variable funcional. En general,
cualquier observaci´on que var´ıe en un cont´ınuo se puede considerar como un dato funcional. Por
ejemplo, un conjunto de im´agenes de alta resoluci´on es un ejemplo de datos funcionales en un
dominio de dos dimensiones. En la pr´actica, estos sucesos son recogidos por m´aquinas que toman
muestras de una determinada variable en distintos puntos del cont´ınuo o de los cont´ınuos que se
consideran. En el contexto multivariante los datos provienen de la observaci´on de la familia aleatoria
{X(tj)}j=1,...,J . En an´alisis funcional se asume que las muestras son observaciones de una familia
continua χ = {X(t); t ∈ T}. El caso m´as sencillo es el de una curva unidimensional, T = R pero
tambi´en puede ser T = R2 en im´agenes, u otras expresiones para casos m´as complejos.
Del libro de Ferraty y Vieu [24] extraemos la definici´on de dato funcional:
Definici´on 1 Una variable aleatoria χ se llama variable funcional si toma valores en un espacio
infinito dimensional (espacio funcional). Una observaci´on χ de χ se llama un dato funcional.
Utilizar datos funcionales conlleva unas particularidades que hacen que los m´etodos tradicionales
no sirvan o queden cortos. Torrecilla Noguerales [39] defini´o las tres caracter´ısticas principales que
hacen que la mayor´ıa de los m´etodos cl´asicos no sean adecuados al trabajar con datos funcionales:
La dimensi´on
La dimensi´on complica de forma considerable la obtenci´on de informaci´on ya que no podemos
trabajar con objetos infinitos. El primer problema se encuentra en la propia captura de datos ya
14
19. que no es posible capturar la curva integra. En este sentido los avances t´ecnicos pal´ıan esta p´erdida
de informaci´on con rejillas cada vez m´as finas, si bien muchas veces son necesarias t´ecnicas de
interpolaci´on, suavizado u otras para completar los datos, teniendo siempre presente que pueden
introducir m´as error.
Una vez capturado el dato, adem´as del procesado propio de cualquier problema (imperfeccio-
nes, outliers, etc.), la alt´ısima dimensionalidad en la pr´actica, e infinita en la teor´ıa, hacen que
haya que elegir una representaci´on adecuada para trabajar. El problema de la representaci´on es
muy importante en FDA. Una vez representado el dato se mitiga en parte el inconveniente de la
dimensionalidad, aunque al reducirla estamos perdiendo informaci´on y saber qu´e informaci´on es la
importante (en este caso para clasificar) es un punto de discusi´on interesante.
La correlaci´on
Si la dimensi´on genera problemas en la captura y manipulaci´on de los datos provocando p´erdidas
de informaci´on, la correlaci´on genera importantes problemas en los algoritmos cl´asicos a la hora
de extraer la informaci´on. En el caso de datos funcionales los distintos puntos de la curva est´an
alt´ısimamente correlacionados. Esta correlaci´on indica que habr´a muchos puntos muy parecidos, con
lo que introducimos redundancia al sistema. Dicha redundancia puede empeorar los resultados de un
algoritmo haciendo que no se consideren otros puntos, sobreajustando, e incluso anularlo provocando
matrices singulares, como ocurre con el discriminante lineal. Por tanto, el ADF necesitar´a nuevos
m´etodos o cambios sustanciales en algunos antiguos para poder trabajar con el problema de la alta
correlaci´on.
Trabajar en espacios funcionales
La propia naturaleza de los datos plantea otra dificultad. Dependiendo del espacio en el que
vivan las funciones puede que no tengamos ni siquiera una m´etrica, pero a´un teni´endola no es trivial
definir el concepto de cercan´ıa o de similitud entre dos funciones, incluso puede que dependiendo del
problema nos interese m´as un criterio u otro. Por todo esto, tienen una gran relevancia en el ADF
la elecci´on de la m´etrica, o semi-m´etrica. Adem´as, en esta misma l´ınea, es complicado establecer
cual es el elemento central de un conjunto de funciones, o que observaciones est´an en el extremo.
15
20. 1.2. An´alisis de Componentes Principales Funcional (ACPF)
El principal objetivo del An´alisis de Componentes Principales Funcional (ACPF) es el mismo
que el del An´alisis en Componentes Principales cl´asico (ACP):
Dar una representaci´on de los datos mediante el criterio de conservaci´on de la m´axima varianza
en una dimensi´on menor de forma que se pongan de manifiesto caracter´ısticas latentes de los datos
en crudo.
Esta representaci´on puede utilizarse ´unicamente para la visualizaci´on o estudio preliminar de
los datos, pero a menudo es una herramienta para otros procesos posteriores como la clasificaci´on
o la detecci´on de outliers. Por estos motivos, el an´alisis de componentes principales fue uno de los
primeros m´etodos adaptados en el ADF, habiendo gran n´umero de trabajos desde la d´ecada de los
50 estudiando sus propiedades y extendiendo sus aplicaciones.
Ramsay y Sylverman [31] dedican un cap´ıtulo ´ıntegro al ACPF. M´as recientemente, Benco,
H¨ardle y Kneip [10] hacen un buen resumen de la t´ecnica de An´alisis de Componentes Principales
Funcional:
Los datos provienen de observaciones de fen´omenos cont´ınuos y se puede asumir para repre-
sentar una muestra de funciones aleatorias independientes e id´enticamente distribuidas X1(t), . . . ,
Xn(t) ∈ L2[0, 1]. El desarrollo de Karhunen - Lo`eve proporciona una herramienta b´asica para des-
cribir la distribuci´on de las funciones aleatorias Xi y puede ser visto como la base te´orica del ACPF.
Para v, w ∈ L2[0, 1], as´ı v, w =
1
0 v(t)w(t)dt y as´ı ||.|| = ., . 2 indica la usual norma L2. Con
λ1 ≥ λ2 ≥ . . . y γ1, γ2, . . . se˜nalando los autovalores y las correspondientes autofunciones orto-
normales del operador de covarianza Γ de Xi. Se obtiene Xi = µ + ∞
r=1 βriγr i = 1, . . . , n donde
µ = E(Xi) es la funci´on media y βri = Xi − µ, γr son factores de carga ( factor loadings) con
E(β2
ri) = λr. La estructura y din´amica de las funciones aleatorias se puede evaluar analizando las
componentes principales funcionales γr as´ı como la distribuci´on de los factores de carga ( factor
loadings). Para una muestra funcional dada, las caracter´ısticas desconocidas λr, γr son estimadas
por los autovalores y autofunciones del operador de covarianza emp´ırico ˆΓn de X1, . . . , Xn. Des-
tacar que una autofuncion γr solo si el correspondiente autovector λr tiene multiplicidad 1. Esto,
adem´as, establece una condici´on necesaria para cualquier inferencia basada en una componente
principal funcional estimada ˆγr en ACPF.
16
21. En algunas aplicaciones importantes, un peque˜no n´umero de componentes principales ser´a su-
ficiente para aproximar las funciones Xi con un alto grado de precisi´on. De hecho, el ACPF juega
un rol m´as importante en el ADF que su bien conocido an´alogo en an´alisis multivariante. Hay 2
razones principales. Primero, las distribuciones en espacio de funciones son objetos complejos y
el desarrollo de Karhunen - Lo`eve parece ser la ´unica forma factible de acceder a su estructura.
Segundo, en an´alisis multivariante una interpretaci´on considerable de componentes principales es a
menudo dif´ıcil y tiene que estar basada en argumentos vagos concernientes a la correlaci´on de las
componentes principales con las variables originales. Tal problema no existe en el contexto funcio-
nal, donde γ1(t), γ2(t), . . . son funciones que representan la principal forma de variaci´on de Xi(t)
sobre t.
1.3. An´alisis Funcional de la Varianza (FANOVA)
En los ´ultimos a˜nos, la mayor´ıa de los progresos han sido realizados en el desarrollo de t´ecnicas
estad´ısticas para trabajar con datos funcionales. Uno de los desaf´ıos estad´ısticos que surge en an´alisis
de datos funcionales es la comparaci´on entre curvas o conjuntos de curvas. Este tipo problemas
est´a considerado dentro del marco del An´alisis Funcional de la Varianza (FANOVA). Existe una
gran cantidad de publicaciones sobre varios ajustes de modelos FANOVA y estimaci´on de sus
componentes. Sin embargo, se ha prestado mucha menos atenci´on a la inferencia o al contraste de
hip´otesis funcional.
Un enfoque algo sencillo para el contraste de modelos FANOVA realizando un conjunto de
contrastes ANOVA univariante cl´asico para comparar un conjunto de curvas en cada momento
espec´ıfico provoca un serio problema de multiplicidad debido a la alto n´umero de contrastes si-
mult´aneos. Ignorando el problema de multiplicidad se llega a un error de tipo I global no controlado
mientras, por ejemplo, el conocido procedimiento de Bonferroni se obtiene una potencia muy baja.
Otro enfoque para contraste FANOVA maneja los datos funcionales como vectores multivariantes y
aplica t´ecnicas ANOVA tradicionales combinadas con varios procedimientos de reducci´on inicial de
dimensionalidad. Sin embargo, la maldici´on de la dimensionalidad hace estos intentos tambi´en pro-
blem´aticos. Fan y Li [23] propusieron un potente contraste para el contraste de hip´otesis funcional
basado en los procedimientos thresholding adaptativso Neyman y wavelet de Fan [22] aplicados a
coeficientes emp´ıricos de Fourier y wavelet de los datos. Es bien conocido que una gran variedad de
diferentes funciones tienen una amplia representaci´on en el dominio de Fourier y especialmente en
17
22. dominios wavelet que permiten reducciones significativas de la dimensionalidad de los datos funcio-
nales. Sin embargo, estos trabajos no investigan la optimalidad de los procedimientos propuestos.
Abramovich et al. [1] aplicaron asint´oticamente el contraste de hip´otesis funcional minimax defi-
nido por Ingster en 1982 para contraste en FANOVA de efectos fijos. En particular, adaptaron el
correspondiente procedimiento de contraste basado en wavelet de Spokoini (1996) para contrastar
una se˜nal cero en un modelo se˜nal + ruido blanco y mostraron su optimalidad asint´otica para el
contraste en el modelo FANOVA de efectos fijos para una amplia clase de alternativas.
En varias aplicaciones los datos sobre individuos son a menudo agrupados de acuerdo a alg´un
factor en el que reside el inter´es en las diferencias entre grupos antes que entre individuos en
particular. Los individuos son tratados como efectos aleatorios asociados con una muestra dibujada
aleatoriamente de la poblaci´on. Esto tambi´en permite modelar correlaciones entre observaciones
sobre el mismo individuo, esta situaci´on es muy t´ıpica en datos longitudinales y medidas repetidas.
18
23. 2. An´alisis a partir de bases de wavelets: Estimaci´on no param´etri-
ca y Contraste de significaci´on e interacci´on.
2.1. Modelo de Efectos Fijos Funcional
Zoglat [44] parte del modelo de efectos fijos funcional que tiene su origen en la teor´ıa cl´asica
del An´alisis de la Varianza. Las observaciones son funciones del tiempo y la ecuaci´on para una
observaci´on puede escribirse como
Y (t) = x
′
β(t) + σǫ , t ∈ [0, 1]. (1)
Donde:
x = (x1, . . . , xp)′ ∈ Rp son los pesos de la combinaci´on lineal de las funciones βi, i = 1, . . . , p,
que define la media
β = (β1, . . . , βp)′ ∈ Lp
2 vector de funciones cuadrado - integrables (par´ametros funcionales del
modelo)
ǫ error funcional.
m la funci´on valor medio.
σ un escalar desconocido positivo.
Suponer que se observan n observaciones independientes de una funci´on aleatoria Y de (1). En
notaci´on vectorial, el modelo ser´ıa:
Y (t) = Xβ(t) + σǫ(t) t ∈ [0, 1]. (2)
Donde
Y ∈ Ln
2 es el vector de datos funcionales o curvas observadas de dimensi´on n × 1.
Yi, Yj (i = j) son independientes e id´enticamente distribuidas.
β = (β1, . . . , βp)′ ∈ Lp
2 vector de funciones cuadrado - integrables (par´ametros funcionales del
modelo).
X = (xij) es una matriz n × p cuyos elementos son n´umeros reales.
19
24. β = (β1, . . . , βp)′ ∈ Lp
2 vector de funciones cuadrado - integrables (par´ametros funcionales del
modelo)
ǫ = (ǫ1, . . . , ǫn)′ ∈ Ln
2 donde ǫi, ǫj (i = j) son independientes e id´enticamente distribuidas con
operador de auto-covarianza Rǫ = E[ǫ ⊗ ǫ] = E[ǫi ⊗ ǫi], i, j = 1, . . . , n.
De Zoglat [44] se extrae el siguiente teorema:
Teorema 1 Sea X una variable aleatoria Gaussiana con media cero cuyos valores est´an L2(S, µ),
existe una secuencia (Xk) de variables aleatorias normales independientes e id´enticamente distri-
buidas tales que
Xk =
1
√
λk
X, ϕk y X =
k≥1
λkXkϕk
siendo κ el operador de covarianza de ǫ y {(λk, ϕk), k ≥ 1} la secuencia de pares de autovalores -
autofunciones del operador de covarianza Tκ.
Entonces, la secuencia (ϕk)k≥1 nos permite reducir el modelo (1) a un sistema de modelos
cl´asicos. En particular, si ǫ es Gaussiano, esta reducci´on preserva la independencia a trav´es de las
proyecciones de las realizaciones. Adem´as, nos permite identificar las reglas de algunos estad´ısti-
cos.[44]
Por simplicidad en la notaci´on, T ser´a denotado como Tκ y HT denotar´a el cierre en L2 del
subespacio generado por (ϕk)k≥1:
HT = {f ∈ L2 ; f =
k≥1
f, ϕk ϕk}
En otras palabras, HT es el espacio de Hilbert con n´ucleo reproductor asociado con κ. En el
caso de un error Gaussiano, se supondr´a, sin p´erdida de generalidad, que la funci´on valor media
m pertenece a HT . De hecho, cada observaci´on, Y es la suma de sus proyecciones en HT , YHT
y
Y(HT )⊥ = Y − YHT
. El error estar´a con seguridad en HT . Adem´as, m(HT )⊥ = Y(HT )⊥ , as´ı, s´olo
ser´a necesario hacer inferencias sobre m(HT )⊥
2.2. Estimaci´on
Siguiendo la metodolog´ıa de Zoglat [44], nos centraremos en los dos m´etodos utilizados de forma
m´as habitual en la teor´ıa de estimaci´on:
20
25. 1. El M´etodo de M´ınimos cuadrados.
2. El M´etodo de M´axima verosimilitud.
El objetivo ser´a obtener un estimador de la funci´on vectorial β ∈ Lp
2, que, en particular, coincida,
para cada t ∈ [0, 1], con el estimador cl´asico de (β1(t), . . . , βp(t)), as´ı como la obtenci´on de contrastes
lineales sobre los par´ametros del modelo H0 : Kβ = C
Estimaci´on puntual:
M´ınimos cuadrados
M´axima verosimilitud
2.2.1. M´etodo de m´ınimos cuadrados
El m´etodo de m´ınimos cuadrados se basa en minimizar la norma cuadrada del error. En el
espacio Eucl´ıdeo, esto se puede conseguir calculando derivadas e igualando a cero. En el caso
infinito dimensional no hay equivalencia para este procedimiento. Sin embargo, en un espacio de
Hilbert es posible aplicar el procedimiento de m´ınimos cuadrados.
El m´etodo de m´ınimos cuadrados consiste en encontrar ˆβ que minimice el error cuadr´atico
funcional en la geometr´ıa de Rǫ
e(β) = (Y1 − (Xβ)1, . . . , Y1 − (Xβ)n)′
.
Donde se puede observar que σ no depende de β.
Si suponemos que σ = 1, lo que hay que minimizar es
n
i=1
ei(β) 2
Rǫ
=
n
i=1 k≥1
λ2
k(Y(k) − Xβ(k))′
(Y(k) − Xβ(k)) =
k≥1
e(k)(β(k)) 2
n.
En caso contrario, σ = 1, bastar´ıa con dividir e(β) por σ.
Se puede demostrar que ei(β) 2
Rǫ
se puede minimizar si y s´olo si, para cada k ≥ 1, la norma
Eucl´ıdea de e(k)(β) es m´ınimo. Para cada k ≥ 1 fijo, la norma de e(k)(β), visto como funci´on de
β(k) se minimiza como
β(k) = (X′
X)−1
X′
Y(k).
De forma m´as general, Zoglat [44] define el siguiente teorema:
21
26. Teorema 2 El estimador de β que minimiza ||Y − Xb||Rǫ cuando b es visto como funci´on, se
define como
β = (X′
X)−1
X′
Y
2.2.2. M´etodo de m´axima verosimilitud
El m´etodo de m´axima verosimilitud es m´as restrictivo que el m´etodo de m´ınimos cuadrados.
Requiere una densidad de distribuci´on con respecto a una medida. La medida de Lebesgue es la m´as
frecuentemente usada en el modelo lineal cl´asico, y es eficiente bajo la suposici´on de normalidad.
En el caso funcional no hay equivalencia para la medida de Lebebesgue e incluso, bajo la suposici´on
de normalidad, puede no existir una densidad de distribuci´on.
Suponer que ǫ del modelo (2), es Gaussiano, y denotar la matriz (Xβ) de orden n × 1 por
m = (m1, . . . , mn)
′
. Sean L(Y1) = ν y L(σǫ1) = µ las distribuciones de probabilidad de Y1 y σǫ1
respectivamente. Estas son 2 medidas de probabilidad Gaussianas sobre (L2, BL2 ).
Por lo que, seg´un Zoglat [44], la funci´on de verosimilitud quedar´ıa definida como
l(m, y) = exp
−
1
2
j≥1
n
i=1
[m∗
i(j)]2
+
j≥1
n
i=1
m∗
i(j)y∗
i(j)
=
j≥1
exp −
σ2λj
2
m′
(j)m(j) − 2m(j)y(j)
=
j≥1
exp −
σ2λj
2
β′
(j)X′
Xβ(j) − 2β′
(j)X′
y(j) .
Resaltar que para cada j ≥ 1,
β′
(j)X′
Xβ(j) − 2β′
(j)X′
y(j) = (y(j) − Xβ(j))′
(y(j) − Xβ(j)) − y′
(j)y(j).
De lo que se obtiene el siguiente teorema, extra´ıdo de Zoglat [44], como resultado.
Teorema 3 Vistos como una funci´on de β, l(m, y), se maximiza para
β = (X′
X)−1
X′
Y.
Es importante se˜nalar que los dos m´etodos de estimaci´on expuestos, al igual que en el caso finito
dimensional conducen al mismo estimador de β. Sin embargo, mientras que el m´etodo de m´ınimos
cuadrados siempre es aplicable, no ocurre lo mismo con el m´etodo de m´axima versimilitud [44]:
22
27. 1. Al igual que en el caso finito dimensional, el m´etodo de m´ınimos cuadrados no requiere
normalidad. Adem´as, no requiere que se tenga ning´un tipo de conocimiento sobre la estructura
de covarianza.
2. A diferencia del caso finito dimensional, en el caso de espacios inifitos dimensionales no existe
un equivalente al la medida de Lebesgue en Rn. Sin embargo, si el error es Gaussiano esta
dificultad puede evitarse dejando que la derivada de Radon - Nikodym juegue el rol de funci´on
de verosimilitud. Si el error no es Gaussiano, no es f´acil evitar esta dificultad.
2.3. Descomposici´on de la variabilidad
Se define la suma de cuadrados del error residual como
SSE = Y − Y, Y − Y Rǫ = Y , MY Rǫ .
Donde
ˆY = X ˆβ.
Y , MY Rǫ puede definirse como
Y , MY Rǫ =
n
i=1
n
j=1 k≥1
λk Yi, ϕk mij Yj, ϕ
=
k≥1
n
i=1
n
j=1
λk Yi, ϕk mij Yj, ϕ
=
k≥1
λkY ′
(k)MY (k).
Se define la suma de cuadrados total se puede definir como
SST = Y, Y Rǫ
y la que la suma de cuadrados de la regresi´on como
SSR = SST − SSE = Y, BY Rǫ ,
donde B = X(X′X)−1X′ es B es sim´etrica, idempotente y ortogonal a M.
23
28. Teorema 4 Suponiendo que el error ǫ es Gaussiano, se tiene que
1. Existe una secuencia ηk, k ≥ 1 de variables aleatorias independientes con distribuci´on χ2(r(M))
tal que σ2
k≥1 λ2
kηk converge casi seguramente a SSE
2. Existe una secuencia de variables aleatorias ξk ∼ χ2,′ r(B), (2σ2λk)−1µ′
(k)Bµ(k) , k ≥ 1
tales que σ2
k≥1 λ2
kξk converge casi seguramente a SSR
3. SSE y SSR son independientes
4. El estad´ıstico
SSE
r(M) k λ2
k
es un estimador insesgado y consistente de σ2
2.4. Contraste de Hip´otesis lineal
Considerar la contraste de hip´otesis general
H0 : Kβ = C
H1 : Kβ = C
Donde K es una matriz m × p y C es un vector m × 1 de funciones dadas. Suponer que K es
de rango completo, es decir rank(K) = m. Para contrastes de este tipo de hip´otesis se necesita
calcular un estimador de β bajo H0. Se observa que el m´etodo de m´ınimos cuadrados restringido
proporciona el estimador ˜β.
El m´etodo de m´ınimos cuadrados restringido se obtiene minimizando ||e(β)||2
Rǫ
bajo la condici´on
Kβ = C que equivale a
Kβ(k) − C(k) = 0 ∀k ≥ 1. (3)
Para minimizar ||e(β)||2
Rǫ
sujeto a (3) es suficiente minimizar para cada k ≥ 1:
(Y(k) − Xβ(k))′
(Y(k) − Xβ(k))
sujeto a la condici´on K(k)β = C(k) = 0.
Haciendo uso de los multiplicadores de Lagrange,
˜β = ˆβ − (X′
X)−1
)K′
[K(X′
X)−1
)K′
]−1
(Kˆβ − C). (4)
24
29. Se˜nalar que rank(K) = m ≤ p = rank(X′X)−1 y rank(K(X′X)−1K′) = m.
De (4) y haciendo los mismos c´alculos que en el an´alisis de la varianza cl´asico, se obtiene
X(β − β) = D(Y − C∗
)
donde
D = X(X′
X)−1
K′
[K(X′
X)−1
K′
]−1
K(X′
X)−1
X′
C∗
= XK′
(KK′
)−1
C.
Por lo que se definir´ıa el estad´ıstico Q = X(β − β) 2
Rǫ
del que se establecen las siguientes
propiedades [44]:
Teorema 5 Suponiendo que el error ǫ es Gaussiano, se tiene que
1. Existe una secuencia de variables aleatorias ξk ∼ χ2′(r(D), δk)
2. δk = (2σ2λk)−1(E(Y(k)) − C∗
(k))′D(E(Y(k)) − C∗
(k))
3. La serie σ2
k≥1 λ2
kξk converge casi seguramente al estad´ıstico Q
4. Las variables aleatorias SSE y Q son independientes
Teorema 6 Para el contraste de H0 : Kβ = C frente H1 : Kβ = C a nivel α existe un test ψ que
viene dado por
ψ =
1 si SH0 (Y) > C(H0, α)
0 en otro caso
1. SH0 (Y) =
SSRH0 − SSR si σ es conocido
(SSRH0 − SSR)/SSE en otro caso
2. P {SH0 (Y) > C(H0, α), Kβ = C} = α
25
30. 2.5. Contraste de significaci´on e interacci´on en modelos FANOVA de efectos
mixtos
2.5.1. Modelo FANOVA de efectos mixtos.
En esta secci´on consideraremos el modelo FANOVA de efectos mixtos definido por Abramovich
y Angelini [2] y desarrollaremos la metodolog´ıa utilizada.
El modelo que se considerar´a es:
dYi,l(t) = mi(t)dt + Vl(t)dt + εWi,l(t) i = 1, . . . , r ; l = 1, . . . , m ; t ∈ [0, 1]. (5)
Donde
mi(t) son funciones de efectos fijos.
Vl(t) son funciones de efectos aleatorios modeladas como realizaciones independientes de un
proceso estoc´astico de media cero V (t).
Wi,l(t) son realizaciones independientes de un proceso de Wiener cl´asico.
Vl(t) y Wi,l(t) son independientes entre s´ı.
Siguiendo el desarrollo descrito en Antonianis [7] y [8], cada mi(t), i = 1, . . . , r en (5) admite la
siguiente descomposici´on ´unica:
mi(t) = m0 + µ(t) + ai + γi(t) i = 1, . . . , r ; t ∈ [0, 1], (6)
donde m0 es una constante (la media global), µ(t) es cero o una funci´on de t no constante (el
principal efecto fijo de t), ai es cero o una funci´on de i no constante (el principal efecto mixto de
i) y γi(t) es cero o una funci´on que no puede descomponerse como una suma de una funci´on de i
y una funci´on de t. Las componentes de la funci´on (6) satisfacen las siguientes condiciones:
1
0
µ(t)dt = 0 ;
r
i=1
ai = 0
r
i=1
γi(t) = 0 ;
1
0
γi(t)dt = 0 (7)
∀i = 1, . . . , r ; t ∈ [0, 1]
Definimos el Modelo de efectos mixtos funcional:
Xi,l(t) =
dYi,l(t)
dt
= mi(t) + Vl(t) + ǫ(t), i = 1, . . . r, l = 1, . . . , m.
26
31. 2.5.2. Contraste de Hip´otesis a partir del modelo de efectos mixtos
El contraste de hip´otesis de los efectos principales y las interacciones es equivalente a contrastar
las siguientes hip´otesis:
H0 : µ(t) = 0 , t ∈ [0, 1] (sin tendencia global). (8)
H0 : ai = 0 , ∀i = 1, . . . , r (sin diferencias en nivel). (9)
H0 : γi = 0 , ∀i = 1, . . . , r (sin diferencias en forma). (10)
Integrando el modelo (5) con respecto a t y usando las condiciones (7) se obtiene
Y ∗
i,l = m0 + ai + ˜Vl + εξi,l , i = 1, . . . , r , l = 1, . . . , m ,
r
i=1
ai = 0,
donde
Y ∗
i,l =
1
0 dYi,l(t)
˜Vl =
1
0 Vl(t)dt
ξi,l son variables aleatorias independientes N(0, 1)
Este es el modelo ANOVA de efectos mixtos cl´asico y contrastando (9) se puede resolver por
varias t´ecnicas.
Si consideramos ahora contrastar las hip´otesis funcionales (8) y (10). Promediando (5)-(6) con
respecto a i y l y explotando las condiciones (7) se llega al siguiente modelos FANOVA de efectos
aleatorios
d ¯Y (t) = (m0 + µ(t))dt + ¯V (t)dt + εd ¯W(t), (11)
donde ¯V (t) es el proceso medio de V1(t), . . . , Vm(t) y ¯W(t) es la media de r ×m procesos de Wiener
independientes cl´asicos.
Si definimos ¯Yi.(t) =
1
m
m
l=1 Yi,l(t) y ¯Wi.(t) =
1
m
m
l=1 Wi,l(t), (11) se podr´ıa expresar como
d( ¯Yi.(t) − ¯Y (t)) = (ai + γi(t))dt + εd( ¯Wi˙.(t) − ¯W(t)). (12)
Esta ´ultima ecuaci´on no involucra componentes de efectos aleatorios y para contrastar (10) se
puede hacer uso del procedimiento desarrollado por Abramovich et al. en 2004 [1] para los modelos
FANOVA de efectos fijos.
27
32. El conjunto alternativo
Reescribiendo el modelo FANOVA de efectos aleatorios (11) en la forma equivalente
d ¯Y (t) = (m0 + µ(t))dt + ¯V (t)dt + ηd ¯W(t), (13)
donde η =
ε
√
rm
y ¯W(t) es un proceso de Wiener cl´asico.
Se quiere comprobar la hip´otesis nula (8) contra una clase de alternativas tan grande como
posible y sin especificar ninguna estructura par´ametrica para el conjunto alternativo. En su lugar,
s´olo se asume que µ(.) posee alguna propiedad de suavizado. En particular, se supone que µ(.)
pertenece a alguna bola Besov Bs
p,q(M) de radio M > 0 en el intervalo unidad, donde 1 ≤ p,
q ≤ ∞, sp > 1, estrictamente hablando, el par´ametro s indica el n´umero de derivadas de la funci´on,
donde su existencia se requiere en un sentido Lp mientras que el par´ametro adicional q proporcional
una graduaci´on m´as final.
Por otro lado, para ser capaz de distinguir entre las dos hip´otesis, µ(.) deber estar alejado del cero
en la norma L2, ||µ||2 ≥ ρ(η). Esto es una forma t´ıpica de restricciones en un conjunto alternativo en
el contraste no param´etrico. La restricci´on de suavizado limita el conjunto de alternativas mientras
que las restricciones de la norma L2 lo elimina demasiado pr´oximo a cero.
As´ı, dados los datos en (12), el contraste de hip´otesis que se quiere realizar es
H0 : µ(t) = 0
H1 : µ ∈ F(ρ(η)) (14)
donde F(ρ(η)) = {µ : µ ∈ Bs
p,q(M), µ(t) = 0 , ||µ||2 ≥ ρ(η)}
2.5.3. El modelo para los efectos aleatorios
Para completar (13) es necesario especificar la distribuci´on del proceso estoc´astico ¯V (t) que
est´a definido de forma completa por la distribuci´on de V (t) en el modelo de efectos mixtos original
(5). En lugar de definir la distribuci´on de V (t) directamente, se establece la distribuci´on sobre los
coeficientes de su desarrollo wavelet.
Por simplicidad, Abramovich y Angenine [2] consideraron bases wavelet peri´odicas ortonormales
en L2[0, 1], aunque en la pr´actica se comporten mal en las fronteras en el caso de funciones no
28
33. param´etricas. Se elige una wavelet madre ψ de regularidad v > s y haciendo la transformada
wavelet peri´odica sobre (13):
¯Yjk = µjk + ¯Vjk + ηξjk j ≥ −1 k = 0, . . . , 2j
− 1, (15)
donde
¯Yjk =
1
0 ψjk(t)d ¯Y (t)
µjk =
1
0 mu(t)ψjk(t)dt
¯Vjk =
1
0
¯V (t)ψjk(t)dt
ξjk son variables normales independientes N(0, 1)
Para simplificar la notaci´on, denotamos las funciones de escala φ(t) y ψ−10(t).
Por otro lado, el proceso, ¯V (t) es una media de m realizaciones independientes de V (t) y en el
dominio wavelet ¯Vjk =
1
m
m
l=1 Vjk,l donde Vjk,l =
1
0 Vl(t)ψjk(t)dt, l = 1, . . . , m
Es natural suponer que a diferencia del ruido blanco completamente irregular, las realizaciones
de V (t) poseen algunas propiedades de suavizado, por ejemplo que caigan con toda seguridad dentro
de una bola de Besov. Varias funciones procedentes de espacios de Besov tiene una amplia repre-
sentaci´on en series wavelet y para capturar esta caracter´ıstica de las funciones wavelets, suponer la
siguiente distribuci´on sobre Vjk,l:
Vjk,l ∼ πjN(0, τ2
j ) + (1 − πj)δ(0) j ≥ 0 k = 0, . . . , 2j
− 1 (16)
son independientes, donde 0 ≤ πj ≤ 1, δ(0) es una masa puntual en 0. Para completar el modelo
hacer uso de distribuciones imprecisas para los coeficientes de escala V−10,l, l = 1, . . . , m. Adem´as,
suponer que Vjk,l y ξjk son independientes.
De acuerdo con (16), cada Vjk,l es 0 con probabilidad 1−πj o con probabilidad πj est´a distribuido
de forma normal con media 0 y varianza τ2
j . La probabilidad πj es una medida de la proporci´on de
coeficientes wavelet no nulos en el nivel de resoluci´on j mientras que la varianza τj es una medida
de sus magnitudes. Los par´ametros πj y τ2
j son los mismos para todos los coeficientes en un nivel
de resoluci´on j.
As´ı κ2
j =
rτ2
j
ε2
=
τ2
j
mη2
y tambi´en supone que lim supjk2
j ≥ C < ∞ para asegurar que las
varianzas de ambas componentes aleatorias en (13) son del mismo orden.
29
34. De Abramovich y Angenine [2] extraemos la siguiente proposico´on:
Proposici´on 1 Si los coeficientes del desarrollo wavelet de Vl(t), l = 1, . . . , m tienen distribuci´on
(16). Entonces, Vl(t), l = 1, . . . , m son realizaciones de un proceso estoc´astico de media cero no
estacionario (no Gaussiano) V (t) con funci´on de covarianza
R(s, t) =
j≥0
πjτ2
j
2j −1
k=0
ψjk(s)ψjk(t).
Se puede demostrar que la serie wavelet ψjk(t) son las autofunciones de la funci´on de covarianza
R(s, t) con sus correspondientes autovalores
√
πj τj. En particular, si τ2
j y πj decrecen de forma
exponencial, esto es τ2
j = c12−aj y πj = min(1, c22−bj), j ≥ 0 donde a, b ≥ 0 y c1, c2 > 0, el n´umero
esperado de coeficientes wavelet distintos de 0 sobre el j-´esimo nivel es c22j(b−1).
2.5.4. Principales resultados
Un contraste φ es una funci´on medible de los datos con los dos valores 0 y 1 que corresponden a
aceptar y rechazar la hip´otesis nula respectivamente. Como es usual, la calidad del test φ es medible
por el error de Tipo I (Rechazar H0 cuando es cierta) y por el error de Tipo II (Aceptar H0 cuando
es falsa). La probabilidad del error de Tipo I se define como α(φ) = Pµ=0(φ = 1). Mientras que la
probabilidad del error de Tipo II para H1 no param´etrica se define como
β(φ, ρ(η)) = supµ∈F(ρ(η))Pµ(φ = 0)
Para las probabilidades de error definidas de ambos tipos, la tasa de decaimiento de ρ(η) cuando
η → 0 es una medida est´andar de la bondad asint´otica del contraste.
De Abramovich y Angenine [2] extraemos la definici´on de tasa minimax:
Definici´on 2 Una secuencia ρ(η) se llama tasa minimax de contraste si ρ(η) → 0 cuando η → 0
y se cumplen las dos siguientes condiciones:
1. Para cualquier ρ′(η) = on(ρ(η)), tiene
infφn [α(φn + β(ρ
′
(φn, η))] = 1 − on(1)
donde on(1) es una secuencia que tiende a cero cuando η → 0
30
35. 2. Para cualquier α > 0 y β > 0 existe una constante c > 0 y un test φ∗
η tal que
α(φ∗
η) ≤ α + on(1).
β(φ∗
η, cρ(η)) ≤ β + on(1).
La primera condici´on establece que contrastar con una tasa m´as r´apida que ρ(η) es imposible
mientras que la segunda condici´on garantiza que para la tasa ρ(η) existe un contraste ρ(η)∗
Contraste minimax
De Abramovich y Angenine [2] extraemos el siguiente teorema:
Teorema 7 Denotemos por ψ(t) la wavelet madre, cuya regularidad es v > s, y cuyo par´ametro
θ = (s, p, q, M) caracterizando la bola de espacio de Besov Bs
p,q(M) es conocido, donde 1 ≤ p,
q ≤ ∞, sp > 1 y s > 1/4 para p ≥ 2. Considerar el contraste de hip´otesis
H0 : µ = 0
H1 : µ ∈ F(ρ(η)) = µ ∈ Bs
p,q(M) , µ(t)dt = 0 , ||µ||2 ≥ ρ(η)
en el modelo de efectos mixtos (21) y (24). Entonces, dado un nivel de significaci´on fijo α ∈
(0, 1), cuando η → 0, la tasa ρ(η) del contraste
φ∗
= 1
T(Jθ) + Q(Jθ)
v2
0(Jθ) + ω2
0(Jθ)
>z1−α
,
es ρ(η) = η4s′′/(4s′′+1)
donde
T(Jθ) =
Jθ−1
j=0
Sj,
Sj =
2j −1
k=0
( ¯Y 2
jk − η2
(1 + πjκ2
j )),
T(Qθ) =
Jη−1
j=Jθ
Sj(λi),
Sj(λj) =
2j −1
k=0
( ¯Y 2
jk1{| ¯Yjk| > ηλ} − η2
bj(λ)),
bj(λ) = E[ζ2
j 1{|ζj| > λ}].
31
36. Contraste adaptativo
De Abramovich y Angenine [2] extraemos el siguiente teorema:
Teorema 8 Cuando η → 0, la tasa ρ(η) del test
φa
= 1
maxjmin≤Jθ≤jmax
T(Jθ) + Q(Jθ)
v2
0(Jθ) + ω2
0(Jθ)
>
√
2lnlnη−2
para el contraste (14) es
ρ(η) = η4s′′/(4s′′+1)
(lnlnη−2
)s′/(4s′′+1)
.
Adem´as, existe una constante c tal que α(ψa) = oη(1) y supT β(ψa, cρn) = oη(1)
2.6. Estimaci´on no param´etrica
Se considera el problema de regresi´on no param´etrico cl´asico con ruido aditivo considerado por
Angelini, De Canditiis y Leblanc [5]:
(ti, Yi) Yi = f(ti) + σεi donde E[εi] = 0 E[ε2
i ] = 1. (17)
Donde las εi son variables aleatorias incorreladas y (ti) es un dise˜no determin´ıstico (no necesaria-
mente regular). El valor de σ puede ser conocido o no.
El objetivo principal es estimar la funci´on desconocida f en un entorno no param´etrico. Por lo
que f se supondr´a que pertenece a alguna clase de suavidad F. El problema (17) se ha estudiado
bajo dos conjuntos diferentes de presunciones sobre la funci´on f:
1. Modelo de efectos fijos: f es considerado como una funci´on determin´ıstica y la clase F es una
bola en un espacio de Sobolev de regularidad s. Las observaciones, Y = (Y1, . . . , Yn)′, son
independientes.
2. Modelo de efectos mixtos: f es de la forma
f(t) = µ(t) +
√
bz(t), (18)
donde µ es una funci´on determin´ıstica y z es un proceso estoc´astico. Adem´as, de acuerdo a la
estructura de covarianza elegida para el proceso estoc´astico z, f se encontrar´a en un espacio
m´as grande que el espacio de Sobolev considerado en el caso anterior. Las observaciones,
32
37. Y = (Y1, . . . , Yn)′, son variables correladas ya que son observaciones perturbadas de puntos
de discretizaci´on del proceso f.
Algunos m´etodos basados en kernel, proyecciones ortogonales, polinomios locales, wavelet o
estimadores spline se pueden encontrar en [3, 7, 8, 20, 22, 28, 41]. Todos estos estimadores dependen
de un par´ametro de suavizado desconocido.
Asumiendo que f es determin´ıstica, Angelini, De Canditiis y Leblanc [5] proponen un estimador
lineal de f como soluci´on de un problema de minimizaci´on definido en el dominio wavelet. se
demuestra que este estimador es el mejor predictor lineal insesgado para una funci´on de regresi´on
de efectos mixtos f dada en (18). Debido a que el coste computacional para el c´alculo de este
estimador es muy alto (O(n2)) y que realmente no se aprovecha de la transformada discreta wavelet
r´apida, se propone un segundo estimador que es m´as f´acil y r´apido de implementar. Este nuevo
estimador ser´a una fina aproximaci´on del primero.
Cuando F es el espacio de Sobolev cl´asisco Hs
2[0, 1], donde s es un entero estrictamente positivo,
puede definirse como un espacio de Hilbert con n´ucleo reproductor.
En el trabajo de Angelini, De Canditiis y Leblanc [5] se ha imitado la aproximaci´on spline para
generalizar el problema de estimaci´on sobre un espacio de Sobolev con ´ındices no enteros. Cuando s
es un n´umero real mayor que 1/2 se establece que Hs
2[0, 1] es a´un un espacio de Hilbert con n´ucleo
reproductor H = H0 ⊕ H1 con un n´ucleo reproductor construido con bases wavelet. A continuaci´on
se estima f con la soluci´on ˆfλ del problema de minimizaci´on:
m´ın
f∈H
1
n
n
i=1
(Yi − f(ti))2
+ λ||P1f||2
H, (19)
donde P1 es el proyector ortogonal sobre el subespacio H1
Para el problema de optimizaci´on, cuando λ = 0, la soluci´on interpolar´a los puntos (ti, Yi)
por una funci´on de Hs con una gran norma en el espacio de Sobolev. Mientras que si se toma
λ = ∞ se llega a una soluci´on con una peque˜na norma en Hs pero aproximando muy mal la
funci´on desconocida f. De esta forma, el t´ermino λ||P1f||2
H que penaliza los detalles en el desarrollo
wavelet permite establecer un compromiso entre buena aproximaci´on y suavizado del estimador no
param´etrico resultante.
La soluci´on de (19) est´a dada por el siguiente teorema obtenido de Angelini, De Canditiis y
Leblanc [5]:
33
38. Teorema 9 Sea Φ la matriz n × 2J definida por Φi,j = ϕJ,k(ti) para cualquier i = 1, . . . , n y
k = 0, . . . , 2J −1 y Φt la matriz fila 1×2J definida por Φ1,k = ϕJ,k(t) para cualquier k = 0, . . . , 2J −1
y cualquier t ∈ [0, 1]. Adem´as, Σ ser´a la matriz n × n definida por Σi,j = K1(ti, tj) para cualquier
i = 1, . . . , n y j = 1, . . . , n y Σt la matriz 1 × n definida por Σt,j = K1(t, tj) para cualquier
j = 1, . . . , n y cualquier t ∈ [0, 1].
El minimizador del problema (19) viene dado por:
ˆfλ(t) =
2J −1
k=0
ˆαJ,kϕJ,k(t) +
n
i=1
ˆdiK1
ti
(t)
= Φtˆα + Σt
ˆd,
donde
ˆα = (ˆαJ,0, . . . , ˆαJ,2J −1)′
= (Φ′ ˜Σ−1
Φ)−1
Φ′ ˜Σ−1
Y ,
ˆd = ( ˆd1, . . . , ˆdn)′
= ˜Σ−1
(In − Σ(Φ′ ˜Σ−1
Φ)−1
)Φ′ ˜Σ−1
)Y ,
˜Σ = Σ + nλIn Y = (Y1, . . . , Yn)′
.
Cabe destacar que ˆfλ(t) se puede escribir en t´erminos de un desarrollo wavelet:
ˆfλ(t) =
2J −1
k=0
ˆαJ,kϕJ,k(t) +
j≥J
2j −1
k=0
βj,kψj,k(t)
βj,k =
n
i=1
λj
ˆdiψj,k(ti)
2.6.1. Wavelets y espacios de Besov
Angelini, De Canditiis y Leblanc [5] utilizan wavelets con soporte compacto tales como wavelets
ortogonales de Daubechies.
Para la construcci´on de bases wavelets ortonormales de soporte compacto para L2(R), se empieza
con una pareja especial de soporte compacto conocidas como la funci´on de escala, ϕ y la wavelet
ψ. El conjunto de funciones ψj,k(x) = 2j/2ψ(2jx − k), j, k ∈ Z, constituye una base ortonormal
para L2(R). Para j ∈ Z fijo, ϕj,k(x) = 2j/2ϕ(2jx − k), k ∈ Z son una base ortonormal para
un subespacio Vj ⊂ L2(R). Los espacios Vj construyen un an´alisis multiresoluci´on. Denotamos
Pif = k∈Z f, ϕj,k ϕj,k la proyecci´on ortogonal de f sobre el Vj.
Los wavelet de mayor suavizado no solo proporcionan bases ortonormales para L2(R), tambi´en
bases no condicionales para varios espacios de funciones, incluyendo espacio de Besov. As´ı conside-
34
39. raremos bases wavelet ortonormales en el intervalo [0, 1]. Adaptar las wavelets a intervalos finitos
requiere algunas modificaciones como las descritas en [14].
De forma resumida, para J tal que 2J ≥ 2r, la construcci´on [14] proporciona un conjunto
finito de 2J funciones de escala, ϕJ,k y para cada j ≥ J, 2j funciones ψj,k tal que la colecci´on de
´estas forma un sistema ortonormal completo de L2[0, 1]. Con esta notaci´on, la reconstrucci´on de la
formula de L2[0, 1] es
f(t) =
2J −1
k=0
αJ,kϕJ,k(t) +
j≥J
2j −1
k=0
βj,kψj,k(t), (20)
donde αJ,k = [0,1] f(t)ϕJ,k(t)dt, βj,k = [0,1] f(t)ψj,k(t)dt y ||f||2 = [0,1] f2(t)dt
2.6.2. Enfoque Modelos Mixtos
Los predictores lineales de los efectos mixtos desconocidos, basados en observaciones perturba-
das Y = (Y1, . . . , Yn)′ de f en los puntos del dise˜no t1, . . . , tn son considerados en un gran n´umero
de aplicaciones por su simplicidad y potencia. Adem´as, algunos ejemplos son estudiados bajo la
hip´otesis de modelo mixto y el modelo de regresi´on cl´asico. La comparaci´on de estos enfoques
muestra claramente por qu´e los modelos mixtos son buenos en ciertas situaciones.
Aqu´ı se estudiar´a el modelo (17) desde el punto de vista de los modelos mixtos. Se˜nalar que los
datos Y son observaciones discretizadas de la trayectoria de un proceso estoc´astico Y (t) dado por
Yi = f(ti) + σεi t ∈ [0, 1],
donde f es de la forma (18) y {ε(t), t ∈ [0, 1]} es un proceso Gaussiano de media 0 con
Cov(ε(s), ε(t)) = δst.
Adem´as, suponemos que µ(t) = 2J −1
k=0 αJ,kψJ,k(t) y {
√
b z(t), t ∈ [0, 1]} es un proceso Gaus-
siano centrado con funci´on de covarianza E(z(s)z(t)) = K1(s, t). Ya que [0,1]2 K1(s, t)dsdt < +∞
admite el desarrollo de Karhunen - Lo`eve y por tanto, la siguiente representaci´on en media cuadr´ati-
ca es correcta:
√
b z(t) =
j≥J
2j −1
k=0
βj,kψj,k(t), (21)
donde βj,k son independientes βj,k ∼ N(0; λj). Bajo las suposiciones hechas por (18) y (21), las
trayectorias de los procesos z(t) y f(t) pertenecen a un espacio de funciones regular.
35
40. Angelini, De Canditiis y Leblanc [5] demuestran que la regularidad del espacio depende de la
elecci´on de la secuencia λj a trav´es del siguiente teorema:
Teorema 10 Sea s > 1/2 y suponer que el sistema wavelet {ψjk}j,k es fijo y es [s] + 1 − regular.
Considerar las series estoc´asticas,
S(t) =
j geqJ
2j −1
k=0
βjkψjk(t)
donde βjk variables normales aleatorias independientes centradas tales que V ar[βjk] = λj. Enton-
ces, las siguientes propiedades son equivalentes:
1. Cada muestra de la serie estoc´astica S(t) pertenece a B
s−1/2
2,∞ [0, 1] casi seguramente(a.s.)
2. λj = O(2−2js)
En el enfoque por regularizaci´on se asume que, para la elecci´on de λj = 22−2js
, la funci´on f
desconocida pertenece al espacio de Sobolev Hs. En el enfoque de modelos mixtos la f desconocida
se supone que ser´a una muestra que pertenece casi seguramente a un gran espacio, B
s−1/2
2,∞ . En [14] se
demuestra que el predictor Bayesiano es exactamente ˜fλ(t), la soluci´on del enfoque de regularizaci´on
y se encuentra en el espacio m´as peque˜no Hs.
A continuaci´on, de Angelini, De Canditiis y Leblanc [5] extraemos la definici´on de BLUP (Best
Linear Unbiased Predictor), ˆft, para f(t) usando solo los datos observados Y . La siguiente definici´on
de BLUP para una funci´on f es una extensi´on natural del caso param´etrico:
Definici´on 3 Un predictor ˆf(t), basado en observaciones perturbadas (datos) Y dado en (1), es
el BLUP para f(t) el el modelo (18) si y solo si se cumplen las siguientes propiedades:
∀t ∃Lt = (l1(t), . . . , ln(t)) tal que ˆf(t) = LtY
∀t E[ ˆft] = µ(t)
∀t y ˜g tal que ˜g(t) = ˜LtY y E[˜g(t)] = E[ ˆf(t)], E[ ˆf(t) − f(t)]2 ≤ E[˜g − f(t)]2
De los mismos autores, [5], extraemos el siguiente teorema:
Teorema 11 El BLUP para la predicci´on de f(t) en el modelo (18), basado en los datos Y est´a da-
do por
ˆft = L∗
t Y , (22)
36
41. donde el vector 1 × n, L∗
t toma la forma
L∗
t = Φt(Φ′
M−1
Φ)−1
+ ΣtM−1
(In − Φ(Φ′
M−1
Φ)−1
Φ′
M−1
)
Φ, Φt, Σ y σt se han definido en el Teorema 11 y M = (Σ + (σ2/2)In). Adem´as, con nλ = σ2/b
la siguiente identidad se mantiene
∀t ∈ [0, 1] ˆf(t) = ˆfλ(t) donde ˆfλ(t) esta definido en el Teorema 11
El predictor en (22) se puede expresar de forma equivalente como
ˆfλ(t) = Φt ˆα +
√
bˆz(t)
donde ˆα = (Φ′M−1Φ)−1Φ′M−1Y es el predictor m´ınimo cuadr´atico ponderado para el modelo
Y (t) = Φt ˆα + ε
′
(t) con ε
′
(t) =
√
bz(t) + σε(t) y
√
bˆz(t) = ΣtM−1(I − Φ(ΦM−1Φ)−1Φ′M−1)Y es el
predictor del efecto Gausiano centrado.
2.6.3. Soluci´on Wavelet aproximada
Para desarrollar el estimador aproximado ˜fλ consideramos que f pertenece a Hs y que n = 2N .
Adem´as, suponemos que existe una funci´on h(t) ∈ Hs−1 y dos constantes positivas h1 y h2 tales
que 0 < h1 ≤ h(t) ≤ h2 < ∞ y
ti+1
ti
h(t)dt = 1/n para cualquier i. Se define la funci´on
H(t) =
1
0
h(t)dt (Por definicion),
donde
H(0) = 0, H(1) = 1 y H(ti) = i/n
H(t) = t en el caso equiespaciado.
Como h es estrictamente positiva, H es invertible.
De las 3 condiciones anteriores, cuando f ∈ Hs tenemos que f ◦ H−1 ∈ Hs (◦ indica la
composici´on de dos funciones).
h(t) est´a acotada superior e inferiormente por lo que se tiene la siguiente equivalencia:
||f||L2 ≈ ||f ◦ H||2
. (23)
37
42. Para cualquier f ∈ L2[0, 1] el proyector ortogonal en VN es
PN f =
2N −1
k=0
αN,kϕN,k =
=
2J −1
k=0
αJ,kϕJ,k +
N−1
j=J
2j −1
k=0
βj,kψj,k(t). (24)
El proyector ortogonal emp´ırico en VN se define para una funci´on f conocida sobre un dise˜no
general, 0 ≤ t1 ≤ · · · ≤ tn ≤ 1 como
¯ΠN f =
2N −1
i=0
2N −1
k=0
f(tk+1)
√
n
ϕN,k ◦ H, ϕN,i
ϕN,i =
=
2N −1
i=0
αf
N,iϕN,i =
2J −1
k=0
αf
J,iϕJ,i +
N−1
j=J
2j −1
k=0
βf
j,kψj,k. (25)
La expresi´on de ¯ΠN se simplifica cuando se aplica a una funci´on conocida f sobre un dise˜no
equiespaciado. En este caso particular lo denotamos por ΠN y tenemos
ΠN f =
2N −1
i=0
f((i + 1)/n)
√
n
ϕN,k.
Con esta notaci´on se tiene que ¯ΠN f = PN (ΠN (f ◦ H−1) ◦ H). Bajo las condiciones usualmente
establecidas en la definici´on de un an´alisis multiresoluci´on, se tienen los siguientes resultados sobre
aproximaciones finito - dimensionales en la norma L2:
||f − PN f||2
L2
≤ C||f||Hs 2−2sN
. (26)
||ΠN f − PN f||2
L2
≤ C2−2sN
. (27)
||¯ΠN f − PN f||2
L2
≤ C2−2sN
. (28)
Debido a la ortonormalidad de los sistemas wavelets, usando la expresi´on de H − norm en
t´erminos de coeficientes wavelets y la aproximaci´on resultante (26), (27) y (28), el problema de
minimizaci´on exacta (19) se puede aproximar a un t´ermino de orden O(2−2sN ) a partir de la
siguiente ecuaci´on:
||¯ΠN Y − PN f||2
L2[0,1] + λ
j,k
β2
j,k
λj
. (29)
38
43. A continuaci´on, usando el desarrollo PN f y ˆΠN Y en t´erminos de coeficientes wavelet, minimizar
la expresi´on (29) con respecto a f ∈ H equivale a minimizar la expresi´on siguiente con respecto a
los coeficientes (αJ,k)k y (βj,k)j,k:
2J −1
k=0
(αJ,k + ¯cJ,k)2
+
N−1
j=J
2j −1
k=0
(βj,k − ¯dj,k)2
+ λ
β2
j,k
λj
+ λ
∞
j=N
2j −1
k=0
β2
j,k
λj
,
tal expresi´on es m´ınima para los coeficientes (˜αJ,k)k y (˜βj,k) definidos por
˜αJ,k = ¯cJ,k k = 0, . . . , 2J
− 1,
˜βj,k =
λj
λj + λ
¯dj,k J ≤ j ≤ N − 1 ; k = 0, . . . , 2j
− 1,
˜βj,k = 0 j ≥ N ; k = 0, . . . , 2j
− 1,
y la soluci´on aproximada, denotada como ˜fλ se define como:
˜fλ =
2J −1
k=0
˜αJ,kϕj,k +
N−1
j=J
2j −1
k=0
˜βj,kψj,k
De Angelini, De Canditiis y Leblanc [5] extraemos el siguiente teorema:
Teorema 12 Bajo la suposici´on de regularidad sobre la base wavelet, para f ∈ Hs con s > 1/2
tenemos
MISE( ˜fλ) = E[|| ˜fλ − f||] ≤ O(2−2Ns
+ λ + 2J−N
+ 2−N
λ1/2s
)
adem´as, cuando tomamos λ = O n(−2s)/(2s+1) , se tiene
MISE( ˜fλ) = O n(−2s)/(2s+1)
.
39
44. 3. Modelos de regresi´on espacial heterog´eneos funcionales
3.1. Estimaci´on
3.1.1. Kriging: Predicci´on lineal ´optima espacial
El predictor kriging o mejor predicci´on lineal insesgada espacial (BLUP) ha sido ampliamente
aplicado en las ciencias de la tierra y del medioambiente, donde se conoce como interpolaci´on
´optima. Dadas sus buenas propiedades en relaci´on con el procesamiento de la variabilidad espacial
presentada por los datos usualmente analizados en estas ciencias, la metodolog´ıa kriging puede
producir mapas de predicci´on ´optima a partir de datos incompletos y perturbados. En algunas
ocasiones, los datos espaciales son dif´ıciles de obtener, en tales casos, donde la muestra es peque˜na,
el kriging puede aplicarse, obteni´endose resultados aceptables.
Cressie y Johannesson [15] parten de un proceso real - valuado {Y (s) : s ∈ D ⊂ Rd}. Se
est´a interesado en hacer inferencias sobre el proceso Y sobre la base de que los datos tiene medidas
de error incorporadas, es decir, son observaciones perturbadas. Por lo tanto, se considerar´a el
proceso Z(·) de las observaciones actuales y potenciales,
Z(s) ≡ Y (s) + ε(s), (30)
donde {ε(s) : s ∈ D} es un proceso espacial de ruido blanco con media 0, var[ε(s)] = σ2v(s) ∈
(0, ∞), s ∈ D, para σ2 > 0 y v(·) conocido.
Del proceso Z(·) s´olo se conocen un n´umero finito de localizaciones espaciales {s1, . . . , sn}; por
lo que se define el vector de datos disponible como
Z ≡ (Z(s1), . . . , Z(sn)), (31)
Se supone que el proceso Y (·) tiene una estructura lineal media,
Y (s) = t(s)′
α + ν(s) s ∈ D, (32)
donde
t(·) ≡ (t1(·), . . . , tp(·))′ representa un proceso vector de covariables conocidas.
α ≡ (α1, . . . , αp)′ son desconocidos.
40
45. ν(·) es un proceso que tiene media 0 y 0 < var[ν(s)] < ∞, para todo s ∈ D.
Funci´on de covarianza espacial generalmente no estacionaria. Se considera que la funci´on de
covarianza espacial es no homog´enea:
cov[ν(u), ν(v)] ≡ C(u, v) u, v ∈ D. (33)
Definiendo ε, Y y ν de forma an´aloga a Z, entonces, las expresiones (30)-(33) implican el modelo
mixto lineal general,
Z = Tα + δ δ = ν + ε, (34)
donde T es una matriz n × n de covariables (t(s1), . . . , t(sn)).
Del modelo mixto lineal general definido hay que destacar que el t´ermino error δ esta compuesto
de dos componentes independientes de media cero, por lo que
E[δ] = 0
var[δ] = Σ ≡ (σij) =
C(sj, sj) + σ2v(sj) si i = j
C(si, sj) si i = j
Si definimos las variables C ≡ (C(si, sj)) y V ≡ diag(v(s1), . . . , v(sn)) entonces podemos definir
Σ como
Σ = C + σ2
V. (35)
3.1.2. Funci´on de covarianza espacial
En general, la funci´on de covarianza C(u, v) definida en (33) debe ser definida positiva sobre
Rd ×Rd. A menudo, C(u, v) se modela como estacionaria, en tal caso debe ser una funci´on definida
no negativa de u − v.
Cressie y Johannesson [15] toman un enfoque diferente y se tratar´a de capturar las escalas de
las dependencias espaciales a trav´es de un conjunto de r funciones base,
S(u) = (S1(u), . . . , Sr(u))′
u ∈ Rd
, (36)
donde r es fijo.
Para cualquier matriz Kr×r definida positiva, se modelar´a cov[Y (u), Y (v)] de acuerdo a
C(u, v) = S(u)′
KS(v) u, v ∈ Rd
, (37)
41
46. que puede verse como una funci´on definida no negativa y as´ı una funci´on de covarianza v´alida.
La expresi´on (37) es consecuencia de escribir ν(s) = S(s)′
η, s ∈ D donde η es un vector r-
dimensional con var[η] = K. Considerando que ν(·) representa el efecto aleatorio, a partir de la ecua-
ci´on (32), se puede formular el siguiente modelo de efectos mixtos espacial: Y (s) = t(s)′β + S(s)′
η,
s ∈ D que ser´a un modelo lineal de efectos mixtos que llamaremos modelo de efectos mixtos espacial.
3.1.3. Kriging de rango fijo
A partir de la ecuaci´on (36) se puede escribir la matriz de varianzas - covarianzas te´orica n × n
de Y como C = SKS′ y as´ı,
Σ = SKS′
+ σ2
V, (38)
donde
Kr×r, una matriz definida positiva desconocida.
σ2 > 0 desconocida.
Sn×r = (Sl(si)) conocida.
V diagonal, con entradas definidas por las varianzas del error de medida conocida.
Adem´as,
cov[Y (s0), Z] = c(s0)′
= S(s0)′
KS′
. (39)
Es decir, sobre la base del modelo (30) - (37) se puede encontrar una expresi´on para todos los
componentes que son necesarios en las ecuaciones kriging.
De la ecuaci´on (38), Σ = SKS′ + σ2V, entonces,
Σ−1
= σ−1
V1/2
{I + (σ−1
V1/2
S)K(σ−1
V1/2
S)′
}−1
σ−1
V1/2
= (40)
= (σ2
V)−1
− (σ2
V)−1
S{K−1
+ S′
(σ2
V)−1
S}−1
S′
(σ2
V)−1
. (41)
El predictor kriging definido por Cressie y Johannesson [15] ser´ıa
ˆY (s0) = t(s0)′
ˆα + S(s0)′
KS′
Σ−1
(Z − Tˆα), (42)
donde ˆα = (T′Σ−1T)−1T′Σ−1Z y Σ−1 est´a definido en la ecuaci´on (41).
42
47. El error est´andar kriging definido por Cressie y Johannesson [15] ser´ıa
σk(s0) = {S(s0)′
KS(s0) − S(s0)′
KS′
Σ−1
SKS(S0)+
+ (t(s0) − T′
Σ−1
SKS(S0))′
(T′
Σ−1
T)−1
(t(s0) − T′
Σ−1
SKS(S0))}1/2
. (43)
3.1.4. Ajuste de la funci´on de covarianza
La estrategia adoptada por Cressie y Johannesson [15] para ajustar la funci´on de covarianza
espacial es consistente con el enfoque geoestad´ıstico que se encuentra desarrollado en la literatura
cl´asica.
En este enfoque, se obtiene primero un estimador emp´ırico para Σ, que est´a basado en el m´etodo
de los momentos. El estimador resultante ˆΣ esta perturbado y puede no ser definido positivo. Sin
embargo, sobre la base de una clase param´etrica {Σ(θ) : θ ∈ Θ} donde cada miembro de la clase
es definido positivo, se elige un ˆθ ∈ Θ tal que Σ(ˆθ) es el m´as cercano a ˆΣ. Por ´ultimo, Σ(ˆθ) se
sustituye en las ecuaciones kriging (42) y (43).
Los par´ametros de dependencia espacial θ se obtienen de la matriz definida positiva Kr×r y
la componente de varianza σ2 ∈ (0, ∞). Estimando ˆK y ˆσ2 se obtienen minimizando una norma
de Frobenius entre una matriz de varianzas - covarianzas emp´ırica y una matriz de varianzas -
covarianzas te´orica.
Primero se define un estimador emp´ırico de las varianzas y covarianzas para lo que se necesitan
los datos sin tendencia. En ausencia inicial de conocimiento de dependencia espacial, usamos el
estimador por m´ınimos cuadrados ordinario de α,
¯α ≡ (T′
T)−1
T′
Z, (44)
para el que se define el detalle de residuo,
D(si) ≡ Z(si) − t(si)′
¯α i = 1, . . . , n. (45)
Como en la geoestad´ıstica cl´asica, los datos se unen para el c´alculo del estimador de la depen-
dencia espacial por el m´etodo de los momentos. El n´umero de uniones, M, ser´a fijo pero mayor que
r, el n´umero de funciones base. As´ı para estimaci´on y ajuste de covarianzas, una vez que los datos
han sido unidos la complejidad computacioneal no depende de n. Suponer que {uj : j = 1, . . . , M}
43
48. donde r ≤ M ≤ n es un conjunto de localizaciones ofreciendo buena cobertura de D. El resultado
es
ˆK = R−1
Q′
( ˆΣM − ˆσ2 ¯V)Q(R−1
)′
.
3.1.5. Aplicaci´on
Cressie y Johannesson [15] aplicaron la t´ecnica del predictor kriging de rango fijo a los datos
de concentraci´on de Ozono en la atm´osfera medida a trav´es del TCL (Total Column Ozone).
Los datos fueron tomados por el sat´elite polar Nimbus - 7 con un espectr´ometro cartogr´afico
para el mapeo del total de ozono.
3.2. Regresi´on espacial heterog´enea funcional y din´amica
De Ruiz-Medina y Espejo [34] extraemos la siguiente definici´on:
Definici´on 4 Un proceso espacial funcional YSARH = {Y (i, j), (i, j) ∈ Z2} con valores en un
espacio de Hilbert separable H, se dice que es un proceso SARH(1) unilateral si es estacionario y
satisface la siguiente ecuaci´on
Yi,j = R + L1(Yi−1,j) + L2(Yi,j−1) + L3(Yi−1,j−1) + ǫi,j, (46)
donde R ∈ H y Li ∈ H; i = 1, 2, 3, el espacio de operadores lineales acotados. ǫi,j ∈ H, es el
proceso de innovaci´on funcional o t´ermino de error funcional en el modelo mixto, incorrelado con
los valores funcionales aleatorios iniciales ǫ(1, 0), ǫ(0, 1), y ǫ(0, 0) y satisfaciendo E||ǫi,j||2
H = σ2
para todo (i, j) ∈ Z2 y E[ǫi,j ⊗ǫk,l] = E[ǫ|i−k|,|j−l|⊗ǫ0,0] = Cǫ|i−k|,|j−l|,ǫ0,0 para todo (i, j) y (k, l) ∈ Z2
donde ⊗ se refiere al producto tensorial de dos funciones en H, que define un operador de Hilbert
- Schmidt en H como sigue: Para dos funciones f, g ∈ H,
f ⊗ g(h) = f, h∗
Hg
donde h∗ ∈ H es el elemento dual de h, definido del Teorema de representaci´on Riesz, y H∗ es el
espacio de Hilbert dual de H.
Se˜nalar que, en la definici´on anterior, el orden 1 de la familia de procesos SARH(1) introducida
hace referencia al hecho de que el valor funcional Y (i, j) interact´ua en el espacio con los valores
Y (i − 1, j), Y (i, j − 1) y Y (i − 1, j − 1), respectivamente correspondiente a un retardo espacial
negativo en la coordenada i, j o en ambas coordenadas espaciales i y j.
44
49. De la definici´on anterior, y en concreto del modelo (46), el siguiente sistema de ecuaciones lineal
es satisfecho por los operadores Li, i = 1, 2, 3
R1,0 = L1R0,0 + L2R1,1 + L3R0,1,
R0,1 = L1R1,1 + L2R0,0 + L3R1,0,
R1,1 = L1R0,1 + L2R1,0 + L3R0,0, (47)
donde
R0,0 = RZi,j ,Zi,j = E[Zi,j ⊗ Zi,j],
R1,0 = RZi+1,j ,Zi,j = E[Zi+1,j ⊗ Zi,j],
R0,1 = RZi,j+1,Zi,j = E[Zi,j+1 ⊗ Zi,j],
R1,1 = RZi+1,j+1,Zi,j = E[Zi+1,j+1 ⊗ Zi,j], (48)
con Zi,j = Yi,j − R, para todo (i, j) ∈ Z2.
Algoritmo de estimaci´on
C´alculo de las versiones emp´ıricas de los operadores que definen los coeficientes del sistema
lineal funcional
Proyecci´on en la base de autofunciones del operador de autoco-varianza de la respuesta
Truncamiento e inversi´on num´erica del sistema lineal finito-dimensional proyectado para ob-
tener Li, i = 1, 2, 3
Bajo condiciones muy generales, la convergencia en probabilidad de la autocovarianza emp´ırica
y los operadores de covarianza cruzada con respecto a los te´oricos se mantiene.
La estructura de dependencia mostrada por el proceso Z se define en t´erminos de los operadores
en (48). Los operadores Li; i = 1, 2, 3 est´an involucrados en la definici´on del operador de correlaci´on
del proceso funcional espacial Z.
La naturaleza c´ıclica de (47) surge de la expresi´on de los valores funcionales Zi+1,j, Zi,j+1 y
Zi+1,j+1 a partir de (46), en t´erminos de la combinaci´on lineal funcional de sus retardos negativos de
orden 1, involucrando los operadores Li; i = 1, 2, 3 de acuerdo a la ecuaci´on (46) y de la invarianza
espacial de los momentos de segundo orden del proceso de innovaci´on funcional ǫ definido en (46).
45
50. Los coeficientes del sistema de ecuaciones lineal (47) son el operador de autocovarianza y el operador
de covarianza cruzada definido en (48), es decir, este sistema se define en t´erminos de coeficientes
infinito - dimensionales. En la pr´actica, el ajuste del modelo se realiza resolviendo el sistema de
ecuaciones lineal funcional (47) en t´erminos de los operadores de auto - covarianza emp´ıricos
R1(i, j) = L1(i, j)R11 + L2(i, j)R12 + . . . + Lq(i, j)R1q,
R2(i, j) = L1(i, j)R21 + L2(i, j)R22 + . . . + Lq(i, j)R2q,
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Rq(i, j) = L1(i, j)Rq1 + L2(i, j)Rq2 + . . . + Lq(i, j)Rqq,
Algoritmo de estimaci´on
C´alculo de las versiones emp´ıricas de los operadores que definen los coeficientes del sistema
lineal funcional
Proyecci´on en la base de autofunciones del operador de autoco-varianza de la respuesta
Truncamiento e inversi´on num´erica del sistema lineal finito-dimensional proyectado para ob-
tener Li, i = 1, . . . , q
46
51. CAP´ITULO 2: AN´ALISIS DE COMPONENTES PRINCIPALES
FUNCIONAL DE MODELOS DE EFECTOS MIXTOS PARA CUR-
VAS DE PERCEPCI´ON.
1. Introducci´on
La complejidad de las percepciones provocadas por un sencillo est´ımulo que se mueve a trav´es
de la piel se ha demostrado a lo largo de los ´ultimos 100 a˜nos. Hall y Donalson (1885) analizaron
por primera vez la complejidad de las percepciones provocadas por un sencillo est´ımulo a trav´es de
la piel. Para minimizar el sesgo de respuesta y otras fuentes de variabilidad intra e inter sujetos en
las medidas de la percepci´on sensorial, los procedimientos psicof´ısicos han ignorado ampliamente
la naturaleza multidimensional y la variabilidad temporal de la percepci´on.
Por ejemplo, procedimientos de elecci´on forzada son normalmente utilizados en estudios de
discriminaci´on de la direcci´on y discriminaci´on de la velocidad. Estos procedimientos requieren que
el individuo asigne la compleja percepci´on a un peque˜no n´umero de categor´ıas, ninguna de las cuales
puede describir con precisi´on la sensaci´on percibida. Por ejemplo, para evaluar la discriminaci´on de
la direcci´on del movimiento el est´ımulo se mueve a trav´es de la zona de prueba en dos direcciones
opuestas, que se definen antes de realizar la prueba. Tras el est´ımulo, el individuo debe seleccionar
una de estas dos opciones, aunque la ruta del est´ımulo percibido podr´ıa ser curvada y su direcci´on
sustancialmente diferente a la del est´ımulo como mucho en 90◦
47
52. Como segundo ejemplo, procedimientos de estimaci´on de la magnitud de la respuesta son utiliza-
dos normalmente para estudios en los que el individuo juzga la longitud, la direcci´on o la velocidad
del movimiento del est´ımulo. Las existencia de variaciones en la percepaci´on de una trayectoria
lineal son muy comunes para un est´ımulo en movimiento, incluso cuando se trata de una l´ınea
recta, y no est´a claro como esto afecta a la respuesta del individuo con respecto a la distancia del
movimiento.
El caso que se va a desarrollar en este cap´ıtulo como caso emp´ırico es una simulaci´on del
experimento desarrollado primero por el profesor Sptizner en 2002 [19] y posteriormente, en el a˜no
2003 [37] por los profesores Essick y Spitzner de la Universidad de Carolina del Norte.
Para el estudio emp´ırico de modelos lineales mixtos funcionales, nos hemos centrado en el
experimento de 2003 [37].
En este experimento original, cada uno de los 32 individuos fue expuesto de forma repetida al
movimiento de un suave, peque˜no y altamente controlado pincel movido en una l´ınea recta sobre
su cara. El sistema de coordenadas fue cuidadosamente calibrado para que los datos de diferentes
individuos puedan ser comparados de forma directa. El pincel se movi´o a una velocidad constante.
Tras la exposici´on ciega al est´ımulo, al individuo se le proporcion´o una imagen a tama˜no real de su
cara sobre la que dibuj´o el camino del est´ımulo que hab´ıa percibido. Un l´apiz digital se utiliz´o para
almacenar las coordenadas (x, y) de su dibujo en un intervalo de tiempo uniformemente espaciado.
Para cada individuo, el experimento se desarroll´o a lo largo de cuatro sesiones realizadas en
d´ıas consecutivos. Cada sesi´on se dividi´o en 2 etapas:
Etapa 1 (Control): Con la cara lavada.
Etapa 2 (Preparado): La piel del individuo fue tratada con 4 preparados (A, B, C, D) que
afectan a la sensibilidad de la piel.
En cada una de las etapas, un peque˜no pincel fue movido por un ordenador siguiendo una
trayectoria recta ascendente de 5 cm a 3 velocidades diferentes a trav´es de la piel de la cara. Tras
el est´ımulo, habiendo estado ciego a ´el, en cada una de las velocidades el individuo dibuj´o sobre
una imagen a tama˜no real de su cara la trayectoria seguida por el pincel 7 veces. El sistema de
coordenadas fue cuidadosamente calibrado as´ı que los datos de diferentes individuos pueden ser
comparados de forma directa.
48
53. La motivaci´on principal para la realizaci´on de este tipo de experimento es que, hasta la fecha,
la realizaci´on de estos estudios se ha limitado en gran medida a los m´etodos convencionales en los
que un individuo clasifica un est´ımulo (el pincel que se mueve a trav´es de la piel) a lo largo de un
continuo (distancia recorrida) o debe clasificar el est´ımulo en una de las dos categor´ıas definidas por
el experimentador (movimiento ascendente frente a movimiento descendente). Este es el caso del
experimento desarrollado por el profesor Spitzner en el a˜no 2002 [19]. Estos m´etodos, proporcionan
estimaciones v´alidas de an´alisis de sensibilidad de los sistemas sensoriales, pero obligaron a los
individuos a la reducci´on de las percepciones complejas en un n´umero limitado de categor´ıas no
describiendo con exactitud la experiencia sensorial. En contraste, las t´ecnicas gr´aficas permiten
a los individuos dibujar algunos aspectos de la experiencia sensorial sin la restricci´on de escalas
num´ericas o categor´ıas definidas por el experimentador.
Aunque existen otros experimentos para el estudio de modelos mixtos aplicado a datos funcio-
nales como es el caso del desarrollado por los profesores Aston, Chiou y Evans para el an´alisis de
tono ling¨u´ıstico utilizando las Componentes Principales Funcionales en el caso de modelos mixtos
[9] o el realizado por los profesores Chiou, M¨uller y Wang para el estudio de las curvas de puestas
de huevos para en el caso de la mosca de la fruta [12].
La simulaci´on es el desarrollo de un modelo l´ogico - matem´atico de un sistema, de tal forma
que se obtiene una imitaci´on de la operaci´on de un proceso de la vida real o de un sistema a trav´es
del tiempo. Sea realizado a mano o en una computadora, la simulaci´on involucra la generaci´on
de una historia artificial de un sistema; la observaci´on de esta historia mediante la manipulaci´on
experimental, nos ayuda a inferir las caracter´ısticas operacionales de tal sistema. En la definici´on
anterior se citan dos pasos b´asicos de una simulaci´on:
1. Desarrollo del modelo que incluye la construcci´on de ecuaciones l´ogicas representativas del
sistema y la preparaci´on de un programa computacional.
2. Experimentaci´on: Una vez que se ha validado el modelo del sistema, hay que experimentar
con el modelo para determinar c´omo responde el sistema a cambios en los niveles de algunas
variables de entrada.
49
54. 2. Generaci´on de las curvas
Ya que el objetivo es realizar una simulaci´on basada en el experimento llevado a cabo por los
profesores Essick y Spitzner [37], para poder obtener una representaci´on lo m´as pr´oxima posible a
los datos que se obtuvieron en el experimento, se han generado las curvas de las respuestas de los
individuos siguiendo el siguiente modelo param´etrico:
X(t) = A sin(Bπt) + F sin(Gπt) + Ht
Y (t) = a + bt,
donde
A ∼ N(0,1 + 0,01 ∗ Nivel; 0,01)
B ∼ N(3 + [0,01; 0,015] ∗ Nivel; [0,01; 0,015])
F ∼ N(0,1 + 0,01 ∗ Nivel; 0,01)
G ∼ N(4 + 0,01 ∗ Nivel; 0,01)
H ∼ N(0,2 + 0,01 ∗ Nivel; 0,01)
a ∼ N(0,03 + [0,01; 0,015] ∗ Nivel; [0,01; 0,015])
b ∼ N(1 + 0,02 ∗ Nivel; 0,02).
Figura 1: Curvas de datos originales
0.05 0.05 0.10 0.15 0.20 0.25 0.30
0.2
0.4
0.6
0.8
1.0
Aunque el estudio de simulaci´on desarrollado en este trabajo se basa en el estudio previo rea-
lizado en [37], las condiciones experimentales han sido parcialmente modificadas. Al igual que en
50
55. [37], se ha considerado 32 individuos, sin embargo, no se han considerado 2 etapas en la experi-
mentaci´on sino que hemos considerado 3 niveles de velocidad o tratamientos de los efectos fijos y 7
repeticiones del dibujo de la curva para cada individuo en cada nivel de velocidad o tratamientos
de los efectos fijos, esto tambi´en se consider´o en el experimento original.
De esta forma consideraremos 7×3×32 = 672, curvas, correspondientes a 3 modelos Gaussianos
de procesos estoc´asticos, los cuales son medidos en 32 individuos de forma repetida 7 veces para
cada individuo.
Es decir, para k = 1, 2, 3, al igual que en el estudio realizado en 2003 [37], cada curva est´a re-
presentada colocando primero las coordenadas x y a continuaci´on las coordenadas y:
zkj = (xk,j, yk,j)′
= (xk,j,1, . . . , xk,j,100, yk,j,1, . . . , yk,j,100)′
.
Utilizando la misma forma de representar los datos seleccionada en el experimento [37], para
cada curva, se han tomado 100 mediciones de cada una de las coordenadas x y de la misma
forma para la coordenada y en el intervalo [0, 1] de forma equiespaciada. Por lo que cada curva
tendr´a dimensi´on 200, como matriz de datos, es decir,
Z200×672 = (z1,1, . . . , z1,7×32, z2,1, . . . , z2,7×32, z3,1, . . . , z3,7×32).
En el estudio de 2003 [37] se proponen 2 metodolog´ıas para trabajar con los datos antes de
realizar el contraste:
1. An´alisis de Componentes Principales.
2. Representaci´on de Fourier.
En el estudio realizado por los profesores Essick y Spitzner en 2003 se utiliz´o la segunda meto-
dolog´ıa, representaci´on de Fourier. La forma en la que se ha tratado este experimento en nuestro
trabajo es usando el An´alisis de Componentes Principales Funcional.
Siguiendo la metodolog´ıa desarrollada por Benko, H¨ardle y Kneip [10] para realizar el An´alisis
de Componentes Principales Funcional para una muestra, en las siguientes secciones se desarrollan
los pasos que se han seguido a partir de los datos simulados.
51
56. 3. C´alculo de los autovectores y autovalores emp´ıricos.
Seg´un la metodolog´ıa de Benko, H¨ardle y Kneip [10], consideraremos una muestra de funciones
X1(t), . . . , Xn(t) ∈ L2[0, 1] con media µ = E[Xi] y una funci´on de covarianza continua σ(t, s) =
E[{Xi(t) − µ(t)}{Xi(s) − µ(s)}].
El desarrollo de Karhunen - Lo`eve proporciona una herramienta b´asica para la descripci´on
´optima de procesos de segundo orden (en el sentido del momento de orden dos), en t´erminos de
variables aleatorias incorreladas y autofunciones ortonormales. En particular, para λ1 ≥ λ2 ≥ . . .
los autovalores y γ1, γ2, . . . la correspondiente base ortonormal completa de autofunciones de Γ,
se obtiene
Xi = µ +
∞
r=1
βriγr i = 1, 2, . . . ,
donde βri = Xi −µ, γr son factores de carga incorrelados con E[βri] = 0. E[β2
ri] = λr y E[βriβki] =
0 para r = k.
Para realizar la descomposici´on en Componentes Principales Funcionales haciendo uso del desa-
rrollo de Karhunen - L´oeve para procesos de segundo orden es necesario eliminar la tendencia de
las curvas antes de calcular las matrices de covarianzas emp´ıricas ya que dicho desarrollo se deriva
sobre procesos o curvas aleatorias con media 0.
Para k = 1, 2, 3, calcular las curvas medias
(Mk)200×1 = (Xk)′
1×100, (Yk)′
1×100
′
200×1
.
As´ı,
Xk(t) =
1
7 × 32
7×32
i=1
Xjk(t), t = 1, . . . , 100; k = 1, 2, 3,
donde (Xk)100×1 tiene entradas Xk(t), t = 1, . . . , 100, (Xjk)100×1 indica la componente X (las
primeras 100 entradas) de la j-´esima curva generada bajo el modelo k (nivel del efecto fijo), y
Xjk(t) indica su valor en el instante t para la componente X de la j-´esima curva generada bajo el
modelo k.
Y k(t) =
1
7 × 32
7×32
i=1
Yjk(t), t = 1, . . . 100; , k = 1, 2, 3,
donde (Yk)100×1 tiene entradas Y k(t), t = 1, . . . , 100, (Yjk)100×1 indica la componente Y (las
100 segundas entradas) de la j-´esima curva generada bajo el modelo k (nivel del efecto fijo), y
52
57. Yjk(t) indica su valor en el instante t para la componente Y de la j-´esima curva generada bajo el
modelo k.
Seguidamente se calcula el operador de covarianza emp´ırico
RZk
=
1
7 × 32
7×32
j=1
Zjk ⊗ Zjk, k = 1, 2, 3,
donde
(Zjk)200×1 = (X′
jk, Y′
jk)′
− Mk, k = 1, 2, 3.
A continuaci´on, habr´a que calcular la descomposici´on espectral en autovalores ({λlk, l ∈ N})
y autovectores ({φlk, l ∈ N}) del operador de covarianza emp´ırico RZk
, for k = 1, 2, 3. De esta
forma obtenemos 200 autovalores emp´ıricos λk,j, j = 1, . . . , 200, para k = 1, 2, 3, y sus autovectores
(autofunciones) asociados φk,j, j = 1, . . . , 200, de dimensi´on 200 × 1. Es decir,
φk,j = (φk,j,1, . . . , φk,j,200)′
, j = 1, . . . , 200, k = 1, 2, 3.
Dada una muestra de tama˜no n, se puede construir un an´alogo emp´ırico usando los autovalores
ˆλ1 ≥ ˆλ2, . . . , ˆλn y las autofunciones ortormales ˆγ1 ≥ ˆγ2, . . . , ˆγn del operador de covarianza emp´ırico
ˆΓn. Por lo que
Xi = ¯X +
∞
r=1
ˆβriˆγr i = 1, 2, . . . , n,
donde ˆβri = Xi − ¯X, ˆγr .
El objetivo principal al realizar esta descomposici´on es eliminar la estructura de correlaci´on
entre cada una de las componentes de cada una de las curvas.
Una vez que se ha calculado la descomposici´on en autovalores y autofunciones y que ´estos han
sido ordenados de mayor a menor, ser´a necesario conocer el n´umero de componentes principales
que habr´a que seleccionar, es lo que se va a llamar Truncamiento (T). Para seleccionar un orden
de truncamiento T adecuado, se escoger´a el correspondiente a un porcentaje P de variabilidad
explicada emp´ırica. Es decir,
P =
λ1k + · · · + λTk
λ1k + · · · + λ200k
, k = 1, 2, 3.
En nuestra simulaci´on, se ha seleccionado P = 95 %. Por lo que el n´umero de componentes
principales seleccionadas ser´a T = 5.
53
58. Cuadro 1: Porcentaje de Variabilidad explicada por cada una de las Componentes Principales bajo
los tres niveles de velocidad considerados
Nivel de Velocidad C.P. 1 C.P. 2 C.P. 3 C.P. 4 C.P. 5 C.P. 6 C.P. 7
Primer nivel 58.7296 % 74.4277 % 87.9715 % 94.7925 % 99.3907 % 99.9822 % 100 %
Segundo nivel 63.559 % 76.8406 % 89.1497 % 94.5256 % 99.2601 % 99.9738 % 100 %
Tercer nivel 62.2447 % 77.1164 % 88.2063 % 94.6504 % 99.2242 % 99.9764 % 100 %
Figura 2: Curvas de las Componentes Principales
Existe una gran cantidad de bibliograf´ıa referente a la aplicaci´on de la metodolog´ıa del An´alisis
de Componentes Principales Funcional. As´ı es el caso de estudio realizado por los profesores Zi-
punnikov, V; Caffoy, B.S.; Yousemz, D.M.; Davatzikos, C.; Schwartzyy, B.S.; Crainiceanu [43] que
aplicaron esta t´ecnica en im´agenes del cerebro de alta dimensi´on.
54
59. 4. Planteamiento del modelo funcional de efectos mixtos en t´ermi-
nos de proyecciones y estimaci´on de los efectos fijos y varianza
asint´otica del estimador de proyecci´on del efecto fijo.
4.1. Descripci´on de la t´ecnica utilizada
Ugarte, Goicoa y Militino [40] emplearon un enfoque Bayesiano emp´ıco y un enfoque Bayesiano
completo para el problema de detectar ´areas de alto riesgo en el cartografiado de enfermedades.
Los estudios para el cartografiado de enfermedades son muy ´utiles para mostrar patrones de una
enfermedad. Tradicionalmente, tasas de riesgo tales como los ratios de mortalidad estandarizados,
han sido com´unmente utilizados para este prop´osito. Sin embargo, estas medidas son altamen-
te variables para peque˜nas ´areas o enfermedades raras por lo que no son seguras. Una soluci´on
a estos problemas viene del uso de modelos de suavizado de las estimaciones del riesgo relativo.
La estimaci´on del riesgo relativo, tradicionalmente implica Modelos Mixtos Lineales Generalizados
(GLMM), que implica la predicci´on de los efectos aleatorios que representan los riesgos relativos.
La estimaci´on por M´axima Verosimilitud para GLMM con recuentos normalmente requiere inte-
graci´on num´erica, y la t´ecnica de cuasi - versosimilitud penalizada (PQL), una aproximaci´on de
Laplace para la cuasi - verosimilitud puede reducir el problema a una serie de regresiones m´ınimo
cuadr´aticas ponderadas. La t´ecnica PQL es sencilla desde el punto de vista computacional y tiene
pocos problemas de convergencia. Existe gran cantidad de bibliograf´ıa referente a esta t´ecnica.
4.2. Modelo de efectos mixtos funcional proyectado
De forma general, un modelo de efectos mixtos est´a formado por 2 partes:
1. Parte determin´ıstica: Formada por los efectos fijos.
2. Parte aleatoria: Es la que determina la correlaci´on temporal. Esta puede ser descompuesta a
su vez en dos subpartes:
a) Efectos aleatorios: Recoge la parte aleatoria m´as importante del modelo.
b) Residuo del truncamiento: Recoge la parte aleatoria menos importante del modelo.
55
60. En nuestro caso, la parte determin´ıstica estar´a formada por cada uno de los niveles de velocidad
o tratamientos de los efectos fijos k = 1, 2, 3 mientras que la parte aleatoria estar´a representado
por cada uno de los 32 individuos que fueron sometidos al experimento.
Antes de poder trabajar con el modelo seleccionado ser´a necesario calcular las proyecciones de
cada una de las curvas de datos en la base de autofunciones calculada. Es decir, para k = 1, 2, 3,
indicando por Φk, la matriz 200 × 200 con columnas dadas por los autovectores de RZk
para
k = 1, 2, 3, y j = 1, . . . , 7 × 32, y por (Zjk) el vector de coordenadas de la j-´esima curva tras
eliminar la tendencia a los datos originales, calcular
(Zjk)′
Φk = (aj,k,1, . . . , aj,k,200).
Cada uno de los elementos aj,k,l con j = 1, . . . , 7 × 32, k = 1, 2, 3, l = 1, . . . , 200 definir´an
los coeficientes de Fourier de la j-´esima curva de datos con respecto a la correspondiente base de
autofunciones emp´ırica ortogonal.
Calcular, para k = 1, 2, 3, y l = 1, . . . , 32,
(Mk)′
Φl = (mk,l,1, . . . mk,l,200),
que ser´an los coeficientes de Fourier de las curvas medias con respecto a la base de autofunciones
ortogonales emp´ırica.
Se obtiene entonces el siguiente modelo de observaci´on proyectado:
Z = (Zjk)
′
Φk + (Mk)
′
Φk = (aj,k,1, . . . , aj,k,T )
′
+ (mk,1, . . . mk,T )
′
Se define el modelo de efectos mixtos adecuado a la simulaci´on realizada y al experimento como:
(Zp)672×T = (aj,k,1, . . . , aj,k,T )
′
+ (mk,1, . . . mk,T )
′
= (DF )672×3(ξp)3×T + (DR)672×96(ζp)96×T + (εp)672×T , (49)
p = 1, . . . , 672, j = 1, . . . , 7 × 32, y k = 1, 2, 3.
As´ı, de los datos (Zp), p = 1, . . . , 672, siguiendo la metodolog´ıa desarrollada por Ugarte, Goicoa
y Militino [40], podemos ajustar el modelo de efectos mixtos (49) por m´axima verosimilitud restrin-
gida, obteniendo los estimadores ξp, σζ,p, y σε,p, respectivamente de los T primeros coeficientes de
Fourier de la curva de efectos fijos, con respecto a la base de autofunciones emp´ırica, de la varianza
de los T coeficientes de Fourier aleatorios incorrelados del efecto aleatorio funcional.
56
61. La estimaci´on de los efectos fijos ξ se obtiene como ˆξ = (D′
FV−1DF)−1D′
FV−1Z con varian-
za asint´otica (DF V−1D′
F )−1 y V = DRΣD′
R + W−1, W = diag{µi}. Los efectos aleatorios se
estiman como ˆζ = ΣD′
RV−1(Zp − DF
ˆξ), ε ∼ N(0; W−1).
Tras la implementaci´on y ejecuci´on del algoritmo considerando las siguientes matrices del dise˜no
para los efectos fijos y aleatorios se obtienen los siguientes resultados:
(DF )672×3 =
1 0 0
... 0 0
1 0 0
0 1 0
...
... 0
0 1 0
0 0 1
...
...
...
0 0 1
(ξp)3×T =
−0,1511 −0,1348 −0,1164 0,0298 4,1087
−0,1557 −0,1339 −0,1182 0,0324 4,1110
−0,1537 −0,1321 −0,1158 0,0297 4,1103
57