Memoria elvira delgado

Trabajo de investigación:
ANÁLISIS ESTADÍSTICO MEDIANTE
MODELOS DE EFECTOS MIXTOS
FUNCIONALES
Máster Oficial en Estadística Aplicada
Departamento de Estadística e Investigación Operativa
Universidad de Granada
Alumna: Elvira Delgado Márquez
Tutora: Dra. Dña. Mª Dolores Ruiz Medina
Curso: 2011 – 2012

Máster Oficial en Estadística Aplicada
Análisis Estadístico mediante
Modelos de Efectos Mixtos Funcionales
Trabajo de Investigación realizado por Elvira Delgado Márquez y
dirigido por la Profesora Dña. Mª Dolores Ruiz Medina
Vº Bº
Dra. Dña. Mª Dolores Ruiz Medina
Departamento de Estadística e Investigación Operativa
Universidad de Granada
Curso 2011 – 2012

Agradecimientos
Deseo comenzar la redacción de esta Memoria manifestando mi más sincero
agradecimiento a todas aquellas personas que me han apoyado en todo momento con su ánimo,
estímulo y continuo apoyo.
En primer lugar, quiero manifestar mi más profundo agradecimiento a la Dra. Dª María
Dolores Ruiz Medina, tutora del presente trabajo, por su imprescindible ayuda plasmada en cada
una de las sesiones de trabajo, y por su infatigable labor de mejora continua.
Al director de la Escuela Técnica Superior de Ingenieros Industriales de la Universidad
de Castilla – La Mancha en Ciudad Real, el Dr. D. Jesús F. López Fidalgo, por poner a mi
disposición todos los recursos necesarios para poder llevar a cabo este proyecto y sobre todo por
creer en mí y en este proyecto.
A mis amigos y amigas del Área de Estadística e Investigación Operativa de la
Universidad de Castilla – La Mancha ya que he contado con su apoyo, tanto moral como
profesional, en todo momento y a mis vecinos de despacho Iván, Carlos y Ángela.
No puedo olvidarme de todos mis amigos y amigas, que por suerte son muchos, porque
siempre han mostrado interés por este proyecto y siempre me han animado a seguir adelante, en
especial, Irene y Antonio Jesús.
Por último, pero no por ello menos importante, a mi familia.

Índice
Introducción General __________________________________________________ 7
Capítulo 1: Bibliografía reciente sobre análisis FANOVA y modelos de efectos
mixtos con correlación temporal
1. Análisis de datos funcionales y Análisis de Componentes Principales
Funcional y Análisis Funcional de la Varianza _________________________ 13
2. Análisis a partir de bases de wavelets: Estimación no paramétrica y Contraste
de significación e interacción _______________________________________ 19
3. Modelos de regresión espacial heterogéneos funcionales _________________ 40
Capítulo 2: Análisis de Componentes Principales Funcional de modelos de efectos
mixtos para curvas de percepción.
1. Introducción ____________________________________________________ 47
2. Generación de curvas _____________________________________________ 50
3. Cálculo de los autovalores y autovectores empíricos _____________________ 52
4. Planteamiento del modelo funcional de efectos mixtos en términos de
proyecciones y estimación de los efectos fijos y varianza asintótica del
estimador de proyección del efecto fijo _______________________________ 55
5. Análisis empírico de la sensibilidad de la metodología propuesta al orden de
truncamiento ____________________________________________________ 66
Capítulo 3: Líneas abiertas
1. Diseños D – óptimos en el contexto de modelos lineales Hilbert – valuados __ 89
2. Diseño experimental D – óptimo en un contexto funcional ________________ 91

Apéndices
1. Introducción a wavelets ___________________________________________ 95
2. Espacios de Besov _______________________________________________ 100
3. Espacios de Sobolev ______________________________________________ 102
Referencias bibliográficas _______________________________________________ 105

INTRODUCCIÓN GENERAL
En el presente trabajo se realiza un análisis estad´ıstico considerando modelos de efectos mixtos
funcionales. Este tipo de modelos aparecen en numerosas disciplinas de la ciencia como la medicina,
la geoestad´ıstica, la meteorolog´ıa, etc, aunque la principal aplicación se puede encontrar en la
medicina. Se han realizado numerosos estudios a partir de información muestral funcional haciendo
uso de modelos de efectos mixtos pudiendo destacar los trabajos desarrollados por Abramovich y
Angelini (2006), Angelini, De Canditiis y Leblanc (2003), Ruiz Medina y Salmerón (2009 y 2010),
Ruiz Medina y Espejo (2012), Ruiz Medina (2011), Ramsay y Silverman (2002, 2005), Ferraty y
Vieu (2006), etc.
En el primer cap´ıtulo se realiza una revisión sobre la bibliograf´ıa más relevante en relación
con los modelos FANOVA, contemplando el caso de modelos mixtos con correlación temporal y/o
espacial. En particular, en la primera sección, se introduce el concepto de dato funcional y se hace
referencia a la bibliograf´ıa base más destacada, mencionando las referencias clásicas de Ramsay
y Silverman ([31] y [32]), Ferraty y Vieu ([24]) y Ramsay, Hooker y Graves ([30]. Debido, princi-
palmente, a 3 caracter´ısticas de los datos funcionales: La dimensión, la correlación y los espacios
de funciones involucrados en los valores de las variables aleatorias Hilbert-valuadas subyacentes,
hacen que los métodos clásicos estad´ısticaos tradicionales no puedan ser aplicados o se queden cor-
tos. Una de las técnicas más utilizadas en el análisis de este tipo de datos ha sido el Análisis de
Componentes Principales. En esta misma sección, en un segundo apartado, se realiza una revisión
del trabajo de Benco, Härdle y Kneip [10] en el que se desarrolla de forma detallada la aplicación
7

de la técnica de Componentes Principales cuando se tiene información muestral funcional, es decir,
cuando la muestra esta constituida por la observaciones de funciones aleatorias independientes e
idénticamente distribuidas. El desarrollo de Karhunen - Lóeve para procesos estocásticos propor-
ciona una herramienta óptima para la descripción de las propiedades de segundo orden de dichos
procesos. En un último apartado de esta primera sección, se justifica la necesidad de adaptar la
técnica del Análisis de la Varianza (ANOVA) para el caso de disponer de datos funcionales dando
lugar al Análisis de la Varianza Funcional (FANOVA).
En la segunda sección primero nos vamos a centrar en la descripción del modelo de efectos fijos
funcionales (con parámetros funcionales en el tiempo) y el ANOVA funcional para contrastes lineales
de significación. Se establecerá la metodolog´ıa aplicada en el cap´ıtulo 2 para el análisis estad´ıstico
del modelo de efectos mixtos funcional considerado en la sección 2.2, como una alternativa a la
metodolog´ıa de desarrollada en la sección 2.3. En este caso partiremos del modelo de efectos fijos
funcional definido por Zoglat [44]
Y (t) = Xβ(t) + σǫ(t) t ∈ [0, 1].
Donde Y ∈ Ln
2 es el vector de datos funcionales o curvas observadas de dimensión n × 1.
Yi, Yj (i = j) son independientes e idénticamente distribuidas. β = (β1, . . . , βp)′ ∈ Lp
2 vector de
funciones cuadrado-integrables (parámetros funcionales del modelo). X = (xij) es una matriz n×p
cuyos elementos son números reales, ǫ = (ǫ1, . . . , ǫn)′ ∈ Ln
2 con ǫi, ǫj (i = j) son independientes
e idénticamente distribuidas con operador de auto-covarianza Rǫ = E[ǫ ⊗ ǫ] = E[ǫi ⊗ ǫi], i, j =
1, . . . , n.
En este caso, se analizará la estimación de β ∈ L2
p a través de los dos métodos de estimación
habituales: El Método de M´ınimos cuadrados y el Método de Máxima verosimilitud.
A continuación nos centraremos en el modelo de efecto mixtos funcional (con parámetros deter-
min´ısticos y aleatorios funcionales en el tiempo, información completa, curvas), donde se estiman
los parámetros del modelo y se contrasta la significación de los efectos fijos funcionales mediante
integración en el tiempo y suma en los tratamientos de los efectos aleatorios. Se proporciona el
contexto general teórico para el desarrollo del ejemplo analizado en el cap´ıtulo 2 sobre curvas de
percepción táctil.
8

En este caso estudiaremos el modelo definido por Abramovich y Angelini [2]
dYi,l(t) = mi(t)dt + Vl(t)dt + εWi,l(t) i = 1, . . . , r ; l = 1, . . . , m ; t ∈ [0, 1].
Donde mi(t) son funciones de efectos fijos. Vl(t) son funciones de efectos aleatorios modeladas
como realizaciones independientes de un proceso estocástico de media cero V (t). Wi,l(t) son reali-
zaciones independientes de un proceso de Wiener clásico. Vl(t) y Wi,l(t) son independientes entre
s´ı.
En el último apartado de esta sección nos centraremos en el enfoque no paramétrico penalizado
para cuando se tiene obsevación parcial de las curvas o datos funcionales, aunque se conoce, por
información previa, la naturaleza funcional de la respuesta, o bien, que se tiene una mejor repre-
sentación en términos de funciones por la naturaleza del fenómeno estudiado o experimento. Se
obtiene as´ı una reconstrucción o estimación de los efectos fijos y aleatorios funcionales, mediante
minimización del error cuadrático medio integrado. Aunque, como en la implementación de la me-
todolog´ıa para el cálculo del estimador no paramétrico se proyecta en una base de wavelets que
genera un espacio del núcleo reproductor (en el modelo de efectos mixtos coincide con el RKHS del
efecto aleatorio), se reduce el problema a la estimación finito - dimensional, en términos de proyec-
ciones, de los efectos fijos y aleatorios funcionales, que ser´ıa como un enfoque pseudoparamétrico.
Se tendrén observaciones correlacionadas en el tiempo y heterogéneas.
Se analizará el problema de regresión no paramétrico clásico con ruido aditivo considerado por
Angelini, De Canditiis y Leblanc [5]:
(ti, Yi) Yi = f(ti) + σεi donde E[εi] = 0 E[ε2
i ] = 1.
Donde las εi son variables aleatorias incorreladas y (ti) es un diseño determin´ıstico (no necesa-
riamente regular). El valor de σ puede ser conocido o no.
El objetivo principal es estimar la función desconocida f en un entorno no paramétrico. Este
problema se ha estudiado bajo dos conjuntos diferentes de presunciones sobre la función f:
1. Modelo de efectos fijos: f es considerado como una función determin´ıstica y la clase F es una
bola en un espacio de Sobolev de regularidad s.
Las observaciones, Y = (Y1, . . . , Yn)′, son independientes.
9

2. Modelo de efectos mixtos: f es de la forma
f(t) = µ(t) +
√
bz(t),
donde µ es una función determin´ıstica y z es un proceso estocástico. Además, de acuerdo a la
estructura de covarianza elegida para el proceso estocástico z, f se encontrará en un espacio
más grande que el espacio de Sobolev considerado en el caso anterior. Las observaciones,
Y = (Y1, . . . , Yn)′, son variables correladas ya que son observaciones perturbadas de puntos
de discretización del proceso f.
En la última sección de este cap´ıtulo, se describe el modelo de efectos mixtos espacial, introduci-
do en Cressie y Johannesson [15], donde se considera el predictor kriging de rango fijo de proyección,
basado en bases ortonormales generales. Es una versión espacial del modelo de la sección 2.3, en el
caso del efecto aleatorio. En cambio, en el efecto fijo, se modeliza mediante una matriz del diseño
con un número finito de columnas infinito - dimensionales, definidas por las localizaciones posibles
de observación o candidatos. (Conjunto finito de covariables observables en infinitas localizaciones
espaciales). Las observaciones se consideran espacialmente correladas, bajo un modelo heterogéneo
de función de covarianza.
En el segundo cap´ıtulo se va a desarrollar un estudio de simulación, inspirado en el expe-
rimento desarrollado en el ao 2003 [37] por los profesores Essick y Spitzner de la Universidad de
Carolina del Norte, para investigar la influencia del nivel de truncamiento y del sistema ortonormal
de funciones sobre las estimaciones de proyección, derivadas mediante implementación de una ver-
sión funcional del enfoque emp´ırico bayesiano desarrollado en por M. Dolores Ugarte et al [40]. En
el experimento referido, cada uno de los 32 individuos fue expuesto de forma repetida al movimiento
de un suave, pequeño y altamente controlado pincel movido en una l´ınea recta sobre su cara. El
sistema de coordenadas fue cuidadosamente calibrado para que los datos de diferentes individuos
puedan ser comparados de forma directa. El pincel se movió a una velocidad constante. Tras la
exposición ciega al est´ımulo, al individuo se le proporcionó una imagen a tamaño real de su cara
sobre la que dibujó el camino del est´ımulo que hab´ıa percibido. Un lápiz digital se utilizó para
almacenar las coordenadas (x, y) de su dibujo en un intervalo de tiempo uniformemente espaciado.
Para poder obtener una representación lo más próxima posible a los datos que se obtuvieron en
el experimento, se han generado las curvas de las respuestas de los individuos siguiendo el siguiente
10

modelo paramétrico:
X(t) = A sin(Bπt) + F sin(Gπt) + Ht
Y (t) = a + bt
donde
A ∼ N(0,1 + 0,01 ∗ Nivel; 0,01)
B ∼ N(3 + [0,01; 0,015] ∗ Nivel; [0,01; 0,015])
F ∼ N(0,1 + 0,01 ∗ Nivel; 0,01)
G ∼ N(4 + 0,01 ∗ Nivel; 0,01)
H ∼ N(0,2 + 0,01 ∗ Nivel; 0,01)
a ∼ N(0,03 + [0,01; 0,015] ∗ Nivel; [0,01; 0,015])
b ∼ N(1 + 0,02 ∗ Nivel; 0,02)
Para realizar la descomposición en Componentes Principales Funcionales para obtener el orden
de truncamiento T para una proporción de variabilidad explicada del 95 % se utilizó la metodolog´ıa
desarrollada en el trabajo de Benco, Härdle y Kneip [10].
Se define el modelo de efectos mixtos adecuado a la simulación realizada y al experimento como:
(Zp)672×T = (aj,3,1, . . . , aj,3,T )
′
+ (m3,1, . . . m3,T )
′
= (DF )672×3(ξp)3×T + (DR)672×96(ζp)96×T + (εp)672×T
p = 1, . . . , 672.
As´ı, de los datos (Zp), p = 1, . . . , 672, siguiendo la metodolog´ıa desarrollada por Ugarte, Goicoa
y Militino [40], podemos ajustar el modelo de efectos mixtos por máxima verosimilitud restringida,
obteniendo los estimadores ξp, σζ,p, y σε,p, respectivamente de los T primeros coeficientes de Fourier
de la curva de efectos fijos, con respecto a la base de autofunciones emp´ırica, de las curvas que
definen los efectos aleatorios para los 32 individuos analizados y de las varianzas asintóticas de los
estimadores de proyección de las curvas de efectos fijos, ambos con respecto a la misma base de
autofunciones emp´ırica truncada.
En el tercer cap´ıtulo se formularán diferentes l´ıneas de investigación en el contexto de los
11

modelos lineales de efectos mixtos Hilbert - valuados. Espec´ıficamente, la investigación que se plan-
tea se centra especialmente en la derivación de modelos funcionales para el análisis experimental
a partir de infinitos candidatos potencialmente observables, as´ı como en el problema del análisis
estad´ıstico de infinito posibles tratamientos, a partir de las técnicas de diseo experimental óptimo,
combinadas con la proyección en bases ortogonales apropiadas. En particular, se abordará la exten-
sión del planteamiento de las técnicas de Diseo D-óptimos al contexto de los modelos de efectos fijos
funcionales, formulados en términos de curvas de efectos fijos cuyas observaciones se encuentran
correlacionadas para diferentes tratamientos.
12

CAPÍTULO 1: BIBLIOGRAFÍA RECIENTE SOBRE ANÁLISIS
FANOVA Y MODELOS DE EFECTOS MIXTOS CON CORRE-
LACIÓN TEMPORAL
1. Análisis de Datos Funcionales y Análisis de Componentes Prin-
cipales Funcional
1.1. Análisis de datos funcionales (ADF)
En los últimos años, los avances en la tecnolog´ıa informática, los modernos equipos de recolec-
ción y almacenamiento datos y los avances en los diferentes campos de la ciencia ha permitido a los
investigadores recoger y disponer de datos de alta resolución digitalizados que representan objetos
complejos como curvas, superficies o cualquier elemento que var´ıa sobre un continuo (tiempo, es-
pacio, longitud de onda, probabilidad, etc.). Ejemplos de este tipo de datos son los datos recogidos
por sismógrafos, datos referentes a explosiones nucleares, datos sobre temperatura precipitaciones,
datos médicos (electroencefalogramas, electrocardiogramas), datos financieros, etc.
El Análisis de Datos Funcional (ADF) es la rama de la estad´ıstica que analiza los datos que
proporcionan información sobre las curvas, superficies o cualquier otra forma que cambia en un
continuo. El ADF, a pesar de ser una disciplina temprana, inició sus pasos en la década de los
60 del siglo XX, es una de las que más ha avanzado en el campo de la estad´ıstica con multitud
13

de publicaciones y estudios. De entre toda la literatura referente a datos funcionales, es necesario
destacar como referencias básicas, los libros de Ramsay y Silverman [30] y [31] y Ferraty y Vieu [24]
tratando muchos de los problemas básicos de la estad´ıstica funcional. El primer libro publicado por
Ramsay y Silverman [31] tiene un carácter más aplicado en el que se estudian soluciones a problemas
sobre conjuntos de datos concretos. Desde el punto de vista computacional hay que destacar el libro
publicado por Ramsay, Hooker y Graves [30] centrándose en los aspectos computacionales en R y
MATLAB.
En internet podemos encontrar gran cantidad de información referente a datos funcionales,
destacando las páginas webs mantenida por Ramsay http://www.functionaldata.org y la del grupo
de Ferrat y Vieu, http://www.lsp.ups-tls.fr/staph.
En el ADF, la unidad básica de información es la función o variable funcional. En general,
cualquier observación que var´ıe en un cont´ınuo se puede considerar como un dato funcional. Por
ejemplo, un conjunto de imágenes de alta resolución es un ejemplo de datos funcionales en un
dominio de dos dimensiones. En la práctica, estos sucesos son recogidos por máquinas que toman
muestras de una determinada variable en distintos puntos del cont´ınuo o de los cont´ınuos que se
consideran. En el contexto multivariante los datos provienen de la observación de la familia aleatoria
{X(tj)}j=1,...,J . En análisis funcional se asume que las muestras son observaciones de una familia
continua χ = {X(t); t ∈ T}. El caso más sencillo es el de una curva unidimensional, T = R pero
también puede ser T = R2 en imágenes, u otras expresiones para casos más complejos.
Del libro de Ferraty y Vieu [24] extraemos la definición de dato funcional:
Definición 1 Una variable aleatoria χ se llama variable funcional si toma valores en un espacio
infinito dimensional (espacio funcional). Una observación χ de χ se llama un dato funcional.
Utilizar datos funcionales conlleva unas particularidades que hacen que los métodos tradicionales
no sirvan o queden cortos. Torrecilla Noguerales [39] definió las tres caracter´ısticas principales que
hacen que la mayor´ıa de los métodos clásicos no sean adecuados al trabajar con datos funcionales:
La dimensión
La dimensión complica de forma considerable la obtención de información ya que no podemos
trabajar con objetos infinitos. El primer problema se encuentra en la propia captura de datos ya
14

que no es posible capturar la curva integra. En este sentido los avances técnicos pal´ıan esta pérdida
de información con rejillas cada vez más finas, si bien muchas veces son necesarias técnicas de
interpolación, suavizado u otras para completar los datos, teniendo siempre presente que pueden
introducir más error.
Una vez capturado el dato, además del procesado propio de cualquier problema (imperfeccio-
nes, outliers, etc.), la alt´ısima dimensionalidad en la práctica, e infinita en la teor´ıa, hacen que
haya que elegir una representación adecuada para trabajar. El problema de la representación es
muy importante en FDA. Una vez representado el dato se mitiga en parte el inconveniente de la
dimensionalidad, aunque al reducirla estamos perdiendo información y saber qué información es la
importante (en este caso para clasificar) es un punto de discusión interesante.
La correlación
Si la dimensión genera problemas en la captura y manipulación de los datos provocando pérdidas
de información, la correlación genera importantes problemas en los algoritmos clásicos a la hora
de extraer la información. En el caso de datos funcionales los distintos puntos de la curva están
alt´ısimamente correlacionados. Esta correlación indica que habrá muchos puntos muy parecidos, con
lo que introducimos redundancia al sistema. Dicha redundancia puede empeorar los resultados de un
algoritmo haciendo que no se consideren otros puntos, sobreajustando, e incluso anularlo provocando
matrices singulares, como ocurre con el discriminante lineal. Por tanto, el ADF necesitará nuevos
métodos o cambios sustanciales en algunos antiguos para poder trabajar con el problema de la alta
correlación.
Trabajar en espacios funcionales
La propia naturaleza de los datos plantea otra dificultad. Dependiendo del espacio en el que
vivan las funciones puede que no tengamos ni siquiera una métrica, pero aún teniéndola no es trivial
definir el concepto de cercan´ıa o de similitud entre dos funciones, incluso puede que dependiendo del
problema nos interese más un criterio u otro. Por todo esto, tienen una gran relevancia en el ADF
la elección de la métrica, o semi-métrica. Además, en esta misma l´ınea, es complicado establecer
cual es el elemento central de un conjunto de funciones, o que observaciones están en el extremo.
15

1.2. Análisis de Componentes Principales Funcional (ACPF)
El principal objetivo del Análisis de Componentes Principales Funcional (ACPF) es el mismo
que el del Análisis en Componentes Principales clásico (ACP):
Dar una representación de los datos mediante el criterio de conservación de la máxima varianza
en una dimensión menor de forma que se pongan de manifiesto caracter´ısticas latentes de los datos
en crudo.
Esta representación puede utilizarse únicamente para la visualización o estudio preliminar de
los datos, pero a menudo es una herramienta para otros procesos posteriores como la clasificación
o la detección de outliers. Por estos motivos, el análisis de componentes principales fue uno de los
primeros métodos adaptados en el ADF, habiendo gran número de trabajos desde la década de los
50 estudiando sus propiedades y extendiendo sus aplicaciones.
Ramsay y Sylverman [31] dedican un cap´ıtulo ´ıntegro al ACPF. Más recientemente, Benco,
Härdle y Kneip [10] hacen un buen resumen de la técnica de Análisis de Componentes Principales
Funcional:
Los datos provienen de observaciones de fenómenos cont´ınuos y se puede asumir para repre-
sentar una muestra de funciones aleatorias independientes e idénticamente distribuidas X1(t), . . . ,
Xn(t) ∈ L2[0, 1]. El desarrollo de Karhunen - Loève proporciona una herramienta básica para des-
cribir la distribución de las funciones aleatorias Xi y puede ser visto como la base teórica del ACPF.
Para v, w ∈ L2[0, 1], as´ı v, w =
1
0 v(t)w(t)dt y as´ı ||.|| = ., . 2 indica la usual norma L2. Con
λ1 ≥ λ2 ≥ . . . y γ1, γ2, . . . señalando los autovalores y las correspondientes autofunciones orto-
normales del operador de covarianza Γ de Xi. Se obtiene Xi = µ + ∞
r=1 βriγr i = 1, . . . , n donde
µ = E(Xi) es la función media y βri = Xi − µ, γr son factores de carga ( factor loadings) con
E(β2
ri) = λr. La estructura y dinámica de las funciones aleatorias se puede evaluar analizando las
componentes principales funcionales γr as´ı como la distribución de los factores de carga ( factor
loadings). Para una muestra funcional dada, las caracter´ısticas desconocidas λr, γr son estimadas
por los autovalores y autofunciones del operador de covarianza emp´ırico ˆΓn de X1, . . . , Xn. Des-
tacar que una autofuncion γr solo si el correspondiente autovector λr tiene multiplicidad 1. Esto,
además, establece una condición necesaria para cualquier inferencia basada en una componente
principal funcional estimada ˆγr en ACPF.
16

En algunas aplicaciones importantes, un pequeño número de componentes principales será su-
ficiente para aproximar las funciones Xi con un alto grado de precisión. De hecho, el ACPF juega
un rol más importante en el ADF que su bien conocido análogo en análisis multivariante. Hay 2
razones principales. Primero, las distribuciones en espacio de funciones son objetos complejos y
el desarrollo de Karhunen - Loève parece ser la única forma factible de acceder a su estructura.
Segundo, en análisis multivariante una interpretación considerable de componentes principales es a
menudo dif´ıcil y tiene que estar basada en argumentos vagos concernientes a la correlación de las
componentes principales con las variables originales. Tal problema no existe en el contexto funcio-
nal, donde γ1(t), γ2(t), . . . son funciones que representan la principal forma de variación de Xi(t)
sobre t.
1.3. Análisis Funcional de la Varianza (FANOVA)
En los últimos años, la mayor´ıa de los progresos han sido realizados en el desarrollo de técnicas
estad´ısticas para trabajar con datos funcionales. Uno de los desaf´ıos estad´ısticos que surge en análisis
de datos funcionales es la comparación entre curvas o conjuntos de curvas. Este tipo problemas
está considerado dentro del marco del Análisis Funcional de la Varianza (FANOVA). Existe una
gran cantidad de publicaciones sobre varios ajustes de modelos FANOVA y estimación de sus
componentes. Sin embargo, se ha prestado mucha menos atención a la inferencia o al contraste de
hipótesis funcional.
Un enfoque algo sencillo para el contraste de modelos FANOVA realizando un conjunto de
contrastes ANOVA univariante clásico para comparar un conjunto de curvas en cada momento
espec´ıfico provoca un serio problema de multiplicidad debido a la alto número de contrastes si-
multáneos. Ignorando el problema de multiplicidad se llega a un error de tipo I global no controlado
mientras, por ejemplo, el conocido procedimiento de Bonferroni se obtiene una potencia muy baja.
Otro enfoque para contraste FANOVA maneja los datos funcionales como vectores multivariantes y
aplica técnicas ANOVA tradicionales combinadas con varios procedimientos de reducción inicial de
dimensionalidad. Sin embargo, la maldición de la dimensionalidad hace estos intentos también pro-
blemáticos. Fan y Li [23] propusieron un potente contraste para el contraste de hipótesis funcional
basado en los procedimientos thresholding adaptativso Neyman y wavelet de Fan [22] aplicados a
coeficientes emp´ıricos de Fourier y wavelet de los datos. Es bien conocido que una gran variedad de
diferentes funciones tienen una amplia representación en el dominio de Fourier y especialmente en
17

dominios wavelet que permiten reducciones significativas de la dimensionalidad de los datos funcio-
nales. Sin embargo, estos trabajos no investigan la optimalidad de los procedimientos propuestos.
Abramovich et al. [1] aplicaron asintóticamente el contraste de hipótesis funcional minimax defi-
nido por Ingster en 1982 para contraste en FANOVA de efectos fijos. En particular, adaptaron el
correspondiente procedimiento de contraste basado en wavelet de Spokoini (1996) para contrastar
una señal cero en un modelo señal + ruido blanco y mostraron su optimalidad asintótica para el
contraste en el modelo FANOVA de efectos fijos para una amplia clase de alternativas.
En varias aplicaciones los datos sobre individuos son a menudo agrupados de acuerdo a algún
factor en el que reside el interés en las diferencias entre grupos antes que entre individuos en
particular. Los individuos son tratados como efectos aleatorios asociados con una muestra dibujada
aleatoriamente de la población. Esto también permite modelar correlaciones entre observaciones
sobre el mismo individuo, esta situación es muy t´ıpica en datos longitudinales y medidas repetidas.
18

2. Análisis a partir de bases de wavelets: Estimación no paramétri-
ca y Contraste de significación e interacción.
2.1. Modelo de Efectos Fijos Funcional
Zoglat [44] parte del modelo de efectos fijos funcional que tiene su origen en la teor´ıa clásica
del Análisis de la Varianza. Las observaciones son funciones del tiempo y la ecuación para una
observación puede escribirse como
Y (t) = x
′
β(t) + σǫ , t ∈ [0, 1]. (1)
Donde:
x = (x1, . . . , xp)′ ∈ Rp son los pesos de la combinación lineal de las funciones βi, i = 1, . . . , p,
que define la media
β = (β1, . . . , βp)′ ∈ Lp
2 vector de funciones cuadrado - integrables (parámetros funcionales del
modelo)
ǫ error funcional.
m la función valor medio.
σ un escalar desconocido positivo.
Suponer que se observan n observaciones independientes de una función aleatoria Y de (1). En
notación vectorial, el modelo ser´ıa:
Y (t) = Xβ(t) + σǫ(t) t ∈ [0, 1]. (2)
Donde
Y ∈ Ln
2 es el vector de datos funcionales o curvas observadas de dimensión n × 1.
Yi, Yj (i = j) son independientes e idénticamente distribuidas.
β = (β1, . . . , βp)′ ∈ Lp
modelo).
X = (xij) es una matriz n × p cuyos elementos son números reales.
19

β = (β1, . . . , βp)′ ∈ Lp
modelo)
ǫ = (ǫ1, . . . , ǫn)′ ∈ Ln
2 donde ǫi, ǫj (i = j) son independientes e idénticamente distribuidas con
operador de auto-covarianza Rǫ = E[ǫ ⊗ ǫ] = E[ǫi ⊗ ǫi], i, j = 1, . . . , n.
De Zoglat [44] se extrae el siguiente teorema:
Teorema 1 Sea X una variable aleatoria Gaussiana con media cero cuyos valores están L2(S, µ),
existe una secuencia (Xk) de variables aleatorias normales independientes e idénticamente distri-
buidas tales que
Xk =
1
√
λk
X, ϕk y X =
k≥1
λkXkϕk
siendo κ el operador de covarianza de ǫ y {(λk, ϕk), k ≥ 1} la secuencia de pares de autovalores -
autofunciones del operador de covarianza Tκ.
Entonces, la secuencia (ϕk)k≥1 nos permite reducir el modelo (1) a un sistema de modelos
clásicos. En particular, si ǫ es Gaussiano, esta reducción preserva la independencia a través de las
proyecciones de las realizaciones. Además, nos permite identificar las reglas de algunos estad´ısti-
cos.[44]
Por simplicidad en la notación, T será denotado como Tκ y HT denotará el cierre en L2 del
subespacio generado por (ϕk)k≥1:
HT = {f ∈ L2 ; f =
k≥1
f, ϕk ϕk}
En otras palabras, HT es el espacio de Hilbert con núcleo reproductor asociado con κ. En el
caso de un error Gaussiano, se supondrá, sin pérdida de generalidad, que la función valor media
m pertenece a HT . De hecho, cada observación, Y es la suma de sus proyecciones en HT , YHT
y
Y(HT )⊥ = Y − YHT
. El error estará con seguridad en HT . Además, m(HT )⊥ = Y(HT )⊥ , as´ı, sólo
será necesario hacer inferencias sobre m(HT )⊥
2.2. Estimación
Siguiendo la metodolog´ıa de Zoglat [44], nos centraremos en los dos métodos utilizados de forma
más habitual en la teor´ıa de estimación:
20

1. El Método de M´ınimos cuadrados.
2. El Método de Máxima verosimilitud.
El objetivo será obtener un estimador de la función vectorial β ∈ Lp
2, que, en particular, coincida,
para cada t ∈ [0, 1], con el estimador clásico de (β1(t), . . . , βp(t)), as´ı como la obtención de contrastes
lineales sobre los parámetros del modelo H0 : Kβ = C
Estimación puntual:



M´ınimos cuadrados
Máxima verosimilitud
2.2.1. Método de m´ınimos cuadrados
El método de m´ınimos cuadrados se basa en minimizar la norma cuadrada del error. En el
espacio Eucl´ıdeo, esto se puede conseguir calculando derivadas e igualando a cero. En el caso
infinito dimensional no hay equivalencia para este procedimiento. Sin embargo, en un espacio de
Hilbert es posible aplicar el procedimiento de m´ınimos cuadrados.
El método de m´ınimos cuadrados consiste en encontrar ˆβ que minimice el error cuadrático
funcional en la geometr´ıa de Rǫ
e(β) = (Y1 − (Xβ)1, . . . , Y1 − (Xβ)n)′
.
Donde se puede observar que σ no depende de β.
Si suponemos que σ = 1, lo que hay que minimizar es
n
i=1
ei(β) 2
Rǫ
=
n
i=1 k≥1
λ2
k(Y(k) − Xβ(k))′
(Y(k) − Xβ(k)) =
k≥1
e(k)(β(k)) 2
n.
En caso contrario, σ = 1, bastar´ıa con dividir e(β) por σ.
Se puede demostrar que ei(β) 2
Rǫ
se puede minimizar si y sólo si, para cada k ≥ 1, la norma
Eucl´ıdea de e(k)(β) es m´ınimo. Para cada k ≥ 1 fijo, la norma de e(k)(β), visto como función de
β(k) se minimiza como
β(k) = (X′
X)−1
X′
Y(k).
De forma más general, Zoglat [44] define el siguiente teorema:
21

Teorema 2 El estimador de β que minimiza ||Y − Xb||Rǫ cuando b es visto como función, se
define como
β = (X′
X)−1
X′
Y
2.2.2. Método de máxima verosimilitud
El método de máxima verosimilitud es más restrictivo que el método de m´ınimos cuadrados.
Requiere una densidad de distribución con respecto a una medida. La medida de Lebesgue es la más
frecuentemente usada en el modelo lineal clásico, y es eficiente bajo la suposición de normalidad.
En el caso funcional no hay equivalencia para la medida de Lebebesgue e incluso, bajo la suposición
de normalidad, puede no existir una densidad de distribución.
Suponer que ǫ del modelo (2), es Gaussiano, y denotar la matriz (Xβ) de orden n × 1 por
m = (m1, . . . , mn)
′
. Sean L(Y1) = ν y L(σǫ1) = µ las distribuciones de probabilidad de Y1 y σǫ1
respectivamente. Estas son 2 medidas de probabilidad Gaussianas sobre (L2, BL2 ).
Por lo que, según Zoglat [44], la función de verosimilitud quedar´ıa definida como
l(m, y) = exp

−
1
2


j≥1
n
i=1
[m∗
i(j)]2
+
j≥1
n
i=1
m∗
i(j)y∗
i(j)




=
j≥1
exp −
σ2λj
2
m′
(j)m(j) − 2m(j)y(j)
=
j≥1
exp −
σ2λj
2
β′
(j)X′
Xβ(j) − 2β′
(j)X′
y(j) .
Resaltar que para cada j ≥ 1,
β′
(j)X′
Xβ(j) − 2β′
(j)X′
y(j) = (y(j) − Xβ(j))′
(y(j) − Xβ(j)) − y′
(j)y(j).
De lo que se obtiene el siguiente teorema, extra´ıdo de Zoglat [44], como resultado.
Teorema 3 Vistos como una función de β, l(m, y), se maximiza para
β = (X′
X)−1
X′
Y.
Es importante señalar que los dos métodos de estimación expuestos, al igual que en el caso finito
dimensional conducen al mismo estimador de β. Sin embargo, mientras que el método de m´ınimos
cuadrados siempre es aplicable, no ocurre lo mismo con el método de máxima versimilitud [44]:
22

1. Al igual que en el caso finito dimensional, el método de m´ınimos cuadrados no requiere
normalidad. Además, no requiere que se tenga ningún tipo de conocimiento sobre la estructura
de covarianza.
2. A diferencia del caso finito dimensional, en el caso de espacios inifitos dimensionales no existe
un equivalente al la medida de Lebesgue en Rn. Sin embargo, si el error es Gaussiano esta
dificultad puede evitarse dejando que la derivada de Radon - Nikodym juegue el rol de función
de verosimilitud. Si el error no es Gaussiano, no es fácil evitar esta dificultad.
2.3. Descomposición de la variabilidad
Se define la suma de cuadrados del error residual como
SSE = Y − Y, Y − Y Rǫ = Y , MY Rǫ .
Donde
ˆY = X ˆβ.
Y , MY Rǫ puede definirse como
Y , MY Rǫ =
n
i=1
n
j=1 k≥1
λk Yi, ϕk mij Yj, ϕ
=
k≥1
n
i=1
n
j=1
λk Yi, ϕk mij Yj, ϕ
=
k≥1
λkY ′
(k)MY (k).
Se define la suma de cuadrados total se puede definir como
SST = Y, Y Rǫ
y la que la suma de cuadrados de la regresión como
SSR = SST − SSE = Y, BY Rǫ ,
donde B = X(X′X)−1X′ es B es simétrica, idempotente y ortogonal a M.
23

Teorema 4 Suponiendo que el error ǫ es Gaussiano, se tiene que
1. Existe una secuencia ηk, k ≥ 1 de variables aleatorias independientes con distribución χ2(r(M))
tal que σ2
k≥1 λ2
kηk converge casi seguramente a SSE
2. Existe una secuencia de variables aleatorias ξk ∼ χ2,′ r(B), (2σ2λk)−1µ′
(k)Bµ(k) , k ≥ 1
tales que σ2
k≥1 λ2
kξk converge casi seguramente a SSR
3. SSE y SSR son independientes
4. El estad´ıstico
SSE
r(M) k λ2
k
es un estimador insesgado y consistente de σ2
2.4. Contraste de Hipótesis lineal
Considerar la contraste de hipótesis general
H0 : Kβ = C
H1 : Kβ = C
Donde K es una matriz m × p y C es un vector m × 1 de funciones dadas. Suponer que K es
de rango completo, es decir rank(K) = m. Para contrastes de este tipo de hipótesis se necesita
calcular un estimador de β bajo H0. Se observa que el método de m´ınimos cuadrados restringido
proporciona el estimador ˜β.
El método de m´ınimos cuadrados restringido se obtiene minimizando ||e(β)||2
Rǫ
bajo la condición
Kβ = C que equivale a
Kβ(k) − C(k) = 0 ∀k ≥ 1. (3)
Para minimizar ||e(β)||2
Rǫ
sujeto a (3) es suficiente minimizar para cada k ≥ 1:
(Y(k) − Xβ(k))′
(Y(k) − Xβ(k))
sujeto a la condición K(k)β = C(k) = 0.
Haciendo uso de los multiplicadores de Lagrange,
˜β = ˆβ − (X′
X)−1
)K′
[K(X′
X)−1
)K′
]−1
(Kˆβ − C). (4)
24

Señalar que rank(K) = m ≤ p = rank(X′X)−1 y rank(K(X′X)−1K′) = m.
De (4) y haciendo los mismos cálculos que en el análisis de la varianza clásico, se obtiene
X(β − β) = D(Y − C∗
)
donde
D = X(X′
X)−1
K′
[K(X′
X)−1
K′
]−1
K(X′
X)−1
X′
C∗
= XK′
(KK′
)−1
C.
Por lo que se definir´ıa el estad´ıstico Q = X(β − β) 2
Rǫ
del que se establecen las siguientes
propiedades [44]:
Teorema 5 Suponiendo que el error ǫ es Gaussiano, se tiene que
1. Existe una secuencia de variables aleatorias ξk ∼ χ2′(r(D), δk)
2. δk = (2σ2λk)−1(E(Y(k)) − C∗
(k))′D(E(Y(k)) − C∗
(k))
3. La serie σ2
k≥1 λ2
kξk converge casi seguramente al estad´ıstico Q
4. Las variables aleatorias SSE y Q son independientes
Teorema 6 Para el contraste de H0 : Kβ = C frente H1 : Kβ = C a nivel α existe un test ψ que
viene dado por
ψ =



1 si SH0 (Y) > C(H0, α)
0 en otro caso
1. SH0 (Y) =



SSRH0 − SSR si σ es conocido
(SSRH0 − SSR)/SSE en otro caso
2. P {SH0 (Y) > C(H0, α), Kβ = C} = α
25

2.5. Contraste de significación e interacción en modelos FANOVA de efectos
mixtos
2.5.1. Modelo FANOVA de efectos mixtos.
En esta sección consideraremos el modelo FANOVA de efectos mixtos definido por Abramovich
y Angelini [2] y desarrollaremos la metodolog´ıa utilizada.
El modelo que se considerará es:
dYi,l(t) = mi(t)dt + Vl(t)dt + εWi,l(t) i = 1, . . . , r ; l = 1, . . . , m ; t ∈ [0, 1]. (5)
Donde
mi(t) son funciones de efectos fijos.
Vl(t) son funciones de efectos aleatorios modeladas como realizaciones independientes de un
proceso estocástico de media cero V (t).
Wi,l(t) son realizaciones independientes de un proceso de Wiener clásico.
Vl(t) y Wi,l(t) son independientes entre s´ı.
Siguiendo el desarrollo descrito en Antonianis [7] y [8], cada mi(t), i = 1, . . . , r en (5) admite la
siguiente descomposición única:
mi(t) = m0 + µ(t) + ai + γi(t) i = 1, . . . , r ; t ∈ [0, 1], (6)
donde m0 es una constante (la media global), µ(t) es cero o una función de t no constante (el
principal efecto fijo de t), ai es cero o una función de i no constante (el principal efecto mixto de
i) y γi(t) es cero o una función que no puede descomponerse como una suma de una función de i
y una función de t. Las componentes de la función (6) satisfacen las siguientes condiciones:
1
0
µ(t)dt = 0 ;
r
i=1
ai = 0
r
i=1
γi(t) = 0 ;
1
0
γi(t)dt = 0 (7)
∀i = 1, . . . , r ; t ∈ [0, 1]
Definimos el Modelo de efectos mixtos funcional:
Xi,l(t) =
dYi,l(t)
dt
= mi(t) + Vl(t) + ǫ(t), i = 1, . . . r, l = 1, . . . , m.
26

2.5.2. Contraste de Hipótesis a partir del modelo de efectos mixtos
El contraste de hipótesis de los efectos principales y las interacciones es equivalente a contrastar
las siguientes hipótesis:
H0 : µ(t) = 0 , t ∈ [0, 1] (sin tendencia global). (8)
H0 : ai = 0 , ∀i = 1, . . . , r (sin diferencias en nivel). (9)
H0 : γi = 0 , ∀i = 1, . . . , r (sin diferencias en forma). (10)
Integrando el modelo (5) con respecto a t y usando las condiciones (7) se obtiene
Y ∗
i,l = m0 + ai + ˜Vl + εξi,l , i = 1, . . . , r , l = 1, . . . , m ,
r
i=1
ai = 0,
donde
Y ∗
i,l =
1
0 dYi,l(t)
˜Vl =
1
0 Vl(t)dt
ξi,l son variables aleatorias independientes N(0, 1)
Este es el modelo ANOVA de efectos mixtos clásico y contrastando (9) se puede resolver por
varias técnicas.
Si consideramos ahora contrastar las hipótesis funcionales (8) y (10). Promediando (5)-(6) con
respecto a i y l y explotando las condiciones (7) se llega al siguiente modelos FANOVA de efectos
aleatorios
d ¯Y (t) = (m0 + µ(t))dt + ¯V (t)dt + εd ¯W(t), (11)
donde ¯V (t) es el proceso medio de V1(t), . . . , Vm(t) y ¯W(t) es la media de r ×m procesos de Wiener
independientes clásicos.
Si definimos ¯Yi.(t) =
1
m
m
l=1 Yi,l(t) y ¯Wi.(t) =
1
m
m
l=1 Wi,l(t), (11) se podr´ıa expresar como
d( ¯Yi.(t) − ¯Y (t)) = (ai + γi(t))dt + εd( ¯Wi˙.(t) − ¯W(t)). (12)
Esta última ecuación no involucra componentes de efectos aleatorios y para contrastar (10) se
puede hacer uso del procedimiento desarrollado por Abramovich et al. en 2004 [1] para los modelos
FANOVA de efectos fijos.
27

El conjunto alternativo
Reescribiendo el modelo FANOVA de efectos aleatorios (11) en la forma equivalente
d ¯Y (t) = (m0 + µ(t))dt + ¯V (t)dt + ηd ¯W(t), (13)
donde η =
ε
√
rm
y ¯W(t) es un proceso de Wiener clásico.
Se quiere comprobar la hipótesis nula (8) contra una clase de alternativas tan grande como
posible y sin especificar ninguna estructura parámetrica para el conjunto alternativo. En su lugar,
sólo se asume que µ(.) posee alguna propiedad de suavizado. En particular, se supone que µ(.)
pertenece a alguna bola Besov Bs
p,q(M) de radio M > 0 en el intervalo unidad, donde 1 ≤ p,
q ≤ ∞, sp > 1, estrictamente hablando, el parámetro s indica el número de derivadas de la función,
donde su existencia se requiere en un sentido Lp mientras que el parámetro adicional q proporcional
una graduación más final.
Por otro lado, para ser capaz de distinguir entre las dos hipótesis, µ(.) deber estar alejado del cero
en la norma L2, ||µ||2 ≥ ρ(η). Esto es una forma t´ıpica de restricciones en un conjunto alternativo en
el contraste no paramétrico. La restricción de suavizado limita el conjunto de alternativas mientras
que las restricciones de la norma L2 lo elimina demasiado próximo a cero.
As´ı, dados los datos en (12), el contraste de hipótesis que se quiere realizar es
H0 : µ(t) = 0
H1 : µ ∈ F(ρ(η)) (14)
donde F(ρ(η)) = {µ : µ ∈ Bs
p,q(M), µ(t) = 0 , ||µ||2 ≥ ρ(η)}
2.5.3. El modelo para los efectos aleatorios
Para completar (13) es necesario especificar la distribución del proceso estocástico ¯V (t) que
está definido de forma completa por la distribución de V (t) en el modelo de efectos mixtos original
(5). En lugar de definir la distribución de V (t) directamente, se establece la distribución sobre los
coeficientes de su desarrollo wavelet.
Por simplicidad, Abramovich y Angenine [2] consideraron bases wavelet periódicas ortonormales
en L2[0, 1], aunque en la práctica se comporten mal en las fronteras en el caso de funciones no
28

paramétricas. Se elige una wavelet madre ψ de regularidad v > s y haciendo la transformada
wavelet periódica sobre (13):
¯Yjk = µjk + ¯Vjk + ηξjk j ≥ −1 k = 0, . . . , 2j
− 1, (15)
donde
¯Yjk =
1
0 ψjk(t)d ¯Y (t)
µjk =
1
0 mu(t)ψjk(t)dt
¯Vjk =
1
0
¯V (t)ψjk(t)dt
ξjk son variables normales independientes N(0, 1)
Para simplificar la notación, denotamos las funciones de escala φ(t) y ψ−10(t).
Por otro lado, el proceso, ¯V (t) es una media de m realizaciones independientes de V (t) y en el
dominio wavelet ¯Vjk =
1
m
m
l=1 Vjk,l donde Vjk,l =
1
0 Vl(t)ψjk(t)dt, l = 1, . . . , m
Es natural suponer que a diferencia del ruido blanco completamente irregular, las realizaciones
de V (t) poseen algunas propiedades de suavizado, por ejemplo que caigan con toda seguridad dentro
de una bola de Besov. Varias funciones procedentes de espacios de Besov tiene una amplia repre-
sentación en series wavelet y para capturar esta caracter´ıstica de las funciones wavelets, suponer la
siguiente distribución sobre Vjk,l:
Vjk,l ∼ πjN(0, τ2
j ) + (1 − πj)δ(0) j ≥ 0 k = 0, . . . , 2j
− 1 (16)
son independientes, donde 0 ≤ πj ≤ 1, δ(0) es una masa puntual en 0. Para completar el modelo
hacer uso de distribuciones imprecisas para los coeficientes de escala V−10,l, l = 1, . . . , m. Además,
suponer que Vjk,l y ξjk son independientes.
De acuerdo con (16), cada Vjk,l es 0 con probabilidad 1−πj o con probabilidad πj está distribuido
de forma normal con media 0 y varianza τ2
j . La probabilidad πj es una medida de la proporción de
coeficientes wavelet no nulos en el nivel de resolución j mientras que la varianza τj es una medida
de sus magnitudes. Los parámetros πj y τ2
j son los mismos para todos los coeficientes en un nivel
de resolución j.
As´ı κ2
j =
rτ2
j
ε2
=
τ2
j
mη2
y también supone que lim supjk2
j ≥ C < ∞ para asegurar que las
varianzas de ambas componentes aleatorias en (13) son del mismo orden.
29

De Abramovich y Angenine [2] extraemos la siguiente proposicoón:
Proposición 1 Si los coeficientes del desarrollo wavelet de Vl(t), l = 1, . . . , m tienen distribución
(16). Entonces, Vl(t), l = 1, . . . , m son realizaciones de un proceso estocástico de media cero no
estacionario (no Gaussiano) V (t) con función de covarianza
R(s, t) =
j≥0
πjτ2
j
2j −1
k=0
ψjk(s)ψjk(t).
Se puede demostrar que la serie wavelet ψjk(t) son las autofunciones de la función de covarianza
R(s, t) con sus correspondientes autovalores
√
πj τj. En particular, si τ2
j y πj decrecen de forma
exponencial, esto es τ2
j = c12−aj y πj = min(1, c22−bj), j ≥ 0 donde a, b ≥ 0 y c1, c2 > 0, el número
esperado de coeficientes wavelet distintos de 0 sobre el j-ésimo nivel es c22j(b−1).
2.5.4. Principales resultados
Un contraste φ es una función medible de los datos con los dos valores 0 y 1 que corresponden a
aceptar y rechazar la hipótesis nula respectivamente. Como es usual, la calidad del test φ es medible
por el error de Tipo I (Rechazar H0 cuando es cierta) y por el error de Tipo II (Aceptar H0 cuando
es falsa). La probabilidad del error de Tipo I se define como α(φ) = Pµ=0(φ = 1). Mientras que la
probabilidad del error de Tipo II para H1 no paramétrica se define como
β(φ, ρ(η)) = supµ∈F(ρ(η))Pµ(φ = 0)
Para las probabilidades de error definidas de ambos tipos, la tasa de decaimiento de ρ(η) cuando
η → 0 es una medida estándar de la bondad asintótica del contraste.
De Abramovich y Angenine [2] extraemos la definición de tasa minimax:
Definición 2 Una secuencia ρ(η) se llama tasa minimax de contraste si ρ(η) → 0 cuando η → 0
y se cumplen las dos siguientes condiciones:
1. Para cualquier ρ′(η) = on(ρ(η)), tiene
infφn [α(φn + β(ρ
′
(φn, η))] = 1 − on(1)
donde on(1) es una secuencia que tiende a cero cuando η → 0
30

2. Para cualquier α > 0 y β > 0 existe una constante c > 0 y un test φ∗
η tal que
α(φ∗
η) ≤ α + on(1).
β(φ∗
η, cρ(η)) ≤ β + on(1).
La primera condición establece que contrastar con una tasa más rápida que ρ(η) es imposible
mientras que la segunda condición garantiza que para la tasa ρ(η) existe un contraste ρ(η)∗
Contraste minimax
De Abramovich y Angenine [2] extraemos el siguiente teorema:
Teorema 7 Denotemos por ψ(t) la wavelet madre, cuya regularidad es v > s, y cuyo parámetro
θ = (s, p, q, M) caracterizando la bola de espacio de Besov Bs
p,q(M) es conocido, donde 1 ≤ p,
q ≤ ∞, sp > 1 y s > 1/4 para p ≥ 2. Considerar el contraste de hipótesis
H0 : µ = 0
H1 : µ ∈ F(ρ(η)) = µ ∈ Bs
p,q(M) , µ(t)dt = 0 , ||µ||2 ≥ ρ(η)
en el modelo de efectos mixtos (21) y (24). Entonces, dado un nivel de significación fijo α ∈
(0, 1), cuando η → 0, la tasa ρ(η) del contraste
φ∗
= 1


T(Jθ) + Q(Jθ)
v2
0(Jθ) + ω2
0(Jθ)
>z1−α



,
es ρ(η) = η4s′′/(4s′′+1)
donde
T(Jθ) =
Jθ−1
j=0
Sj,
Sj =
2j −1
k=0
( ¯Y 2
jk − η2
(1 + πjκ2
j )),
T(Qθ) =
Jη−1
j=Jθ
Sj(λi),
Sj(λj) =
2j −1
k=0
( ¯Y 2
jk1{| ¯Yjk| > ηλ} − η2
bj(λ)),
bj(λ) = E[ζ2
j 1{|ζj| > λ}].
31

Contraste adaptativo
De Abramovich y Angenine [2] extraemos el siguiente teorema:
Teorema 8 Cuando η → 0, la tasa ρ(η) del test
φa
= 1
maxjmin≤Jθ≤jmax



T(Jθ) + Q(Jθ)
v2
0(Jθ) + ω2
0(Jθ)



>
√
2lnlnη−2


para el contraste (14) es
ρ(η) = η4s′′/(4s′′+1)
(lnlnη−2
)s′/(4s′′+1)
.
Además, existe una constante c tal que α(ψa) = oη(1) y supT β(ψa, cρn) = oη(1)
2.6. Estimación no paramétrica
Se considera el problema de regresión no paramétrico clásico con ruido aditivo considerado por
Angelini, De Canditiis y Leblanc [5]:
(ti, Yi) Yi = f(ti) + σεi donde E[εi] = 0 E[ε2
i ] = 1. (17)
Donde las εi son variables aleatorias incorreladas y (ti) es un diseño determin´ıstico (no necesaria-
mente regular). El valor de σ puede ser conocido o no.
El objetivo principal es estimar la función desconocida f en un entorno no paramétrico. Por lo
que f se supondrá que pertenece a alguna clase de suavidad F. El problema (17) se ha estudiado
bajo dos conjuntos diferentes de presunciones sobre la función f:
1. Modelo de efectos fijos: f es considerado como una función determin´ıstica y la clase F es una
bola en un espacio de Sobolev de regularidad s. Las observaciones, Y = (Y1, . . . , Yn)′, son
independientes.
2. Modelo de efectos mixtos: f es de la forma
f(t) = µ(t) +
√
bz(t), (18)
donde µ es una función determin´ıstica y z es un proceso estocástico. Además, de acuerdo a la
estructura de covarianza elegida para el proceso estocástico z, f se encontrará en un espacio
más grande que el espacio de Sobolev considerado en el caso anterior. Las observaciones,
32

Y = (Y1, . . . , Yn)′, son variables correladas ya que son observaciones perturbadas de puntos
de discretización del proceso f.
Algunos métodos basados en kernel, proyecciones ortogonales, polinomios locales, wavelet o
estimadores spline se pueden encontrar en [3, 7, 8, 20, 22, 28, 41]. Todos estos estimadores dependen
de un parámetro de suavizado desconocido.
Asumiendo que f es determin´ıstica, Angelini, De Canditiis y Leblanc [5] proponen un estimador
lineal de f como solución de un problema de minimización definido en el dominio wavelet. se
demuestra que este estimador es el mejor predictor lineal insesgado para una función de regresión
de efectos mixtos f dada en (18). Debido a que el coste computacional para el cálculo de este
estimador es muy alto (O(n2)) y que realmente no se aprovecha de la transformada discreta wavelet
rápida, se propone un segundo estimador que es más fácil y rápido de implementar. Este nuevo
estimador será una fina aproximación del primero.
Cuando F es el espacio de Sobolev clásisco Hs
2[0, 1], donde s es un entero estrictamente positivo,
puede definirse como un espacio de Hilbert con núcleo reproductor.
En el trabajo de Angelini, De Canditiis y Leblanc [5] se ha imitado la aproximación spline para
generalizar el problema de estimación sobre un espacio de Sobolev con ´ındices no enteros. Cuando s
es un número real mayor que 1/2 se establece que Hs
2[0, 1] es aún un espacio de Hilbert con núcleo
reproductor H = H0 ⊕ H1 con un núcleo reproductor construido con bases wavelet. A continuación
se estima f con la solución ˆfλ del problema de minimización:
m´ın
f∈H
1
n
n
i=1
(Yi − f(ti))2
+ λ||P1f||2
H, (19)
donde P1 es el proyector ortogonal sobre el subespacio H1
Para el problema de optimización, cuando λ = 0, la solución interpolará los puntos (ti, Yi)
por una función de Hs con una gran norma en el espacio de Sobolev. Mientras que si se toma
λ = ∞ se llega a una solución con una pequeña norma en Hs pero aproximando muy mal la
función desconocida f. De esta forma, el término λ||P1f||2
H que penaliza los detalles en el desarrollo
wavelet permite establecer un compromiso entre buena aproximación y suavizado del estimador no
paramétrico resultante.
La solución de (19) está dada por el siguiente teorema obtenido de Angelini, De Canditiis y
Leblanc [5]:
33

Teorema 9 Sea Φ la matriz n × 2J definida por Φi,j = ϕJ,k(ti) para cualquier i = 1, . . . , n y
k = 0, . . . , 2J −1 y Φt la matriz fila 1×2J definida por Φ1,k = ϕJ,k(t) para cualquier k = 0, . . . , 2J −1
y cualquier t ∈ [0, 1]. Además, Σ será la matriz n × n definida por Σi,j = K1(ti, tj) para cualquier
i = 1, . . . , n y j = 1, . . . , n y Σt la matriz 1 × n definida por Σt,j = K1(t, tj) para cualquier
j = 1, . . . , n y cualquier t ∈ [0, 1].
El minimizador del problema (19) viene dado por:
ˆfλ(t) =
2J −1
k=0
ˆαJ,kϕJ,k(t) +
n
i=1
ˆdiK1
ti
(t)
= Φtˆα + Σt
ˆd,
donde
ˆα = (ˆαJ,0, . . . , ˆαJ,2J −1)′
= (Φ′ ˜Σ−1
Φ)−1
Φ′ ˜Σ−1
Y ,
ˆd = ( ˆd1, . . . , ˆdn)′
= ˜Σ−1
(In − Σ(Φ′ ˜Σ−1
Φ)−1
)Φ′ ˜Σ−1
)Y ,
˜Σ = Σ + nλIn Y = (Y1, . . . , Yn)′
.
Cabe destacar que ˆfλ(t) se puede escribir en términos de un desarrollo wavelet:
ˆfλ(t) =
2J −1
k=0
ˆαJ,kϕJ,k(t) +
j≥J
2j −1
k=0
βj,kψj,k(t)
βj,k =
n
i=1
λj
ˆdiψj,k(ti)
2.6.1. Wavelets y espacios de Besov
Angelini, De Canditiis y Leblanc [5] utilizan wavelets con soporte compacto tales como wavelets
ortogonales de Daubechies.
Para la construcción de bases wavelets ortonormales de soporte compacto para L2(R), se empieza
con una pareja especial de soporte compacto conocidas como la función de escala, ϕ y la wavelet
ψ. El conjunto de funciones ψj,k(x) = 2j/2ψ(2jx − k), j, k ∈ Z, constituye una base ortonormal
para L2(R). Para j ∈ Z fijo, ϕj,k(x) = 2j/2ϕ(2jx − k), k ∈ Z son una base ortonormal para
un subespacio Vj ⊂ L2(R). Los espacios Vj construyen un análisis multiresolución. Denotamos
Pif = k∈Z f, ϕj,k ϕj,k la proyección ortogonal de f sobre el Vj.
Los wavelet de mayor suavizado no solo proporcionan bases ortonormales para L2(R), también
bases no condicionales para varios espacios de funciones, incluyendo espacio de Besov. As´ı conside-
34

raremos bases wavelet ortonormales en el intervalo [0, 1]. Adaptar las wavelets a intervalos finitos
requiere algunas modificaciones como las descritas en [14].
De forma resumida, para J tal que 2J ≥ 2r, la construcción [14] proporciona un conjunto
finito de 2J funciones de escala, ϕJ,k y para cada j ≥ J, 2j funciones ψj,k tal que la colección de
éstas forma un sistema ortonormal completo de L2[0, 1]. Con esta notación, la reconstrucción de la
formula de L2[0, 1] es
f(t) =
2J −1
k=0
αJ,kϕJ,k(t) +
j≥J
2j −1
k=0
βj,kψj,k(t), (20)
donde αJ,k = [0,1] f(t)ϕJ,k(t)dt, βj,k = [0,1] f(t)ψj,k(t)dt y ||f||2 = [0,1] f2(t)dt
2.6.2. Enfoque Modelos Mixtos
Los predictores lineales de los efectos mixtos desconocidos, basados en observaciones perturba-
das Y = (Y1, . . . , Yn)′ de f en los puntos del diseño t1, . . . , tn son considerados en un gran número
de aplicaciones por su simplicidad y potencia. Además, algunos ejemplos son estudiados bajo la
hipótesis de modelo mixto y el modelo de regresión clásico. La comparación de estos enfoques
muestra claramente por qué los modelos mixtos son buenos en ciertas situaciones.
Aqu´ı se estudiará el modelo (17) desde el punto de vista de los modelos mixtos. Señalar que los
datos Y son observaciones discretizadas de la trayectoria de un proceso estocástico Y (t) dado por
Yi = f(ti) + σεi t ∈ [0, 1],
donde f es de la forma (18) y {ε(t), t ∈ [0, 1]} es un proceso Gaussiano de media 0 con
Cov(ε(s), ε(t)) = δst.
Además, suponemos que µ(t) = 2J −1
k=0 αJ,kψJ,k(t) y {
√
b z(t), t ∈ [0, 1]} es un proceso Gaus-
siano centrado con función de covarianza E(z(s)z(t)) = K1(s, t). Ya que [0,1]2 K1(s, t)dsdt < +∞
admite el desarrollo de Karhunen - Loève y por tanto, la siguiente representación en media cuadráti-
ca es correcta:
√
b z(t) =
j≥J
2j −1
k=0
βj,kψj,k(t), (21)
donde βj,k son independientes βj,k ∼ N(0; λj). Bajo las suposiciones hechas por (18) y (21), las
trayectorias de los procesos z(t) y f(t) pertenecen a un espacio de funciones regular.
35

Angelini, De Canditiis y Leblanc [5] demuestran que la regularidad del espacio depende de la
elección de la secuencia λj a través del siguiente teorema:
Teorema 10 Sea s > 1/2 y suponer que el sistema wavelet {ψjk}j,k es fijo y es [s] + 1 − regular.
Considerar las series estocásticas,
S(t) =
j geqJ
2j −1
k=0
βjkψjk(t)
donde βjk variables normales aleatorias independientes centradas tales que V ar[βjk] = λj. Enton-
ces, las siguientes propiedades son equivalentes:
1. Cada muestra de la serie estocástica S(t) pertenece a B
s−1/2
2,∞ [0, 1] casi seguramente(a.s.)
2. λj = O(2−2js)
En el enfoque por regularización se asume que, para la elección de λj = 22−2js
, la función f
desconocida pertenece al espacio de Sobolev Hs. En el enfoque de modelos mixtos la f desconocida
se supone que será una muestra que pertenece casi seguramente a un gran espacio, B
s−1/2
2,∞ . En [14] se
demuestra que el predictor Bayesiano es exactamente ˜fλ(t), la solución del enfoque de regularización
y se encuentra en el espacio más pequeño Hs.
A continuación, de Angelini, De Canditiis y Leblanc [5] extraemos la definición de BLUP (Best
Linear Unbiased Predictor), ˆft, para f(t) usando solo los datos observados Y . La siguiente definición
de BLUP para una función f es una extensión natural del caso paramétrico:
Definición 3 Un predictor ˆf(t), basado en observaciones perturbadas (datos) Y dado en (1), es
el BLUP para f(t) el el modelo (18) si y solo si se cumplen las siguientes propiedades:
∀t ∃Lt = (l1(t), . . . , ln(t)) tal que ˆf(t) = LtY
∀t E[ ˆft] = µ(t)
∀t y ˜g tal que ˜g(t) = ˜LtY y E[˜g(t)] = E[ ˆf(t)], E[ ˆf(t) − f(t)]2 ≤ E[˜g − f(t)]2
De los mismos autores, [5], extraemos el siguiente teorema:
Teorema 11 El BLUP para la predicción de f(t) en el modelo (18), basado en los datos Y está da-
do por
ˆft = L∗
t Y , (22)
36

donde el vector 1 × n, L∗
t toma la forma
L∗
t = Φt(Φ′
M−1
Φ)−1
+ ΣtM−1
(In − Φ(Φ′
M−1
Φ)−1
Φ′
M−1
)
Φ, Φt, Σ y σt se han definido en el Teorema 11 y M = (Σ + (σ2/2)In). Además, con nλ = σ2/b
la siguiente identidad se mantiene
∀t ∈ [0, 1] ˆf(t) = ˆfλ(t) donde ˆfλ(t) esta definido en el Teorema 11
El predictor en (22) se puede expresar de forma equivalente como
ˆfλ(t) = Φt ˆα +
√
bˆz(t)
donde ˆα = (Φ′M−1Φ)−1Φ′M−1Y es el predictor m´ınimo cuadrático ponderado para el modelo
Y (t) = Φt ˆα + ε
′
(t) con ε
′
(t) =
√
bz(t) + σε(t) y
√
bˆz(t) = ΣtM−1(I − Φ(ΦM−1Φ)−1Φ′M−1)Y es el
predictor del efecto Gausiano centrado.
2.6.3. Solución Wavelet aproximada
Para desarrollar el estimador aproximado ˜fλ consideramos que f pertenece a Hs y que n = 2N .
Además, suponemos que existe una función h(t) ∈ Hs−1 y dos constantes positivas h1 y h2 tales
que 0 < h1 ≤ h(t) ≤ h2 < ∞ y
ti+1
ti
h(t)dt = 1/n para cualquier i. Se define la función
H(t) =
1
0
h(t)dt (Por definicion),
donde
H(0) = 0, H(1) = 1 y H(ti) = i/n
H(t) = t en el caso equiespaciado.
Como h es estrictamente positiva, H es invertible.
De las 3 condiciones anteriores, cuando f ∈ Hs tenemos que f ◦ H−1 ∈ Hs (◦ indica la
composición de dos funciones).
h(t) está acotada superior e inferiormente por lo que se tiene la siguiente equivalencia:
||f||L2 ≈ ||f ◦ H||2
. (23)
37

Para cualquier f ∈ L2[0, 1] el proyector ortogonal en VN es
PN f =
2N −1
k=0
αN,kϕN,k =
=
2J −1
k=0
αJ,kϕJ,k +
N−1
j=J
2j −1
k=0
βj,kψj,k(t). (24)
El proyector ortogonal emp´ırico en VN se define para una función f conocida sobre un diseño
general, 0 ≤ t1 ≤ · · · ≤ tn ≤ 1 como
¯ΠN f =
2N −1
i=0


2N −1
k=0
f(tk+1)
√
n
ϕN,k ◦ H, ϕN,i

 ϕN,i =
=
2N −1
i=0
αf
N,iϕN,i =
2J −1
k=0
αf
J,iϕJ,i +
N−1
j=J
2j −1
k=0
βf
j,kψj,k. (25)
La expresión de ¯ΠN se simplifica cuando se aplica a una función conocida f sobre un diseño
equiespaciado. En este caso particular lo denotamos por ΠN y tenemos
ΠN f =
2N −1
i=0
f((i + 1)/n)
√
n
ϕN,k.
Con esta notación se tiene que ¯ΠN f = PN (ΠN (f ◦ H−1) ◦ H). Bajo las condiciones usualmente
establecidas en la definición de un análisis multiresolución, se tienen los siguientes resultados sobre
aproximaciones finito - dimensionales en la norma L2:
||f − PN f||2
L2
≤ C||f||Hs 2−2sN
. (26)
||ΠN f − PN f||2
L2
≤ C2−2sN
. (27)
||¯ΠN f − PN f||2
L2
≤ C2−2sN
. (28)
Debido a la ortonormalidad de los sistemas wavelets, usando la expresión de H − norm en
términos de coeficientes wavelets y la aproximación resultante (26), (27) y (28), el problema de
minimización exacta (19) se puede aproximar a un término de orden O(2−2sN ) a partir de la
siguiente ecuación:
||¯ΠN Y − PN f||2
L2[0,1] + λ
j,k
β2
j,k
λj
. (29)
38

A continuación, usando el desarrollo PN f y ˆΠN Y en términos de coeficientes wavelet, minimizar
la expresión (29) con respecto a f ∈ H equivale a minimizar la expresión siguiente con respecto a
los coeficientes (αJ,k)k y (βj,k)j,k:
2J −1
k=0
(αJ,k + ¯cJ,k)2
+
N−1
j=J
2j −1
k=0
(βj,k − ¯dj,k)2
+ λ
β2
j,k
λj
+ λ
∞
j=N
2j −1
k=0
β2
j,k
λj
,
tal expresión es m´ınima para los coeficientes (˜αJ,k)k y (˜βj,k) definidos por
˜αJ,k = ¯cJ,k k = 0, . . . , 2J
− 1,
˜βj,k =
λj
λj + λ
¯dj,k J ≤ j ≤ N − 1 ; k = 0, . . . , 2j
− 1,
˜βj,k = 0 j ≥ N ; k = 0, . . . , 2j
− 1,
y la solución aproximada, denotada como ˜fλ se define como:
˜fλ =
2J −1
k=0
˜αJ,kϕj,k +
N−1
j=J
2j −1
k=0
˜βj,kψj,k
De Angelini, De Canditiis y Leblanc [5] extraemos el siguiente teorema:
Teorema 12 Bajo la suposición de regularidad sobre la base wavelet, para f ∈ Hs con s > 1/2
tenemos
MISE( ˜fλ) = E[|| ˜fλ − f||] ≤ O(2−2Ns
+ λ + 2J−N
+ 2−N
λ1/2s
)
además, cuando tomamos λ = O n(−2s)/(2s+1) , se tiene
MISE( ˜fλ) = O n(−2s)/(2s+1)
.
39

3. Modelos de regresión espacial heterogéneos funcionales
3.1. Estimación
3.1.1. Kriging: Predicción lineal óptima espacial
El predictor kriging o mejor predicción lineal insesgada espacial (BLUP) ha sido ampliamente
aplicado en las ciencias de la tierra y del medioambiente, donde se conoce como interpolación
óptima. Dadas sus buenas propiedades en relación con el procesamiento de la variabilidad espacial
presentada por los datos usualmente analizados en estas ciencias, la metodolog´ıa kriging puede
producir mapas de predicción óptima a partir de datos incompletos y perturbados. En algunas
ocasiones, los datos espaciales son dif´ıciles de obtener, en tales casos, donde la muestra es pequeña,
el kriging puede aplicarse, obteniéndose resultados aceptables.
Cressie y Johannesson [15] parten de un proceso real - valuado {Y (s) : s ∈ D ⊂ Rd}. Se
está interesado en hacer inferencias sobre el proceso Y sobre la base de que los datos tiene medidas
de error incorporadas, es decir, son observaciones perturbadas. Por lo tanto, se considerará el
proceso Z(·) de las observaciones actuales y potenciales,
Z(s) ≡ Y (s) + ε(s), (30)
donde {ε(s) : s ∈ D} es un proceso espacial de ruido blanco con media 0, var[ε(s)] = σ2v(s) ∈
(0, ∞), s ∈ D, para σ2 > 0 y v(·) conocido.
Del proceso Z(·) sólo se conocen un número finito de localizaciones espaciales {s1, . . . , sn}; por
lo que se define el vector de datos disponible como
Z ≡ (Z(s1), . . . , Z(sn)), (31)
Se supone que el proceso Y (·) tiene una estructura lineal media,
Y (s) = t(s)′
α + ν(s) s ∈ D, (32)
donde
t(·) ≡ (t1(·), . . . , tp(·))′ representa un proceso vector de covariables conocidas.
α ≡ (α1, . . . , αp)′ son desconocidos.
40

ν(·) es un proceso que tiene media 0 y 0 < var[ν(s)] < ∞, para todo s ∈ D.
Función de covarianza espacial generalmente no estacionaria. Se considera que la función de
covarianza espacial es no homogénea:
cov[ν(u), ν(v)] ≡ C(u, v) u, v ∈ D. (33)
Definiendo ε, Y y ν de forma análoga a Z, entonces, las expresiones (30)-(33) implican el modelo
mixto lineal general,
Z = Tα + δ δ = ν + ε, (34)
donde T es una matriz n × n de covariables (t(s1), . . . , t(sn)).
Del modelo mixto lineal general definido hay que destacar que el término error δ esta compuesto
de dos componentes independientes de media cero, por lo que
E[δ] = 0
var[δ] = Σ ≡ (σij) =



C(sj, sj) + σ2v(sj) si i = j
C(si, sj) si i = j
Si definimos las variables C ≡ (C(si, sj)) y V ≡ diag(v(s1), . . . , v(sn)) entonces podemos definir
Σ como
Σ = C + σ2
V. (35)
3.1.2. Función de covarianza espacial
En general, la función de covarianza C(u, v) definida en (33) debe ser definida positiva sobre
Rd ×Rd. A menudo, C(u, v) se modela como estacionaria, en tal caso debe ser una función definida
no negativa de u − v.
Cressie y Johannesson [15] toman un enfoque diferente y se tratará de capturar las escalas de
las dependencias espaciales a través de un conjunto de r funciones base,
S(u) = (S1(u), . . . , Sr(u))′
u ∈ Rd
, (36)
donde r es fijo.
Para cualquier matriz Kr×r definida positiva, se modelará cov[Y (u), Y (v)] de acuerdo a
C(u, v) = S(u)′
KS(v) u, v ∈ Rd
, (37)
41

que puede verse como una función definida no negativa y as´ı una función de covarianza válida.
La expresión (37) es consecuencia de escribir ν(s) = S(s)′
η, s ∈ D donde η es un vector r-
dimensional con var[η] = K. Considerando que ν(·) representa el efecto aleatorio, a partir de la ecua-
ción (32), se puede formular el siguiente modelo de efectos mixtos espacial: Y (s) = t(s)′β + S(s)′
η,
s ∈ D que será un modelo lineal de efectos mixtos que llamaremos modelo de efectos mixtos espacial.
3.1.3. Kriging de rango fijo
A partir de la ecuación (36) se puede escribir la matriz de varianzas - covarianzas teórica n × n
de Y como C = SKS′ y as´ı,
Σ = SKS′
+ σ2
V, (38)
donde
Kr×r, una matriz definida positiva desconocida.
σ2 > 0 desconocida.
Sn×r = (Sl(si)) conocida.
V diagonal, con entradas definidas por las varianzas del error de medida conocida.
Además,
cov[Y (s0), Z] = c(s0)′
= S(s0)′
KS′
. (39)
Es decir, sobre la base del modelo (30) - (37) se puede encontrar una expresión para todos los
componentes que son necesarios en las ecuaciones kriging.
De la ecuación (38), Σ = SKS′ + σ2V, entonces,
Σ−1
= σ−1
V1/2
{I + (σ−1
V1/2
S)K(σ−1
V1/2
S)′
}−1
σ−1
V1/2
= (40)
= (σ2
V)−1
− (σ2
V)−1
S{K−1
+ S′
(σ2
V)−1
S}−1
S′
(σ2
V)−1
. (41)
El predictor kriging definido por Cressie y Johannesson [15] ser´ıa
ˆY (s0) = t(s0)′
ˆα + S(s0)′
KS′
Σ−1
(Z − Tˆα), (42)
donde ˆα = (T′Σ−1T)−1T′Σ−1Z y Σ−1 está definido en la ecuación (41).
42

El error estándar kriging definido por Cressie y Johannesson [15] ser´ıa
σk(s0) = {S(s0)′
KS(s0) − S(s0)′
KS′
Σ−1
SKS(S0)+
+ (t(s0) − T′
Σ−1
SKS(S0))′
(T′
Σ−1
T)−1
(t(s0) − T′
Σ−1
SKS(S0))}1/2
. (43)
3.1.4. Ajuste de la función de covarianza
La estrategia adoptada por Cressie y Johannesson [15] para ajustar la función de covarianza
espacial es consistente con el enfoque geoestad´ıstico que se encuentra desarrollado en la literatura
clásica.
En este enfoque, se obtiene primero un estimador emp´ırico para Σ, que está basado en el método
de los momentos. El estimador resultante ˆΣ esta perturbado y puede no ser definido positivo. Sin
embargo, sobre la base de una clase paramétrica {Σ(θ) : θ ∈ Θ} donde cada miembro de la clase
es definido positivo, se elige un ˆθ ∈ Θ tal que Σ(ˆθ) es el más cercano a ˆΣ. Por último, Σ(ˆθ) se
sustituye en las ecuaciones kriging (42) y (43).
Los parámetros de dependencia espacial θ se obtienen de la matriz definida positiva Kr×r y
la componente de varianza σ2 ∈ (0, ∞). Estimando ˆK y ˆσ2 se obtienen minimizando una norma
de Frobenius entre una matriz de varianzas - covarianzas emp´ırica y una matriz de varianzas -
covarianzas teórica.
Primero se define un estimador emp´ırico de las varianzas y covarianzas para lo que se necesitan
los datos sin tendencia. En ausencia inicial de conocimiento de dependencia espacial, usamos el
estimador por m´ınimos cuadrados ordinario de α,
¯α ≡ (T′
T)−1
T′
Z, (44)
para el que se define el detalle de residuo,
D(si) ≡ Z(si) − t(si)′
¯α i = 1, . . . , n. (45)
Como en la geoestad´ıstica clásica, los datos se unen para el cálculo del estimador de la depen-
dencia espacial por el método de los momentos. El número de uniones, M, será fijo pero mayor que
r, el número de funciones base. As´ı para estimación y ajuste de covarianzas, una vez que los datos
han sido unidos la complejidad computacioneal no depende de n. Suponer que {uj : j = 1, . . . , M}
43

donde r ≤ M ≤ n es un conjunto de localizaciones ofreciendo buena cobertura de D. El resultado
es
ˆK = R−1
Q′
( ˆΣM − ˆσ2 ¯V)Q(R−1
)′
.
3.1.5. Aplicación
Cressie y Johannesson [15] aplicaron la técnica del predictor kriging de rango fijo a los datos
de concentración de Ozono en la atmósfera medida a través del TCL (Total Column Ozone).
Los datos fueron tomados por el satélite polar Nimbus - 7 con un espectrómetro cartográfico
para el mapeo del total de ozono.
3.2. Regresión espacial heterogénea funcional y dinámica
De Ruiz-Medina y Espejo [34] extraemos la siguiente definición:
Definición 4 Un proceso espacial funcional YSARH = {Y (i, j), (i, j) ∈ Z2} con valores en un
espacio de Hilbert separable H, se dice que es un proceso SARH(1) unilateral si es estacionario y
satisface la siguiente ecuación
Yi,j = R + L1(Yi−1,j) + L2(Yi,j−1) + L3(Yi−1,j−1) + ǫi,j, (46)
donde R ∈ H y Li ∈ H; i = 1, 2, 3, el espacio de operadores lineales acotados. ǫi,j ∈ H, es el
proceso de innovación funcional o término de error funcional en el modelo mixto, incorrelado con
los valores funcionales aleatorios iniciales ǫ(1, 0), ǫ(0, 1), y ǫ(0, 0) y satisfaciendo E||ǫi,j||2
H = σ2
para todo (i, j) ∈ Z2 y E[ǫi,j ⊗ǫk,l] = E[ǫ|i−k|,|j−l|⊗ǫ0,0] = Cǫ|i−k|,|j−l|,ǫ0,0 para todo (i, j) y (k, l) ∈ Z2
donde ⊗ se refiere al producto tensorial de dos funciones en H, que define un operador de Hilbert
- Schmidt en H como sigue: Para dos funciones f, g ∈ H,
f ⊗ g(h) = f, h∗
Hg
donde h∗ ∈ H es el elemento dual de h, definido del Teorema de representación Riesz, y H∗ es el
espacio de Hilbert dual de H.
Señalar que, en la definición anterior, el orden 1 de la familia de procesos SARH(1) introducida
hace referencia al hecho de que el valor funcional Y (i, j) interactúa en el espacio con los valores
Y (i − 1, j), Y (i, j − 1) y Y (i − 1, j − 1), respectivamente correspondiente a un retardo espacial
negativo en la coordenada i, j o en ambas coordenadas espaciales i y j.
44

De la definición anterior, y en concreto del modelo (46), el siguiente sistema de ecuaciones lineal
es satisfecho por los operadores Li, i = 1, 2, 3
R1,0 = L1R0,0 + L2R1,1 + L3R0,1,
R0,1 = L1R1,1 + L2R0,0 + L3R1,0,
R1,1 = L1R0,1 + L2R1,0 + L3R0,0, (47)
donde
R0,0 = RZi,j ,Zi,j = E[Zi,j ⊗ Zi,j],
R1,0 = RZi+1,j ,Zi,j = E[Zi+1,j ⊗ Zi,j],
R0,1 = RZi,j+1,Zi,j = E[Zi,j+1 ⊗ Zi,j],
R1,1 = RZi+1,j+1,Zi,j = E[Zi+1,j+1 ⊗ Zi,j], (48)
con Zi,j = Yi,j − R, para todo (i, j) ∈ Z2.
Algoritmo de estimación
Cálculo de las versiones emp´ıricas de los operadores que definen los coeficientes del sistema
lineal funcional
Proyección en la base de autofunciones del operador de autoco-varianza de la respuesta
Truncamiento e inversión numérica del sistema lineal finito-dimensional proyectado para ob-
tener Li, i = 1, 2, 3
Bajo condiciones muy generales, la convergencia en probabilidad de la autocovarianza emp´ırica
y los operadores de covarianza cruzada con respecto a los teóricos se mantiene.
La estructura de dependencia mostrada por el proceso Z se define en términos de los operadores
en (48). Los operadores Li; i = 1, 2, 3 están involucrados en la definición del operador de correlación
del proceso funcional espacial Z.
La naturaleza c´ıclica de (47) surge de la expresión de los valores funcionales Zi+1,j, Zi,j+1 y
Zi+1,j+1 a partir de (46), en términos de la combinación lineal funcional de sus retardos negativos de
orden 1, involucrando los operadores Li; i = 1, 2, 3 de acuerdo a la ecuación (46) y de la invarianza
espacial de los momentos de segundo orden del proceso de innovación funcional ǫ definido en (46).
45

Los coeficientes del sistema de ecuaciones lineal (47) son el operador de autocovarianza y el operador
de covarianza cruzada definido en (48), es decir, este sistema se define en términos de coeficientes
infinito - dimensionales. En la práctica, el ajuste del modelo se realiza resolviendo el sistema de
ecuaciones lineal funcional (47) en términos de los operadores de auto - covarianza emp´ıricos
R1(i, j) = L1(i, j)R11 + L2(i, j)R12 + . . . + Lq(i, j)R1q,
R2(i, j) = L1(i, j)R21 + L2(i, j)R22 + . . . + Lq(i, j)R2q,
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Rq(i, j) = L1(i, j)Rq1 + L2(i, j)Rq2 + . . . + Lq(i, j)Rqq,
Algoritmo de estimación
Cálculo de las versiones emp´ıricas de los operadores que definen los coeficientes del sistema
lineal funcional
Proyección en la base de autofunciones del operador de autoco-varianza de la respuesta
Truncamiento e inversión numérica del sistema lineal finito-dimensional proyectado para ob-
tener Li, i = 1, . . . , q
46

CAPÍTULO 2: ANÁLISIS DE COMPONENTES PRINCIPALES
FUNCIONAL DE MODELOS DE EFECTOS MIXTOS PARA CUR-
VAS DE PERCEPCIÓN.
1. Introducción
La complejidad de las percepciones provocadas por un sencillo est´ımulo que se mueve a través
de la piel se ha demostrado a lo largo de los últimos 100 años. Hall y Donalson (1885) analizaron
por primera vez la complejidad de las percepciones provocadas por un sencillo est´ımulo a través de
la piel. Para minimizar el sesgo de respuesta y otras fuentes de variabilidad intra e inter sujetos en
las medidas de la percepción sensorial, los procedimientos psicof´ısicos han ignorado ampliamente
la naturaleza multidimensional y la variabilidad temporal de la percepción.
Por ejemplo, procedimientos de elección forzada son normalmente utilizados en estudios de
discriminación de la dirección y discriminación de la velocidad. Estos procedimientos requieren que
el individuo asigne la compleja percepción a un pequeño número de categor´ıas, ninguna de las cuales
puede describir con precisión la sensación percibida. Por ejemplo, para evaluar la discriminación de
la dirección del movimiento el est´ımulo se mueve a través de la zona de prueba en dos direcciones
opuestas, que se definen antes de realizar la prueba. Tras el est´ımulo, el individuo debe seleccionar
una de estas dos opciones, aunque la ruta del est´ımulo percibido podr´ıa ser curvada y su dirección
sustancialmente diferente a la del est´ımulo como mucho en 90◦
47

Como segundo ejemplo, procedimientos de estimación de la magnitud de la respuesta son utiliza-
dos normalmente para estudios en los que el individuo juzga la longitud, la dirección o la velocidad
del movimiento del est´ımulo. Las existencia de variaciones en la percepación de una trayectoria
lineal son muy comunes para un est´ımulo en movimiento, incluso cuando se trata de una l´ınea
recta, y no está claro como esto afecta a la respuesta del individuo con respecto a la distancia del
movimiento.
El caso que se va a desarrollar en este cap´ıtulo como caso emp´ırico es una simulación del
experimento desarrollado primero por el profesor Sptizner en 2002 [19] y posteriormente, en el año
2003 [37] por los profesores Essick y Spitzner de la Universidad de Carolina del Norte.
Para el estudio emp´ırico de modelos lineales mixtos funcionales, nos hemos centrado en el
experimento de 2003 [37].
En este experimento original, cada uno de los 32 individuos fue expuesto de forma repetida al
movimiento de un suave, pequeño y altamente controlado pincel movido en una l´ınea recta sobre
su cara. El sistema de coordenadas fue cuidadosamente calibrado para que los datos de diferentes
individuos puedan ser comparados de forma directa. El pincel se movió a una velocidad constante.
Tras la exposición ciega al est´ımulo, al individuo se le proporcionó una imagen a tamaño real de su
cara sobre la que dibujó el camino del est´ımulo que hab´ıa percibido. Un lápiz digital se utilizó para
almacenar las coordenadas (x, y) de su dibujo en un intervalo de tiempo uniformemente espaciado.
Para cada individuo, el experimento se desarrolló a lo largo de cuatro sesiones realizadas en
d´ıas consecutivos. Cada sesión se dividió en 2 etapas:
Etapa 1 (Control): Con la cara lavada.
Etapa 2 (Preparado): La piel del individuo fue tratada con 4 preparados (A, B, C, D) que
afectan a la sensibilidad de la piel.
En cada una de las etapas, un pequeño pincel fue movido por un ordenador siguiendo una
trayectoria recta ascendente de 5 cm a 3 velocidades diferentes a través de la piel de la cara. Tras
el est´ımulo, habiendo estado ciego a él, en cada una de las velocidades el individuo dibujó sobre
una imagen a tamaño real de su cara la trayectoria seguida por el pincel 7 veces. El sistema de
coordenadas fue cuidadosamente calibrado as´ı que los datos de diferentes individuos pueden ser
comparados de forma directa.
48

La motivación principal para la realización de este tipo de experimento es que, hasta la fecha,
la realización de estos estudios se ha limitado en gran medida a los métodos convencionales en los
que un individuo clasifica un est´ımulo (el pincel que se mueve a través de la piel) a lo largo de un
continuo (distancia recorrida) o debe clasificar el est´ımulo en una de las dos categor´ıas definidas por
el experimentador (movimiento ascendente frente a movimiento descendente). Este es el caso del
experimento desarrollado por el profesor Spitzner en el año 2002 [19]. Estos métodos, proporcionan
estimaciones válidas de análisis de sensibilidad de los sistemas sensoriales, pero obligaron a los
individuos a la reducción de las percepciones complejas en un número limitado de categor´ıas no
describiendo con exactitud la experiencia sensorial. En contraste, las técnicas gráficas permiten
a los individuos dibujar algunos aspectos de la experiencia sensorial sin la restricción de escalas
numéricas o categor´ıas definidas por el experimentador.
Aunque existen otros experimentos para el estudio de modelos mixtos aplicado a datos funcio-
nales como es el caso del desarrollado por los profesores Aston, Chiou y Evans para el análisis de
tono lingü´ıstico utilizando las Componentes Principales Funcionales en el caso de modelos mixtos
[9] o el realizado por los profesores Chiou, Müller y Wang para el estudio de las curvas de puestas
de huevos para en el caso de la mosca de la fruta [12].
La simulación es el desarrollo de un modelo lógico - matemático de un sistema, de tal forma
que se obtiene una imitación de la operación de un proceso de la vida real o de un sistema a través
del tiempo. Sea realizado a mano o en una computadora, la simulación involucra la generación
de una historia artificial de un sistema; la observación de esta historia mediante la manipulación
experimental, nos ayuda a inferir las caracter´ısticas operacionales de tal sistema. En la definición
anterior se citan dos pasos básicos de una simulación:
1. Desarrollo del modelo que incluye la construcción de ecuaciones lógicas representativas del
sistema y la preparación de un programa computacional.
2. Experimentación: Una vez que se ha validado el modelo del sistema, hay que experimentar
con el modelo para determinar cómo responde el sistema a cambios en los niveles de algunas
variables de entrada.
49

2. Generación de las curvas
Ya que el objetivo es realizar una simulación basada en el experimento llevado a cabo por los
profesores Essick y Spitzner [37], para poder obtener una representación lo más próxima posible a
los datos que se obtuvieron en el experimento, se han generado las curvas de las respuestas de los
individuos siguiendo el siguiente modelo paramétrico:
X(t) = A sin(Bπt) + F sin(Gπt) + Ht
Y (t) = a + bt,
donde
A ∼ N(0,1 + 0,01 ∗ Nivel; 0,01)
B ∼ N(3 + [0,01; 0,015] ∗ Nivel; [0,01; 0,015])
F ∼ N(0,1 + 0,01 ∗ Nivel; 0,01)
G ∼ N(4 + 0,01 ∗ Nivel; 0,01)
H ∼ N(0,2 + 0,01 ∗ Nivel; 0,01)
a ∼ N(0,03 + [0,01; 0,015] ∗ Nivel; [0,01; 0,015])
b ∼ N(1 + 0,02 ∗ Nivel; 0,02).
Figura 1: Curvas de datos originales
0.05 0.05 0.10 0.15 0.20 0.25 0.30
0.2
0.4
0.6
0.8
1.0
Aunque el estudio de simulación desarrollado en este trabajo se basa en el estudio previo rea-
lizado en [37], las condiciones experimentales han sido parcialmente modificadas. Al igual que en
50

[37], se ha considerado 32 individuos, sin embargo, no se han considerado 2 etapas en la experi-
mentación sino que hemos considerado 3 niveles de velocidad o tratamientos de los efectos fijos y 7
repeticiones del dibujo de la curva para cada individuo en cada nivel de velocidad o tratamientos
de los efectos fijos, esto también se consideró en el experimento original.
De esta forma consideraremos 7×3×32 = 672, curvas, correspondientes a 3 modelos Gaussianos
de procesos estocásticos, los cuales son medidos en 32 individuos de forma repetida 7 veces para
cada individuo.
Es decir, para k = 1, 2, 3, al igual que en el estudio realizado en 2003 [37], cada curva está re-
presentada colocando primero las coordenadas x y a continuación las coordenadas y:
zkj = (xk,j, yk,j)′
= (xk,j,1, . . . , xk,j,100, yk,j,1, . . . , yk,j,100)′
.
Utilizando la misma forma de representar los datos seleccionada en el experimento [37], para
cada curva, se han tomado 100 mediciones de cada una de las coordenadas x y de la misma
forma para la coordenada y en el intervalo [0, 1] de forma equiespaciada. Por lo que cada curva
tendrá dimensión 200, como matriz de datos, es decir,
Z200×672 = (z1,1, . . . , z1,7×32, z2,1, . . . , z2,7×32, z3,1, . . . , z3,7×32).
En el estudio de 2003 [37] se proponen 2 metodolog´ıas para trabajar con los datos antes de
realizar el contraste:
1. Análisis de Componentes Principales.
2. Representación de Fourier.
En el estudio realizado por los profesores Essick y Spitzner en 2003 se utilizó la segunda meto-
dolog´ıa, representación de Fourier. La forma en la que se ha tratado este experimento en nuestro
trabajo es usando el Análisis de Componentes Principales Funcional.
Siguiendo la metodolog´ıa desarrollada por Benko, Härdle y Kneip [10] para realizar el Análisis
de Componentes Principales Funcional para una muestra, en las siguientes secciones se desarrollan
los pasos que se han seguido a partir de los datos simulados.
51

3. Cálculo de los autovectores y autovalores emp´ıricos.
Según la metodolog´ıa de Benko, Härdle y Kneip [10], consideraremos una muestra de funciones
X1(t), . . . , Xn(t) ∈ L2[0, 1] con media µ = E[Xi] y una función de covarianza continua σ(t, s) =
E[{Xi(t) − µ(t)}{Xi(s) − µ(s)}].
El desarrollo de Karhunen - Loève proporciona una herramienta básica para la descripción
óptima de procesos de segundo orden (en el sentido del momento de orden dos), en términos de
variables aleatorias incorreladas y autofunciones ortonormales. En particular, para λ1 ≥ λ2 ≥ . . .
los autovalores y γ1, γ2, . . . la correspondiente base ortonormal completa de autofunciones de Γ,
se obtiene
Xi = µ +
∞
r=1
βriγr i = 1, 2, . . . ,
donde βri = Xi −µ, γr son factores de carga incorrelados con E[βri] = 0. E[β2
ri] = λr y E[βriβki] =
0 para r = k.
Para realizar la descomposición en Componentes Principales Funcionales haciendo uso del desa-
rrollo de Karhunen - Lóeve para procesos de segundo orden es necesario eliminar la tendencia de
las curvas antes de calcular las matrices de covarianzas emp´ıricas ya que dicho desarrollo se deriva
sobre procesos o curvas aleatorias con media 0.
Para k = 1, 2, 3, calcular las curvas medias
(Mk)200×1 = (Xk)′
1×100, (Yk)′
1×100
′
200×1
.
As´ı,
Xk(t) =
1
7 × 32
7×32
i=1
Xjk(t), t = 1, . . . , 100; k = 1, 2, 3,
donde (Xk)100×1 tiene entradas Xk(t), t = 1, . . . , 100, (Xjk)100×1 indica la componente X (las
primeras 100 entradas) de la j-ésima curva generada bajo el modelo k (nivel del efecto fijo), y
Xjk(t) indica su valor en el instante t para la componente X de la j-ésima curva generada bajo el
modelo k.
Y k(t) =
1
7 × 32
7×32
i=1
Yjk(t), t = 1, . . . 100; , k = 1, 2, 3,
donde (Yk)100×1 tiene entradas Y k(t), t = 1, . . . , 100, (Yjk)100×1 indica la componente Y (las
100 segundas entradas) de la j-ésima curva generada bajo el modelo k (nivel del efecto fijo), y
52

Yjk(t) indica su valor en el instante t para la componente Y de la j-ésima curva generada bajo el
modelo k.
Seguidamente se calcula el operador de covarianza emp´ırico
RZk
=
1
7 × 32
7×32
j=1
Zjk ⊗ Zjk, k = 1, 2, 3,
donde
(Zjk)200×1 = (X′
jk, Y′
jk)′
− Mk, k = 1, 2, 3.
A continuación, habrá que calcular la descomposición espectral en autovalores ({λlk, l ∈ N})
y autovectores ({φlk, l ∈ N}) del operador de covarianza emp´ırico RZk
, for k = 1, 2, 3. De esta
forma obtenemos 200 autovalores emp´ıricos λk,j, j = 1, . . . , 200, para k = 1, 2, 3, y sus autovectores
(autofunciones) asociados φk,j, j = 1, . . . , 200, de dimensión 200 × 1. Es decir,
φk,j = (φk,j,1, . . . , φk,j,200)′
, j = 1, . . . , 200, k = 1, 2, 3.
Dada una muestra de tamaño n, se puede construir un análogo emp´ırico usando los autovalores
ˆλ1 ≥ ˆλ2, . . . , ˆλn y las autofunciones ortormales ˆγ1 ≥ ˆγ2, . . . , ˆγn del operador de covarianza emp´ırico
ˆΓn. Por lo que
Xi = ¯X +
∞
r=1
ˆβriˆγr i = 1, 2, . . . , n,
donde ˆβri = Xi − ¯X, ˆγr .
El objetivo principal al realizar esta descomposición es eliminar la estructura de correlación
entre cada una de las componentes de cada una de las curvas.
Una vez que se ha calculado la descomposición en autovalores y autofunciones y que éstos han
sido ordenados de mayor a menor, será necesario conocer el número de componentes principales
que habrá que seleccionar, es lo que se va a llamar Truncamiento (T). Para seleccionar un orden
de truncamiento T adecuado, se escogerá el correspondiente a un porcentaje P de variabilidad
explicada emp´ırica. Es decir,
P =
λ1k + · · · + λTk
λ1k + · · · + λ200k
, k = 1, 2, 3.
En nuestra simulación, se ha seleccionado P = 95 %. Por lo que el número de componentes
principales seleccionadas será T = 5.
53

Cuadro 1: Porcentaje de Variabilidad explicada por cada una de las Componentes Principales bajo
los tres niveles de velocidad considerados
Nivel de Velocidad C.P. 1 C.P. 2 C.P. 3 C.P. 4 C.P. 5 C.P. 6 C.P. 7
Primer nivel 58.7296 % 74.4277 % 87.9715 % 94.7925 % 99.3907 % 99.9822 % 100 %
Segundo nivel 63.559 % 76.8406 % 89.1497 % 94.5256 % 99.2601 % 99.9738 % 100 %
Tercer nivel 62.2447 % 77.1164 % 88.2063 % 94.6504 % 99.2242 % 99.9764 % 100 %
Figura 2: Curvas de las Componentes Principales
Existe una gran cantidad de bibliograf´ıa referente a la aplicación de la metodolog´ıa del Análisis
de Componentes Principales Funcional. As´ı es el caso de estudio realizado por los profesores Zi-
punnikov, V; Caffoy, B.S.; Yousemz, D.M.; Davatzikos, C.; Schwartzyy, B.S.; Crainiceanu [43] que
aplicaron esta técnica en imágenes del cerebro de alta dimensión.
54

4. Planteamiento del modelo funcional de efectos mixtos en térmi-
nos de proyecciones y estimación de los efectos fijos y varianza
asintótica del estimador de proyección del efecto fijo.
4.1. Descripción de la técnica utilizada
Ugarte, Goicoa y Militino [40] emplearon un enfoque Bayesiano emp´ıco y un enfoque Bayesiano
completo para el problema de detectar áreas de alto riesgo en el cartografiado de enfermedades.
Los estudios para el cartografiado de enfermedades son muy útiles para mostrar patrones de una
enfermedad. Tradicionalmente, tasas de riesgo tales como los ratios de mortalidad estandarizados,
han sido comúnmente utilizados para este propósito. Sin embargo, estas medidas son altamen-
te variables para pequeñas áreas o enfermedades raras por lo que no son seguras. Una solución
a estos problemas viene del uso de modelos de suavizado de las estimaciones del riesgo relativo.
La estimación del riesgo relativo, tradicionalmente implica Modelos Mixtos Lineales Generalizados
(GLMM), que implica la predicción de los efectos aleatorios que representan los riesgos relativos.
La estimación por Máxima Verosimilitud para GLMM con recuentos normalmente requiere inte-
gración numérica, y la técnica de cuasi - versosimilitud penalizada (PQL), una aproximación de
Laplace para la cuasi - verosimilitud puede reducir el problema a una serie de regresiones m´ınimo
cuadráticas ponderadas. La técnica PQL es sencilla desde el punto de vista computacional y tiene
pocos problemas de convergencia. Existe gran cantidad de bibliograf´ıa referente a esta técnica.
4.2. Modelo de efectos mixtos funcional proyectado
De forma general, un modelo de efectos mixtos está formado por 2 partes:
1. Parte determin´ıstica: Formada por los efectos fijos.
2. Parte aleatoria: Es la que determina la correlación temporal. Esta puede ser descompuesta a
su vez en dos subpartes:
a) Efectos aleatorios: Recoge la parte aleatoria más importante del modelo.
b) Residuo del truncamiento: Recoge la parte aleatoria menos importante del modelo.
55

En nuestro caso, la parte determin´ıstica estará formada por cada uno de los niveles de velocidad
o tratamientos de los efectos fijos k = 1, 2, 3 mientras que la parte aleatoria estará representado
por cada uno de los 32 individuos que fueron sometidos al experimento.
Antes de poder trabajar con el modelo seleccionado será necesario calcular las proyecciones de
cada una de las curvas de datos en la base de autofunciones calculada. Es decir, para k = 1, 2, 3,
indicando por Φk, la matriz 200 × 200 con columnas dadas por los autovectores de RZk
para
k = 1, 2, 3, y j = 1, . . . , 7 × 32, y por (Zjk) el vector de coordenadas de la j-ésima curva tras
eliminar la tendencia a los datos originales, calcular
(Zjk)′
Φk = (aj,k,1, . . . , aj,k,200).
Cada uno de los elementos aj,k,l con j = 1, . . . , 7 × 32, k = 1, 2, 3, l = 1, . . . , 200 definirán
los coeficientes de Fourier de la j-ésima curva de datos con respecto a la correspondiente base de
autofunciones emp´ırica ortogonal.
Calcular, para k = 1, 2, 3, y l = 1, . . . , 32,
(Mk)′
Φl = (mk,l,1, . . . mk,l,200),
que serán los coeficientes de Fourier de las curvas medias con respecto a la base de autofunciones
ortogonales emp´ırica.
Se obtiene entonces el siguiente modelo de observación proyectado:
Z = (Zjk)
′
Φk + (Mk)
′
Φk = (aj,k,1, . . . , aj,k,T )
′
+ (mk,1, . . . mk,T )
′
Se define el modelo de efectos mixtos adecuado a la simulación realizada y al experimento como:
(Zp)672×T = (aj,k,1, . . . , aj,k,T )
′
+ (mk,1, . . . mk,T )
′
= (DF )672×3(ξp)3×T + (DR)672×96(ζp)96×T + (εp)672×T , (49)
p = 1, . . . , 672, j = 1, . . . , 7 × 32, y k = 1, 2, 3.
As´ı, de los datos (Zp), p = 1, . . . , 672, siguiendo la metodolog´ıa desarrollada por Ugarte, Goicoa
y Militino [40], podemos ajustar el modelo de efectos mixtos (49) por máxima verosimilitud restrin-
gida, obteniendo los estimadores ξp, σζ,p, y σε,p, respectivamente de los T primeros coeficientes de
Fourier de la curva de efectos fijos, con respecto a la base de autofunciones emp´ırica, de la varianza
de los T coeficientes de Fourier aleatorios incorrelados del efecto aleatorio funcional.
56

La estimación de los efectos fijos ξ se obtiene como ˆξ = (D′
FV−1DF)−1D′
FV−1Z con varian-
za asintótica (DF V−1D′
F )−1 y V = DRΣD′
R + W−1, W = diag{µi}. Los efectos aleatorios se
estiman como ˆζ = ΣD′
RV−1(Zp − DF
ˆξ), ε ∼ N(0; W−1).
Tras la implementación y ejecución del algoritmo considerando las siguientes matrices del diseño
para los efectos fijos y aleatorios se obtienen los siguientes resultados:
(DF )672×3 = 























1 0 0
... 0 0
1 0 0
0 1 0
...
... 0
0 1 0
0 0 1
...
...
...
0 0 1
























(ξp)3×T =





−0,1511 −0,1348 −0,1164 0,0298 4,1087
−0,1557 −0,1339 −0,1182 0,0324 4,1110
−0,1537 −0,1321 −0,1158 0,0297 4,1103





57

(DR)672×96 =
































































































1 0
...
...
...
...
...
...
...
...
...
... . . .
... 0
...
...
...
...
...
...
...
...
...
... . . .
1 0
...
...
...
...
...
...
...
...
...
... . . .
0 1 0
...
...
...
...
...
...
...
...
... . . .
...
... 0
...
...
...
...
...
...
...
...
... . . .
0 1 0
...
...
...
...
...
...
...
...
... . . .
0 0 1
...
...
...
...
...
...
...
...
... . . .
...
...
...
...
...
...
...
...
...
...
...
... . . .
0 0 1
...
...
...
...
...
...
...
...
... . . .
0 0 0 1
...
...
...
...
...
...
...
... . . .
...
...
...
...
...
...
...
...
...
...
...
... . . .
0 0 0 1
...
...
...
...
...
...
...
... . . .
0 0 0 0 1
...
...
...
...
...
...
... . . .
...
...
...
...
...
...
...
...
...
...
...
... . . .
0 0 0 0 1
...
...
...
...
...
...
... . . .
0 0 0 0 0 1
...
...
...
...
...
... . . .
...
...
...
...
...
...
...
...
...
...
...
... . . .
0 0 0 0 0 1
...
...
...
...
...
... . . .
0 0 0 0 0 0 1
...
...
...
...
... . . .
...
...
...
...
...
...
...
...
...
...
...
... . . .
0 0 0 0 0 0 1
...
...
...
...
... . . .
0 0 0 0 0 0 0 1
...
...
...
... . . .
...
...
...
...
...
...
...
...
...
...
...
... . . .
0 0 0 0 0 0 0 1
...
...
...
... . . .
0 0 0 0 0 0 0 0 1
...
...
... . . .
...
...
...
...
...
...
...
...
...
...
...
... . . .
0 0 0 0 0 0 0 0 1
...
...
... . . .
0 0 0 0 0 0 0 0 0 1
...
... . . .
...
...
...
...
...
...
...
...
...
...
...
... . . .
0 0 0 0 0 0 0 0 0 1
...
... . . .
...
...
...
...
...
...
...
...
...
...
...
...
...
































































































58

(ζp)96×T =




























































































−0,8712 0,2475 −0,4192 −0,5377 −0,0455
−0,0308 −0,2052 0,4338 0,0503 −0,0102
0,1075 1,0374 −0,0716 −0,0637 0,0858
−0,2881 −0,4000 −0,0951 0,0232 −0,0198
−0,0602 0,0012 −0,8194 0,1083 0,0312
−0,0900 −0,6628 −0,4830 0,4763 0,0809
0,8191 0,3931 −0,3150 −0,3001 −0,0494
−0,1262 0,3290 0,3610 −0,2591 0,0211
−0,4466 0,2813 −0,9206 0,0938 0,0845
−0,1483 0,2440 −0,1161 −0,4175 −0,0845
0,8889 −0,4357 0,6114 0,5809 −0,0392
−0,1299 −0,1792 0,1091 0,3814 0,0376
0,2497 −0,3538 −0,2868 −0,3465 −0,0704
0,0521 −0,4342 0,1599 0,8026 0,0079
−0,5109 0,3521 0,1125 0,3277 0,0212
−0,1741 −0,0535 −0,3507 0,2986 −0,0742
0,9000 0,0703 −0,5094 −0,2498 −0,0009
−0,7923 −0,0622 0,4482 −0,2081 0,0556
−0,1458 −0,2030 0,6294 0,1063 −0,0559
0,1909 −0,3446 0,0692 −0,0870 −0,0075
0,1744 −0,3403 −0,0847 −0,9988 0,0273
−0,1120 −0,6822 −0,6192 0,3520 −0,0572
0,0276 0,0266 −0,6575 −0,3051 −0,0421
0,0626 −0,0166 0,1675 0,1235 0,0193
0,5087 −0,0494 0,0800 0,1843 −0,0453
−0,5666 1,4215 0,6384 0,2143 0,0031
0,4638 −0,0282 1,1119 −0,7499 0,0391
−0,1865 0,6373 0,0632 −0,0640 −0,0818
−0,0983 0,0225 −1,1312 0,3713 −0,0116
−0,3928 0,0494 0,3844 −0,4768 0,1204
...
...
...
...
...




























































































59

Memoria elvira delgado

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (20)

Similar a Memoria elvira delgado

Similar a Memoria elvira delgado (20)

Memoria elvira delgado