Presentación de la tesis doctoral:
Statistical Neuroimage Modeling, Processing and Synthesis based on Texture and Component Analysis: Tackling the Small Sample Size Problem
Francisco Jesús Martínez Murcia
1 de Junio de 2017
Directores:
Javier Ramírez Pérez de Inestrosa
Juan Manuel Górriz Sáez
Find the whole thesis at https://github.com/pakitochus/thesis
Tesis: Statistical Neuroimage Modeling, Processing and Synthesis based on Texture and Component Analysis
1. Statistical Neuroimage Modeling, Processing
and Synthesis based on Texture and
Component Analysis
Tackling the Small Sample Size Problem
Francisco Jesús Martínez Murcia
1 de Junio de 2017
Directores:
Javier Ramírez Pérez de Inestrosa
Juan Manuel Górriz Sáez
2. Tabla de contenidos
1. Introducción
Motivación
Estado del arte
Metodología general
2. Reducción del espacio de características
Descomposición de imágenes
Análisis de texturas
Spherical Brain Mapping
3. Aumento del tamaño de la muestra
Significance-Weighted PCA (SWPCA)
Síntesis de imagenes
4. Conclusions
Conclusions
2
3. Motivación
• El uso de neuroimagen se ha incrementado exponencialmente
en los últimos años.
• Los estudios se basan en análisis estadísticos de poblaciones
diferenciadas.
• En esta tarea, el procesado de neuroimagen mediante
computadores es fundamental, pudiendo extraer información
relevante, e incluso predecir una enfermedad.
• Problema: Problema del pequeño tamaño de la muestra, o
Small Sample Size Problem. 4
4. Motivación
El Small Sample Size Problem, o problema del pequeño tamaño de la
muestra.
En neuroimagen, >500.000 características → espacios casi vacíos →
resultados poco generalizables.
5
5. Objetivos
Objetivo principal
Contribuir con nuevas estrategias para solucionar el problema del
pequeño tamaño de la muestra en neuroimagen.
Objetivo 1
Proveer nuevas estrategias
para reducir el espacio de
características sin pérdida de
información.
Objetivo 2
Desarrollar nuevos sistemas
para aumentar el tamaño de la
muestra.
6
6. Objetivos
Hemos aportado varias contribuciones para cada uno de los
objetivos descritos, que se han distribuído de la siguiente manera:
REDUCIR EL ESPACIO DE CARACTERÍSTICAS
DIAGNÓSTICO
ASISTIDO POR
COMPUTADOR
SÍNTESIS
DE
IMÁGENES
Capítulo 8
FUSIÓN DE
DATASETS
Capítulo 7
MAPEO
ESFÉRICO
Capítulo 6
ANÁLISIS
DE TEXTURA
Capítulo 5
DESCOMPOSICIÓN
DE IMAGEN
Capítulo 4
AUMENTAR TAMAÑO
ABORDANDO EL PROBLEMA DEL PEQUEÑO TAMAÑO DE LA MUESTRA
7
7. Patologías
• Enfermedad de Alzheimer (AD) y
Parkinsonismo (PKS) son las enfermedades
neurodegenerativas con mayor prevalencia.
→ Procesos de neurodegeneración.
• El Trastorno del Espectro Autista (ASD) es,
por su parte, uno de los trastornos del
neurodesarrollo que más atención recibe.
→ Causas desconocidas.
• Además de historial, test neurocognitivos
(MMSE, ADAS) y sintomatología clínica, cada
vez se estudian más marcadores
relacionados con neuroimagen.
9
8. Biomarcadores
En AD:
• Atrofia cerebral en imagen resonancia magnética (MRI).
• Hipometabolismo y aparición de placas de amiloide en
tomografía por emisión de positrones (PET).
• Hipoperfusión sanguínea en tomografía computarizada por
emisión monofotónica (SPECT).
NORMAL MCI AD
10
9. Biomarcadores
En PKS:
• Radioligandos como 123
I FP-CIT (DaTSCAN) en SPECT, que
permiten observar la distribución de transportadores de
dopamina en el estriado.
En ASD:
• Evidencia contradictoria en MRI.
CTL PD PD
11
10. Machine learning en neuroimagen
• Machine learning permite
que los computadores
aprendan a partir de datos →
identificar patrones, explorar
estructuras y realizar
predicciones.
• En medicina, Computer Aided
Diagnosis (CAD), sistemas de
ayuda al diagnóstico.
NEUROIMAGING
01 02
03
High dimensional brain
data, labeled
by experts.
FEATURE
EXTRACTION
Extract features
from the images
DIAGNOSIS
Train a model and
predict labels of
unseen data
04
FEATURE SELECTION
Select best features
SISTEMAS CAD
Generalmente, los sistemas CAD
consisten en cuatro pasos: adquisición
y preprocesado, extracción de
características, selección de
características y clasificación
12
11. Sistemas CAD
• Voxels as features (VAF)1
: el CAD más simple. Voxels como
características de un clasificador.
• Extracción de características: creación de nuevas características
inherentes a los datos:
• Espesor cortical (FreeSurfer)2
• Descomposición PCA3
• Otras descomposiciones (ICA, EMD, PLS)4
.
1Stoeckel J., Fung G. (2005). SVM feature selection for classification of spect images of
Alzheimer’s disease using spatial information
2Young Noh et al (2014). Anatomical heterogeneity of Alzheimer disease based on
cortical thickness on MRIs. Neurology
3Mudali et al (2015). Classification of Parkinsonian Syndromes from FDG-PET Brain
Data Using Decision Trees with SSM/PCA Features. Computational and Mathematical
Methods in Medicine.
4I.A. Illan, et al (2011). 18 F-FDG PET imaging analysis for computer aided Alzheimer’s
diagnosis. Information Sciences.
13
12. Sistemas CAD
• Extracción de características (continuación):
• Análisis de texturas5
• Selección de características: selección de las más relevantes
para la clasificación6
.
• Clasificadores: bayesianos, SVM, decision trees, ensembles, etc 7
.
5L. Sørensen et al (2015). Early detection of Alzheimer’s disease using MRI
hippocampal texture. Human Brain Mapping.
6B. Mwangi, et al (2014). A Review of Feature Reduction Techniques in Neuroimaging.
Neuroinformatics
7D. Zhang, et al (2011). Multimodal classification of Alzheimer’s disease and mild
cognitive impairment, NeuroImage
14
13. Preprocesado
Cauce general de preprocesado de neuroimagen estructural:
Original
Template Normalized Smoothed
Segmented
16
14. Registro (o normalización espacial)
Transformación rígida (afín) con 12 parámetros que se asignan
mediante la minimización de una función de coste.
Ejemplo: el error cuadrático medio entre la imagen y la plantilla.
x′
y′
z′
1
=
a00 a01 a02 a03
a10 a11 a12 a13
a20 a21 a22 a23
0 0 0 1
x
y
z
1
(1)
Transformación no rígida (warping): adaptación de diferencias
locales entre sujetos. Se estima una serie de campos de
deformación y se aplican.
17
16. Segmentación
GM WM
• Clasificación de cada voxel como
cada tipo de tejido (GM, WM, CSF y
otros).
• Combinación de una estimación de
distribución como mezcla de
gaussianas con los mapas a priori
para producir mapas de
probabilidad a posteriori para cada
tejido.
• Dilatación y erosión iterativa de
mapas para limpieza.
• Modulación → Escalado de los
mapas para que la cantidad total de
tejido se preserve.
19
17. Normalización en intensidad
Fórmula general para realizar la transformación de intensidades:
I′
= aI + b (2)
En esta tesis: normalización al máximo y normalización integral.
(a) (b) Normalización al Máximo1
Sin normalización
(c) Normalización Integral1
1
I.A. Illan et al (2012). Automatic assistance
to Parkinsonˈs disease diagnosis in
DaTSCAN SPECT imaging. Medical Physics
20
18. Evaluación de los sistemas
Clasificador: Support Vector Machine lineal.
Evaluación: 10-Fold estratificado.
Training Set
Training Folds Test Folds
1ª Iteración
2ª Iteración
3ª Iteración
10ª Iteración
E1
E2
E3
E10
E
21
20. Evaluación: Bases de Datos
Hospital
Virgen de la Victoria
Hospital
Virgen de las Nieves
23
21. Descomposición de imágenes
• En esta sección exploramos una serie de sistemas CAD8910
que
combina algoritmos de selección y descomposición de
características aplicados al diagnóstico de AD y PKS.
8F.J. Martinez-Murcia et al (2012). Computer aided diagnosis tool for Alzheimer’s
disease based on Mann–Whitney–Wilcoxon U-test. Expert Systems with Applications.
9F.J. Martinez-Murcia et al (2013). Functional activity maps based on significance
measures and Independent Component Analysis. Computer methods and programs in
biomedicine.
10F.J. Martinez-Murcia et al (2014). Automatic detection of Parkinsonism using
significance measures and component analysis in DaTSCAN imaging. Neurocomputing
25
23. Selección de características
t-Test
two-sample t-test, cuantifica diferencias entre dos
clases, asumiendo varianzas independientes. Se
asume distribución normal.
t = µ1−µ2√
σ2
2
+σ2
1
n
Entropía relativa
Medida no simétrica de diferencias entre dos distribuciones de probabilidad.
RE =
(
σ2
2/σ2
1 + σ2
1/σ2
2 − 2
)
+ 1
2
(µ2 − µ1)2 (
1/σ2
1 + 1/σ2
2
)
Mann-Whitney-Wilcoxon U-test
Medida no paramétrica, basada en el ranking de las características y asignación de
valores. Bajo distribución normal similar al t-test.
26
25. Descomposición de características
Ecuación general de la descomposición lineal:
xi = s0w0 + s1w1 + · · · + scwc + ϵ = sW + ϵ (5)
En esta tesis: Análisis de factores (FA) y Análisis de componentes
independientes (ICA).
27
26. Descomposición: Factor Analysis
Reescribimos la Eq. 5 asumiendo que X está centrada en 0:
X − µ = SW + ϵ (6)
Asumimos:
• W y ϵ son independientes.
• E[W] = 0.
• Cov(W) = I, lo que asegura que los factores no están
correlados.
• Conocemos c, el número de componentes a estimar.
La estimación se realiza via Maximum Likelihood y está más
detallada en la memoria.
28
27. Descomposición: Independent Component Analysis
Teorema central del límite
La distribución de una combinación lineal de variables
independientes es más gaussiana que las variables originales
Es posible estimar una de estas variables minimizando la
gaussianidad. El conjunto de señales finales está de nuevo
representado por:
X = WS (7)
Usamos FastICA, un algoritmo neuronal que usa una regla de
aprendizaje para calcular iterativamente wc de modo que w′
c × xi
maximice la no-gaussianidad.
FastICA se basa en entropía negativa para medir la no-gaussianidad.
29
29. Experimentos
• Vamos a probar las diferentes combinaciones de métodos de
selección y extracción de características en cada una de las
bases de datos funcionales que utilizamos:
• Bases de datos: ADNI-PET y VDLN-HMPAO (para AD), y PPMI-DAT,
VDLN-DAT y VDLV-DAT (para PKS).
• Métodos de selección: t-test, relative entropy y Mann-Whitney
Wilcoxon.
• Métodos de extracción: Factor Analysis e ICA.
30
30. Resultados (AD): rendimiento en clasificación
Método de descomposición
Figure 1: Precisión en función del método de selección y decomposición de
características con 5 componentes, utilizando las dos bases de datos de AD.
31
31. Resultados (AD): regiones más significativas
0
2
4
6
8
10
(a) t-test.
0.0
0.5
1.0
1.5
2.0
2.5
(b) Relative entropy.
0.000
0.001
0.002
0.003
0.004
0.005
0.006
0.007
0.008
(c) Wilcoxon.
Figure 2: Comparación entre los diferentes métodos de filtrado, y las
regiones donde la diferencia en metabolismo de glucosa es más
significativa, en la base de datos ADNI-PET.
32
32. Resultados (PKS): rendimiento en clasificación
Método de descomposición
Figure 3: Precisión en función del método de selección y decomposición de
características para 5 componentes, en las tres bases de datos de PKS.
33
33. Resultados (PKS): regiones más significativas
0
2
4
6
8
10
12
14
16
(a) t-test.
0
1
2
3
4
5
(b) Relative entropy.
0.000
0.001
0.002
0.003
0.004
0.005
(c) MWW U-test.
Figure 4: Comparación entre los diferentes métodos de filtrado, y las
regiones donde el déficit de DAT es más significativo en PPMI-DAT.
34
34. Análisis de texturas
La información sobre textura es ampliamente utilizada en
reconocimiento de patrones.
Construimos un CAD11
que utiliza características de textura para el
diagnóstico de PD (no incluye SWEDD).
11F.J. Martinez-Murcia et al (2013). Parametrization of textural patterns in 123I-ioflupane
imaging for the automatic detection of Parkinsonism. Medical Physics.
36
38. Análisis de Textura de Haralick
C∆(i, j) =
(n,m,k)
∑
p=(1,1,1)
{
1, si I(p) = i y I(p + ∆) = j
0, en otro caso
(11)
i
j
i
j
• Mide las frecuencias de pares de
valores de grises a diferentes
distancias y direcciones d ˆ∆.
• Cuantización.
• Matriz de probabilidades
P(i, j) = C∆(i,j)∑
i,j C∆(i,j) para calcular
características.
38
39. Características de Haralick
Energy =
∑
i
∑
j
P(i, j)2
(12)
Correlation =
∑
i
∑
j ijP(i,j)−µxµy
σxσy
(13)
Contrast =
Ng−1∑
n=0
n2
{
∑
|i−j|=n
P(i, j)
}
(14)
Sum Mean = 1
2
∑
i
∑
j
(iP(i, j) + jP(i, j)) (15)
Cluster Shade =
∑
i
∑
j
(i + j − µx − µy)3
P(i, j) (16)
Cluster Tendency =
∑
i
∑
j
{i + j − µx − µy}4
P(i, j) (17)
Homogeneity =
∑
i
∑
j
P(i,j)
1+|i−j| (18)
39
41. Experimentos
• Experimento 1: Umbral óptimo de definición de subvolumen.
• Experimento 2: Habilidad de cada característica de textura para
diferenciar entre PD y CTLs.
• Dos modos de variación de distancia en la GLCM: single
(individual) y cumulative (acumulativa).
• Experimento 3: Selección de características de textura.
40
46. Experimento 2: características de textura
0.4 0.6 0.8
Accuracy
Energy
Entropy
Correlation
Contrast
Variance
SumMean
Inertia
ClusterShade
ClusterTendency
Homogeneity
MaxProbability
InverseVariance
Feature
PPMIDAT
normmax
normno
0.4 0.6 0.8
Accuracy
VDLNDAT
0.4 0.6 0.8
Accuracy
VDLVDAT
Figure 7: Violin plot: distribución de las precisiones obtenidas al variar la
dirección y distancia de cálculo de la GLCM para cada característica de
textura, método de normalización y base de datos (single).
43
47. Experimento 2: características de textura
0.60
0.65
0.70
0.75
0.80
0.85
0.90
0.95
1.00
Integral Maximum Original Integral Maximum Original Integral Maximum Original
PPMI-DAT VDLN-DAT VDLV-DAT
single
cumulative
Normalización
Base de datos
Precisión
Figure 8: Precisión máxima obtenida por el sistema utilizando la
característica Cluster Tendency, en imágenes normalizadas al máximo en las
aproximaciones single y cumulative.
44
49. Experimento 3: selección de características
0.0 0.2 0.4 0.6 0.8 1.0
Proportion of selected voxels
0.75
0.80
0.85
0.90
0.95
1.00
Accuracy
0.0 0.2 0.4 0.6 0.8 1.0
Proportion of selected voxels
0.75
0.80
0.85
0.90
0.95
1.00
ttest
entropy
wilcoxon
0.0 0.2 0.4 0.6 0.8 1.0
Proportion of selected voxels
0.75
0.80
0.85
0.90
0.95
1.00
Accuracy
PPMI-DAT
VDLV-DAT
VDLN-DAT
Figure 9: Precisión promedio obtenida para cada método de selección de
características en función del número de características seleccionadas, para
las tres bases de datos DaTSCAN.
45
50. Experimento 3: selección de características
Legend
Normalización
Base de datos
Precisión
Figure 10: Máxima precisión (obtenida con diferente número de
características seleccionadas) para los distintos métodos de selección,
normalización y bases de datos.
46
51. Introducción
Proyección de imágenes 3D a mapas 2D representando
características de textura radiales, construidas sobre caminos
rectilíneos 12
o caminos que se adaptan a la estructura cerebral 13
MRI
Brain
Images
Tissue
Segmentation
Classification
(SVM)
Feature
Selection
12F.J. Martinez-Murcia et al (2016). A Spherical Brain Mapping of MR Images for the
Detection of Alzheimer’s Disease. Current Alzheimer Research.
13F.J. Martinez-Murcia et al (2016). A Structural Parametrization of the Brain Using
Hidden Markov Models-Based Paths in Alzheimer’s Disease. International Journal of
Neural Systems.
48
53. Spherical Brain Mapping
Figure 11: Ilustración del cómputo del vector de mapeo vθ,φ, en los ángulos
θ y φ y la vecindad de radio r de v. El vector de mapeo selecciona las
intensidades de los voxels que cruza, en el conjunto Vθ,φ.
49
54. Spherical Brain Mapping
Surface
vsurf = arg max
i
{Vθ,φ(i) > Ith} (19)
Number of Folds
the number of disjoint connected
subsets in Aθ,φ:
Aθ,φ = {i / Vθ,φ(i) > Ith} (20)
Thickness
vthick = arg max
i
{Vθ,φ(i) > Ith}
− arg min
i
{Vθ,φ(i) > Ith}
Average
vav =
1
N
∑
i
Vθ,φ(i) (21)
Entropy
vent =
∑
i
Vθ,φ(i) ∗ log(Vθ,φ(i)) (22)
Kurtosis
vkurt =
1
N
∑
i
(
Vθ,φ(i) − ¯Vθ,φ(i)
)4
(
1
N
∑
i
(
Vθ,φ(i) − ¯Vθ,φ(i)
)2
)2
(23)
50
59. Caminos basados en modelos ocultos de Markov
p1
p2 p3
pN
p0
Figure 15: Ilustración de la selección de cada punto en función de las
probabilidades P(I(pi)|pi) y P(pi|pN).
55
64. Experimentos
• Experimento 1: Mapas SBM y VRLBP originales con imágenes GM
y WM segmentadas y su extensión por capas. Análisis de
significancia y clasificación.
• Experimento 2: Caminos basados en HMMs. Evaluación en
datos simulados.
• Experimento 3: Caminos basados en HMMs. Uso de caminos
como selección de características, combinación de los sets de
voxels seleccionados. Construcción de mapas HMM-SBM.
Evaluación por clasificación.
• Experimento 4: Análisis de texturas sobre los caminos basados
en HMM.
59
68. Experimento 1: Análisis de significancia (VRLBP)
VRLBP (GM)
50 100 150 200 250 300 350
50
100
150
−10 −5 0 5 10
VRLBP (WM)
50 100 150 200 250 300 350
50
100
150
−10 −5 0 5 10
Figure 20: Áreas más significativas en los mapas VRLBP (GM y WM).
63
69. Experimento 1: Clasificación
Surface Thickness Num.Fold Average Entropy Kurtosis VRLBP VAF
0.0
0.2
0.4
0.6
0.8
1.0
Accuracy GM
WM
Figure 21: Precisión obtenida por un SVM lineal en cada una de las medidas
SBM sobre mapas GM y WM, y comparadas con la aproximación VAF.
64
71. Experimento 3: Caminos como selección de características
0.5
0.55
0.6
0.65
0.7
0.75
0.8
0.85
0.9
0.95
1
Figure 23: Precisión obtenida con el conjunto de intensidades Vθ,φ
seleccionados por cada camino (en color).
66
72. Experimento 3: Caminos como selección de características
Selección Lado Precisión Sensibilidad Especificidad
Todos
I 0.769 ± 0.035 0.717 ± 0.061 0.822 ± 0.057
D 0.792 ± 0.080 0.706 ± 0.120 0.878 ± 0.101
- 0.806 ± 0.069 0.733 ± 0.073 0.878 ± 0.097
t-test
I 0.733 ± 0.037 0.694 ± 0.099 0.772 ± 0.124
D 0.781 ± 0.085 0.711 ± 0.122 0.850 ± 0.083
- 0.828 ± 0.054 0.794 ± 0.095 0.861 ± 0.039
Table 2: Precisión usando todos los voxels seleccionados por los caminos
HMM.
67
73. Experimento 4: Características de textura
0.600 0.625 0.650 0.675 0.700 0.725 0.750 0.775 0.800
Precisión
Energy
Entropy
Correlation
Contrast
Homogeneity
Dissimilarity
Difference Variance
Difference Entropy
IDN
IDMN
Característica
Precisión de la clasificación
Figure 24: Precisión de las diferentes características de Haralick calculadas a
lo largo de cada camino HMM.
68
74. Introducción
El problema: alta heterogeneidad en estudios multicentro, debido a
efectos del centro de adquisición. Falsos positivos.
Propuesta: Eliminar efectos de sitio. Análisis en imágenes
reconstruídas14
.
qT1
qT2
synT1 WM
GM
DARTEL PCA
normalized
maps (X)
site group
ANOVA Λ(c)
p-values
loadings (W)
scores (S)
weights (Λ)
analysis
reconstructed
maps (X)
SWPCA
scores (S)
14F.J. Martinez-Murcia et al (2016). On the brain structure heterogeneity of autism:
Parsing out acquisition site effects with significance-weighted principal component
analysis. Human Brain Mapping.
70
78. SWPCA
1. Estimación del p-valor para cada componente usando ANOVA, en
relación con el centro de adquisición y el grupo de cada imagen.
2. Cálculo de un coeficiente λc para cada componente.
0.0 0.2 0.4 0.6 0.8 1.0
p1
0.0
0.2
0.4
0.6
0.8
1.0
(p)
Weighting Function
λc(pc, pth) = 1 − e
−pc
pth ∀pc ∈ [0, 1] (30)
3. Reconstrucción pesada: X = SΛW con Λ = diag(λ0, . . . , λc).
72
79. SWPCA
CAM LON
¡ 3
¡ 2
¡ 1
0
1
2
3
4
1 (weight= 8.32E-01)
CAM LON
2 (weight= 0.00E+ 00)
CAM LON
3 (weight= 6.14E-06)
CAM LON
4 (weight= 9.98E-01)
Figure 25: Box-plot de la distribución de las diferentes componentes en
cada centro de adquisición (AIMS-MRI). Asumimos que una mayor diferencia
entre distribuciones implica una mayor influencia del centro de adquisición
sobre ese componente, por lo que reducimos su contribución.
73
81. Experimentos
• Experimento 1: Efecto del centro de adquisición. Sitio como
etiqueta, aplicando o no SWPCA. Análisis por clasificación y VBM.
• Experimento 2: Diferencias entre grupos dentro de cada centro
de adquisición. Rendimiento de un clasificador en las bases de
datos CAM y LON.
• Experimento 3: Efecto de SWPCA en las diferencias entre grupos.
Análisis por clasificación y VBM.
74
83. Experimento 1: Diferencias entre centros
-9.3
-4.7
0
4.7
9.3
-5.9
-3
0
3
5.9- S
-5.3
-2.7
0
2.7
5.3
-4.5
-2.3
0
2.3
4.5W
Figure 26: t-maps de diferencias significativas entre centros, antes y después
de SWPCA (synT1 y GM).
75
84. Experimento 1: Diferencias entre centros
0.4
0.5
0.6
0.7
0.8
0.9
1.0
GM+WM GM WM GM+WM GM WM GM+WM GM WM GM+WM GM GM+WM WM
qT1 qT2 synT1 GM WM
no-SWPCA
SWPCA
Máscara
Tejido
Precisión
Figure 27: Rendimiento en clasificación de LON vs CAM.
76
88. Experimento 3: Diferencias entre grupos (SWPCA)
L R
z=-26
L R
z=-16
L R
z=-6
L R
z=4
L R
z=14
L R
z=24
L R
z=34
L R
z=48
L R
z=60
L R
z=-26
L R
z=-16
L R
z=-6
L R
z=4
L R
z=14
L R
z=24
L R
z=34
L R
z=48
L R
z=60 -5.1
-2.6
0
2.6
5.1L R
z=-46
GM (GM+WM) - SWPCA
Figure 29: t-maps de diferencias significativas entre centros, antes y después
de SWPCA (synT1 y GM).
78
89. Experimento 3: Diferencias entre grupos (SWPCA)
0.4
0.5
0.6
0.7
0.8
0.9
1.0
Máscara
Tejido
Precisión
GM GM+WM WM GM GM+WM WM GM GM+WM WM GM GM+WM WM
GM WM qT1 qT2 synT1
SWPCA
no-SWPCA
Figure 30: Rendimiento en clasificación en ASD vs CTL (con y sin SWPCA).
79
90. Introducción
El problema: pequeño número de muestras disponibles en estudios
de imagen nuclear.
Propuesta: Aumentar el número de datos de cada clase disponible
mediante síntesis.
loadings
scores
BASE DE
DATOS
PCA
scores
generados
BASE DE
DATOS
SINTÉTICA
MODELADO PDF
CTL
MCI
AD
loadings
81
92. El espacio eigenbrain
Descomposición PCA:
X = SW (31)
Extracción de component loadings
(base de un espacio
c-dimensional), también
conocidos como eigenbrains, y
component scores, las
coordenadas de cada sujeto en el
espacio eigenbrain.
Group
MCI
AD
Normal
Componente0
Componente 1
82
95. Estimación de PDF
ˆfc
mvn(x) =
1
(2π)N/2 |Σc
|
1/2
exp
(
(x − µc
)T
Σ−1
c (x − µc
)
2
)
(32)
ˆfi,c
kde(x) =
1
Nc
Nc∑
l=1
Kh
(
x − Si,c
l
)
=
1
Nch
Nc∑
l=1
K
(
x − Si,c
l
h
)
(33)
−60 −40 −20 0 20 40 60
0.000
0.005
0.010
0.015
0.020
0.025
0.030
Class Normal (1st component)
MVN
KDE
Histogram
−60 −40 −20 0 20 40 60 80
0.000
0.005
0.010
0.015
0.020
0.025
0.030
Class MCI (1st component)
MVN
KDE
Histogram
−75 −50 −25 0 25 50 75 100
0.000
0.005
0.010
0.015
0.020
0.025
0.030
Class AD (1st component)
MVN
KDE
Histogram
Figure 31: Comparación entre las estimaciones de PDF mediante MVN y KDE
en la primera componente, con referencia del histograma.
84
97. Generación de coordenadas
s1
s2
q2
q1
Figure 32: Para generar las nuevas coordenadas si en espacio eigenbrain, se
generan query points (qi) de una distribución uniforme y se convierten
usando la CDF.
85
99. Experimentos
Hemos probado el algoritmo de síntesis en las bases ADNI-PET y
PPMI-DAT.
• Base: VAF en cada base de datos y diferentes escenarios.
Análisis SPM adicional.
• Experimento 1: Poder predictivo de las imágenes sintéticas.
Predecir ejemplos reales con imágenes generadas a partir del
training set.
• Experimento 2: Independencia de las imágenes sintéticas:
Usamos el mismo conjunto para test y training, y hacemos test
también sobre imágenes generadas usando el conjunto de test.
86
100. Base: VAF sobre cada base de datos
0.5
0.6
0.7
0.8
0.9
1.0
AD vs CTL MCI vs AD MCI vs CTL PD vs CTL
ADNI-PET PPMI-DAT
KDE
MVN
Orig
Escenario
Base de datos
Precisión
Figure 33: Rendimiento en clasificación VAF de cada una de las bases de
imágenes originales y sintéticas.
87
101. Base: ADNI-PET
L R
L R
-12
-6
0
6
12
L R
L R
-15
-7.4
0
7.4
15
L R
L R
-15
-7.4
0
7.4
15
Figure 34: Análisis SPM de la base de datos ADNI-PET (Orig, MVN, KDE).
88
102. Base: PPMI-DAT
L R
L R
-24
-12
0
12
24
L R
L R
-29
-15
0
15
29
L R
L R
-20
-9.9
0
9.9
20
Figure 35: Análisis SPM de la base de datos PPMI-DAT (Orig, MVN, KDE).
89
103. Base
de datos
original
Validación cruzada
TRAINING
SET (ORIG)
TEST SET(ORIG)
TRAINING SET
(SINTÉTICO)
SVM
Experimento 1
Entrenamiento
Test
Estimación
de la
precisión
Experimento 1: poder predictivo de las imágenes
sintéticas
104. Experimento 1
0.5
0.6
0.7
0.8
0.9
1.0
AD vs CTL MCI vs AD MCI vs CTL PD vs CTL
ADNI-PET PPMI-DAT
KDE
MVN
Orig
Escenario
Base de datos
Precisión
Figure 36: Rendimiento en clasificación de imágenes originales y sintéticas
bajo el experimento 1 (capacidad predictiva de las imágenes sintéticas), para
PPMI-DAT y ADNI-PET, en función del método de modelado. Se muestra VAF
de la base original para comparación.
90
105. Base
de datos
original
Validación cruzada
TRAINING
SET (ORIG)
SVM
Experimento 2
Entrenamiento
Test
TEST SET
(SINTÉTICO)
Test
(resubstitución)
Estimación
de la
precisión
(resubstitución)
Estimación
de la
precisión
Experimento 2: Independencia de las imágenes
sintéticas
106. Experimento 2
0.5
0.6
0.7
0.8
0.9
1.0
AD vs CTL MCI vs AD MCI vs CTL PD vs CTL
ADNI-PET PPMI-DAT
KDE
MVN
Orig
Escenario
Base de datos
Precisión
Figure 37: Rendimiento en clasificación de imágenes originales y sintéticas
bajo el experimento 2 (independencia de las mágenes sintéticas), para
PPMI-DAT y ADNI-PET, en función del método de modelado.
91
107. Conclusions
• Different algorithms to tackle the Small Sample Size problem.
• Decomposition: A significant computational load reduction.
Similar pattern detection in images of AD and PD. Very
generalizable systems (low dimensionality). Nuclear imaging
and smoothed structural imaging.
• Texture: Very accurate detection of PD. Differences in shape
(cluster tendency) and radiopharmaceutical distribution
(homogeneity). Pooling all → up to 97% accuracy in PPMI-DAT.
• SBM: Novel technique. Original measures (average or VRLBP)
achieve >90% accuracy in AD diagnosis. Preliminary results of
77.6% in MCI conversion. HMM paths good for morphology or
segmentation, but not for feature selection.
93
108. Conclusions
• SWPCA: Solving a common multi-centre study problem:
acquisition-related inhomogeneities larger than group
differences.
• We found that that could be a possible source of false positives
in ASD studies. ASD heterogeneity or lack of structural
differences.
• Synthesis: Massive generation of brain images sharing
characteristics with the original dataset. These images can
predict real-world images and at the same time, be independent
from the original image set.
• All these algorithms and frameworks are complementary.
Mixture of feature extraction and sample increasing strategies.
94
109. Trabajo futuro
Dos líneas fundamentales:
• Profundizar en marcadores de progresión de neurodegeneración
en imágenes estructurales.
• Análisis de redes funcionales en fMRI.
95