Avances Metodológicos en el
Análisis Funcional de
Estudios Genómicos
David Montaner González
Departamento de Bioquímica y Biología Molecular
Universidad de Valencia
Programa de Doctorado en Biotecnología
Tésis dirigida por Joaquín Dopazo Blázquez
18 Julio de 2013

David Montaner

Análisis Funcional de Datos Genómicos

1/24
Compendio de Publicaciones

2006 Next station in microarray data analysis: GEPAS.
2008 New trends in the analysis of functional genomic data.
2009 Gene set internal coherence in the context of functional
profiling.
2010 Multidimensional gene set analysis of genomic data.

David Montaner

Análisis Funcional de Datos Genómicos

2/24
Análisis Funcional de Datos Genómicos
Interpretación de datos recogidos en experimentos genómicos

DATOS ←− INFORMACI ÓN CONOCIDA

• Interesa entender la función que realizan los genes
• Miles de variables: los genes
• Cientos de bases de datos: la información “conocida”
• Necesita metodologías estadísticas
• Necesita herramientas bioinformáticas
David Montaner

Análisis Funcional de Datos Genómicos

3/24
Datos Genómicos I
Datos experimentales:
• medidas relativas a los genes: expresión, metilación,

número de copias, pérdida de heterocigosidad . . .
• no siempre recolectados en laboratorio
• recogidos para responder cuestiones planteada a priori
• “universo” implícito de genes; variables en sentido

estadístico
• es información nueva que nunca nadie ha “visto” antes

David Montaner

Análisis Funcional de Datos Genómicos

4/24
Datos Genómicos II

clase
gen1
gen2
gen3
gen4
gen4

A
-0.45
-1.55
-0.89
-0.60
…

A
1.78
0.95
-1.27
-0.67
…

A
0.39
0.92
-0.18
1.44
…

David Montaner

B
-0.28
-1.41
-0.68
0.04
…

B
0.23
0.94
0.58
-0.61
…

B
-0.08
-0.30
-0.07
1.03
…

Análisis Funcional de Datos Genómicos

5/24
Análisis Datos Genómicos
Para cada gen se plantea una hipótesis estadística que
modeliza la pregunta de interés sobre el gen:
• se resume en un estadístico,

p-valor . . . o índice numérico continuo
asociado a cada gen.
• ordena los genes acorde con cierta

propiedad biológica implícita en la
pregunta.
• que debe ser interpretada . . .

David Montaner

ID
gen1
gen2
gen3
gen4
gen5
gen6
gen7
…

X
1.23
2.74
-0.34
1.32
-2.02
0.45
0.93
…

Análisis Funcional de Datos Genómicos

6/24
Bases de Datos Genómicos

Información genómica ya conocida:
• lo que sabe el investigador que plantea el problema
• la información descubierta y validada en estudios previos:

publicaciones
• la información registrada en bases de datos: anotación

David Montaner

Análisis Funcional de Datos Genómicos

7/24
Anotación de los genes
• Es generalmente información de tipo dicotómico o binario.
• Guardada como etiquetas asociadas con los genes.
• Agrupa los genes en bloques funcionales que superponen

entre si.
• Para la función biológica caracterizada por cada etiqueta,

sabemos qué genes realizan la función y cuáles no.

gen
gene1
gene2
gene3
gene1
gene2
gene4
…

Información
GO:0055114
GO:0055114
GO:0055114
GO:0044281
GO:0044281
GO:0006120
…

gene1
gene2
gene3
gene4
…

David Montaner

label 1
1
1
0
1
…

label 2
1
1
0
0
…

label 3
0
0
1
1
…

Análisis Funcional de Datos Genómicos

…
…
…
…
…
…

8/24
Análisis Funcional: Interpretación
• Cambio en la unidad

biológica de interés
• Reducción de la

cantidad de
variables estudiadas
• Interpretación

biológica más
asequible

ind.
1.23
2.74
-0.34
1.32
…
David Montaner

bloque
1
1
0
1
…

Análisis Funcional de Datos Genómicos

9/24
Metodología: Regresión Logística
Para cada bloque funcional modelizamos la probabilidad π de
que un gen pertenezca al bloque como función del índice x
calculado para dicho gen: π(x)
g1
g2
g3
g4
…

label 1 (Y)
1
1
0
1
…

index (X)
1.23
2.74
-0.34
1.32
…

log

π(x)
= κ + αx
1 − π(x)

α > 0 → asociación con índice +
α < 0 → asociación con índice −
α = 0 → no asociación

David Montaner

Análisis Funcional de Datos Genómicos

10/24
Regresión Logística: Ventajas
• Modelo estadístico clásico:

metodología validada, software disponible, . . .
• Puede ser aplicado a cualquier tipo de dato genómico ya

que sólo depende del índice derivado.
• Permite un análisis modular ; interesante por la facilidad de

computo y por la sencillez de la interpretación.
• Permite controlar otro tipo de variables, ej. la longitud de

los genes.
• Permite incluir no sólo una, sino varias variables

genómicas para interpretar funcionalmente a la vez:
análisis multidimensional
• Permite incluir pesos que moderen la importancia

asignada a cada gen dentro del bloque
David Montaner

Análisis Funcional de Datos Genómicos

11/24
Análisis Multidimensional
Datos experimentales medidos para varias características
genómicas a la vez; por ejemplo expresión diferencial y
metilación diferencial.
Bloque
1
1
0
1
0
0
0
…

exp.
1.23
2.74
-0.34
1.32
-2.02
0.45
0.93
…

met.
-2.3
1.4
-0.1
1.5
2.0
-1.9
0.8
…

log

π
= κ + α x1 + β x2 + γ x1 x2
1−π

La interpretación se realiza según el
signo de los coeficientes α, β y γ.

David Montaner

Análisis Funcional de Datos Genómicos

12/24
Análisis Multidimensional
La estimación de los parámetros en la ecuación nos permite
encontrar y definir la dependencia de un bloque funcional
respecto de dos características genómicas a la vez.
log

π
= κ + α x1 + β x2 + γ x1 x2
1−π
α = 0
β > 0
(pattern: yh)

γ = 0

+Y
α < 0
β > 0
(pattern: q2f)
α < 0
β = 0
(pattern: xl)

 

David Montaner

α > 0
β > 0
(pattern: q1f)
+X
α > 0
β < 0
(pattern: q4f)

α < 0
β < 0
(pattern: q3f)

α > 0
β = 0
(pattern: xh)

α = 0
β < 0
 
(pattern: yl)

Análisis Funcional de Datos Genómicos

13/24
Patrón estándar univariante
α = 0
β > 0
(pattern: yh)

γ = 0

+Y
α < 0
β > 0
(pattern: q2f)

α > 0
β > 0
(pattern: q1f)

α < 0
β < 0
(pattern: q3f)

α < 0
β = 0
(pattern: xl)

α > 0
β < 0
(pattern: q4f)

+X

α > 0
β = 0
(pattern: xh)

α = 0
β < 0
 
(pattern: yl)

 

γ < 0

γ > 0

Quadrant 2 +Y
α < 0
β > 0
(pattern: q2i)

+Y

+X

Quadrant 1
α > 0
β > 0
(pattern: q1i)

γ > 0

γ < 0
+Y

 

+X

Quadrant 3
α < 0
β < 0
(pattern: q3i)

γ > 0

+X

+Y

+X

+Y

 

Quadrant 4
α > 0
β < 0
(pattern: q3i)

Quadrant 1
α = 0
β = 0
(pattern: b13)
+X

Quadrant 3
α = 0
β = 0
(pattern: b13)

Quadrant 2
+Y
α = 0
β = 0
(pattern: b24)

γ < 0
+X

 

 

Quadrant 4
α = 0
β = 0
(pattern: b24)

David Montaner

Análisis Funcional de Datos Genómicos

14/24
Patrón de interacción
α = 0
β > 0
(pattern: yh)

γ = 0

+Y
α < 0
β > 0
(pattern: q2f)

α > 0
β > 0
(pattern: q1f)

α < 0
β < 0
(pattern: q3f)

α < 0
β = 0
(pattern: xl)

α > 0
β < 0
(pattern: q4f)

+X

α > 0
β = 0
(pattern: xh)

α = 0
β < 0
 
(pattern: yl)

 

γ < 0

γ > 0

Quadrant 2 +Y
α < 0
β > 0
(pattern: q2i)

+Y

+X

Quadrant 1
α > 0
β > 0
(pattern: q1i)

γ > 0

γ < 0
+Y

 

+X

Quadrant 3
α < 0
β < 0
(pattern: q3i)

γ > 0

+X

+Y

+X

+Y

 

Quadrant 4
α > 0
β < 0
(pattern: q3i)

Quadrant 1
α = 0
β = 0
(pattern: b13)
+X

Quadrant 3
α = 0
β = 0
(pattern: b13)

Quadrant 2
+Y
α = 0
β = 0
(pattern: b24)

γ < 0
+X

 

 

Quadrant 4
α = 0
β = 0
(pattern: b24)

David Montaner

Análisis Funcional de Datos Genómicos

15/24
Patrón bimodal
α = 0
β > 0
(pattern: yh)

γ = 0

+Y
α < 0
β > 0
(pattern: q2f)

α > 0
β > 0
(pattern: q1f)

α < 0
β < 0
(pattern: q3f)

α < 0
β = 0
(pattern: xl)

α > 0
β < 0
(pattern: q4f)

+X

α > 0
β = 0
(pattern: xh)

α = 0
β < 0
 
(pattern: yl)

 

γ < 0

γ > 0

Quadrant 2 +Y
α < 0
β > 0
(pattern: q2i)

+Y

+X

Quadrant 1
α > 0
β > 0
(pattern: q1i)

γ > 0

γ < 0
+Y

 

+X

Quadrant 3
α < 0
β < 0
(pattern: q3i)

γ > 0

+X

+Y

+X

+Y

 

Quadrant 4
α > 0
β < 0
(pattern: q3i)

Quadrant 1
α = 0
β = 0
(pattern: b13)
+X

Quadrant 3
α = 0
β = 0
(pattern: b13)

Quadrant 2
+Y
α = 0
β = 0
(pattern: b24)

γ < 0
+X

 

 

Quadrant 4
α = 0
β = 0
(pattern: b24)

David Montaner

Análisis Funcional de Datos Genómicos

16/24
Análisis ponderado
No todos los genes son igual de importantes dentro de cada
bloque funcional. Los modelos logísticos nos permiten tener en
cuenta la importancia de cada gen en el análisis de cada uno
de los bloques.

Datos con pesos
Bloque
1
1
0
1
0
0
0

Indice
1.23
2.74
-0.34
1.32
-2.02
0.45
0.93

Peso
0.1
0.3
0.2
0.1
0.1
0.1
0.1

David Montaner

Datos sin pesos “equivalentes”
Bloque
1
1
1
1
0
0
1
0
0
0

Indice
1.23
2.74
2.74
2.74
-0.34
-0.34
1.32
-2.02
0.45
0.93

Peso
0.1
0.1
0.1
0.1
0.1
0.1
0.1
0.1
0.1
0.1

Análisis Funcional de Datos Genómicos

∗
∗
∗
+
+

17/24
Estimación empírica de la
importancia de cada gen
• 3000 arrays bajados de GEO (30.000 en siguientes

versiones del estudio).
• Estimación de la correlación entre cada gen y cada bloque

funcional (GO y KEGG)
• Derivamos una distancia entre cada gen y cada bloque

funcional. Esta distancia representa lo coherente que es el
gen dentro del bloque.
• Usamos la inversa de la distancia para ponderar cada gen
en el análisis de cada bloque funcional.
Resultados
• El método logístico ponderado es más sensible y detecta
más bloques enriquecidos.
• Un primer modelo para trabajar con la idea de pertenencia
no discreta de un gen a una función.
David Montaner

Análisis Funcional de Datos Genómicos

18/24
Coherencia interna de los bloques I
Los métodos de análisis funcional para datos de expresión
asumen implícitamente que los genes dentro de los bloques
están correlacionada.
Sin embargo esto no se había evaluado nunca antes con datos
reales:
• Estimación de la correlación entre cada pareja de genes.
• Estimación de la correlación media de grupos de genes de

distintos tamaños seleccionados de forma aleatoria.
• Comparación de la correlación interna de los bloques de

GO y de KEGG con bloques aleatorios del mismo tamaño.
• Derivamos un índice de coherencia interna para cada

bloque funcional.

David Montaner

Análisis Funcional de Datos Genómicos

19/24
Coherencia interna de los bloques II
• La coherencia interna de

los bloques en general es
incluso menor de lo
esperado.
• El índice de coherencia

estimado para cada bloque
nos permite filtrar los
bloques no coherentes
antes de introducirlos en el
análisis funcional.

David Montaner

Análisis Funcional de Datos Genómicos

20/24
Conclusiones I
1

La regresión logística es una metodología apropiada para
realizar análisis de enriquecimiento funcional.

2

El análisis funcional combinado de varias características
genómicas es viable además de biológicamente relevante.

3

Los bloques funcionales de genes descritos en las bases
de datos son, en ultima instancia, entidades heterogéneas.
Esta heterogeneidad puede ser estimada a partir de datos
previos y dicha estimación utilizada para realizar análisis
de enriquecimiento funcional más precisos.

4

Las rutas de KEGG y los bloques descritos en el Gene
Ontology son internamente menos coherente de lo
esperado en lo que respecta a la expresión génica.
David Montaner

Análisis Funcional de Datos Genómicos

21/24
Conclusiones II
5

En todo experimento genómico hay implícito un “universo”
de genes del que depende la interpretación de los
resultados.

6

Los genes que muestran los mayores cambios o
diferencias de expresión en un estudio no son siempre los
más relevantes desde el punto de vista biológico.

7

Los métodos de enriquecimiento funcional incrementan la
potencia del análisis ya que:
• incorporan la información adicional de la anotación.
• combinan la información de varios genes.
• reducen el espacio de variables observadas (del espacio

de genes al espacio de bloques).

David Montaner

Análisis Funcional de Datos Genómicos

22/24
Conclusiones III
8

La separación de los diferentes pasos del análisis en
módulos facilita la implementación de algoritmos, el trabajo
de análisis y, sobre todo, la interpretación biológica de los
resultados.

9

Desde el punto de vista estadístico es interesante resaltar
que, en el enfoque modular, los propios resultados
estadísticos de un paso del análisis se convierten en los
nuevos datos para analizar en el paso siguiente.

10

La presentación adecuada de los resultados de
experimentos genómicos es esencial, no sólo por estética,
sino por que su comprensión y exploración depende de
dicha presentación.

David Montaner

Análisis Funcional de Datos Genómicos

23/24
Conclusiones IV

11

Incluir varios métodos para realizar el mismo estudio
estadístico en el software de análisis genómico ayuda al
usuario a entender los resultados de forma intuitiva.

12

Las herramientas web son una forma eficiente y cómoda
de hacer disponibles los nuevos métodos a los
investigadores.

David Montaner

Análisis Funcional de Datos Genómicos

24/24

Dmontaner dissertation slides

  • 1.
    Avances Metodológicos enel Análisis Funcional de Estudios Genómicos David Montaner González Departamento de Bioquímica y Biología Molecular Universidad de Valencia Programa de Doctorado en Biotecnología Tésis dirigida por Joaquín Dopazo Blázquez 18 Julio de 2013 David Montaner Análisis Funcional de Datos Genómicos 1/24
  • 2.
    Compendio de Publicaciones 2006Next station in microarray data analysis: GEPAS. 2008 New trends in the analysis of functional genomic data. 2009 Gene set internal coherence in the context of functional profiling. 2010 Multidimensional gene set analysis of genomic data. David Montaner Análisis Funcional de Datos Genómicos 2/24
  • 3.
    Análisis Funcional deDatos Genómicos Interpretación de datos recogidos en experimentos genómicos DATOS ←− INFORMACI ÓN CONOCIDA • Interesa entender la función que realizan los genes • Miles de variables: los genes • Cientos de bases de datos: la información “conocida” • Necesita metodologías estadísticas • Necesita herramientas bioinformáticas David Montaner Análisis Funcional de Datos Genómicos 3/24
  • 4.
    Datos Genómicos I Datosexperimentales: • medidas relativas a los genes: expresión, metilación, número de copias, pérdida de heterocigosidad . . . • no siempre recolectados en laboratorio • recogidos para responder cuestiones planteada a priori • “universo” implícito de genes; variables en sentido estadístico • es información nueva que nunca nadie ha “visto” antes David Montaner Análisis Funcional de Datos Genómicos 4/24
  • 5.
    Datos Genómicos II clase gen1 gen2 gen3 gen4 gen4 A -0.45 -1.55 -0.89 -0.60 … A 1.78 0.95 -1.27 -0.67 … A 0.39 0.92 -0.18 1.44 … DavidMontaner B -0.28 -1.41 -0.68 0.04 … B 0.23 0.94 0.58 -0.61 … B -0.08 -0.30 -0.07 1.03 … Análisis Funcional de Datos Genómicos 5/24
  • 6.
    Análisis Datos Genómicos Paracada gen se plantea una hipótesis estadística que modeliza la pregunta de interés sobre el gen: • se resume en un estadístico, p-valor . . . o índice numérico continuo asociado a cada gen. • ordena los genes acorde con cierta propiedad biológica implícita en la pregunta. • que debe ser interpretada . . . David Montaner ID gen1 gen2 gen3 gen4 gen5 gen6 gen7 … X 1.23 2.74 -0.34 1.32 -2.02 0.45 0.93 … Análisis Funcional de Datos Genómicos 6/24
  • 7.
    Bases de DatosGenómicos Información genómica ya conocida: • lo que sabe el investigador que plantea el problema • la información descubierta y validada en estudios previos: publicaciones • la información registrada en bases de datos: anotación David Montaner Análisis Funcional de Datos Genómicos 7/24
  • 8.
    Anotación de losgenes • Es generalmente información de tipo dicotómico o binario. • Guardada como etiquetas asociadas con los genes. • Agrupa los genes en bloques funcionales que superponen entre si. • Para la función biológica caracterizada por cada etiqueta, sabemos qué genes realizan la función y cuáles no. gen gene1 gene2 gene3 gene1 gene2 gene4 … Información GO:0055114 GO:0055114 GO:0055114 GO:0044281 GO:0044281 GO:0006120 … gene1 gene2 gene3 gene4 … David Montaner label 1 1 1 0 1 … label 2 1 1 0 0 … label 3 0 0 1 1 … Análisis Funcional de Datos Genómicos … … … … … … 8/24
  • 9.
    Análisis Funcional: Interpretación •Cambio en la unidad biológica de interés • Reducción de la cantidad de variables estudiadas • Interpretación biológica más asequible ind. 1.23 2.74 -0.34 1.32 … David Montaner bloque 1 1 0 1 … Análisis Funcional de Datos Genómicos 9/24
  • 10.
    Metodología: Regresión Logística Paracada bloque funcional modelizamos la probabilidad π de que un gen pertenezca al bloque como función del índice x calculado para dicho gen: π(x) g1 g2 g3 g4 … label 1 (Y) 1 1 0 1 … index (X) 1.23 2.74 -0.34 1.32 … log π(x) = κ + αx 1 − π(x) α > 0 → asociación con índice + α < 0 → asociación con índice − α = 0 → no asociación David Montaner Análisis Funcional de Datos Genómicos 10/24
  • 11.
    Regresión Logística: Ventajas •Modelo estadístico clásico: metodología validada, software disponible, . . . • Puede ser aplicado a cualquier tipo de dato genómico ya que sólo depende del índice derivado. • Permite un análisis modular ; interesante por la facilidad de computo y por la sencillez de la interpretación. • Permite controlar otro tipo de variables, ej. la longitud de los genes. • Permite incluir no sólo una, sino varias variables genómicas para interpretar funcionalmente a la vez: análisis multidimensional • Permite incluir pesos que moderen la importancia asignada a cada gen dentro del bloque David Montaner Análisis Funcional de Datos Genómicos 11/24
  • 12.
    Análisis Multidimensional Datos experimentalesmedidos para varias características genómicas a la vez; por ejemplo expresión diferencial y metilación diferencial. Bloque 1 1 0 1 0 0 0 … exp. 1.23 2.74 -0.34 1.32 -2.02 0.45 0.93 … met. -2.3 1.4 -0.1 1.5 2.0 -1.9 0.8 … log π = κ + α x1 + β x2 + γ x1 x2 1−π La interpretación se realiza según el signo de los coeficientes α, β y γ. David Montaner Análisis Funcional de Datos Genómicos 12/24
  • 13.
    Análisis Multidimensional La estimaciónde los parámetros en la ecuación nos permite encontrar y definir la dependencia de un bloque funcional respecto de dos características genómicas a la vez. log π = κ + α x1 + β x2 + γ x1 x2 1−π α = 0 β > 0 (pattern: yh) γ = 0 +Y α < 0 β > 0 (pattern: q2f) α < 0 β = 0 (pattern: xl)   David Montaner α > 0 β > 0 (pattern: q1f) +X α > 0 β < 0 (pattern: q4f) α < 0 β < 0 (pattern: q3f) α > 0 β = 0 (pattern: xh) α = 0 β < 0   (pattern: yl) Análisis Funcional de Datos Genómicos 13/24
  • 14.
    Patrón estándar univariante α = 0 β > 0 (pattern: yh) γ = 0 +Y α < 0 β > 0 (pattern: q2f) α > 0 β > 0 (pattern: q1f) α < 0 β < 0 (pattern: q3f) α < 0 β = 0 (pattern: xl) α > 0 β < 0 (pattern: q4f) +X α > 0 β = 0 (pattern: xh) α = 0 β < 0   (pattern: yl)   γ < 0 γ > 0 Quadrant 2+Y α < 0 β > 0 (pattern: q2i) +Y +X Quadrant 1 α > 0 β > 0 (pattern: q1i) γ > 0 γ < 0 +Y   +X Quadrant 3 α < 0 β < 0 (pattern: q3i) γ > 0 +X +Y +X +Y   Quadrant 4 α > 0 β < 0 (pattern: q3i) Quadrant 1 α = 0 β = 0 (pattern: b13) +X Quadrant 3 α = 0 β = 0 (pattern: b13) Quadrant 2 +Y α = 0 β = 0 (pattern: b24) γ < 0 +X     Quadrant 4 α = 0 β = 0 (pattern: b24) David Montaner Análisis Funcional de Datos Genómicos 14/24
  • 15.
    Patrón de interacción α = 0 β > 0 (pattern: yh) γ = 0 +Y α < 0 β > 0 (pattern: q2f) α > 0 β > 0 (pattern: q1f) α < 0 β < 0 (pattern: q3f) α < 0 β = 0 (pattern: xl) α > 0 β < 0 (pattern: q4f) +X α > 0 β = 0 (pattern: xh) α = 0 β < 0   (pattern: yl)   γ < 0 γ > 0 Quadrant 2+Y α < 0 β > 0 (pattern: q2i) +Y +X Quadrant 1 α > 0 β > 0 (pattern: q1i) γ > 0 γ < 0 +Y   +X Quadrant 3 α < 0 β < 0 (pattern: q3i) γ > 0 +X +Y +X +Y   Quadrant 4 α > 0 β < 0 (pattern: q3i) Quadrant 1 α = 0 β = 0 (pattern: b13) +X Quadrant 3 α = 0 β = 0 (pattern: b13) Quadrant 2 +Y α = 0 β = 0 (pattern: b24) γ < 0 +X     Quadrant 4 α = 0 β = 0 (pattern: b24) David Montaner Análisis Funcional de Datos Genómicos 15/24
  • 16.
    Patrón bimodal α = 0 β > 0 (pattern: yh) γ = 0 +Y α < 0 β > 0 (pattern: q2f) α > 0 β > 0 (pattern: q1f) α < 0 β < 0 (pattern: q3f) α < 0 β = 0 (pattern: xl) α > 0 β < 0 (pattern: q4f) +X α > 0 β = 0 (pattern: xh) α = 0 β < 0   (pattern: yl)   γ < 0 γ > 0 Quadrant 2 +Y α < 0 β > 0 (pattern: q2i) +Y +X Quadrant 1 α > 0 β > 0 (pattern: q1i) γ > 0 γ < 0 +Y   +X Quadrant 3 α < 0 β < 0 (pattern: q3i) γ > 0 +X +Y +X +Y   Quadrant 4 α > 0 β < 0 (pattern: q3i) Quadrant 1 α = 0 β = 0 (pattern: b13) +X Quadrant 3 α = 0 β = 0 (pattern: b13) Quadrant 2 +Y α = 0 β = 0 (pattern: b24) γ < 0 +X     Quadrant 4 α = 0 β = 0 (pattern: b24) DavidMontaner Análisis Funcional de Datos Genómicos 16/24
  • 17.
    Análisis ponderado No todoslos genes son igual de importantes dentro de cada bloque funcional. Los modelos logísticos nos permiten tener en cuenta la importancia de cada gen en el análisis de cada uno de los bloques. Datos con pesos Bloque 1 1 0 1 0 0 0 Indice 1.23 2.74 -0.34 1.32 -2.02 0.45 0.93 Peso 0.1 0.3 0.2 0.1 0.1 0.1 0.1 David Montaner Datos sin pesos “equivalentes” Bloque 1 1 1 1 0 0 1 0 0 0 Indice 1.23 2.74 2.74 2.74 -0.34 -0.34 1.32 -2.02 0.45 0.93 Peso 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 Análisis Funcional de Datos Genómicos ∗ ∗ ∗ + + 17/24
  • 18.
    Estimación empírica dela importancia de cada gen • 3000 arrays bajados de GEO (30.000 en siguientes versiones del estudio). • Estimación de la correlación entre cada gen y cada bloque funcional (GO y KEGG) • Derivamos una distancia entre cada gen y cada bloque funcional. Esta distancia representa lo coherente que es el gen dentro del bloque. • Usamos la inversa de la distancia para ponderar cada gen en el análisis de cada bloque funcional. Resultados • El método logístico ponderado es más sensible y detecta más bloques enriquecidos. • Un primer modelo para trabajar con la idea de pertenencia no discreta de un gen a una función. David Montaner Análisis Funcional de Datos Genómicos 18/24
  • 19.
    Coherencia interna delos bloques I Los métodos de análisis funcional para datos de expresión asumen implícitamente que los genes dentro de los bloques están correlacionada. Sin embargo esto no se había evaluado nunca antes con datos reales: • Estimación de la correlación entre cada pareja de genes. • Estimación de la correlación media de grupos de genes de distintos tamaños seleccionados de forma aleatoria. • Comparación de la correlación interna de los bloques de GO y de KEGG con bloques aleatorios del mismo tamaño. • Derivamos un índice de coherencia interna para cada bloque funcional. David Montaner Análisis Funcional de Datos Genómicos 19/24
  • 20.
    Coherencia interna delos bloques II • La coherencia interna de los bloques en general es incluso menor de lo esperado. • El índice de coherencia estimado para cada bloque nos permite filtrar los bloques no coherentes antes de introducirlos en el análisis funcional. David Montaner Análisis Funcional de Datos Genómicos 20/24
  • 21.
    Conclusiones I 1 La regresiónlogística es una metodología apropiada para realizar análisis de enriquecimiento funcional. 2 El análisis funcional combinado de varias características genómicas es viable además de biológicamente relevante. 3 Los bloques funcionales de genes descritos en las bases de datos son, en ultima instancia, entidades heterogéneas. Esta heterogeneidad puede ser estimada a partir de datos previos y dicha estimación utilizada para realizar análisis de enriquecimiento funcional más precisos. 4 Las rutas de KEGG y los bloques descritos en el Gene Ontology son internamente menos coherente de lo esperado en lo que respecta a la expresión génica. David Montaner Análisis Funcional de Datos Genómicos 21/24
  • 22.
    Conclusiones II 5 En todoexperimento genómico hay implícito un “universo” de genes del que depende la interpretación de los resultados. 6 Los genes que muestran los mayores cambios o diferencias de expresión en un estudio no son siempre los más relevantes desde el punto de vista biológico. 7 Los métodos de enriquecimiento funcional incrementan la potencia del análisis ya que: • incorporan la información adicional de la anotación. • combinan la información de varios genes. • reducen el espacio de variables observadas (del espacio de genes al espacio de bloques). David Montaner Análisis Funcional de Datos Genómicos 22/24
  • 23.
    Conclusiones III 8 La separaciónde los diferentes pasos del análisis en módulos facilita la implementación de algoritmos, el trabajo de análisis y, sobre todo, la interpretación biológica de los resultados. 9 Desde el punto de vista estadístico es interesante resaltar que, en el enfoque modular, los propios resultados estadísticos de un paso del análisis se convierten en los nuevos datos para analizar en el paso siguiente. 10 La presentación adecuada de los resultados de experimentos genómicos es esencial, no sólo por estética, sino por que su comprensión y exploración depende de dicha presentación. David Montaner Análisis Funcional de Datos Genómicos 23/24
  • 24.
    Conclusiones IV 11 Incluir variosmétodos para realizar el mismo estudio estadístico en el software de análisis genómico ayuda al usuario a entender los resultados de forma intuitiva. 12 Las herramientas web son una forma eficiente y cómoda de hacer disponibles los nuevos métodos a los investigadores. David Montaner Análisis Funcional de Datos Genómicos 24/24