1. Gene Classification
Issues and Challenges for
Relational Learning
Autor: Jorge Soro Doménech
Asignatura: Minería de Datos Relacionales 1
Master: MISMFSI
2. INDICE
1. ABSTRACCIÓN
2. MOTIVACIÓN Y INTRODUCCIÓN
3. DATOS Y PROPIEDADES DEL DOMINIO
4. MÉTODO Y RETOS
4.1. Problemas
4.2. Soluciones potenciales
5. RESULTADOS EXPERIMENTALES
5.1. Enfoque
5.2. Conjuntos ordenados y secuencias: Aprendizaje
sobre la segunda estructura
5.3. Similitud y relaciones inciertas
5.4. Actuaciones a través de clases
6. RESUMEN Y CONCLUSIONES
7. BIBLIOGRAFÍA 2
4. 1. ABSTRACCIÓN
• Se presenta la investigación del comportamiento que se aplica a las
técnicas estadísticas del aprendizaje relacional, en particular la
proposicionalización, que interesa y desafía al mundo real en el
dominio funcional de la clasificación genética del “Yeast Genome
Sach-haromyces Cerevisiae”.
• El principal objetivo es identificar y describir la estructura del
dominio y las propiedades estadísticas de este.
• Se discute en términos generales las diferentes propiedades del
dominio en el mundo real y se exploran los diferentes enfoques que
conducen a un sistema Framework que es usado para el aprendizaje
relacional, este es Automated Construction Of Relational Attributes
(ACORA).
4
6. 2. MOTIVACIÓN Y INTRODUCCIÓN
• El campo del aprendizaje multi-relacional ha progresado
considerablemente en la última década debido a la gran actividad en
la investigación.
• Sin embargo, todavía se tiene que demostrar que las herramientas
disponibles puedan manejar una gran cantidad de problemas del
mundo real que implican ruido, escasez y datos complejos.
• En el año 2005, en la Inductive Logic Programming Conference (ILP)
se introdujo un reto que consistía en la evaluación del aprendizaje
relacional con las técnicas existentes dado un conjunto de datos
genéticos (Yeast genoma).
6
7. 2. MOTIVACIÓN Y INTRODUCCIÓN
• El conjunto de datos genéticos tiene un número de propiedades que
pueden ser usadas como punto de referencia:
• disponibilidad pública,
• gran interés científico,
• un tamaño razonable,
• predicabilidad limitada con margen de mejora,
• y retos en las propiedades estructurales.
7
9. 3. DATOS Y PROPIEDADES DEL DOMINIO
• La estructura relacional, en particular la del dominio de la
genética, tiene múltiples orígenes:
• la complejidad de la estructura del objeto de interés (los genes).
• la cantidad de información producida por la variedad de
experimentos del genoma, tales como la secuencia del genoma.
• La información obtenida es fácilmente representada en una
base de datos relacional.
9
10. 3. DATOS Y PROPIEDADES DEL DOMINIO
• La primera tabla Functional Class Annotation consiste en las
anotaciones funcionales de algunos de los genes basadas en un
esquema de clasificación jerárquica funcional llamado Fun-Cat.
• Las clases se organizan en arboles Fun-Cat y es posible que un gen tenga
múltiples etiquetas de clase a través de los árboles.
10
11. 3. DATOS Y PROPIEDADES DEL DOMINIO
• La segunda tabla Yeast-Yeast Homology contiene información sobre
la similitud entre los genes del genoma Yeast.
• Por otra parte, cabe destacar el Basic Local Alignment Search Tool
(BLAST) es un software que es capaz de comparar una secuencia
(ADN o proteína) con una gran cantidad de secuencias que se
encuentren en una base de datos.
• Es importante tener en cuenta que las puntuaciones de similitud
están disponibles sólo para algunos pares de genes y la ausencia de
una puntuación no implica un cero o infinito. 11
12. 3. DATOS Y PROPIEDADES DEL DOMINIO
• El tercer origen de datos Yeast-SwissProt Homology es similar
a las puntuaciones de similitud entre los genes Yeast y las
proteínas en el SwissProt .
• Añadiendo a las puntuaciones de similitud anteriores (Tabla
3), se tiene la Tabla 4, que representa el conjunto de
características de las proteínas.
12
13. 3. DATOS Y PROPIEDADES DEL DOMINIO
• El cuarto y último origen de datos es la estructura secundaria
que representa el conjunto de datos en el cual se proporciona
la estructura secundaria de las proteínas sintetizadas de cada
uno de los genes en el genoma Yeast.
• Esta estructura secundaria está representada por una
secuencia de tres símbolos a (alfa), b (beta) y c (hélice)
correspondiente a los componentes estructurales indicados
entre paréntesis.
13
14. 3. DATOS Y PROPIEDADES DEL DOMINIO
• La siguiente figura muestra la estructura secundaria de la
proteína generada por uno de los Yeast gens.
• De cada una de estas secuencias de la proteína, se representa
el orden de aparición, el tipo y la longitud de la sección, como
en la Tabla 5.
14
15. 3. DATOS Y PROPIEDADES DEL DOMINIO
• Podemos identificar una serie de propiedades:
• Weighted links: Las dos tablas de Homology (2 y 3) no capturan
una relación bien definida entre pares de un objeto (es decir, si
existe relación o no).
15
16. 3. DATOS Y PROPIEDADES DEL DOMINIO
• Sparse data: Un estudio en las tablas de Homology revela un alto
grado de dispersión. Algunos genes tienen muchas entradas,
otros muchos sólo una.
• Ordered data: Las bases de datos relacionales sólo tienen una
interpretación establecida. El orden se expresa por la
introducción de un campo numérico que realiza un seguimiento
de la posición relativa.
• Multiple class-hierarchies: La particular estructura de la clase de
este dominio genético no es una propiedad relacional.
16
18. 4.MÉTODO Y RETOS
• Muchos enfoques relacionales parecen adecuados para el
aprendizaje la tarea de clasificación en el dominio de la genética.
• Utilizamos un enfoque de proposicionalización que construye las
características de la información en las tablas.
• El algoritmo utiliza una amplitud de búsqueda (la profundidad
deseada se ajusta por el usuario) sobre todas las posibles
combinaciones en los atributos de identificación a partir de la tabla
de destino.
• Para cada combinación, se agregan todos los conjuntos de atributos
de forma independiente usando operadores tradicionales de
congregación como el promedio y el recuento, así como la
distribución de los atributos en las clases. 18
19. 4.1. PROBLEMAS
• En la estructura secundaria, si las filas son tratadas como
ejemplos aleatorios y cada una de ellas tiene sus tres atributos
agregados independientemente, las actuales secuencias se
pierden.
• Por tanto, la representación viola ambos asuntos: los campos
de la tabla son claramente independientes y las filas no son
ejemplos aleatorios.
19
20. 4.1. PROBLEMAS
• En la propiedad de Similarity deberíamos esperar que un par
de genes con puntuación similar tengan proteínas que
dispongan de la misma funcionalidad.
• En la class-conditional la independencia de la distancia del
atributo y el identificador del objeto oculta algún significado.
• En resumen, el dominio tiene una tabla con todas las
características de las proteínas. Cada característica es
claramente mas relevante si la similitud entre el objeto y el
gen corresponde en las referencias.
20
21. 4.2. SOLUCIONES POTENCIALES
• Si se puede hacer una predicción de un objeto nuevo que
nunca se ha visto, entonces se puede decir que es similar a los
objetos previamente ya vistos.
• Podemos seguir uno de los siguientes enfoques para hacer
frente a los supuestos y las propiedades del dominio:
• Cambiar las hipótesis,
• Cambiar la representación del dominio para ajustar los supuestos,
21
23. 5. RESULTADOS EXPERIMENTALES
• El principal foco de estudio es el de las características de los de
dominios y no la complejidad de la tarea de clasificación.
• Por lo tanto, se ha seleccionado inicialmente una tarea de
clasificación binaria, que implica la identificación de genes que
sintetizan las proteínas implicadas en el transporte celular (clase 20).
• Todos los resultados que se obtienen son sólo ejemplos.
23
24. 5.1 ENFOQUE
• Inicialmente, vamos a fingir que no sabemos nada acerca del dominio
principal y del significado de los campos de la base de datos.
• En particular, no haremos caso de la falta de correspondencia entre la
semántica del dominio y los supuestos del método.
• Los resultados de estos experimentos se muestran en la Tabla 6.
24
25. 5.2. CONJUNTOS ORDENADOS Y SECUENCIAS:
APRENDIZAJE SOBRE LA SEGUNDA ESTRUCTURA
• Consideramos un ejemplo de una estructura secundaria con una secuencia
de información del gen ytq0045.
• ACORA puede extraer de la segunda estructura el numero total de
componentes, el numero de componentes de a,b,c y la duración media.
• La estructura secundaria de la correspondiente proteína es:
• Dónde denota n repeticiones de la letra z. Esta información es obtenida
a partir de la siguiente tabla:
25
26. 5.2. CONJUNTOS ORDENADOS Y SECUENCIAS:
APRENDIZAJE SOBRE LA SEGUNDA ESTRUCTURA
• El rendimiento obtenido de los modelos usando la representación
de la estructura secundaria es mostrado en la siguiente tabla.
26
27. 5.3. SIMILITUD Y RELACIONES INCIERTAS
• Consideramos de tres enfoques diferentes a tener en cuenta:
1. Seleccionar los pares sólo cuando el marcador esta por
debajo de una nota de corte.
2. Seleccionar para cada gen de un subconjunto que
representa los n objetos con menor puntuación.
3. El tratamiento de la puntuación de similitud como
probabilidad.
27
28. 5.3. SIMILITUD Y RELACIONES INCIERTAS
• Los resultados de los experimentos se muestran en la tabla 10.
Incluye en particular las propiedades del objeto y las etiquetas de
las clases de otros Yeast gens de entrenamiento (10,20,50).
• Se puede ver una clara mejora que en la tabla 6. La precisión y el
rango han aumentado significativamente.
28
29. 5.4. ACTUACIÓNES A TRAVES DE CLASES
• Finalmente se presenta en la
siguiente tabla el resultado de las
hipótesis para todas la clases,
utilizando toda la información
disponible.
• Los rangos (AUC) van desde 0.641
(para la clase 32) hasta 0,93 (para la
clase 38).
• También vemos una fuerte inclinación
de los prior de clase que van desde
0,653 para la mayoría de los común
de la clase 01 a 0,973 para la clase
por lo común 38.
• Ambas características pueden tener
un fuerte impacto para la evaluación
y el desempeño del análisis.
29
31. 6. RESUMEN Y CONCLUSIONES
• El objetivo de esta presentación es motivar la discusión de las
actuales limitaciones de los enfoques de modelado relacional.
Las limitaciones están relacionadas con las propiedades de
dominio específico y en particular, causadas por violaciones de
los distintos supuestos de independencia.
• Las propiedades son comunes a una gran variedad de ámbitos y
es necesaria una mayor atención.
• Como objetivo secundario, se motiva a más investigadores a
considerar este conjunto de datos genéticos, como una
plataforma para realizar las comparaciones de rendimiento.
• Trabajar mas este dominio podría contribuir a una mejor
31
comprensión de las capacidades relacionales de los enfoques de
aprendizaje.
33. 7.BIBLIOGRAFÍA
1. S. F. Altschul, T.L. Madden, A.A. Schaer, J. Zhang,Z. Zhang, W. Miller,
and D.J. Lipman. Gapped blast and psi-blast: a new generation of
protein database search programs. Nucleic Acids Research,
25:3389{3402, 1997.
2. A. Bairoch and R. Apweiler. The swiss-prot protein sequence database
and its supplement trembl. Nucleic Acids Research, 28:45{48, 2000.
3. A.P. Bradley. The use of the area under the ROC curve in the
evaluation of machine learning algorithms. Pattern Recognition,
30(7):1145{1159, 1997.
4. A. Clare and King R.D. Data mining the yeast genome in a lazy
functional language. In Practical Aspects of Declarative Languages
(PADL'03), 2003.
5. L. Dehaspe and L. De Raedt. DLAB: A declarative language bias
formalism. In International Syposium on Methodologies for Intelligent
Systems, pages 613{622, 1996. 33
34. 7.BIBLIOGRAFÍA
6. D. Jensen and J. Neville. Linkage and autocorrelation cause feature
selection bias in relational learning. In Proceedings of the 19th
International Conference on Machine Learning (ICML), 2002.
7. D. Jensen, J. Neville, and B. Gallagher. Why collective inference
improves relational classication. In Proceedings of the 10th
International Conference on Knowledge Discovery and Data Mining
(KDD), pages 593{598, 2004.
8. S.A. Macskassy and F. Provost. A simple relational classier. In
Proceedings of the Workshop on Multi-Relational Data Mining (KDD),
2003.
9. S.H. Muggleton. Stochastic logic programs. In Proceedings of the 5th
International Workshop on Inductive Logic Programming, page 29.
Department of Computer Science, Katholieke Universiteit Leuven,
1995.
10. M. Ouali and R.D. King. Cascaded multiple classiers for secondary 34
structure prediction. Protein Science, (9):1162{1176, 2000.
35. 7.BIBLIOGRAFÍA
11. C. Perlich and F. Provost. Aggregation-based feature invention and
relational concept classes. In Proceedings of the Ninth ACM
International Conference on Knowledge Discovery and Data
Mining (KDD), 2003.
12. C. Perlich and F. Provost. ACORA: Distribution-based aggregation
for relational learning from identier attributes. Forthcoming in
Journal of Machine Learning, 2005.
13. K. Ross, D. Ashwin, and S. Dehaspe. WARMR: A data mining tool
for chemical data. Journal of Computer Aided Molecular Design,
(15):173{181, 2001.
14. A. Ruepp, A. Zollner, D. Maier, K. Albermann, J. Hani, M. Mokrejs, I.
Tetko, U. Guldener, G. Mannhaupt, M. Munsterkotter, and HW.
Mewes. The funcat, a functional annotation scheme for systematic
classication of proteins from whole genomes. Nucleic Acids
Research, 32:5539{5545, 2004. 35