SlideShare una empresa de Scribd logo
1 de 35
Gene Classification
Issues and Challenges for
Relational Learning


Autor: Jorge Soro Doménech
Asignatura: Minería de Datos Relacionales   1
Master: MISMFSI
INDICE
1.    ABSTRACCIÓN
2.    MOTIVACIÓN Y INTRODUCCIÓN
3.    DATOS Y PROPIEDADES DEL DOMINIO
4.    MÉTODO Y RETOS
     4.1. Problemas
     4.2. Soluciones potenciales
5.    RESULTADOS EXPERIMENTALES
     5.1. Enfoque
     5.2. Conjuntos ordenados y secuencias: Aprendizaje
          sobre la segunda estructura
     5.3. Similitud y relaciones inciertas
     5.4. Actuaciones a través de clases
6.    RESUMEN Y CONCLUSIONES
7.    BIBLIOGRAFÍA                                        2
1. ABSTRACCIÓN
                 3
1. ABSTRACCIÓN
• Se presenta la investigación del comportamiento que se aplica a las
  técnicas estadísticas del aprendizaje relacional, en particular la
  proposicionalización, que interesa y desafía al mundo real en el
  dominio funcional de la clasificación genética del “Yeast Genome
  Sach-haromyces Cerevisiae”.

• El principal objetivo es identificar y describir la estructura del
  dominio y las propiedades estadísticas de este.

• Se discute en términos generales las diferentes propiedades del
  dominio en el mundo real y se exploran los diferentes enfoques que
  conducen a un sistema Framework que es usado para el aprendizaje
  relacional, este es Automated Construction Of Relational Attributes
  (ACORA).
                                                                        4
2. MOTIVACIÓN Y
INTRODUCCIÓN
                  5
2. MOTIVACIÓN Y INTRODUCCIÓN
• El campo del aprendizaje multi-relacional ha progresado
  considerablemente en la última década debido a la gran actividad en
  la investigación.

• Sin embargo, todavía se tiene que demostrar que las herramientas
  disponibles puedan manejar una gran cantidad de problemas del
  mundo real que implican ruido, escasez y datos complejos.

• En el año 2005, en la Inductive Logic Programming Conference (ILP)
  se introdujo un reto que consistía en la evaluación del aprendizaje
  relacional con las técnicas existentes dado un conjunto de datos
  genéticos (Yeast genoma).


                                                                        6
2. MOTIVACIÓN Y INTRODUCCIÓN
• El conjunto de datos genéticos tiene un número de propiedades que
  pueden ser usadas como punto de referencia:
  • disponibilidad pública,
  • gran interés científico,
  • un tamaño razonable,
  • predicabilidad limitada con margen de mejora,
  • y retos en las propiedades estructurales.




                                                                      7
3. DATOS Y
PROPIEDADES DEL
DOMINIO
                  8
3. DATOS Y PROPIEDADES DEL DOMINIO

• La estructura relacional, en particular la del dominio de la
  genética, tiene múltiples orígenes:
  • la complejidad de la estructura del objeto de interés (los genes).

  • la cantidad de información producida por la variedad de
    experimentos del genoma, tales como la secuencia del genoma.

• La información obtenida es fácilmente representada en una
  base de datos relacional.




                                                                         9
3. DATOS Y PROPIEDADES DEL DOMINIO
• La primera tabla Functional Class Annotation consiste en las
  anotaciones funcionales de algunos de los genes basadas en un
  esquema de clasificación jerárquica funcional llamado Fun-Cat.




• Las clases se organizan en arboles Fun-Cat y es posible que un gen tenga
  múltiples etiquetas de clase a través de los árboles.
                                                                             10
3. DATOS Y PROPIEDADES DEL DOMINIO
• La segunda tabla Yeast-Yeast Homology contiene información sobre
  la similitud entre los genes del genoma Yeast.




• Por otra parte, cabe destacar el Basic Local Alignment Search Tool
  (BLAST) es un software que es capaz de comparar una secuencia
  (ADN o proteína) con una gran cantidad de secuencias que se
  encuentren en una base de datos.
• Es importante tener en cuenta que las puntuaciones de similitud
  están disponibles sólo para algunos pares de genes y la ausencia de
  una puntuación no implica un cero o infinito.                         11
3. DATOS Y PROPIEDADES DEL DOMINIO

• El tercer origen de datos Yeast-SwissProt Homology es similar
  a las puntuaciones de similitud entre los genes Yeast y las
  proteínas en el SwissProt .




• Añadiendo a las puntuaciones de similitud anteriores (Tabla
  3), se tiene la Tabla 4, que representa el conjunto de
  características de las proteínas.

                                                                  12
3. DATOS Y PROPIEDADES DEL DOMINIO

• El cuarto y último origen de datos es la estructura secundaria
  que representa el conjunto de datos en el cual se proporciona
  la estructura secundaria de las proteínas sintetizadas de cada
  uno de los genes en el genoma Yeast.
• Esta estructura secundaria está representada por una
  secuencia de tres símbolos a (alfa), b (beta) y c (hélice)
  correspondiente a los componentes estructurales indicados
  entre paréntesis.




                                                                   13
3. DATOS Y PROPIEDADES DEL DOMINIO

• La siguiente figura muestra la estructura secundaria de la
  proteína generada por uno de los Yeast gens.
• De cada una de estas secuencias de la proteína, se representa
  el orden de aparición, el tipo y la longitud de la sección, como
  en la Tabla 5.




                                                                     14
3. DATOS Y PROPIEDADES DEL DOMINIO
• Podemos identificar una serie de propiedades:

  • Weighted links: Las dos tablas de Homology (2 y 3) no capturan
    una relación bien definida entre pares de un objeto (es decir, si
    existe relación o no).




                                                                        15
3. DATOS Y PROPIEDADES DEL DOMINIO
 • Sparse data: Un estudio en las tablas de Homology revela un alto
   grado de dispersión. Algunos genes tienen muchas entradas,
   otros muchos sólo una.

 • Ordered data: Las bases de datos relacionales sólo tienen una
   interpretación establecida. El orden se expresa por la
   introducción de un campo numérico que realiza un seguimiento
   de la posición relativa.

 • Multiple class-hierarchies: La particular estructura de la clase de
   este dominio genético no es una propiedad relacional.



                                                                         16
4.MÉTODO Y RETOS
                   17
4.MÉTODO Y RETOS
• Muchos enfoques relacionales parecen adecuados para el
  aprendizaje la tarea de clasificación en el dominio de la genética.

• Utilizamos un enfoque de proposicionalización que construye las
  características de la información en las tablas.

• El algoritmo utiliza una amplitud de búsqueda (la profundidad
  deseada se ajusta por el usuario) sobre todas las posibles
  combinaciones en los atributos de identificación a partir de la tabla
  de destino.

• Para cada combinación, se agregan todos los conjuntos de atributos
  de forma independiente usando operadores tradicionales de
  congregación como el promedio y el recuento, así como la
  distribución de los atributos en las clases.                            18
4.1. PROBLEMAS
• En la estructura secundaria, si las filas son tratadas como
  ejemplos aleatorios y cada una de ellas tiene sus tres atributos
  agregados independientemente, las actuales secuencias se
  pierden.
• Por tanto, la representación viola ambos asuntos: los campos
  de la tabla son claramente independientes y las filas no son
  ejemplos aleatorios.




                                                                     19
4.1. PROBLEMAS
• En la propiedad de Similarity deberíamos esperar que un par
  de genes con puntuación similar tengan proteínas que
  dispongan de la misma funcionalidad.
• En la class-conditional la independencia de la distancia del
  atributo y el identificador del objeto oculta algún significado.
• En resumen, el dominio tiene una tabla con todas las
  características de las proteínas. Cada característica es
  claramente mas relevante si la similitud entre el objeto y el
  gen corresponde en las referencias.


                                                                     20
4.2. SOLUCIONES POTENCIALES
• Si se puede hacer una predicción de un objeto nuevo que
  nunca se ha visto, entonces se puede decir que es similar a los
  objetos previamente ya vistos.
• Podemos seguir uno de los siguientes enfoques para hacer
  frente a los supuestos y las propiedades del dominio:
  • Cambiar las hipótesis,
  • Cambiar la representación del dominio para ajustar los supuestos,




                                                                        21
5. RESULTADOS
EXPERIMENTALES
                 22
5. RESULTADOS EXPERIMENTALES
• El principal foco de estudio es el de las características de los de
  dominios y no la complejidad de la tarea de clasificación.

• Por lo tanto, se ha seleccionado inicialmente una tarea de
  clasificación binaria, que implica la identificación de genes que
  sintetizan las proteínas implicadas en el transporte celular (clase 20).

• Todos los resultados que se obtienen son sólo ejemplos.




                                                                             23
5.1 ENFOQUE
• Inicialmente, vamos a fingir que no sabemos nada acerca del dominio
  principal y del significado de los campos de la base de datos.
• En particular, no haremos caso de la falta de correspondencia entre la
  semántica del dominio y los supuestos del método.
• Los resultados de estos experimentos se muestran en la Tabla 6.




                                                                           24
5.2. CONJUNTOS ORDENADOS Y SECUENCIAS:
APRENDIZAJE SOBRE LA SEGUNDA ESTRUCTURA
• Consideramos un ejemplo de una estructura secundaria con una secuencia
  de información del gen ytq0045.
• ACORA puede extraer de la segunda estructura el numero total de
  componentes, el numero de componentes de a,b,c y la duración media.
• La estructura secundaria de la correspondiente proteína es:

• Dónde       denota n repeticiones de la letra z. Esta información es obtenida
  a partir de la siguiente tabla:




                                                                                  25
5.2. CONJUNTOS ORDENADOS Y SECUENCIAS:
APRENDIZAJE SOBRE LA SEGUNDA ESTRUCTURA
• El rendimiento obtenido de los modelos usando la representación
  de la estructura secundaria es mostrado en la siguiente tabla.




                                                                    26
5.3. SIMILITUD Y RELACIONES INCIERTAS

• Consideramos de tres enfoques diferentes a tener en cuenta:
  1. Seleccionar los pares sólo cuando el marcador esta por
     debajo de una nota de corte.
  2. Seleccionar para cada gen de un subconjunto que
     representa los n objetos con menor puntuación.
  3. El tratamiento de la puntuación de similitud como
     probabilidad.




                                                                27
5.3. SIMILITUD Y RELACIONES INCIERTAS

• Los resultados de los experimentos se muestran en la tabla 10.
  Incluye en particular las propiedades del objeto y las etiquetas de
  las clases de otros Yeast gens de entrenamiento (10,20,50).
• Se puede ver una clara mejora que en la tabla 6. La precisión y el
  rango han aumentado significativamente.




                                                                        28
5.4. ACTUACIÓNES A TRAVES DE CLASES
• Finalmente se presenta en la
  siguiente tabla el resultado de las
  hipótesis para todas la clases,
  utilizando toda la información
  disponible.
• Los rangos (AUC) van desde 0.641
  (para la clase 32) hasta 0,93 (para la
  clase 38).
• También vemos una fuerte inclinación
  de los prior de clase que van desde
  0,653 para la mayoría de los común
  de la clase 01 a 0,973 para la clase
  por lo común 38.
• Ambas características pueden tener
  un fuerte impacto para la evaluación
  y el desempeño del análisis.
                                           29
6. RESUMEN Y
CONCLUSIONES
               30
6. RESUMEN Y CONCLUSIONES

• El objetivo de esta presentación es motivar la discusión de las
  actuales limitaciones de los enfoques de modelado relacional.
  Las limitaciones están relacionadas con las propiedades de
  dominio específico y en particular, causadas por violaciones de
  los distintos supuestos de independencia.

• Las propiedades son comunes a una gran variedad de ámbitos y
  es necesaria una mayor atención.

• Como objetivo secundario, se motiva a más investigadores a
  considerar este conjunto de datos genéticos, como una
  plataforma para realizar las comparaciones de rendimiento.

• Trabajar mas este dominio podría contribuir a una mejor
                                                                    31
  comprensión de las capacidades relacionales de los enfoques de
  aprendizaje.
7. BIBLIOGRAFÍA
                  32
7.BIBLIOGRAFÍA
1.   S. F. Altschul, T.L. Madden, A.A. Schaer, J. Zhang,Z. Zhang, W. Miller,
     and D.J. Lipman. Gapped blast and psi-blast: a new generation of
     protein database search programs. Nucleic Acids Research,
     25:3389{3402, 1997.
2.   A. Bairoch and R. Apweiler. The swiss-prot protein sequence database
     and its supplement trembl. Nucleic Acids Research, 28:45{48, 2000.
3.   A.P. Bradley. The use of the area under the ROC curve in the
     evaluation of machine learning algorithms. Pattern Recognition,
     30(7):1145{1159, 1997.
4.   A. Clare and King R.D. Data mining the yeast genome in a lazy
     functional language. In Practical Aspects of Declarative Languages
     (PADL'03), 2003.
5.   L. Dehaspe and L. De Raedt. DLAB: A declarative language bias
     formalism. In International Syposium on Methodologies for Intelligent
     Systems, pages 613{622, 1996.                                             33
7.BIBLIOGRAFÍA
6.   D. Jensen and J. Neville. Linkage and autocorrelation cause feature
     selection bias in relational learning. In Proceedings of the 19th
     International Conference on Machine Learning (ICML), 2002.
7.   D. Jensen, J. Neville, and B. Gallagher. Why collective inference
     improves relational classication. In Proceedings of the 10th
     International Conference on Knowledge Discovery and Data Mining
     (KDD), pages 593{598, 2004.
8.   S.A. Macskassy and F. Provost. A simple relational classier. In
     Proceedings of the Workshop on Multi-Relational Data Mining (KDD),
     2003.
9.   S.H. Muggleton. Stochastic logic programs. In Proceedings of the 5th
     International Workshop on Inductive Logic Programming, page 29.
     Department of Computer Science, Katholieke Universiteit Leuven,
     1995.
10. M. Ouali and R.D. King. Cascaded multiple classiers for secondary       34
    structure prediction. Protein Science, (9):1162{1176, 2000.
7.BIBLIOGRAFÍA
11. C. Perlich and F. Provost. Aggregation-based feature invention and
    relational concept classes. In Proceedings of the Ninth ACM
    International Conference on Knowledge Discovery and Data
    Mining (KDD), 2003.
12. C. Perlich and F. Provost. ACORA: Distribution-based aggregation
    for relational learning from identier attributes. Forthcoming in
    Journal of Machine Learning, 2005.
13. K. Ross, D. Ashwin, and S. Dehaspe. WARMR: A data mining tool
    for chemical data. Journal of Computer Aided Molecular Design,
    (15):173{181, 2001.
14. A. Ruepp, A. Zollner, D. Maier, K. Albermann, J. Hani, M. Mokrejs, I.
    Tetko, U. Guldener, G. Mannhaupt, M. Munsterkotter, and HW.
    Mewes. The funcat, a functional annotation scheme for systematic
    classication of proteins from whole genomes. Nucleic Acids
    Research, 32:5539{5545, 2004.                                           35

Más contenido relacionado

Similar a Gene classification

Presentaciones base de datos , fundamentos de base de datos
Presentaciones base de datos , fundamentos de base de datosPresentaciones base de datos , fundamentos de base de datos
Presentaciones base de datos , fundamentos de base de datosBryanSotalin1
 
Unidad II. Modelo de Datos
Unidad II. Modelo de DatosUnidad II. Modelo de Datos
Unidad II. Modelo de Datosucbasededatos
 
Transparencias software de aplicacion
Transparencias software de aplicacionTransparencias software de aplicacion
Transparencias software de aplicacionLuceroEstefani
 
Silabo base de datos 1
Silabo base de datos 1Silabo base de datos 1
Silabo base de datos 1guancha_230
 
Frames (doc)
Frames (doc)Frames (doc)
Frames (doc)fher969
 
Estructura de datos I
Estructura de datos IEstructura de datos I
Estructura de datos Iprocesinc.com
 
Los elementos-del-paradigma-de-la-programacion-orientada
Los elementos-del-paradigma-de-la-programacion-orientadaLos elementos-del-paradigma-de-la-programacion-orientada
Los elementos-del-paradigma-de-la-programacion-orientadapepepaso
 
Los elementos-del-paradigma-de-la-programacion-orientada
Los elementos-del-paradigma-de-la-programacion-orientadaLos elementos-del-paradigma-de-la-programacion-orientada
Los elementos-del-paradigma-de-la-programacion-orientadapepepaso
 
El modelo de datos relacional (Base de Datos)
El modelo de datos relacional (Base de Datos)El modelo de datos relacional (Base de Datos)
El modelo de datos relacional (Base de Datos)Jose Carlos Guerra
 
Normalizacin De Una Base De Datos
Normalizacin De Una Base De DatosNormalizacin De Una Base De Datos
Normalizacin De Una Base De Datosservandogc
 

Similar a Gene classification (20)

Presentaciones base de datos , fundamentos de base de datos
Presentaciones base de datos , fundamentos de base de datosPresentaciones base de datos , fundamentos de base de datos
Presentaciones base de datos , fundamentos de base de datos
 
Base de datos
Base de datosBase de datos
Base de datos
 
Aprendizaje no supervisado
Aprendizaje no supervisadoAprendizaje no supervisado
Aprendizaje no supervisado
 
UNIDAD 1. El mundo de las Bases de Datos y los SMBD
UNIDAD 1. El mundo de las Bases de Datos y los SMBDUNIDAD 1. El mundo de las Bases de Datos y los SMBD
UNIDAD 1. El mundo de las Bases de Datos y los SMBD
 
Unidad II. Modelo de Datos
Unidad II. Modelo de DatosUnidad II. Modelo de Datos
Unidad II. Modelo de Datos
 
Clase3
Clase3Clase3
Clase3
 
Ejercicios bd1
Ejercicios bd1Ejercicios bd1
Ejercicios bd1
 
Transparencias software de aplicacion
Transparencias software de aplicacionTransparencias software de aplicacion
Transparencias software de aplicacion
 
Silabo base de datos 1
Silabo base de datos 1Silabo base de datos 1
Silabo base de datos 1
 
Orm presentación final
Orm presentación finalOrm presentación final
Orm presentación final
 
Frames (doc)
Frames (doc)Frames (doc)
Frames (doc)
 
Clase 1 Modelo de Datos Relacional
Clase 1 Modelo de Datos RelacionalClase 1 Modelo de Datos Relacional
Clase 1 Modelo de Datos Relacional
 
Estructura de datos I
Estructura de datos IEstructura de datos I
Estructura de datos I
 
Conceptos basicos
Conceptos basicosConceptos basicos
Conceptos basicos
 
Los elementos-del-paradigma-de-la-programacion-orientada
Los elementos-del-paradigma-de-la-programacion-orientadaLos elementos-del-paradigma-de-la-programacion-orientada
Los elementos-del-paradigma-de-la-programacion-orientada
 
Los elementos-del-paradigma-de-la-programacion-orientada
Los elementos-del-paradigma-de-la-programacion-orientadaLos elementos-del-paradigma-de-la-programacion-orientada
Los elementos-del-paradigma-de-la-programacion-orientada
 
El modelo de datos relacional (Base de Datos)
El modelo de datos relacional (Base de Datos)El modelo de datos relacional (Base de Datos)
El modelo de datos relacional (Base de Datos)
 
Base datos f01
Base datos f01Base datos f01
Base datos f01
 
Unidad 1
Unidad 1Unidad 1
Unidad 1
 
Normalizacin De Una Base De Datos
Normalizacin De Una Base De DatosNormalizacin De Una Base De Datos
Normalizacin De Una Base De Datos
 

Más de Jorge Soro

Introducción Bussines Intelligence
Introducción Bussines IntelligenceIntroducción Bussines Intelligence
Introducción Bussines IntelligenceJorge Soro
 
Guia farmacoterapeutica cartel
Guia farmacoterapeutica cartelGuia farmacoterapeutica cartel
Guia farmacoterapeutica cartelJorge Soro
 
Guía farmacoterapéutica
Guía farmacoterapéuticaGuía farmacoterapéutica
Guía farmacoterapéuticaJorge Soro
 
Hierarchical Delta Debugging
Hierarchical Delta DebuggingHierarchical Delta Debugging
Hierarchical Delta DebuggingJorge Soro
 
Presentacion android mistela&tweets
Presentacion android mistela&tweetsPresentacion android mistela&tweets
Presentacion android mistela&tweetsJorge Soro
 
Mobility and security
Mobility and  securityMobility and  security
Mobility and securityJorge Soro
 
The human gene mutation database
The human gene mutation databaseThe human gene mutation database
The human gene mutation databaseJorge Soro
 

Más de Jorge Soro (8)

6. SPARK.pdf
6. SPARK.pdf6. SPARK.pdf
6. SPARK.pdf
 
Introducción Bussines Intelligence
Introducción Bussines IntelligenceIntroducción Bussines Intelligence
Introducción Bussines Intelligence
 
Guia farmacoterapeutica cartel
Guia farmacoterapeutica cartelGuia farmacoterapeutica cartel
Guia farmacoterapeutica cartel
 
Guía farmacoterapéutica
Guía farmacoterapéuticaGuía farmacoterapéutica
Guía farmacoterapéutica
 
Hierarchical Delta Debugging
Hierarchical Delta DebuggingHierarchical Delta Debugging
Hierarchical Delta Debugging
 
Presentacion android mistela&tweets
Presentacion android mistela&tweetsPresentacion android mistela&tweets
Presentacion android mistela&tweets
 
Mobility and security
Mobility and  securityMobility and  security
Mobility and security
 
The human gene mutation database
The human gene mutation databaseThe human gene mutation database
The human gene mutation database
 

Último

guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan JosephBRAYANJOSEPHPEREZGOM
 
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdfRefrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdfvladimiroflores1
 
Avances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanaAvances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanamcerpam
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricKeyla Dolores Méndez
 
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptxPROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptxAlan779941
 
Presentación de elementos de afilado con esmeril
Presentación de elementos de afilado con esmerilPresentación de elementos de afilado con esmeril
Presentación de elementos de afilado con esmerilJuanGallardo438714
 
Modulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdfModulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdfAnnimoUno1
 
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptxEL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptxMiguelAtencio10
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveFagnerLisboa3
 
Presentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxPresentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxLolaBunny11
 
Avances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estosAvances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estossgonzalezp1
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíassuserf18419
 
presentacion de PowerPoint de la fuente de poder.pptx
presentacion de PowerPoint de la fuente de poder.pptxpresentacion de PowerPoint de la fuente de poder.pptx
presentacion de PowerPoint de la fuente de poder.pptxlosdiosesmanzaneros
 
Desarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfDesarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfJulian Lamprea
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITMaricarmen Sánchez Ruiz
 

Último (15)

guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Joseph
 
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdfRefrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
 
Avances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanaAvances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvana
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
 
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptxPROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
 
Presentación de elementos de afilado con esmeril
Presentación de elementos de afilado con esmerilPresentación de elementos de afilado con esmeril
Presentación de elementos de afilado con esmeril
 
Modulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdfModulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdf
 
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptxEL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
 
Presentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxPresentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptx
 
Avances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estosAvances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estos
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnología
 
presentacion de PowerPoint de la fuente de poder.pptx
presentacion de PowerPoint de la fuente de poder.pptxpresentacion de PowerPoint de la fuente de poder.pptx
presentacion de PowerPoint de la fuente de poder.pptx
 
Desarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfDesarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdf
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNIT
 

Gene classification

  • 1. Gene Classification Issues and Challenges for Relational Learning Autor: Jorge Soro Doménech Asignatura: Minería de Datos Relacionales 1 Master: MISMFSI
  • 2. INDICE 1. ABSTRACCIÓN 2. MOTIVACIÓN Y INTRODUCCIÓN 3. DATOS Y PROPIEDADES DEL DOMINIO 4. MÉTODO Y RETOS 4.1. Problemas 4.2. Soluciones potenciales 5. RESULTADOS EXPERIMENTALES 5.1. Enfoque 5.2. Conjuntos ordenados y secuencias: Aprendizaje sobre la segunda estructura 5.3. Similitud y relaciones inciertas 5.4. Actuaciones a través de clases 6. RESUMEN Y CONCLUSIONES 7. BIBLIOGRAFÍA 2
  • 4. 1. ABSTRACCIÓN • Se presenta la investigación del comportamiento que se aplica a las técnicas estadísticas del aprendizaje relacional, en particular la proposicionalización, que interesa y desafía al mundo real en el dominio funcional de la clasificación genética del “Yeast Genome Sach-haromyces Cerevisiae”. • El principal objetivo es identificar y describir la estructura del dominio y las propiedades estadísticas de este. • Se discute en términos generales las diferentes propiedades del dominio en el mundo real y se exploran los diferentes enfoques que conducen a un sistema Framework que es usado para el aprendizaje relacional, este es Automated Construction Of Relational Attributes (ACORA). 4
  • 6. 2. MOTIVACIÓN Y INTRODUCCIÓN • El campo del aprendizaje multi-relacional ha progresado considerablemente en la última década debido a la gran actividad en la investigación. • Sin embargo, todavía se tiene que demostrar que las herramientas disponibles puedan manejar una gran cantidad de problemas del mundo real que implican ruido, escasez y datos complejos. • En el año 2005, en la Inductive Logic Programming Conference (ILP) se introdujo un reto que consistía en la evaluación del aprendizaje relacional con las técnicas existentes dado un conjunto de datos genéticos (Yeast genoma). 6
  • 7. 2. MOTIVACIÓN Y INTRODUCCIÓN • El conjunto de datos genéticos tiene un número de propiedades que pueden ser usadas como punto de referencia: • disponibilidad pública, • gran interés científico, • un tamaño razonable, • predicabilidad limitada con margen de mejora, • y retos en las propiedades estructurales. 7
  • 8. 3. DATOS Y PROPIEDADES DEL DOMINIO 8
  • 9. 3. DATOS Y PROPIEDADES DEL DOMINIO • La estructura relacional, en particular la del dominio de la genética, tiene múltiples orígenes: • la complejidad de la estructura del objeto de interés (los genes). • la cantidad de información producida por la variedad de experimentos del genoma, tales como la secuencia del genoma. • La información obtenida es fácilmente representada en una base de datos relacional. 9
  • 10. 3. DATOS Y PROPIEDADES DEL DOMINIO • La primera tabla Functional Class Annotation consiste en las anotaciones funcionales de algunos de los genes basadas en un esquema de clasificación jerárquica funcional llamado Fun-Cat. • Las clases se organizan en arboles Fun-Cat y es posible que un gen tenga múltiples etiquetas de clase a través de los árboles. 10
  • 11. 3. DATOS Y PROPIEDADES DEL DOMINIO • La segunda tabla Yeast-Yeast Homology contiene información sobre la similitud entre los genes del genoma Yeast. • Por otra parte, cabe destacar el Basic Local Alignment Search Tool (BLAST) es un software que es capaz de comparar una secuencia (ADN o proteína) con una gran cantidad de secuencias que se encuentren en una base de datos. • Es importante tener en cuenta que las puntuaciones de similitud están disponibles sólo para algunos pares de genes y la ausencia de una puntuación no implica un cero o infinito. 11
  • 12. 3. DATOS Y PROPIEDADES DEL DOMINIO • El tercer origen de datos Yeast-SwissProt Homology es similar a las puntuaciones de similitud entre los genes Yeast y las proteínas en el SwissProt . • Añadiendo a las puntuaciones de similitud anteriores (Tabla 3), se tiene la Tabla 4, que representa el conjunto de características de las proteínas. 12
  • 13. 3. DATOS Y PROPIEDADES DEL DOMINIO • El cuarto y último origen de datos es la estructura secundaria que representa el conjunto de datos en el cual se proporciona la estructura secundaria de las proteínas sintetizadas de cada uno de los genes en el genoma Yeast. • Esta estructura secundaria está representada por una secuencia de tres símbolos a (alfa), b (beta) y c (hélice) correspondiente a los componentes estructurales indicados entre paréntesis. 13
  • 14. 3. DATOS Y PROPIEDADES DEL DOMINIO • La siguiente figura muestra la estructura secundaria de la proteína generada por uno de los Yeast gens. • De cada una de estas secuencias de la proteína, se representa el orden de aparición, el tipo y la longitud de la sección, como en la Tabla 5. 14
  • 15. 3. DATOS Y PROPIEDADES DEL DOMINIO • Podemos identificar una serie de propiedades: • Weighted links: Las dos tablas de Homology (2 y 3) no capturan una relación bien definida entre pares de un objeto (es decir, si existe relación o no). 15
  • 16. 3. DATOS Y PROPIEDADES DEL DOMINIO • Sparse data: Un estudio en las tablas de Homology revela un alto grado de dispersión. Algunos genes tienen muchas entradas, otros muchos sólo una. • Ordered data: Las bases de datos relacionales sólo tienen una interpretación establecida. El orden se expresa por la introducción de un campo numérico que realiza un seguimiento de la posición relativa. • Multiple class-hierarchies: La particular estructura de la clase de este dominio genético no es una propiedad relacional. 16
  • 18. 4.MÉTODO Y RETOS • Muchos enfoques relacionales parecen adecuados para el aprendizaje la tarea de clasificación en el dominio de la genética. • Utilizamos un enfoque de proposicionalización que construye las características de la información en las tablas. • El algoritmo utiliza una amplitud de búsqueda (la profundidad deseada se ajusta por el usuario) sobre todas las posibles combinaciones en los atributos de identificación a partir de la tabla de destino. • Para cada combinación, se agregan todos los conjuntos de atributos de forma independiente usando operadores tradicionales de congregación como el promedio y el recuento, así como la distribución de los atributos en las clases. 18
  • 19. 4.1. PROBLEMAS • En la estructura secundaria, si las filas son tratadas como ejemplos aleatorios y cada una de ellas tiene sus tres atributos agregados independientemente, las actuales secuencias se pierden. • Por tanto, la representación viola ambos asuntos: los campos de la tabla son claramente independientes y las filas no son ejemplos aleatorios. 19
  • 20. 4.1. PROBLEMAS • En la propiedad de Similarity deberíamos esperar que un par de genes con puntuación similar tengan proteínas que dispongan de la misma funcionalidad. • En la class-conditional la independencia de la distancia del atributo y el identificador del objeto oculta algún significado. • En resumen, el dominio tiene una tabla con todas las características de las proteínas. Cada característica es claramente mas relevante si la similitud entre el objeto y el gen corresponde en las referencias. 20
  • 21. 4.2. SOLUCIONES POTENCIALES • Si se puede hacer una predicción de un objeto nuevo que nunca se ha visto, entonces se puede decir que es similar a los objetos previamente ya vistos. • Podemos seguir uno de los siguientes enfoques para hacer frente a los supuestos y las propiedades del dominio: • Cambiar las hipótesis, • Cambiar la representación del dominio para ajustar los supuestos, 21
  • 23. 5. RESULTADOS EXPERIMENTALES • El principal foco de estudio es el de las características de los de dominios y no la complejidad de la tarea de clasificación. • Por lo tanto, se ha seleccionado inicialmente una tarea de clasificación binaria, que implica la identificación de genes que sintetizan las proteínas implicadas en el transporte celular (clase 20). • Todos los resultados que se obtienen son sólo ejemplos. 23
  • 24. 5.1 ENFOQUE • Inicialmente, vamos a fingir que no sabemos nada acerca del dominio principal y del significado de los campos de la base de datos. • En particular, no haremos caso de la falta de correspondencia entre la semántica del dominio y los supuestos del método. • Los resultados de estos experimentos se muestran en la Tabla 6. 24
  • 25. 5.2. CONJUNTOS ORDENADOS Y SECUENCIAS: APRENDIZAJE SOBRE LA SEGUNDA ESTRUCTURA • Consideramos un ejemplo de una estructura secundaria con una secuencia de información del gen ytq0045. • ACORA puede extraer de la segunda estructura el numero total de componentes, el numero de componentes de a,b,c y la duración media. • La estructura secundaria de la correspondiente proteína es: • Dónde denota n repeticiones de la letra z. Esta información es obtenida a partir de la siguiente tabla: 25
  • 26. 5.2. CONJUNTOS ORDENADOS Y SECUENCIAS: APRENDIZAJE SOBRE LA SEGUNDA ESTRUCTURA • El rendimiento obtenido de los modelos usando la representación de la estructura secundaria es mostrado en la siguiente tabla. 26
  • 27. 5.3. SIMILITUD Y RELACIONES INCIERTAS • Consideramos de tres enfoques diferentes a tener en cuenta: 1. Seleccionar los pares sólo cuando el marcador esta por debajo de una nota de corte. 2. Seleccionar para cada gen de un subconjunto que representa los n objetos con menor puntuación. 3. El tratamiento de la puntuación de similitud como probabilidad. 27
  • 28. 5.3. SIMILITUD Y RELACIONES INCIERTAS • Los resultados de los experimentos se muestran en la tabla 10. Incluye en particular las propiedades del objeto y las etiquetas de las clases de otros Yeast gens de entrenamiento (10,20,50). • Se puede ver una clara mejora que en la tabla 6. La precisión y el rango han aumentado significativamente. 28
  • 29. 5.4. ACTUACIÓNES A TRAVES DE CLASES • Finalmente se presenta en la siguiente tabla el resultado de las hipótesis para todas la clases, utilizando toda la información disponible. • Los rangos (AUC) van desde 0.641 (para la clase 32) hasta 0,93 (para la clase 38). • También vemos una fuerte inclinación de los prior de clase que van desde 0,653 para la mayoría de los común de la clase 01 a 0,973 para la clase por lo común 38. • Ambas características pueden tener un fuerte impacto para la evaluación y el desempeño del análisis. 29
  • 31. 6. RESUMEN Y CONCLUSIONES • El objetivo de esta presentación es motivar la discusión de las actuales limitaciones de los enfoques de modelado relacional. Las limitaciones están relacionadas con las propiedades de dominio específico y en particular, causadas por violaciones de los distintos supuestos de independencia. • Las propiedades son comunes a una gran variedad de ámbitos y es necesaria una mayor atención. • Como objetivo secundario, se motiva a más investigadores a considerar este conjunto de datos genéticos, como una plataforma para realizar las comparaciones de rendimiento. • Trabajar mas este dominio podría contribuir a una mejor 31 comprensión de las capacidades relacionales de los enfoques de aprendizaje.
  • 33. 7.BIBLIOGRAFÍA 1. S. F. Altschul, T.L. Madden, A.A. Schaer, J. Zhang,Z. Zhang, W. Miller, and D.J. Lipman. Gapped blast and psi-blast: a new generation of protein database search programs. Nucleic Acids Research, 25:3389{3402, 1997. 2. A. Bairoch and R. Apweiler. The swiss-prot protein sequence database and its supplement trembl. Nucleic Acids Research, 28:45{48, 2000. 3. A.P. Bradley. The use of the area under the ROC curve in the evaluation of machine learning algorithms. Pattern Recognition, 30(7):1145{1159, 1997. 4. A. Clare and King R.D. Data mining the yeast genome in a lazy functional language. In Practical Aspects of Declarative Languages (PADL'03), 2003. 5. L. Dehaspe and L. De Raedt. DLAB: A declarative language bias formalism. In International Syposium on Methodologies for Intelligent Systems, pages 613{622, 1996. 33
  • 34. 7.BIBLIOGRAFÍA 6. D. Jensen and J. Neville. Linkage and autocorrelation cause feature selection bias in relational learning. In Proceedings of the 19th International Conference on Machine Learning (ICML), 2002. 7. D. Jensen, J. Neville, and B. Gallagher. Why collective inference improves relational classication. In Proceedings of the 10th International Conference on Knowledge Discovery and Data Mining (KDD), pages 593{598, 2004. 8. S.A. Macskassy and F. Provost. A simple relational classier. In Proceedings of the Workshop on Multi-Relational Data Mining (KDD), 2003. 9. S.H. Muggleton. Stochastic logic programs. In Proceedings of the 5th International Workshop on Inductive Logic Programming, page 29. Department of Computer Science, Katholieke Universiteit Leuven, 1995. 10. M. Ouali and R.D. King. Cascaded multiple classiers for secondary 34 structure prediction. Protein Science, (9):1162{1176, 2000.
  • 35. 7.BIBLIOGRAFÍA 11. C. Perlich and F. Provost. Aggregation-based feature invention and relational concept classes. In Proceedings of the Ninth ACM International Conference on Knowledge Discovery and Data Mining (KDD), 2003. 12. C. Perlich and F. Provost. ACORA: Distribution-based aggregation for relational learning from identier attributes. Forthcoming in Journal of Machine Learning, 2005. 13. K. Ross, D. Ashwin, and S. Dehaspe. WARMR: A data mining tool for chemical data. Journal of Computer Aided Molecular Design, (15):173{181, 2001. 14. A. Ruepp, A. Zollner, D. Maier, K. Albermann, J. Hani, M. Mokrejs, I. Tetko, U. Guldener, G. Mannhaupt, M. Munsterkotter, and HW. Mewes. The funcat, a functional annotation scheme for systematic classication of proteins from whole genomes. Nucleic Acids Research, 32:5539{5545, 2004. 35