SlideShare una empresa de Scribd logo
1 de 31
1
Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico
                                  Estructura de la presentación




                                La Rábida, 15 de enero de 2009                                   2
Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico
                                  Estructura de la presentación




                                La Rábida, 15 de enero de 2009                                   3
Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico
                                           Motivación



 Sobrecarga de información (crecimiento exponencial)
      Sólo MEDLINE, 16 Mill. referencias, 2000-4000 añadidas diariamente.
 Necesidad de resúmenes, aparte del abstract
    Abstract pierden información (Kostoff et al., 2004)
    No existe el resumen ideal, percepción subjetiva (Cohen, 2005)


 Medicina basada en la evidencia
    “uso consciente, explícito y juicioso de la mejor evidencia disponible
     para la toma de decisiones en el cuidado de nuestros pacientes
     “(Sackett et Al., 1996).
    “… Los médicos no tienen tiempo para desplazarse a través de texto

     largo. Necesitan alcanzar el recurso adecuado la primera vez, la
     información en ese recurso necesita ser fácilmente encontrada y toda
     la información debe estar ahí” (Ely et al., 2002)
En este entorno, los resúmenes de texto juegan un papel
relevante
                                        La Rábida, 15 de enero de 2009                                   4
Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico
                                  Estructura de la presentación




                                La Rábida, 15 de enero de 2009                                   5
Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico
                                           Conceptos básicos



¿Qué es un resumen de texto?
   “a text that is produced from one or more texts, that contains a
   significant portion of the information in the original text(s), and
   that is no longer than half of the original text(s)” (Hovy, 2005)
¿Qué es un resumen de texto automático?
   “to take an information source, extract content from it, and
   present the most important content to the user in a condensed
   form and in a manner sensitive to the user's or application's
   needs” (Mani & Maybury, 1999)
GAR es un proceso de reducción de la información, que
permite a un usuario: tomar idea o conocer el contenido de un texto
completo, sin tener que leer todas sus frases, obtener la información
relevante.

                                       La Rábida, 15 de enero de 2009                                   6
Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico
                                            Conceptos básicos



Para generar resúmenes existen dos enfoques:
El enfoque extractivo:
     selecciona y extrae frases o partes de ella del texto original, ordenadas
     por relevancia para el usuario.
     resulta muy robusto y fácilmente aplicable.
     Inconveniente: Inconsistencia (refer. Anafóricas) y desequilibrio




                                        La Rábida, 15 de enero de 2009                                   7
Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico
                                           Conceptos básicos




El enfoque abstractivo:
     engloba técnicas de procesamiento del lenguaje natural,
     más complejo pues necesita un conocimiento léxico, gramatical y
     sintáctico del dominio, para modelar semánticamente el
     conocimiento y a partir de éste ser capaz de generar un resumen.




                                       La Rábida, 15 de enero de 2009                                   8
Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico
                                  Estructura de la presentación




                                La Rábida, 15 de enero de 2009                                   12
Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico
                                Conocimiento en el dominio biomédico: UMLS
                                           SPECIALIST Lexicon


Proyecto NLM Unified Medical Language System (UMLS):

Objetivo, desarrollo de herramientas que ayuden a investigadores en la
representación del conocimiento, recuperación e integración de información
biomédica.
   UMLS Knowledge Sources (bases de datos multipropósito)
   Herramientas Software (programas)

 Tres componentes principales:

 SPECIALIST Lexicon: Colección de elementos léxicos (>200.000) con información
 gramatical y variantes linguisticas.

  “Anaesthetic” (Anestesia, anestésico)
     {base=anesthetic spelling_variant=anaesthetic entry=E0330018 cat=noun
     variants=reg variants=uncount }

    {base=anesthetic spelling_variant=anaesthetic entry=E0330019 cat=adj
    variants=inv position=attrib(3) position=pred stative }

                                         La Rábida, 15 de enero de 2009                                   13
Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico
                              Conocimiento en el dominio biomédico: UMLS
                                             Metathesaurus


Metathesaurus:
  recopila más de 100                                               cada concepto
  vocabularios y terminologías                                      asignado a uno o
  médicas,                                                          más tipos semánticos
                                                                    de los 135 existentes
  cada término (>5M) asociado a
  un concepto (>1.5M)
  términos relacionados entre sí
  (p.ej., sinónimos) (16M relaciones)




                                       La Rábida, 15 de enero de 2009                                   14
Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico
                              Conocimiento en el dominio biomédico: UMLS
                                         UMLS Semantic Network


UMLS Semantic Network: que forma una ontología con los 135
tipos semánticos que la componen y los 54 tipos de relaciones
entre los tipos.




                                       La Rábida, 15 de enero de 2009                                   15
Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico
                                  Estructura de la presentación




                                La Rábida, 15 de enero de 2009                                   17
Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico
                                  Propuesta de generación del resumen




Nuestra propuesta consiste en la
generación automática de resúmenes
de texto:

  De carácter extractivo

  A partir de una representación del
  docum. original en un grafo

  Centrada en conceptos del ámbito
  biomédico

  Usa la frecuencia de aparición


                                     La Rábida, 15 de enero de 2009
Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico
                              Propuesta de generación del resumen




Fase I: Generación del grafo
              Identificación de sentencias
              Identificación de conceptos UMLS
Fase II: Aplicación del algoritmo de similitud
              Obtención del Solape de conceptos entre frases
Fase III: Aplicación de algoritmo de ranking
              A partir de peso obtenidos por similitud
Fase IV: Creación del resumen
              Selección de nodos/frases más significativas


                                 La Rábida, 15 de enero de 2009                                   19
Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico
                                      Propuesta de generación del resumen
                                            Fase I. Generación del grafo



1.1 Identificación de frases


                Neurofibromatosis type 2 (NF2) is                                             Frase 1
                often not recognised as a distinct
                entity from peripheral
                neurofibromatosis. NF2 is a
                predominantly intracranial condition
                whose hallmark is bilateral vestibular
                schwannomas. NF2 results from a
                mutation in the gene named merlin,
                located on chromosome 22.
                                                                                                  Frase 2



                                                     Frase 3



 [Uppal, S., and A. P. Coatesworth. “Neurofibromatosis Type 2.”Int J Clin Pract, 57, no. 8, 2003, pp. 698--703.]

                                              La Rábida, 15 de enero de 2009                                       20
Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico
                                   Propuesta de generación del resumen
                                        Fase 1. Generación del grafo



1.2 Identificación de conceptos UMLS


             Neurofibromatosis type 2 (NF2) is                                      Frase 1
             often not recognised as a distinct
             entity from peripheral
             neurofibromatosis. NF2 is a
             predominantly intracranial condition
             whose hallmark is bilateral vestibular
             schwannomas. NF2 results from a
             mutation in the gene named merlin,
             located on chromosome 22.
                                                                                       Frase 2



                                              Frase 3


                                                                                              MMTx-API


                                        La Rábida, 15 de enero de 2009                                   21
Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico
                                 Propuesta de generación del resumen
                              Fase 2. Aplicación de algoritmo de similitud


  2. Similitud conceptual, solape entre frases, como “recomendación” de una frase
  de dirigirse a otras que tratan y abundan los mismos conceptos (Mihalcea y
  Tarau, 2004).
                                           Variante: Nº de conceptos comunes entre nodos, normalizado

Frase 1                           Frase 2




               Frase 3




 Grafo resultante, altamente conectado con pesos en las aristas



                                      La Rábida, 15 de enero de 2009                                    22
Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico
                                   Propuesta de generación del resumen
                                 Fase 3. Aplicación de algoritmo de ranking



3. Algoritmo de Ranking, referencias entre nodos y/o conceptos tratadas como
'votos' para decidir el elemento más importante (Brin y Page, 1998)


 Frase 1                            Frase 2




                 Frase 3




                                        La Rábida, 15 de enero de 2009                                   23
Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico
                                 Propuesta de generación del resumen
                                           4. Creación del resumen



4. Selección de nodos/frases más significativas o relevantes




  Frase 1                            Frase 2




                  Frase 3                             Neurofibromatosis type 2 (NF2) is often
                                                      not recognised as a distinct entity from
                                                      peripheral neurofibromatosis.




   Los nodos de mayor puntuación definirán las frases a incluir en resumen. El
   número de frases se basa en un porcentaje del total previamente definido o todas
   las frases con relevancia superior a un umbral.
                                         La Rábida, 15 de enero de 2009                                   24
Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico
                        Propuesta de generación del resumen
                              Herramienta prototipo




                                La Rábida, 15 de enero de 2009                                   25
Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico
                                  Estructura de la presentación




                                La Rábida, 15 de enero de 2009                                   28
Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico
                                       Evaluación




Corpus de sólo 4 textos médicos (BioMed Central)
Inexistencia de Corpus disponibles.
Document Understanding Conference.
Evaluaciones humanas vs Evaluaciones
automáticas
ROUGE (Recall-Oriented Understudy for Gisting
Evaluation) (Lin y Hovy, 2003)
Herramienta de evaluación automática basada en la comparación
  de N-gramas entre resúmenes candidatos y resúmenes modelo



                                La Rábida, 15 de enero de 2009
Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico
                                       Evaluación




 Medida F para ROUGE-1             Medida F para ROUGE-2          Medida F para ROUGE-SU4
 con parámetros DUC                con parámetros DUC             con parámetros DUC



  Sistemas con los que nos comparamos
  Parámetros usados en DUC
  Métricas seleccionadas orientadas a sistemas multidocumento


  Nuestro sistema obtiene muy buenos resultados

                                La Rábida, 15 de enero de 2009
Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico
                                       Evaluación




  Parámetros por defecto en ROUGE
  Todas las métricas ROUGE son evaluadas


  Nuestro sistema obtiene muy buenos resultados, sobre todo para
 N-gramas pequeños (Mayor densidad de conceptos relevantes)

                                La Rábida, 15 de enero de 2009
Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico
                                  Estructura de la presentación




                                La Rábida, 15 de enero de 2009                                   32
Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico
                                     Conclusiones




                                La Rábida, 15 de enero de 2009                                   33
Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico
                                            Temas abiertos




Elaboración u obtención de un corpus evaluable
Evaluación
QARLA, Basic Elements, Método Pirámide, DUC…

Integrar relaciones semánticas obtenidas por SemRep
Tratamiento multidocumento
Visualización en dispositivos móviles
Mejora de la consistencia e interpretabilidad del resumen



                                        La Rábida, 15 de enero de 2009                                   34
Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico
                                  Estructura de la presentación




                                La Rábida, 15 de enero de 2009                                   35
Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico
                                               Contrribuciones



 de la Villa, M., Maña, M. “Estableciendo una línea base para un generador de resúmenes
extractivo basado en conceptos en el ámbito biomédico”. Artículo seleccionado para ser
publicado en el número 42 de la revista de la Sociedad Española para el Procesamiento del
Lenguaje Natural (ISSN 1135-5948) (Abril 2009)
 Cortizo Pérez, J. C., Gachet, D., Buenaga, M. de, Maña, Puertas, E., M., de la Villa, M.
“Extending PubMed on Tap by means of MultiDocument Summarization”. Second International
Workshop on User-Centric Technologies and applications MADRINET’08. (Salamanca, Oct.
2008).
 Buenaga, M. de, Gachet, D., Maña, M., de la Villa, M., Mata J. “Clustering and Summarizing
Medical Documents to Improve Mobile Retrieval”. Poster en el Workshop on Mobile
Information Retrieval de SIGIR 2008(MobIR’08) (Singapore, Julio de 2008).
 de la Villa, M., Maña, M. “Una propuesta de generación de resúmenes extractiva y semántica
en el ámbito biomédico”. Comunicación en el Seminario de Tecnologías Lingüísticas “Técnicas
de extracción y visualización de información: aplicación en la construcción de portales
especializados” (Soria, Julio de 2008).
 Cortizo Pérez, J. C., Gachet, D., Buenaga, M. de, Maña, M., de la Villa, M. “Mobile Medical
Information Access by means of Multidocument Summarization based on Similarities and
Differences”. Poster en el Mobile NLP Workshop de ACL 2008 (Columbus, Ohio, Junio de
2008).



                                           La Rábida, 15 de enero de 2009                                   36
Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico




manuel.villa@dti.uhu.es

http://www.uhu.es/manuel.villa

                                         La Rábida, 15 de enero de 2009                                   37

Más contenido relacionado

Más de Manuel de la Villa

Marca personal para community managers
Marca personal para community managersMarca personal para community managers
Marca personal para community managersManuel de la Villa
 
Taller Facebook #SMUHU parte 2
Taller Facebook #SMUHU parte 2Taller Facebook #SMUHU parte 2
Taller Facebook #SMUHU parte 2Manuel de la Villa
 
Taller Facebook #SMUHU parte 1
Taller Facebook #SMUHU parte 1Taller Facebook #SMUHU parte 1
Taller Facebook #SMUHU parte 1Manuel de la Villa
 
Taller de Presentaciones efectivas
Taller de Presentaciones efectivasTaller de Presentaciones efectivas
Taller de Presentaciones efectivasManuel de la Villa
 
Presentacion Grado en Ingeniería Informática UHU
Presentacion Grado en Ingeniería Informática UHUPresentacion Grado en Ingeniería Informática UHU
Presentacion Grado en Ingeniería Informática UHUManuel de la Villa
 
Curso personal branding profesores
Curso personal branding profesoresCurso personal branding profesores
Curso personal branding profesoresManuel de la Villa
 
Experiences on integrating explicit knowledge on information access tools in ...
Experiences on integrating explicit knowledge on information access tools in ...Experiences on integrating explicit knowledge on information access tools in ...
Experiences on integrating explicit knowledge on information access tools in ...Manuel de la Villa
 
A Biomedical Information Retrieval System based on Clustering for Mobile Dev...
A Biomedical Information Retrieval System  based on Clustering for Mobile Dev...A Biomedical Information Retrieval System  based on Clustering for Mobile Dev...
A Biomedical Information Retrieval System based on Clustering for Mobile Dev...Manuel de la Villa
 
A critical and comparative study about ISO 9001, CMMI and ISO 15504
A critical and comparative study about  ISO 9001, CMMI and ISO 15504A critical and comparative study about  ISO 9001, CMMI and ISO 15504
A critical and comparative study about ISO 9001, CMMI and ISO 15504Manuel de la Villa
 

Más de Manuel de la Villa (14)

Marca personal para community managers
Marca personal para community managersMarca personal para community managers
Marca personal para community managers
 
Taller Facebook #SMUHU parte 2
Taller Facebook #SMUHU parte 2Taller Facebook #SMUHU parte 2
Taller Facebook #SMUHU parte 2
 
Taller Facebook #SMUHU parte 1
Taller Facebook #SMUHU parte 1Taller Facebook #SMUHU parte 1
Taller Facebook #SMUHU parte 1
 
Personal branding
Personal brandingPersonal branding
Personal branding
 
Taller de Presentaciones efectivas
Taller de Presentaciones efectivasTaller de Presentaciones efectivas
Taller de Presentaciones efectivas
 
Presentacion Grado en Ingeniería Informática UHU
Presentacion Grado en Ingeniería Informática UHUPresentacion Grado en Ingeniería Informática UHU
Presentacion Grado en Ingeniería Informática UHU
 
Curso personal branding profesores
Curso personal branding profesoresCurso personal branding profesores
Curso personal branding profesores
 
Herramientas web 2.0 parte 2
Herramientas web 2.0 parte 2Herramientas web 2.0 parte 2
Herramientas web 2.0 parte 2
 
Herramientas web 2.0 Parte 1
Herramientas web 2.0 Parte 1Herramientas web 2.0 Parte 1
Herramientas web 2.0 Parte 1
 
MVilla IUI 2012 Lisbon
MVilla IUI 2012 LisbonMVilla IUI 2012 Lisbon
MVilla IUI 2012 Lisbon
 
Experiences on integrating explicit knowledge on information access tools in ...
Experiences on integrating explicit knowledge on information access tools in ...Experiences on integrating explicit knowledge on information access tools in ...
Experiences on integrating explicit knowledge on information access tools in ...
 
A Biomedical Information Retrieval System based on Clustering for Mobile Dev...
A Biomedical Information Retrieval System  based on Clustering for Mobile Dev...A Biomedical Information Retrieval System  based on Clustering for Mobile Dev...
A Biomedical Information Retrieval System based on Clustering for Mobile Dev...
 
Deconstructing freebase
Deconstructing freebaseDeconstructing freebase
Deconstructing freebase
 
A critical and comparative study about ISO 9001, CMMI and ISO 15504
A critical and comparative study about  ISO 9001, CMMI and ISO 15504A critical and comparative study about  ISO 9001, CMMI and ISO 15504
A critical and comparative study about ISO 9001, CMMI and ISO 15504
 

Último

Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024GiovanniJavierHidalg
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxJOSEMANUELHERNANDEZH11
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxpabonheidy28
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...silviayucra2
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricKeyla Dolores Méndez
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíassuserf18419
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIAWilbisVega
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)GDGSucre
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfsoporteupcology
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafiosFundación YOD YOD
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveFagnerLisboa3
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesFundación YOD YOD
 
9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudianteAndreaHuertas24
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdfIsabellaMontaomurill
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan JosephBRAYANJOSEPHPEREZGOM
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx241521559
 

Último (16)

Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptx
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docx
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnología
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdf
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafios
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento Protégeles
 
9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdf
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Joseph
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx
 

Generación de resúmenes biomédicos

  • 1. 1
  • 2. Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico Estructura de la presentación La Rábida, 15 de enero de 2009 2
  • 3. Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico Estructura de la presentación La Rábida, 15 de enero de 2009 3
  • 4. Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico Motivación Sobrecarga de información (crecimiento exponencial)  Sólo MEDLINE, 16 Mill. referencias, 2000-4000 añadidas diariamente. Necesidad de resúmenes, aparte del abstract  Abstract pierden información (Kostoff et al., 2004)  No existe el resumen ideal, percepción subjetiva (Cohen, 2005) Medicina basada en la evidencia  “uso consciente, explícito y juicioso de la mejor evidencia disponible para la toma de decisiones en el cuidado de nuestros pacientes “(Sackett et Al., 1996).  “… Los médicos no tienen tiempo para desplazarse a través de texto largo. Necesitan alcanzar el recurso adecuado la primera vez, la información en ese recurso necesita ser fácilmente encontrada y toda la información debe estar ahí” (Ely et al., 2002) En este entorno, los resúmenes de texto juegan un papel relevante La Rábida, 15 de enero de 2009 4
  • 5. Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico Estructura de la presentación La Rábida, 15 de enero de 2009 5
  • 6. Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico Conceptos básicos ¿Qué es un resumen de texto? “a text that is produced from one or more texts, that contains a significant portion of the information in the original text(s), and that is no longer than half of the original text(s)” (Hovy, 2005) ¿Qué es un resumen de texto automático? “to take an information source, extract content from it, and present the most important content to the user in a condensed form and in a manner sensitive to the user's or application's needs” (Mani & Maybury, 1999) GAR es un proceso de reducción de la información, que permite a un usuario: tomar idea o conocer el contenido de un texto completo, sin tener que leer todas sus frases, obtener la información relevante. La Rábida, 15 de enero de 2009 6
  • 7. Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico Conceptos básicos Para generar resúmenes existen dos enfoques: El enfoque extractivo: selecciona y extrae frases o partes de ella del texto original, ordenadas por relevancia para el usuario. resulta muy robusto y fácilmente aplicable. Inconveniente: Inconsistencia (refer. Anafóricas) y desequilibrio La Rábida, 15 de enero de 2009 7
  • 8. Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico Conceptos básicos El enfoque abstractivo: engloba técnicas de procesamiento del lenguaje natural, más complejo pues necesita un conocimiento léxico, gramatical y sintáctico del dominio, para modelar semánticamente el conocimiento y a partir de éste ser capaz de generar un resumen. La Rábida, 15 de enero de 2009 8
  • 9. Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico Estructura de la presentación La Rábida, 15 de enero de 2009 12
  • 10. Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico Conocimiento en el dominio biomédico: UMLS SPECIALIST Lexicon Proyecto NLM Unified Medical Language System (UMLS): Objetivo, desarrollo de herramientas que ayuden a investigadores en la representación del conocimiento, recuperación e integración de información biomédica. UMLS Knowledge Sources (bases de datos multipropósito) Herramientas Software (programas) Tres componentes principales: SPECIALIST Lexicon: Colección de elementos léxicos (>200.000) con información gramatical y variantes linguisticas. “Anaesthetic” (Anestesia, anestésico) {base=anesthetic spelling_variant=anaesthetic entry=E0330018 cat=noun variants=reg variants=uncount } {base=anesthetic spelling_variant=anaesthetic entry=E0330019 cat=adj variants=inv position=attrib(3) position=pred stative } La Rábida, 15 de enero de 2009 13
  • 11. Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico Conocimiento en el dominio biomédico: UMLS Metathesaurus Metathesaurus: recopila más de 100 cada concepto vocabularios y terminologías asignado a uno o médicas, más tipos semánticos de los 135 existentes cada término (>5M) asociado a un concepto (>1.5M) términos relacionados entre sí (p.ej., sinónimos) (16M relaciones) La Rábida, 15 de enero de 2009 14
  • 12. Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico Conocimiento en el dominio biomédico: UMLS UMLS Semantic Network UMLS Semantic Network: que forma una ontología con los 135 tipos semánticos que la componen y los 54 tipos de relaciones entre los tipos. La Rábida, 15 de enero de 2009 15
  • 13. Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico Estructura de la presentación La Rábida, 15 de enero de 2009 17
  • 14. Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico Propuesta de generación del resumen Nuestra propuesta consiste en la generación automática de resúmenes de texto: De carácter extractivo A partir de una representación del docum. original en un grafo Centrada en conceptos del ámbito biomédico Usa la frecuencia de aparición La Rábida, 15 de enero de 2009
  • 15. Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico Propuesta de generación del resumen Fase I: Generación del grafo Identificación de sentencias Identificación de conceptos UMLS Fase II: Aplicación del algoritmo de similitud Obtención del Solape de conceptos entre frases Fase III: Aplicación de algoritmo de ranking A partir de peso obtenidos por similitud Fase IV: Creación del resumen Selección de nodos/frases más significativas La Rábida, 15 de enero de 2009 19
  • 16. Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico Propuesta de generación del resumen Fase I. Generación del grafo 1.1 Identificación de frases Neurofibromatosis type 2 (NF2) is Frase 1 often not recognised as a distinct entity from peripheral neurofibromatosis. NF2 is a predominantly intracranial condition whose hallmark is bilateral vestibular schwannomas. NF2 results from a mutation in the gene named merlin, located on chromosome 22. Frase 2 Frase 3 [Uppal, S., and A. P. Coatesworth. “Neurofibromatosis Type 2.”Int J Clin Pract, 57, no. 8, 2003, pp. 698--703.] La Rábida, 15 de enero de 2009 20
  • 17. Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico Propuesta de generación del resumen Fase 1. Generación del grafo 1.2 Identificación de conceptos UMLS Neurofibromatosis type 2 (NF2) is Frase 1 often not recognised as a distinct entity from peripheral neurofibromatosis. NF2 is a predominantly intracranial condition whose hallmark is bilateral vestibular schwannomas. NF2 results from a mutation in the gene named merlin, located on chromosome 22. Frase 2 Frase 3 MMTx-API La Rábida, 15 de enero de 2009 21
  • 18. Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico Propuesta de generación del resumen Fase 2. Aplicación de algoritmo de similitud 2. Similitud conceptual, solape entre frases, como “recomendación” de una frase de dirigirse a otras que tratan y abundan los mismos conceptos (Mihalcea y Tarau, 2004). Variante: Nº de conceptos comunes entre nodos, normalizado Frase 1 Frase 2 Frase 3 Grafo resultante, altamente conectado con pesos en las aristas La Rábida, 15 de enero de 2009 22
  • 19. Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico Propuesta de generación del resumen Fase 3. Aplicación de algoritmo de ranking 3. Algoritmo de Ranking, referencias entre nodos y/o conceptos tratadas como 'votos' para decidir el elemento más importante (Brin y Page, 1998) Frase 1 Frase 2 Frase 3 La Rábida, 15 de enero de 2009 23
  • 20. Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico Propuesta de generación del resumen 4. Creación del resumen 4. Selección de nodos/frases más significativas o relevantes Frase 1 Frase 2 Frase 3 Neurofibromatosis type 2 (NF2) is often not recognised as a distinct entity from peripheral neurofibromatosis. Los nodos de mayor puntuación definirán las frases a incluir en resumen. El número de frases se basa en un porcentaje del total previamente definido o todas las frases con relevancia superior a un umbral. La Rábida, 15 de enero de 2009 24
  • 21. Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico Propuesta de generación del resumen Herramienta prototipo La Rábida, 15 de enero de 2009 25
  • 22. Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico Estructura de la presentación La Rábida, 15 de enero de 2009 28
  • 23. Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico Evaluación Corpus de sólo 4 textos médicos (BioMed Central) Inexistencia de Corpus disponibles. Document Understanding Conference. Evaluaciones humanas vs Evaluaciones automáticas ROUGE (Recall-Oriented Understudy for Gisting Evaluation) (Lin y Hovy, 2003) Herramienta de evaluación automática basada en la comparación de N-gramas entre resúmenes candidatos y resúmenes modelo La Rábida, 15 de enero de 2009
  • 24. Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico Evaluación Medida F para ROUGE-1 Medida F para ROUGE-2 Medida F para ROUGE-SU4 con parámetros DUC con parámetros DUC con parámetros DUC Sistemas con los que nos comparamos Parámetros usados en DUC Métricas seleccionadas orientadas a sistemas multidocumento Nuestro sistema obtiene muy buenos resultados La Rábida, 15 de enero de 2009
  • 25. Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico Evaluación Parámetros por defecto en ROUGE Todas las métricas ROUGE son evaluadas Nuestro sistema obtiene muy buenos resultados, sobre todo para N-gramas pequeños (Mayor densidad de conceptos relevantes) La Rábida, 15 de enero de 2009
  • 26. Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico Estructura de la presentación La Rábida, 15 de enero de 2009 32
  • 27. Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico Conclusiones La Rábida, 15 de enero de 2009 33
  • 28. Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico Temas abiertos Elaboración u obtención de un corpus evaluable Evaluación QARLA, Basic Elements, Método Pirámide, DUC… Integrar relaciones semánticas obtenidas por SemRep Tratamiento multidocumento Visualización en dispositivos móviles Mejora de la consistencia e interpretabilidad del resumen La Rábida, 15 de enero de 2009 34
  • 29. Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico Estructura de la presentación La Rábida, 15 de enero de 2009 35
  • 30. Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico Contrribuciones de la Villa, M., Maña, M. “Estableciendo una línea base para un generador de resúmenes extractivo basado en conceptos en el ámbito biomédico”. Artículo seleccionado para ser publicado en el número 42 de la revista de la Sociedad Española para el Procesamiento del Lenguaje Natural (ISSN 1135-5948) (Abril 2009) Cortizo Pérez, J. C., Gachet, D., Buenaga, M. de, Maña, Puertas, E., M., de la Villa, M. “Extending PubMed on Tap by means of MultiDocument Summarization”. Second International Workshop on User-Centric Technologies and applications MADRINET’08. (Salamanca, Oct. 2008). Buenaga, M. de, Gachet, D., Maña, M., de la Villa, M., Mata J. “Clustering and Summarizing Medical Documents to Improve Mobile Retrieval”. Poster en el Workshop on Mobile Information Retrieval de SIGIR 2008(MobIR’08) (Singapore, Julio de 2008). de la Villa, M., Maña, M. “Una propuesta de generación de resúmenes extractiva y semántica en el ámbito biomédico”. Comunicación en el Seminario de Tecnologías Lingüísticas “Técnicas de extracción y visualización de información: aplicación en la construcción de portales especializados” (Soria, Julio de 2008). Cortizo Pérez, J. C., Gachet, D., Buenaga, M. de, Maña, M., de la Villa, M. “Mobile Medical Information Access by means of Multidocument Summarization based on Similarities and Differences”. Poster en el Mobile NLP Workshop de ACL 2008 (Columbus, Ohio, Junio de 2008). La Rábida, 15 de enero de 2009 36
  • 31. Una propuesta de generación de resúmenes extractiva basada en conceptos en el ámbito biomédico manuel.villa@dti.uhu.es http://www.uhu.es/manuel.villa La Rábida, 15 de enero de 2009 37