SlideShare una empresa de Scribd logo
1 de 9
Extracción de Información
Pedro Contreras Flores
2015
NER
• El reconocimiento de nombres de entidades, Named entity
recognition (NER), es una subtarea de la recuperación de
información que busca localizar y clasificar elementos atómicos
en texto sobre categorías predefinidas como nombres de
personas, organizaciones, localizaciones, expresiones de horas,
cantidades, valores monetarios, porcentajes, etc.
• Desde 1998 existe un gran interés en el reconocimiento de
entidades en las áreas de la biología
molecular, bioinformática y procesamiento del lenguaje
natural.
Stanford
• Implementación en java, licencia GNU GPL
• Reconoce person, organization, location
• Con modelos de entrenamiento CoNLL2003
• Utiliza Conditional Random Field (CRF)
• CRF es un modelo estocástico utilizado
habitualmente para etiquetar y segmentar
secuencias de datos o extraer información de
documentos. En algunos contextos también se les
denomina campos aleatorios de Márkov (inglés:
Markov random Fields,MRF).
Standford
• Software provided here is similar to the baseline
local+Viterbi model
• CoNLL-2002 and CoNLL-2003 (British newswire)
– Multiple languages: Spanish, Dutch, English, German
– 4 entities: Person, Location, Organization, Misc
• MUC-6 and MUC-7 (American newswire)
– 7 entities: Person, Location, Organization, Time, Date,
Percent, Money
• ACE
– 5 entities: Location, Organization, Person, FAC, GPE
• BBN (Penn Treebank)
– 22 entities: Animal, Cardinal, Date, Disease, …
Modelos
• Included with Stanford NER are a 4 class model trained
for CoNLL, a 7 class model trained for MUC, and a 3 class
model trained on both data sets for the intersection of
those class sets.
– 3 class:Location, Person, Organization
– 4 class:Location, Person, Organization, Misc
– 7 class:Time, Location, Organization, Person, Money, Percent,
Date
• As of version 3.4.1, we have a Spanish model available
for NER. It is included in the Spanish corenlp models jar.
Spanish CoreNLP models
Ejemplo online
• http://nlp.stanford.edu:8080/ner/process
Gate
Intellexer
• http://www.intellexer.com/intellexer1.html
AFNER
• http://afner.sourceforge.net/afner.html

Más contenido relacionado

Destacado

Comparativo entre plataformas de ESB
Comparativo entre plataformas de ESBComparativo entre plataformas de ESB
Comparativo entre plataformas de ESBIntellego Chile
 
Encuentro open data, 12 de julio de 2012
Encuentro open data, 12 de julio de 2012Encuentro open data, 12 de julio de 2012
Encuentro open data, 12 de julio de 2012Christian Sifaqui
 
Charla II Congreso de Bibliotecas Universitarias y Especializadas
Charla II Congreso de Bibliotecas Universitarias y EspecializadasCharla II Congreso de Bibliotecas Universitarias y Especializadas
Charla II Congreso de Bibliotecas Universitarias y EspecializadasChristian Sifaqui
 

Destacado (7)

Plataforma de Digitalización
Plataforma de DigitalizaciónPlataforma de Digitalización
Plataforma de Digitalización
 
CreacióN De Base De Datos De Revistas
CreacióN De Base De Datos De RevistasCreacióN De Base De Datos De Revistas
CreacióN De Base De Datos De Revistas
 
Comparativo entre plataformas de ESB
Comparativo entre plataformas de ESBComparativo entre plataformas de ESB
Comparativo entre plataformas de ESB
 
Charla Floss 07
Charla Floss 07Charla Floss 07
Charla Floss 07
 
Encuentro open data, 12 de julio de 2012
Encuentro open data, 12 de julio de 2012Encuentro open data, 12 de julio de 2012
Encuentro open data, 12 de julio de 2012
 
Charla II Congreso de Bibliotecas Universitarias y Especializadas
Charla II Congreso de Bibliotecas Universitarias y EspecializadasCharla II Congreso de Bibliotecas Universitarias y Especializadas
Charla II Congreso de Bibliotecas Universitarias y Especializadas
 
Clase 13, 9/10/2007
Clase 13, 9/10/2007Clase 13, 9/10/2007
Clase 13, 9/10/2007
 

Más de Pedro Contreras Flores

Servicio de información para bibliotecas
Servicio de información para bibliotecasServicio de información para bibliotecas
Servicio de información para bibliotecasPedro Contreras Flores
 
Business intelligence (bi) y big data0
Business intelligence (bi) y big data0Business intelligence (bi) y big data0
Business intelligence (bi) y big data0Pedro Contreras Flores
 
Sistemas y servicios de informacion intro
Sistemas y servicios de informacion introSistemas y servicios de informacion intro
Sistemas y servicios de informacion introPedro Contreras Flores
 
Hormigas arfificiales - Mauro San Martín
Hormigas arfificiales - Mauro San MartínHormigas arfificiales - Mauro San Martín
Hormigas arfificiales - Mauro San MartínPedro Contreras Flores
 

Más de Pedro Contreras Flores (20)

El dilema de las redes sociales
El dilema de las redes sociales El dilema de las redes sociales
El dilema de las redes sociales
 
Tipos de sistemas de información
Tipos de sistemas de informaciónTipos de sistemas de información
Tipos de sistemas de información
 
Text Analytics - JCC2014 Kimelfeld
Text Analytics - JCC2014 KimelfeldText Analytics - JCC2014 Kimelfeld
Text Analytics - JCC2014 Kimelfeld
 
Servicio de información para bibliotecas
Servicio de información para bibliotecasServicio de información para bibliotecas
Servicio de información para bibliotecas
 
Gestión del conocimiento
Gestión del conocimientoGestión del conocimiento
Gestión del conocimiento
 
Business intelligence (bi) y big data0
Business intelligence (bi) y big data0Business intelligence (bi) y big data0
Business intelligence (bi) y big data0
 
Bibliotecas moviles y calidad
Bibliotecas moviles y calidadBibliotecas moviles y calidad
Bibliotecas moviles y calidad
 
Sistemas y servicios de informacion intro
Sistemas y servicios de informacion introSistemas y servicios de informacion intro
Sistemas y servicios de informacion intro
 
Red de transporte urbano
Red de transporte urbanoRed de transporte urbano
Red de transporte urbano
 
Packing
PackingPacking
Packing
 
Hormigas arfificiales - Mauro San Martín
Hormigas arfificiales - Mauro San MartínHormigas arfificiales - Mauro San Martín
Hormigas arfificiales - Mauro San Martín
 
Tecnologías de la información
Tecnologías de la informaciónTecnologías de la información
Tecnologías de la información
 
Modelamiento y simulación
Modelamiento y simulaciónModelamiento y simulación
Modelamiento y simulación
 
Java 3D
Java 3DJava 3D
Java 3D
 
Complementos de programación
Complementos de programaciónComplementos de programación
Complementos de programación
 
4 memoria dinamica
4 memoria dinamica4 memoria dinamica
4 memoria dinamica
 
3 recursividad
3 recursividad3 recursividad
3 recursividad
 
2 punteros y lenguaje c
2 punteros y lenguaje c2 punteros y lenguaje c
2 punteros y lenguaje c
 
Programación grafica en lenguaje c
Programación grafica en lenguaje cProgramación grafica en lenguaje c
Programación grafica en lenguaje c
 
2 archivos
2 archivos2 archivos
2 archivos
 

Último

International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)GDGSucre
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricKeyla Dolores Méndez
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafiosFundación YOD YOD
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIAWilbisVega
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxpabonheidy28
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024GiovanniJavierHidalg
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxJOSEMANUELHERNANDEZH11
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...silviayucra2
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfsoporteupcology
 
9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudianteAndreaHuertas24
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan JosephBRAYANJOSEPHPEREZGOM
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveFagnerLisboa3
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdfIsabellaMontaomurill
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíassuserf18419
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesFundación YOD YOD
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx241521559
 

Último (16)

International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafios
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docx
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptx
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdf
 
9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Joseph
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdf
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnología
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento Protégeles
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx
 

Extracción de información

  • 1. Extracción de Información Pedro Contreras Flores 2015
  • 2. NER • El reconocimiento de nombres de entidades, Named entity recognition (NER), es una subtarea de la recuperación de información que busca localizar y clasificar elementos atómicos en texto sobre categorías predefinidas como nombres de personas, organizaciones, localizaciones, expresiones de horas, cantidades, valores monetarios, porcentajes, etc. • Desde 1998 existe un gran interés en el reconocimiento de entidades en las áreas de la biología molecular, bioinformática y procesamiento del lenguaje natural.
  • 3. Stanford • Implementación en java, licencia GNU GPL • Reconoce person, organization, location • Con modelos de entrenamiento CoNLL2003 • Utiliza Conditional Random Field (CRF) • CRF es un modelo estocástico utilizado habitualmente para etiquetar y segmentar secuencias de datos o extraer información de documentos. En algunos contextos también se les denomina campos aleatorios de Márkov (inglés: Markov random Fields,MRF).
  • 4. Standford • Software provided here is similar to the baseline local+Viterbi model • CoNLL-2002 and CoNLL-2003 (British newswire) – Multiple languages: Spanish, Dutch, English, German – 4 entities: Person, Location, Organization, Misc • MUC-6 and MUC-7 (American newswire) – 7 entities: Person, Location, Organization, Time, Date, Percent, Money • ACE – 5 entities: Location, Organization, Person, FAC, GPE • BBN (Penn Treebank) – 22 entities: Animal, Cardinal, Date, Disease, …
  • 5. Modelos • Included with Stanford NER are a 4 class model trained for CoNLL, a 7 class model trained for MUC, and a 3 class model trained on both data sets for the intersection of those class sets. – 3 class:Location, Person, Organization – 4 class:Location, Person, Organization, Misc – 7 class:Time, Location, Organization, Person, Money, Percent, Date • As of version 3.4.1, we have a Spanish model available for NER. It is included in the Spanish corenlp models jar. Spanish CoreNLP models

Notas del editor

  1. http://blog.viewchange.org/2010/05/entity-extraction-content-api-evaluation/
  2. http://mallet.cs.umass.edu/
  3. Textos bilingues http://www.englishspanishlink.com/deluxewriter/bilingual_spanish_english_stories.htm
  4. http://nersuite.nlplab.org/index.html
  5. http://www.cs.umd.edu/hcil/VASTchallenge2010/Entries/202_dmws-sztaki-PinWallVis_MC1/index_mc1.htm