SlideShare una empresa de Scribd logo
1 de 16
HerramientasdeExtraccióndeInformaciónpara
laCreacióndeunCorpusdeun
SitiodeGobiernoAbierto
Olga Acosta
Elena Gamboa
Claudia Gutierrez
Repositorios
Institucionales
Sistemas de
Recuperación
de
Información
Bases de datos
de revistas
Repositorios
de Tesis
Repositorios
Temáticos
Grandes volúmenes de
Información en formatos
digitales
Administran
Gestionan
Recuperan
Extracciónde Información
Información
Herramientas
de
Extracción de
Información
Extracción
Terminológica
Análisis del
Contenido
Extracción de Información
• Es una subdisciplina es un sub disciplina de la Inteligencia
Artificial
• Utiliza las técnicas de procesamiento de lenguaje natural para
explorar un dominio del conocimiento específico (conjunto de
documentos).
• De acuerdo con Riloff y Lorenzen (1999), un sistema de EI
obtiene información de textos en lengua natural y para un
dominio específico, donde se debe definir previamente el
dominio y los tipos de información de interés.
La Extracciónde Informaciónnos permite:
Realizar el análisis del contenido
de los documentos (análisis del
discurso)
Extracción terminológica para
crear un vocabulario controlado,
tesauros u ontologías.
Realizar un análisis
terminológico
Extraccionde Información Sitio de Transparencia
• El proceso de extracción de información en este caso específico
tiene como propósito semi - automatizar la obtención de datos
relacionados con los indicadores del modelo de evaluación de de
los sitios de gobierno abierto: Directorio de transparencia Activa
y Portal de datos de gobierno.
• Herramientas utilizadas:
Lenguaje de Programación Python
Libreria BeautifulSoup
Sketchengine
ModeloModelo para la Evaluaciónde los
DatosAbiertos
De acuerdo a los estándares por W3C y el G8 se ha fijado el siguiente
modelos de evaluación de datos abiertos:
Usando BeautifulSoup
La librería Beautiful Soup nos permite la exploración y la
extracción del contenido de páginas en HTML y XML.
Se obtiene una estructura de datos anidada que facilita la
navegación y la extracción de la información relevante mediante
las funciones disponibles en el módulo.
En el siguiente link podemos encontrar un tutorial que nos
explica como usar los diferentes funciones
http://www.crummy.com/software/BeautifulSoup/bs4/doc/
UsandoSketchengine:
• Es una herramienta computacional que permite realizar el análisis
linguístico de un corpus ( conjuntos de textos de un mismo dominio
del conocimiento).
• Es un programa que se puede consultar en la web:
http://www.sketchengine.co.uk/
Usando Sketchengine
1. Crear uncorpus:
Esmuyimportanteseleccionarelidiomayaquesketcheenginenospermitetrabajaren
diferentes idiomas.
Usando Sketchengine
• Sketchengine permite formar un corpus a partir de una url dada o de un archivo soportando
los siguientes tipos formatos:.doc, .docx, .htm, .html, .pdf, .ps, .tar.bz2, .tar.gz, .tgz, .tmx, .txt,
.vert, .xml, .zip. txt .
• También puedo subir los archivos a su servidor.
Usando Sketchengine
• Una vez formado el corpus puedo explorarlo utilizando las
funciones del módulo de exploración:
• Concordance
• Word List
• Word Sketch
• Thesaurus
• Find X
• Sketch-Diff
E.I para un sitio de gobierno
abierto
• Pasos previos a la extracción de información:
• Construir un diagrama de la estructura del sitio a explorar
• Determinar la muestra de las entidades del directorio de
transparencia Establecer los niveles de navegación
• Explorar y aprender usar las herramientas (BeautifulSoup y
Sketch Egine)
Pasospara la E.I.
Conclusiones
• Las herramientas de Extracción de información constituyen una
valiosa herramienta para los profesionales de la información.
• Permiten realizar el análisis terminológico y de contenido de un
corpus de un dominio del conocimiento.
• Permite establecer un vocabulario normalizado altamente
representativo del contenido del los documentos.
• Permite extraer información específica y significativa para los
análisis de contenido.

Más contenido relacionado

Similar a Herramientas de Extracción de Información para la Creación de un Corpus de un Sitio de Gobierno Abierto

Herramientas de internet
Herramientas de internetHerramientas de internet
Herramientas de internetJairoGaray
 
Herramientas del Internet
Herramientas del Internet Herramientas del Internet
Herramientas del Internet genesiskpop
 
Herramientas para la Creación y Publicación de Contenidos Didácticos.
  Herramientas para la Creación y Publicación de Contenidos Didácticos.  Herramientas para la Creación y Publicación de Contenidos Didácticos.
Herramientas para la Creación y Publicación de Contenidos Didácticos.UAPA
 
Sistema de archivos
Sistema de archivosSistema de archivos
Sistema de archivosMafe Leon
 
Desarrollo De La actividad 0
Desarrollo De La actividad 0Desarrollo De La actividad 0
Desarrollo De La actividad 0Mafe Leon
 
Homework tecnologías aplicadas a la educación. herramienta de creación y cont...
Homework tecnologías aplicadas a la educación. herramienta de creación y cont...Homework tecnologías aplicadas a la educación. herramienta de creación y cont...
Homework tecnologías aplicadas a la educación. herramienta de creación y cont...sandra Monegro
 
Sistema de archivos
Sistema de archivosSistema de archivos
Sistema de archivosfernandaroar
 
Herramientas%20de%20gesti%c3%b3n%20del%20conocimiento[1]
Herramientas%20de%20gesti%c3%b3n%20del%20conocimiento[1]Herramientas%20de%20gesti%c3%b3n%20del%20conocimiento[1]
Herramientas%20de%20gesti%c3%b3n%20del%20conocimiento[1]Jorge Israel
 
Herramientas%20de%20gesti%c3%b3n%20del%20conocimiento[1]
Herramientas%20de%20gesti%c3%b3n%20del%20conocimiento[1]Herramientas%20de%20gesti%c3%b3n%20del%20conocimiento[1]
Herramientas%20de%20gesti%c3%b3n%20del%20conocimiento[1]Jorge Israel
 
Procesamiento del lenguaje natural
Procesamiento del lenguaje naturalProcesamiento del lenguaje natural
Procesamiento del lenguaje naturalYasuri Puc
 
Informe Proyecto Final
Informe Proyecto FinalInforme Proyecto Final
Informe Proyecto Finalguest9a73ea
 

Similar a Herramientas de Extracción de Información para la Creación de un Corpus de un Sitio de Gobierno Abierto (20)

Herramientas de internet
Herramientas de internetHerramientas de internet
Herramientas de internet
 
Herramientas del Internet
Herramientas del Internet Herramientas del Internet
Herramientas del Internet
 
Repositorio digital
Repositorio digitalRepositorio digital
Repositorio digital
 
Tecnología Tarea III
Tecnología Tarea IIITecnología Tarea III
Tecnología Tarea III
 
Herramientas para la Creación y Publicación de Contenidos Didácticos.
  Herramientas para la Creación y Publicación de Contenidos Didácticos.  Herramientas para la Creación y Publicación de Contenidos Didácticos.
Herramientas para la Creación y Publicación de Contenidos Didácticos.
 
Portafolio de trabajo
Portafolio de trabajoPortafolio de trabajo
Portafolio de trabajo
 
Sistema de archivos
Sistema de archivosSistema de archivos
Sistema de archivos
 
Desarrollo De La actividad 0
Desarrollo De La actividad 0Desarrollo De La actividad 0
Desarrollo De La actividad 0
 
Homework tecnologías aplicadas a la educación. herramienta de creación y cont...
Homework tecnologías aplicadas a la educación. herramienta de creación y cont...Homework tecnologías aplicadas a la educación. herramienta de creación y cont...
Homework tecnologías aplicadas a la educación. herramienta de creación y cont...
 
Los repositorios
Los repositoriosLos repositorios
Los repositorios
 
Gestion del conocimiento
Gestion del conocimientoGestion del conocimiento
Gestion del conocimiento
 
Gestion del conocimiento
Gestion del conocimientoGestion del conocimiento
Gestion del conocimiento
 
Conceptos Basicos
Conceptos BasicosConceptos Basicos
Conceptos Basicos
 
Sistema de archivos
Sistema de archivosSistema de archivos
Sistema de archivos
 
Sistema de archivos
Sistema de archivosSistema de archivos
Sistema de archivos
 
Herramientas%20de%20gesti%c3%b3n%20del%20conocimiento[1]
Herramientas%20de%20gesti%c3%b3n%20del%20conocimiento[1]Herramientas%20de%20gesti%c3%b3n%20del%20conocimiento[1]
Herramientas%20de%20gesti%c3%b3n%20del%20conocimiento[1]
 
Herramientas%20de%20gesti%c3%b3n%20del%20conocimiento[1]
Herramientas%20de%20gesti%c3%b3n%20del%20conocimiento[1]Herramientas%20de%20gesti%c3%b3n%20del%20conocimiento[1]
Herramientas%20de%20gesti%c3%b3n%20del%20conocimiento[1]
 
Unidad de aprendizaje iv almacenamiento
Unidad de aprendizaje iv almacenamientoUnidad de aprendizaje iv almacenamiento
Unidad de aprendizaje iv almacenamiento
 
Procesamiento del lenguaje natural
Procesamiento del lenguaje naturalProcesamiento del lenguaje natural
Procesamiento del lenguaje natural
 
Informe Proyecto Final
Informe Proyecto FinalInforme Proyecto Final
Informe Proyecto Final
 

Más de Claudia Gutiérrez

Methods for Information Architecture Standardization on Large Information Sys...
Methods for Information Architecture Standardization on Large Information Sys...Methods for Information Architecture Standardization on Large Information Sys...
Methods for Information Architecture Standardization on Large Information Sys...Claudia Gutiérrez
 
Content Strategy for Large Scale Websites (Administración de contenidos para ...
Content Strategy for Large Scale Websites (Administración de contenidos para ...Content Strategy for Large Scale Websites (Administración de contenidos para ...
Content Strategy for Large Scale Websites (Administración de contenidos para ...Claudia Gutiérrez
 
Framework for Participating in Information Architecture Public Tendering Proc...
Framework for Participating in Information Architecture Public Tendering Proc...Framework for Participating in Information Architecture Public Tendering Proc...
Framework for Participating in Information Architecture Public Tendering Proc...Claudia Gutiérrez
 
Metodología para la creación de un corpus para evaluar el sitio de gobierno a...
Metodología para la creación de un corpus para evaluar el sitio de gobierno a...Metodología para la creación de un corpus para evaluar el sitio de gobierno a...
Metodología para la creación de un corpus para evaluar el sitio de gobierno a...Claudia Gutiérrez
 
Web Design and Information Architecture for 2.0 Sites
Web Design and Information Architecture for 2.0 SitesWeb Design and Information Architecture for 2.0 Sites
Web Design and Information Architecture for 2.0 SitesClaudia Gutiérrez
 
La nueva receta de los Profesionales de la Información
La nueva receta de los Profesionales de la InformaciónLa nueva receta de los Profesionales de la Información
La nueva receta de los Profesionales de la InformaciónClaudia Gutiérrez
 
Future of UX 5 years: The UX of no devices
Future of UX 5 years: The UX of no devicesFuture of UX 5 years: The UX of no devices
Future of UX 5 years: The UX of no devicesClaudia Gutiérrez
 

Más de Claudia Gutiérrez (8)

Methods for Information Architecture Standardization on Large Information Sys...
Methods for Information Architecture Standardization on Large Information Sys...Methods for Information Architecture Standardization on Large Information Sys...
Methods for Information Architecture Standardization on Large Information Sys...
 
Content Strategy for Large Scale Websites (Administración de contenidos para ...
Content Strategy for Large Scale Websites (Administración de contenidos para ...Content Strategy for Large Scale Websites (Administración de contenidos para ...
Content Strategy for Large Scale Websites (Administración de contenidos para ...
 
Framework for Participating in Information Architecture Public Tendering Proc...
Framework for Participating in Information Architecture Public Tendering Proc...Framework for Participating in Information Architecture Public Tendering Proc...
Framework for Participating in Information Architecture Public Tendering Proc...
 
Metodología para la creación de un corpus para evaluar el sitio de gobierno a...
Metodología para la creación de un corpus para evaluar el sitio de gobierno a...Metodología para la creación de un corpus para evaluar el sitio de gobierno a...
Metodología para la creación de un corpus para evaluar el sitio de gobierno a...
 
Web Design and Information Architecture for 2.0 Sites
Web Design and Information Architecture for 2.0 SitesWeb Design and Information Architecture for 2.0 Sites
Web Design and Information Architecture for 2.0 Sites
 
La nueva receta de los Profesionales de la Información
La nueva receta de los Profesionales de la InformaciónLa nueva receta de los Profesionales de la Información
La nueva receta de los Profesionales de la Información
 
Future of UX 5 years: The UX of no devices
Future of UX 5 years: The UX of no devicesFuture of UX 5 years: The UX of no devices
Future of UX 5 years: The UX of no devices
 
UXPA Latam 2015
UXPA Latam 2015 UXPA Latam 2015
UXPA Latam 2015
 

Último

SalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersSalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersIván López Martín
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx241521559
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesFundación YOD YOD
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfSergioMendoza354770
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan JosephBRAYANJOSEPHPEREZGOM
 
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...JaquelineJuarez15
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxJOSEMANUELHERNANDEZH11
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadMiguelAngelVillanuev48
 
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...AlanCedillo9
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdfIsabellaMontaomurill
 
ejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sofejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sofJuancarlosHuertasNio1
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024GiovanniJavierHidalg
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafiosFundación YOD YOD
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIAWilbisVega
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricKeyla Dolores Méndez
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfsoporteupcology
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxaylincamaho
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxpabonheidy28
 
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...FacuMeza2
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)GDGSucre
 

Último (20)

SalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersSalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento Protégeles
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Joseph
 
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptx
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidad
 
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdf
 
ejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sofejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sof
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafios
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdf
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docx
 
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)
 

Herramientas de Extracción de Información para la Creación de un Corpus de un Sitio de Gobierno Abierto

  • 2. Repositorios Institucionales Sistemas de Recuperación de Información Bases de datos de revistas Repositorios de Tesis Repositorios Temáticos Grandes volúmenes de Información en formatos digitales Administran Gestionan Recuperan
  • 4. Extracción de Información • Es una subdisciplina es un sub disciplina de la Inteligencia Artificial • Utiliza las técnicas de procesamiento de lenguaje natural para explorar un dominio del conocimiento específico (conjunto de documentos). • De acuerdo con Riloff y Lorenzen (1999), un sistema de EI obtiene información de textos en lengua natural y para un dominio específico, donde se debe definir previamente el dominio y los tipos de información de interés.
  • 5. La Extracciónde Informaciónnos permite: Realizar el análisis del contenido de los documentos (análisis del discurso) Extracción terminológica para crear un vocabulario controlado, tesauros u ontologías. Realizar un análisis terminológico
  • 6. Extraccionde Información Sitio de Transparencia • El proceso de extracción de información en este caso específico tiene como propósito semi - automatizar la obtención de datos relacionados con los indicadores del modelo de evaluación de de los sitios de gobierno abierto: Directorio de transparencia Activa y Portal de datos de gobierno. • Herramientas utilizadas: Lenguaje de Programación Python Libreria BeautifulSoup Sketchengine
  • 7. ModeloModelo para la Evaluaciónde los DatosAbiertos De acuerdo a los estándares por W3C y el G8 se ha fijado el siguiente modelos de evaluación de datos abiertos:
  • 8. Usando BeautifulSoup La librería Beautiful Soup nos permite la exploración y la extracción del contenido de páginas en HTML y XML. Se obtiene una estructura de datos anidada que facilita la navegación y la extracción de la información relevante mediante las funciones disponibles en el módulo. En el siguiente link podemos encontrar un tutorial que nos explica como usar los diferentes funciones http://www.crummy.com/software/BeautifulSoup/bs4/doc/
  • 9. UsandoSketchengine: • Es una herramienta computacional que permite realizar el análisis linguístico de un corpus ( conjuntos de textos de un mismo dominio del conocimiento). • Es un programa que se puede consultar en la web: http://www.sketchengine.co.uk/
  • 10. Usando Sketchengine 1. Crear uncorpus: Esmuyimportanteseleccionarelidiomayaquesketcheenginenospermitetrabajaren diferentes idiomas.
  • 11. Usando Sketchengine • Sketchengine permite formar un corpus a partir de una url dada o de un archivo soportando los siguientes tipos formatos:.doc, .docx, .htm, .html, .pdf, .ps, .tar.bz2, .tar.gz, .tgz, .tmx, .txt, .vert, .xml, .zip. txt . • También puedo subir los archivos a su servidor.
  • 12. Usando Sketchengine • Una vez formado el corpus puedo explorarlo utilizando las funciones del módulo de exploración: • Concordance • Word List • Word Sketch • Thesaurus • Find X • Sketch-Diff
  • 13. E.I para un sitio de gobierno abierto • Pasos previos a la extracción de información: • Construir un diagrama de la estructura del sitio a explorar • Determinar la muestra de las entidades del directorio de transparencia Establecer los niveles de navegación • Explorar y aprender usar las herramientas (BeautifulSoup y Sketch Egine)
  • 15.
  • 16. Conclusiones • Las herramientas de Extracción de información constituyen una valiosa herramienta para los profesionales de la información. • Permiten realizar el análisis terminológico y de contenido de un corpus de un dominio del conocimiento. • Permite establecer un vocabulario normalizado altamente representativo del contenido del los documentos. • Permite extraer información específica y significativa para los análisis de contenido.