Herramientas de Extracción de Información para la Creación de un Corpus de un Sitio de Gobierno Abierto

HerramientasdeExtraccióndeInformaciónpara
laCreacióndeunCorpusdeun
SitiodeGobiernoAbierto
Olga Acosta
Elena Gamboa
Claudia Gutierrez

Repositorios
Institucionales
Sistemas de
Recuperación
de
Información
Bases de datos
de revistas
Repositorios
de Tesis
Repositorios
Temáticos
Grandes volúmenes de
Información en formatos
digitales
Administran
Gestionan
Recuperan

Extracciónde Información
Información
Herramientas
de
Extracción de
Información
Extracción
Terminológica
Análisis del
Contenido

Extracción de Información
• Es una subdisciplina es un sub disciplina de la Inteligencia
Artificial
• Utiliza las técnicas de procesamiento de lenguaje natural para
explorar un dominio del conocimiento específico (conjunto de
documentos).
• De acuerdo con Riloff y Lorenzen (1999), un sistema de EI
obtiene información de textos en lengua natural y para un
dominio específico, donde se debe definir previamente el
dominio y los tipos de información de interés.

La Extracciónde Informaciónnos permite:
Realizar el análisis del contenido
de los documentos (análisis del
discurso)
Extracción terminológica para
crear un vocabulario controlado,
tesauros u ontologías.
Realizar un análisis
terminológico

Extraccionde Información Sitio de Transparencia
• El proceso de extracción de información en este caso específico
tiene como propósito semi - automatizar la obtención de datos
relacionados con los indicadores del modelo de evaluación de de
los sitios de gobierno abierto: Directorio de transparencia Activa
y Portal de datos de gobierno.
• Herramientas utilizadas:
Lenguaje de Programación Python
Libreria BeautifulSoup
Sketchengine

ModeloModelo para la Evaluaciónde los
DatosAbiertos
De acuerdo a los estándares por W3C y el G8 se ha fijado el siguiente
modelos de evaluación de datos abiertos:

Usando BeautifulSoup
La librería Beautiful Soup nos permite la exploración y la
extracción del contenido de páginas en HTML y XML.
Se obtiene una estructura de datos anidada que facilita la
navegación y la extracción de la información relevante mediante
las funciones disponibles en el módulo.
En el siguiente link podemos encontrar un tutorial que nos
explica como usar los diferentes funciones
http://www.crummy.com/software/BeautifulSoup/bs4/doc/

UsandoSketchengine:
• Es una herramienta computacional que permite realizar el análisis
linguístico de un corpus ( conjuntos de textos de un mismo dominio
del conocimiento).
• Es un programa que se puede consultar en la web:
http://www.sketchengine.co.uk/

Usando Sketchengine
1. Crear uncorpus:
Esmuyimportanteseleccionarelidiomayaquesketcheenginenospermitetrabajaren
diferentes idiomas.

Usando Sketchengine
• Sketchengine permite formar un corpus a partir de una url dada o de un archivo soportando
los siguientes tipos formatos:.doc, .docx, .htm, .html, .pdf, .ps, .tar.bz2, .tar.gz, .tgz, .tmx, .txt,
.vert, .xml, .zip. txt .
• También puedo subir los archivos a su servidor.

Usando Sketchengine
• Una vez formado el corpus puedo explorarlo utilizando las
funciones del módulo de exploración:
• Concordance
• Word List
• Word Sketch
• Thesaurus
• Find X
• Sketch-Diff

E.I para un sitio de gobierno
abierto
• Pasos previos a la extracción de información:
• Construir un diagrama de la estructura del sitio a explorar
• Determinar la muestra de las entidades del directorio de
transparencia Establecer los niveles de navegación
• Explorar y aprender usar las herramientas (BeautifulSoup y
Sketch Egine)

Conclusiones
• Las herramientas de Extracción de información constituyen una
valiosa herramienta para los profesionales de la información.
• Permiten realizar el análisis terminológico y de contenido de un
corpus de un dominio del conocimiento.
• Permite establecer un vocabulario normalizado altamente
representativo del contenido del los documentos.
• Permite extraer información específica y significativa para los
análisis de contenido.

Herramientas de Extracción de Información para la Creación de un Corpus de un Sitio de Gobierno Abierto

Recomendados

Recomendados

Más contenido relacionado

Similar a Herramientas de Extracción de Información para la Creación de un Corpus de un Sitio de Gobierno Abierto

Similar a Herramientas de Extracción de Información para la Creación de un Corpus de un Sitio de Gobierno Abierto (20)

Más de Claudia Gutiérrez

Más de Claudia Gutiérrez (8)

Último

Último (20)

Herramientas de Extracción de Información para la Creación de un Corpus de un Sitio de Gobierno Abierto