Presentation about data mining tools to create a Body of Knowledge for open Data Standards for Government Sites. It was presented on tha Annual Librarian Sciences Conference at Biblioteca Nacional, Santiago, Chile
4. Extracción de Información
• Es una subdisciplina es un sub disciplina de la Inteligencia
Artificial
• Utiliza las técnicas de procesamiento de lenguaje natural para
explorar un dominio del conocimiento específico (conjunto de
documentos).
• De acuerdo con Riloff y Lorenzen (1999), un sistema de EI
obtiene información de textos en lengua natural y para un
dominio específico, donde se debe definir previamente el
dominio y los tipos de información de interés.
5. La Extracciónde Informaciónnos permite:
Realizar el análisis del contenido
de los documentos (análisis del
discurso)
Extracción terminológica para
crear un vocabulario controlado,
tesauros u ontologías.
Realizar un análisis
terminológico
6. Extraccionde Información Sitio de Transparencia
• El proceso de extracción de información en este caso específico
tiene como propósito semi - automatizar la obtención de datos
relacionados con los indicadores del modelo de evaluación de de
los sitios de gobierno abierto: Directorio de transparencia Activa
y Portal de datos de gobierno.
• Herramientas utilizadas:
Lenguaje de Programación Python
Libreria BeautifulSoup
Sketchengine
7. ModeloModelo para la Evaluaciónde los
DatosAbiertos
De acuerdo a los estándares por W3C y el G8 se ha fijado el siguiente
modelos de evaluación de datos abiertos:
8. Usando BeautifulSoup
La librería Beautiful Soup nos permite la exploración y la
extracción del contenido de páginas en HTML y XML.
Se obtiene una estructura de datos anidada que facilita la
navegación y la extracción de la información relevante mediante
las funciones disponibles en el módulo.
En el siguiente link podemos encontrar un tutorial que nos
explica como usar los diferentes funciones
http://www.crummy.com/software/BeautifulSoup/bs4/doc/
9. UsandoSketchengine:
• Es una herramienta computacional que permite realizar el análisis
linguístico de un corpus ( conjuntos de textos de un mismo dominio
del conocimiento).
• Es un programa que se puede consultar en la web:
http://www.sketchengine.co.uk/
10. Usando Sketchengine
1. Crear uncorpus:
Esmuyimportanteseleccionarelidiomayaquesketcheenginenospermitetrabajaren
diferentes idiomas.
11. Usando Sketchengine
• Sketchengine permite formar un corpus a partir de una url dada o de un archivo soportando
los siguientes tipos formatos:.doc, .docx, .htm, .html, .pdf, .ps, .tar.bz2, .tar.gz, .tgz, .tmx, .txt,
.vert, .xml, .zip. txt .
• También puedo subir los archivos a su servidor.
12. Usando Sketchengine
• Una vez formado el corpus puedo explorarlo utilizando las
funciones del módulo de exploración:
• Concordance
• Word List
• Word Sketch
• Thesaurus
• Find X
• Sketch-Diff
13. E.I para un sitio de gobierno
abierto
• Pasos previos a la extracción de información:
• Construir un diagrama de la estructura del sitio a explorar
• Determinar la muestra de las entidades del directorio de
transparencia Establecer los niveles de navegación
• Explorar y aprender usar las herramientas (BeautifulSoup y
Sketch Egine)
16. Conclusiones
• Las herramientas de Extracción de información constituyen una
valiosa herramienta para los profesionales de la información.
• Permiten realizar el análisis terminológico y de contenido de un
corpus de un dominio del conocimiento.
• Permite establecer un vocabulario normalizado altamente
representativo del contenido del los documentos.
• Permite extraer información específica y significativa para los
análisis de contenido.