La web semántica no acaba de llegar: esa que promete datos estructurados y linkados para hacer de la web una inmensa base de datos.
En el camino nos encontramos con OpenRefine, una gran herramienta que nos permite hacer limpieza de datos (data wrangling) y enlazado con terceras fuentes.
Presentación preparada para los talleres de las Jornadas de Software Libre OSLUCA 2013:
http://osl.uca.es/talleres
2. OpenRefine
Limpieza profesional al alcance de todos :)
Funciones
Funciones
básicas
básicas
Abre todo tipo de formatos reutilizables
Búsquedas facetadas
Unifica/divide columnas
Rellena celdas en base a patrones
Dominar estas t écnicas solucionan el 80% de
las necesidades de limpieza de datos
Un poco de
Un poco de
magia
magia
Algoritmos de agrupamiento (Clustering)
Enriquecimiento con fuentes externas
No siempre son necesarias, pero cuando lo
son ¡OpenRefine nos resuelve la vida !
3. Objetivo: Un dataset limpio
Cada fila una observaci ón, cada columna una variable
4. Datasets ¿para qué?
Descubrir las historias escondidas en los datos
Comparativas
Comparativas
Por Proporciones
internas/externas
T
abla Rankings
La universidad administra el doble de becas de familia
numerosa que por bajo ingreso de alumno.
Exploración
Exploración
y
y
Agregados
Agregados
Análisis de
Análisis de
datos
datos
Series temporales
por categorías
Las becas universitarias a familias numerosas han
descandido en un 25% en los últimos 10 a ños.
Correlación de variables
Modelado predictivo
Las becas universitarias a familias numerosas llegar á
a un 10% del importe actual en 2015.
5. EL método
La web como fuente de datos
Formula la
Formula la
pregunta
pregunta
correcta
correcta
Identifica
Identifica
fuentes de
fuentes de
datos
datos
Obtención
Obtención
y
y
Limpieza
Limpieza
Presenta
Presenta
resultados
resultados
Interpreta
Interpreta
resultados
resultados
Análisis
Análisis
6. EL método
La web como fuente de datos
Formula la
Formula la
pregunta
pregunta
correcta
correcta
Identifica
Identifica
fuentes de
fuentes de
datos
datos
Presenta
Presenta
resultados
resultados
Interpreta
Interpreta
resultados
resultados
..
en .
s
re mo
ra
cent
Nos
Obtención
Obtención
y
y
Limpieza
Limpieza
Análisis
Análisis
7. Formatos
Soporta todo … lo reutilizable
No
No
reutilizable
reutilizable
Información contenida en páginas web
Documentos: PDF, Imágenes ...
Requieren de t écnicas de extracci ón de datos
Reutilizable
Reutilizable
Hojas de cálculo: XLS, ODS, CSV ...
Machine-Readable: XML, JSON ...
Facilitan el an álisis de forma directa
9. Los Papeles de Bárcenas
Ejemplo de Armonizado y Clustering
Descarga dataset original y transformaci ón (GitHub)
10. Ganadores de Oscars
Ejemplo de enriquecimiento sem ántico
Descarga dataset original y transformaci ón (GitHub)
11. OpenRefine
Limpieza profesional de datos
Por: J. Félix Ontañón
@fontanon
Para más información consultar:
●
●
OpenRefine en tu
kit de
herramientas
para hacer de la
web una gran
base de datos
OpenRefine Website
Tutorial OpenRefine
●
Linked Open Data Refine (LodRefine)
●
●
Using OpenRefine (ebook)
S íguenos : http://openkratio.org