SlideShare una empresa de Scribd logo
1 de 11
Descargar para leer sin conexión
OpenRefine
Limpieza profesional de datos

By @fontanon
OpenRefine

Limpieza profesional al alcance de todos :)

Funciones
Funciones
básicas
básicas

Abre todo tipo de formatos reutilizables
Búsquedas facetadas
Unifica/divide columnas
Rellena celdas en base a patrones

Dominar estas t écnicas solucionan el 80% de
las necesidades de limpieza de datos

Un poco de
Un poco de
magia
magia

Algoritmos de agrupamiento (Clustering)
Enriquecimiento con fuentes externas

No siempre son necesarias, pero cuando lo
son ¡OpenRefine nos resuelve la vida !
Objetivo: Un dataset limpio

Cada fila una observaci ón, cada columna una variable
Datasets ¿para qué?

Descubrir las historias escondidas en los datos

Comparativas
Comparativas

Por Proporciones
internas/externas
T
abla Rankings
La universidad administra el doble de becas de familia
numerosa que por bajo ingreso de alumno.

Exploración
Exploración
y
y
Agregados
Agregados

Análisis de
Análisis de
datos
datos

Series temporales
por categorías
Las becas universitarias a familias numerosas han
descandido en un 25% en los últimos 10 a ños.

Correlación de variables
Modelado predictivo
Las becas universitarias a familias numerosas llegar á
a un 10% del importe actual en 2015.
EL método

La web como fuente de datos
Formula la
Formula la
pregunta
pregunta
correcta
correcta

Identifica
Identifica
fuentes de
fuentes de
datos
datos

Obtención
Obtención
y
y
Limpieza
Limpieza

Presenta
Presenta
resultados
resultados

Interpreta
Interpreta
resultados
resultados

Análisis
Análisis
EL método

La web como fuente de datos
Formula la
Formula la
pregunta
pregunta
correcta
correcta

Identifica
Identifica
fuentes de
fuentes de
datos
datos

Presenta
Presenta
resultados
resultados

Interpreta
Interpreta
resultados
resultados

..
en .
s
re mo
ra
cent
Nos

Obtención
Obtención
y
y
Limpieza
Limpieza

Análisis
Análisis
Formatos

Soporta todo … lo reutilizable

No
No
reutilizable
reutilizable

Información contenida en páginas web
Documentos: PDF, Imágenes ...

Requieren de t écnicas de extracci ón de datos

Reutilizable
Reutilizable

Hojas de cálculo: XLS, ODS, CSV ...
Machine-Readable: XML, JSON ...

Facilitan el an álisis de forma directa
Playas Magrama
Ejemplo de exploraci ón

Descarga dataset original y transformaci ón (GitHub)
Los Papeles de Bárcenas
Ejemplo de Armonizado y Clustering

Descarga dataset original y transformaci ón (GitHub)
Ganadores de Oscars
Ejemplo de enriquecimiento sem ántico

Descarga dataset original y transformaci ón (GitHub)
OpenRefine

Limpieza profesional de datos

Por: J. Félix Ontañón
@fontanon
Para más información consultar:
●

●

OpenRefine en tu
kit de
herramientas
para hacer de la
web una gran
base de datos

OpenRefine Website
Tutorial OpenRefine

●

Linked Open Data Refine (LodRefine)

●
●

Using OpenRefine (ebook)

S íguenos : http://openkratio.org

Más contenido relacionado

Más de OpenKratio

Más de OpenKratio (14)

Open Data y Drupal
Open Data y DrupalOpen Data y Drupal
Open Data y Drupal
 
Presentación del grupo Opendatasev en el W3C
Presentación del grupo Opendatasev en el W3CPresentación del grupo Opendatasev en el W3C
Presentación del grupo Opendatasev en el W3C
 
Introducción al Open Data
Introducción al Open DataIntroducción al Open Data
Introducción al Open Data
 
Cómo conseguir un Gobierno Abierto
Cómo conseguir un Gobierno AbiertoCómo conseguir un Gobierno Abierto
Cómo conseguir un Gobierno Abierto
 
La importancia del Gobierno Abierto
La importancia del Gobierno AbiertoLa importancia del Gobierno Abierto
La importancia del Gobierno Abierto
 
Abrir datos gubernamentales para la reutilización
Abrir datos gubernamentales para la reutilizaciónAbrir datos gubernamentales para la reutilización
Abrir datos gubernamentales para la reutilización
 
Reutilización de la información pública en el ámbito local
Reutilización de la información pública en el ámbito localReutilización de la información pública en el ámbito local
Reutilización de la información pública en el ámbito local
 
Gobierno Abierto y Democracia Digital
Gobierno Abierto y Democracia DigitalGobierno Abierto y Democracia Digital
Gobierno Abierto y Democracia Digital
 
Taller de periodismo: Cómo desenvolverse entre datos y mapas
Taller de periodismo: Cómo desenvolverse entre datos y mapasTaller de periodismo: Cómo desenvolverse entre datos y mapas
Taller de periodismo: Cómo desenvolverse entre datos y mapas
 
Gobierno Abierto: por qué, para qué y cómo
Gobierno Abierto: por qué, para qué y cómoGobierno Abierto: por qué, para qué y cómo
Gobierno Abierto: por qué, para qué y cómo
 
OpenGovernment como modelo para el Partido Abiertoº
OpenGovernment como modelo para el Partido AbiertoºOpenGovernment como modelo para el Partido Abiertoº
OpenGovernment como modelo para el Partido Abiertoº
 
OpenGov. Oportunidades por desarrollar
OpenGov. Oportunidades por desarrollarOpenGov. Oportunidades por desarrollar
OpenGov. Oportunidades por desarrollar
 
Gobierno Abierto desde la perspectiva de una ciudadanía activa.
Gobierno Abierto desde la perspectiva de una ciudadanía activa.Gobierno Abierto desde la perspectiva de una ciudadanía activa.
Gobierno Abierto desde la perspectiva de una ciudadanía activa.
 
OpenGovernment para una ciudadanía activa
OpenGovernment para una ciudadanía activaOpenGovernment para una ciudadanía activa
OpenGovernment para una ciudadanía activa
 

Último

redes informaticas en una oficina administrativa
redes informaticas en una oficina administrativaredes informaticas en una oficina administrativa
redes informaticas en una oficina administrativa
nicho110
 

Último (10)

Avances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estosAvances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estos
 
How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.
 
Buenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptxBuenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptx
 
investigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXIinvestigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXI
 
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
 
Guia Basica para bachillerato de Circuitos Basicos
Guia Basica para bachillerato de Circuitos BasicosGuia Basica para bachillerato de Circuitos Basicos
Guia Basica para bachillerato de Circuitos Basicos
 
Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21
 
Avances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanaAvances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvana
 
redes informaticas en una oficina administrativa
redes informaticas en una oficina administrativaredes informaticas en una oficina administrativa
redes informaticas en una oficina administrativa
 
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptxEVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
 

OpenRefine limpieza profesional de datos

  • 2. OpenRefine Limpieza profesional al alcance de todos :) Funciones Funciones básicas básicas Abre todo tipo de formatos reutilizables Búsquedas facetadas Unifica/divide columnas Rellena celdas en base a patrones Dominar estas t écnicas solucionan el 80% de las necesidades de limpieza de datos Un poco de Un poco de magia magia Algoritmos de agrupamiento (Clustering) Enriquecimiento con fuentes externas No siempre son necesarias, pero cuando lo son ¡OpenRefine nos resuelve la vida !
  • 3. Objetivo: Un dataset limpio Cada fila una observaci ón, cada columna una variable
  • 4. Datasets ¿para qué? Descubrir las historias escondidas en los datos Comparativas Comparativas Por Proporciones internas/externas T abla Rankings La universidad administra el doble de becas de familia numerosa que por bajo ingreso de alumno. Exploración Exploración y y Agregados Agregados Análisis de Análisis de datos datos Series temporales por categorías Las becas universitarias a familias numerosas han descandido en un 25% en los últimos 10 a ños. Correlación de variables Modelado predictivo Las becas universitarias a familias numerosas llegar á a un 10% del importe actual en 2015.
  • 5. EL método La web como fuente de datos Formula la Formula la pregunta pregunta correcta correcta Identifica Identifica fuentes de fuentes de datos datos Obtención Obtención y y Limpieza Limpieza Presenta Presenta resultados resultados Interpreta Interpreta resultados resultados Análisis Análisis
  • 6. EL método La web como fuente de datos Formula la Formula la pregunta pregunta correcta correcta Identifica Identifica fuentes de fuentes de datos datos Presenta Presenta resultados resultados Interpreta Interpreta resultados resultados .. en . s re mo ra cent Nos Obtención Obtención y y Limpieza Limpieza Análisis Análisis
  • 7. Formatos Soporta todo … lo reutilizable No No reutilizable reutilizable Información contenida en páginas web Documentos: PDF, Imágenes ... Requieren de t écnicas de extracci ón de datos Reutilizable Reutilizable Hojas de cálculo: XLS, ODS, CSV ... Machine-Readable: XML, JSON ... Facilitan el an álisis de forma directa
  • 8. Playas Magrama Ejemplo de exploraci ón Descarga dataset original y transformaci ón (GitHub)
  • 9. Los Papeles de Bárcenas Ejemplo de Armonizado y Clustering Descarga dataset original y transformaci ón (GitHub)
  • 10. Ganadores de Oscars Ejemplo de enriquecimiento sem ántico Descarga dataset original y transformaci ón (GitHub)
  • 11. OpenRefine Limpieza profesional de datos Por: J. Félix Ontañón @fontanon Para más información consultar: ● ● OpenRefine en tu kit de herramientas para hacer de la web una gran base de datos OpenRefine Website Tutorial OpenRefine ● Linked Open Data Refine (LodRefine) ● ● Using OpenRefine (ebook) S íguenos : http://openkratio.org