SlideShare una empresa de Scribd logo
1 de 28
Descargar para leer sin conexión
International
Open Data
Hackathon
Extracción y Visualización de datos
Janneth Chicaiza Ma. del Carmen Cabrera
Extracción de datos
• Conjunto de métodos y procesos que
permiten extraer datos escondidos de
documentos como PDFs, páginas web. Donde
no se puede acceder a los datos fácilmente
para reutilizarlos.
Extracción de Datos
Extracción
de datos
Herramientas de
Extracción de datos
Tipo/Licencia
Formatos de
entrada
Formatos de salida
Web/Free Trial Archivo PDF Excel - CSV - XML
Escritorio / Free Trial Página Web
HTML - CSV - Excel -
JSON - SQL - VCARD
Tabula WEB/Free/GitHub PDF
Excel - CSV- TSV - JSON
- SCRIPT
import.io Escritorio/Free Trial PDF CSV - Excel
WebHarvy Escritorio/Free Trial Páginas Web
XML- CSV - JSON -
TSV - SQL
Herramientas de
recuperación
RdfLib
Sesame
Herramientas de
extracción
• calcula el número de
elementos por página.	

• permite seleccionar
los elementos de la
pagina web a extraer.	

• permite editar los
datos extraídos.	

• exporta a: html, csv,
txt, excel, json, xml,
sql.
Herramientas de
extracción
• se levanta en el localhost,
8080	

• transforma archivos pdfs.	

• función de autodetección
de tablas.	

• tiene dos métodos de
extracción: Stream,
Lattice.	

• exporta a: csv, tsv, json,
zip csv’s, script.
Tabula
Caso de aplicación
Ranking de investigadores uruguayos
• Fuente de datos: Ranking Web of Universities (RWU).	

• RWU proporciona una lista ordenada de investigadores de instituciones de un
determinado país. 	

• El ranking se calcula de acuerdo a sus perfiles públicos de Google Scholar Citaciones. 	

• Los datos corresponden a septiembre de 2015.
http://www.webometrics.info/en/node/79
Scimago Institutions Ranking (SIR)
• Ranking anual elaborado por Scimago. 	

• Incluye a todas las instituciones de educación superior de los
países que componen Iberoamérica con al menos 1 documento
(artículos, revisiones, cartas, conferencias, etc.) de la base de
datos Scopus.
h"p://www.scimagoir.com/pdf/iber_new/SIR%20Iber%20ECU%202010%20HE.pdf
Visualización
de datos
Simplifica la presentación de los datos y 	

la información importante
Herramientas de visualización
http://www.clasesdeperiodismo.com/2013/10/20/10-
herramientas-para-trabajar-con-periodismo-de-datos/	

Datawrapper
Servicio gratuito para la elaboración de visualizaciones
sencillas, pero bastante útiles. Los usuarios pueden
trabajar con cuadros personalizados entre los que
destacan gráficas de barras, diagramas circulares y
gráficos lineales.	

La herramienta tiene una función de automatización de
contenido que permite generar gráficos a partir de
cuadros en Excel.
h"ps://datawrapper.de/
iCharts
Crear gráficos de barra acompañados de descripciones.
Tiene entre sus opciones la posibilidad de producir cuadros
interactivos.	

Los cuadros desarrollados en esta página pueden ser
insertados fácilmente a páginas web.	

Producto comercial que permite descargar un demo.	

http://icharts.net/
• Librería Javascript para jQuery que
permite crear gráficas dinámicas e
interactivas.
Vennage
Es una herramienta fácil de usar y sirve para
crear cuadros estadísticos e infografías a las
cuales se les puede agregar gráficos,
imágenes y texto.	

Existe una versión gratuita de la plataforma
y otra premium, que por 19 dólares al mes
incluye plantillas editables.	

http://www.flotcharts.org/
https://venngage.com/
Flot
Tableu
Herramienta gratuita para hacer gráficos
interactivos y otras visualizaciones que
permiten a los lectores explorar los
números detrás de una historia.	

Ofrece una amplia gama de diseños
interactivos.
https://public.tableau.com/s/
Google	
  Fusion	
  Tables
Herramienta permite crear visualizaciones
de datos como mapas, gráficos y líneas de
tiempo. Para elaborar cada pieza puedes
usar la información que se encuentra en la
cuenta de Google.
Demostración
Visualización de Datos
Investigadores Uruguayos
Visualización con Fusion Table
• Crear una FusionTable
Tableu
Visualización de datos
Ranking de Universidades del Ecuador
Proyecto Tableu
Muchas gracias

Más contenido relacionado

Similar a Open Data Day - Extracción y Visualización de Datos

Mashups y bibliotecas: cómo elaborar guías temáticas con Netvibes
Mashups y bibliotecas: cómo elaborar guías temáticas con NetvibesMashups y bibliotecas: cómo elaborar guías temáticas con Netvibes
Mashups y bibliotecas: cómo elaborar guías temáticas con NetvibesSocialBiblio
 
S3 2016 taller-javascript-v2
S3 2016 taller-javascript-v2S3 2016 taller-javascript-v2
S3 2016 taller-javascript-v2Manuel Gértrudix
 
⭐Generación de reportes en múltiples formatos con jasper report e ireport
⭐Generación de reportes en múltiples formatos con jasper report e ireport⭐Generación de reportes en múltiples formatos con jasper report e ireport
⭐Generación de reportes en múltiples formatos con jasper report e ireportJosé Pedro Avila
 
Silverstripe equipo7-victoriano-bartolo-jesus-martinez
Silverstripe equipo7-victoriano-bartolo-jesus-martinezSilverstripe equipo7-victoriano-bartolo-jesus-martinez
Silverstripe equipo7-victoriano-bartolo-jesus-martinezjesus_mistico
 
Javier santiago angel 802
Javier santiago angel 802Javier santiago angel 802
Javier santiago angel 802Santiago Angel
 
Fundamentos del diseño web front end
Fundamentos del diseño web front endFundamentos del diseño web front end
Fundamentos del diseño web front endDavid Hurtado
 
IT Camps Apps Office 365 Valencia 2014
IT Camps Apps Office 365 Valencia 2014IT Camps Apps Office 365 Valencia 2014
IT Camps Apps Office 365 Valencia 2014Adrian Diaz Cervera
 
CMS - Metodología de trabajo EMEPE
CMS - Metodología de trabajo EMEPECMS - Metodología de trabajo EMEPE
CMS - Metodología de trabajo EMEPEFernando Feller
 
Manual de usuario caseware idea (imd)
Manual de usuario caseware idea (imd)Manual de usuario caseware idea (imd)
Manual de usuario caseware idea (imd)MedalyMagi
 
Software para el Método de Adquisición de Datos. (1).ppsx
Software para el Método de Adquisición de Datos. (1).ppsxSoftware para el Método de Adquisición de Datos. (1).ppsx
Software para el Método de Adquisición de Datos. (1).ppsxMiguelGonzalez728873
 

Similar a Open Data Day - Extracción y Visualización de Datos (20)

Lawebquestcomputador
LawebquestcomputadorLawebquestcomputador
Lawebquestcomputador
 
Ofimatica
OfimaticaOfimatica
Ofimatica
 
Mashups y bibliotecas: cómo elaborar guías temáticas con Netvibes
Mashups y bibliotecas: cómo elaborar guías temáticas con NetvibesMashups y bibliotecas: cómo elaborar guías temáticas con Netvibes
Mashups y bibliotecas: cómo elaborar guías temáticas con Netvibes
 
S3 2016 taller-javascript-v2
S3 2016 taller-javascript-v2S3 2016 taller-javascript-v2
S3 2016 taller-javascript-v2
 
Full-stack JavaScript: Desarrollo integral de aplicaciones Web con JavaScript
Full-stack JavaScript: Desarrollo integral de aplicaciones Web con JavaScriptFull-stack JavaScript: Desarrollo integral de aplicaciones Web con JavaScript
Full-stack JavaScript: Desarrollo integral de aplicaciones Web con JavaScript
 
Acces
AccesAcces
Acces
 
Tarbajo 5
Tarbajo 5Tarbajo 5
Tarbajo 5
 
⭐Generación de reportes en múltiples formatos con jasper report e ireport
⭐Generación de reportes en múltiples formatos con jasper report e ireport⭐Generación de reportes en múltiples formatos con jasper report e ireport
⭐Generación de reportes en múltiples formatos con jasper report e ireport
 
Silverstripe equipo7-victoriano-bartolo-jesus-martinez
Silverstripe equipo7-victoriano-bartolo-jesus-martinezSilverstripe equipo7-victoriano-bartolo-jesus-martinez
Silverstripe equipo7-victoriano-bartolo-jesus-martinez
 
Javier santiago angel 802
Javier santiago angel 802Javier santiago angel 802
Javier santiago angel 802
 
Fundamentos del diseño web front end
Fundamentos del diseño web front endFundamentos del diseño web front end
Fundamentos del diseño web front end
 
Trabajo informática
Trabajo informáticaTrabajo informática
Trabajo informática
 
Trabajo informática
Trabajo informáticaTrabajo informática
Trabajo informática
 
IT Camps Apps Office 365 Valencia 2014
IT Camps Apps Office 365 Valencia 2014IT Camps Apps Office 365 Valencia 2014
IT Camps Apps Office 365 Valencia 2014
 
CMS - Metodología de trabajo EMEPE
CMS - Metodología de trabajo EMEPECMS - Metodología de trabajo EMEPE
CMS - Metodología de trabajo EMEPE
 
Trabajo informática
Trabajo informáticaTrabajo informática
Trabajo informática
 
Drupal Workshop
Drupal WorkshopDrupal Workshop
Drupal Workshop
 
Herramientas informaticas
Herramientas informaticasHerramientas informaticas
Herramientas informaticas
 
Manual de usuario caseware idea (imd)
Manual de usuario caseware idea (imd)Manual de usuario caseware idea (imd)
Manual de usuario caseware idea (imd)
 
Software para el Método de Adquisición de Datos. (1).ppsx
Software para el Método de Adquisición de Datos. (1).ppsxSoftware para el Método de Adquisición de Datos. (1).ppsx
Software para el Método de Adquisición de Datos. (1).ppsx
 

Último

PIB PERÚ datos y análisis de los últimos años
PIB PERÚ datos y análisis de los últimos añosPIB PERÚ datos y análisis de los últimos años
PIB PERÚ datos y análisis de los últimos añosEstefaniaRojas54
 
Partes y elementos de una iglesia básicos
Partes y elementos de una iglesia básicosPartes y elementos de una iglesia básicos
Partes y elementos de una iglesia básicosMarycarmenNuez4
 
Las mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfLas mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfJC Díaz Herrera
 
Gestión Logística maria palmira guti cabajal
Gestión Logística maria palmira guti cabajalGestión Logística maria palmira guti cabajal
Gestión Logística maria palmira guti cabajalMarcosAlvarezSalinas
 
Listas de Fundamentos de Programación 2024
Listas de Fundamentos de Programación 2024Listas de Fundamentos de Programación 2024
Listas de Fundamentos de Programación 2024AndrsReinosoSnchez1
 
Familias_más_ricas_de_AL_en_la_historia.pdf
Familias_más_ricas_de_AL_en_la_historia.pdfFamilias_más_ricas_de_AL_en_la_historia.pdf
Familias_más_ricas_de_AL_en_la_historia.pdfJC Díaz Herrera
 
Posiciones de México en el PNB PPA per cápita (1982-2024).pdf
Posiciones de México en el PNB PPA per cápita (1982-2024).pdfPosiciones de México en el PNB PPA per cápita (1982-2024).pdf
Posiciones de México en el PNB PPA per cápita (1982-2024).pdfJC Díaz Herrera
 
AA CUADRO DE TEORIA DEL CASO. (1) (1).docx
AA CUADRO DE TEORIA DEL CASO. (1) (1).docxAA CUADRO DE TEORIA DEL CASO. (1) (1).docx
AA CUADRO DE TEORIA DEL CASO. (1) (1).docxLuisAngelYomonaYomon
 
Las marcas automotrices con más ventas de vehículos (2024).pdf
Las marcas automotrices con más ventas de vehículos (2024).pdfLas marcas automotrices con más ventas de vehículos (2024).pdf
Las marcas automotrices con más ventas de vehículos (2024).pdfJC Díaz Herrera
 
Posiciones del IDH a nivel global en México (1982-2024).pdf
Posiciones del IDH a nivel global en México (1982-2024).pdfPosiciones del IDH a nivel global en México (1982-2024).pdf
Posiciones del IDH a nivel global en México (1982-2024).pdfJC Díaz Herrera
 
Tipos de Educacion en diferentes partes del mundo.pptx
Tipos de Educacion en diferentes partes del mundo.pptxTipos de Educacion en diferentes partes del mundo.pptx
Tipos de Educacion en diferentes partes del mundo.pptxMiguelPerz4
 
Qué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problemaQué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problemaJoellyAlejandraRodrg
 
PANTEÓN DE Paris en historia de la arquitectura
PANTEÓN DE Paris en historia de la arquitecturaPANTEÓN DE Paris en historia de la arquitectura
PANTEÓN DE Paris en historia de la arquitecturaRosaHurtado26
 
COMUNICADO PARA TODO TIPO DE REUNIONES .
COMUNICADO PARA TODO TIPO DE REUNIONES .COMUNICADO PARA TODO TIPO DE REUNIONES .
COMUNICADO PARA TODO TIPO DE REUNIONES .GIANELAKAINACHALLCOJ2
 
Novelas Turcas vs Series de EUA en audiencia (2024).pdf
Novelas Turcas vs Series de EUA en audiencia  (2024).pdfNovelas Turcas vs Series de EUA en audiencia  (2024).pdf
Novelas Turcas vs Series de EUA en audiencia (2024).pdfJC Díaz Herrera
 
llllllllllllllllllllllllllllllllllllllllllllllllllllllllll
llllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllll
llllllllllllllllllllllllllllllllllllllllllllllllllllllllllJulietaCarbajalOsis
 
presentacion de conjuntos para primaria.ppt
presentacion de conjuntos para primaria.pptpresentacion de conjuntos para primaria.ppt
presentacion de conjuntos para primaria.pptMelina Alama Visitacion
 
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfLos más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfJC Díaz Herrera
 
Evolución de la fortuna de la familia Slim (1994-2024).pdf
Evolución de la fortuna de la familia Slim (1994-2024).pdfEvolución de la fortuna de la familia Slim (1994-2024).pdf
Evolución de la fortuna de la familia Slim (1994-2024).pdfJC Díaz Herrera
 
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdfPosiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdfJC Díaz Herrera
 

Último (20)

PIB PERÚ datos y análisis de los últimos años
PIB PERÚ datos y análisis de los últimos añosPIB PERÚ datos y análisis de los últimos años
PIB PERÚ datos y análisis de los últimos años
 
Partes y elementos de una iglesia básicos
Partes y elementos de una iglesia básicosPartes y elementos de una iglesia básicos
Partes y elementos de una iglesia básicos
 
Las mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfLas mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdf
 
Gestión Logística maria palmira guti cabajal
Gestión Logística maria palmira guti cabajalGestión Logística maria palmira guti cabajal
Gestión Logística maria palmira guti cabajal
 
Listas de Fundamentos de Programación 2024
Listas de Fundamentos de Programación 2024Listas de Fundamentos de Programación 2024
Listas de Fundamentos de Programación 2024
 
Familias_más_ricas_de_AL_en_la_historia.pdf
Familias_más_ricas_de_AL_en_la_historia.pdfFamilias_más_ricas_de_AL_en_la_historia.pdf
Familias_más_ricas_de_AL_en_la_historia.pdf
 
Posiciones de México en el PNB PPA per cápita (1982-2024).pdf
Posiciones de México en el PNB PPA per cápita (1982-2024).pdfPosiciones de México en el PNB PPA per cápita (1982-2024).pdf
Posiciones de México en el PNB PPA per cápita (1982-2024).pdf
 
AA CUADRO DE TEORIA DEL CASO. (1) (1).docx
AA CUADRO DE TEORIA DEL CASO. (1) (1).docxAA CUADRO DE TEORIA DEL CASO. (1) (1).docx
AA CUADRO DE TEORIA DEL CASO. (1) (1).docx
 
Las marcas automotrices con más ventas de vehículos (2024).pdf
Las marcas automotrices con más ventas de vehículos (2024).pdfLas marcas automotrices con más ventas de vehículos (2024).pdf
Las marcas automotrices con más ventas de vehículos (2024).pdf
 
Posiciones del IDH a nivel global en México (1982-2024).pdf
Posiciones del IDH a nivel global en México (1982-2024).pdfPosiciones del IDH a nivel global en México (1982-2024).pdf
Posiciones del IDH a nivel global en México (1982-2024).pdf
 
Tipos de Educacion en diferentes partes del mundo.pptx
Tipos de Educacion en diferentes partes del mundo.pptxTipos de Educacion en diferentes partes del mundo.pptx
Tipos de Educacion en diferentes partes del mundo.pptx
 
Qué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problemaQué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problema
 
PANTEÓN DE Paris en historia de la arquitectura
PANTEÓN DE Paris en historia de la arquitecturaPANTEÓN DE Paris en historia de la arquitectura
PANTEÓN DE Paris en historia de la arquitectura
 
COMUNICADO PARA TODO TIPO DE REUNIONES .
COMUNICADO PARA TODO TIPO DE REUNIONES .COMUNICADO PARA TODO TIPO DE REUNIONES .
COMUNICADO PARA TODO TIPO DE REUNIONES .
 
Novelas Turcas vs Series de EUA en audiencia (2024).pdf
Novelas Turcas vs Series de EUA en audiencia  (2024).pdfNovelas Turcas vs Series de EUA en audiencia  (2024).pdf
Novelas Turcas vs Series de EUA en audiencia (2024).pdf
 
llllllllllllllllllllllllllllllllllllllllllllllllllllllllll
llllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllll
llllllllllllllllllllllllllllllllllllllllllllllllllllllllll
 
presentacion de conjuntos para primaria.ppt
presentacion de conjuntos para primaria.pptpresentacion de conjuntos para primaria.ppt
presentacion de conjuntos para primaria.ppt
 
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfLos más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
 
Evolución de la fortuna de la familia Slim (1994-2024).pdf
Evolución de la fortuna de la familia Slim (1994-2024).pdfEvolución de la fortuna de la familia Slim (1994-2024).pdf
Evolución de la fortuna de la familia Slim (1994-2024).pdf
 
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdfPosiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
 

Open Data Day - Extracción y Visualización de Datos

  • 1. International Open Data Hackathon Extracción y Visualización de datos Janneth Chicaiza Ma. del Carmen Cabrera
  • 2. Extracción de datos • Conjunto de métodos y procesos que permiten extraer datos escondidos de documentos como PDFs, páginas web. Donde no se puede acceder a los datos fácilmente para reutilizarlos.
  • 4. Herramientas de Extracción de datos Tipo/Licencia Formatos de entrada Formatos de salida Web/Free Trial Archivo PDF Excel - CSV - XML Escritorio / Free Trial Página Web HTML - CSV - Excel - JSON - SQL - VCARD Tabula WEB/Free/GitHub PDF Excel - CSV- TSV - JSON - SCRIPT import.io Escritorio/Free Trial PDF CSV - Excel WebHarvy Escritorio/Free Trial Páginas Web XML- CSV - JSON - TSV - SQL
  • 6. Herramientas de extracción • calcula el número de elementos por página. • permite seleccionar los elementos de la pagina web a extraer. • permite editar los datos extraídos. • exporta a: html, csv, txt, excel, json, xml, sql.
  • 7. Herramientas de extracción • se levanta en el localhost, 8080 • transforma archivos pdfs. • función de autodetección de tablas. • tiene dos métodos de extracción: Stream, Lattice. • exporta a: csv, tsv, json, zip csv’s, script. Tabula
  • 9. Ranking de investigadores uruguayos • Fuente de datos: Ranking Web of Universities (RWU). • RWU proporciona una lista ordenada de investigadores de instituciones de un determinado país. • El ranking se calcula de acuerdo a sus perfiles públicos de Google Scholar Citaciones. • Los datos corresponden a septiembre de 2015. http://www.webometrics.info/en/node/79
  • 10. Scimago Institutions Ranking (SIR) • Ranking anual elaborado por Scimago. • Incluye a todas las instituciones de educación superior de los países que componen Iberoamérica con al menos 1 documento (artículos, revisiones, cartas, conferencias, etc.) de la base de datos Scopus. h"p://www.scimagoir.com/pdf/iber_new/SIR%20Iber%20ECU%202010%20HE.pdf
  • 11. Visualización de datos Simplifica la presentación de los datos y la información importante
  • 12. Herramientas de visualización http://www.clasesdeperiodismo.com/2013/10/20/10- herramientas-para-trabajar-con-periodismo-de-datos/ Datawrapper Servicio gratuito para la elaboración de visualizaciones sencillas, pero bastante útiles. Los usuarios pueden trabajar con cuadros personalizados entre los que destacan gráficas de barras, diagramas circulares y gráficos lineales. La herramienta tiene una función de automatización de contenido que permite generar gráficos a partir de cuadros en Excel. h"ps://datawrapper.de/ iCharts Crear gráficos de barra acompañados de descripciones. Tiene entre sus opciones la posibilidad de producir cuadros interactivos. Los cuadros desarrollados en esta página pueden ser insertados fácilmente a páginas web. Producto comercial que permite descargar un demo. http://icharts.net/
  • 13. • Librería Javascript para jQuery que permite crear gráficas dinámicas e interactivas. Vennage Es una herramienta fácil de usar y sirve para crear cuadros estadísticos e infografías a las cuales se les puede agregar gráficos, imágenes y texto. Existe una versión gratuita de la plataforma y otra premium, que por 19 dólares al mes incluye plantillas editables. http://www.flotcharts.org/ https://venngage.com/ Flot
  • 14. Tableu Herramienta gratuita para hacer gráficos interactivos y otras visualizaciones que permiten a los lectores explorar los números detrás de una historia. Ofrece una amplia gama de diseños interactivos. https://public.tableau.com/s/ Google  Fusion  Tables Herramienta permite crear visualizaciones de datos como mapas, gráficos y líneas de tiempo. Para elaborar cada pieza puedes usar la información que se encuentra en la cuenta de Google.
  • 17. Visualización con Fusion Table • Crear una FusionTable
  • 18.
  • 19.
  • 20.
  • 22. Visualización de datos Ranking de Universidades del Ecuador
  • 24.
  • 25.
  • 26.
  • 27.