SlideShare una empresa de Scribd logo
1 de 16
Descargar para leer sin conexión
DDJ Extracción de datos#
Aprende a trabajar con datos en la webAprende a trabajar con datos en la web
By @fontanonBy @fontanon
Periodimo de datos DDJ#Periodimo de datos DDJ#
Descubrir las historias escondidas en los datosDescubrir las historias escondidas en los datos
ComparativasComparativas
Exploraci nó
y
Agregados
Exploraci nó
y
Agregados
An lisis deá
datos
An lisis deá
datos
Por ProporcionesPor Proporciones
internas/externasinternas/externas
TablaTabla RankingsRankings
La universidad administra el doble de becas de familiaLa universidad administra el doble de becas de familia
numerosa que por bajo ingreso de alumno.numerosa que por bajo ingreso de alumno.
Series temporalesSeries temporales
por categoríaspor categorías
Las becas universitarias a familias numerosas hanLas becas universitarias a familias numerosas han
descandido en un 25% en los ltimos 10 a os.ú ñdescandido en un 25% en los ltimos 10 a os.ú ñ
Correlación de variablesCorrelación de variables
Modelado predictivoModelado predictivo
Las becas universitarias a familias numerosas llegaráLas becas universitarias a familias numerosas llegará
a un 10% del importe actual en 2015.a un 10% del importe actual en 2015.
EL métodoEL método
Presenta
resultados
Presenta
resultados
Interpreta
resultados
Interpreta
resultados
Obtenci nó
y
Limpieza
Obtenci nó
y
Limpieza
An lisisáAn lisisá
La web como fuente de datosLa web como fuente de datos
Formula la
pregunta
correcta
Formula la
pregunta
correcta
Identifica
fuentes de
datos
Identifica
fuentes de
datos
EL métodoEL método
Formula la
pregunta
correcta
Formula la
pregunta
correcta
Presenta
resultados
Presenta
resultados
Identifica
fuentes de
datos
Identifica
fuentes de
datos
Interpreta
resultados
Interpreta
resultados
Obtenci nó
y
Limpieza
Obtenci nó
y
Limpieza
An lisisáAn lisisá
La web como fuente de datosLa web como fuente de datos
Nos centraremos en ...
Nos centraremos en ...
Objetivo: UnObjetivo: Un datasetdataset limpiolimpio
Cada fila una observaci n, cada columna una variableóCada fila una observaci n, cada columna una variableó
FormatosFormatos
Hacen f cil o dif cil la obtenci n de informaci ná í ó óHacen f cil o dif cil la obtenci n de informaci ná í ó ó
ReutilizableReutilizable
Hojas de cálculo: XLS, ODS, CSV ...Hojas de cálculo: XLS, ODS, CSV ...
Machine-Readable: XML, JSON ...Machine-Readable: XML, JSON ...
Facilitan el an lisis de forma directaáFacilitan el an lisis de forma directaá
No
reutilizable
No
reutilizable
Información contenida en páginas webInformación contenida en páginas web
Documentos: PDF, Imágenes ...Documentos: PDF, Imágenes ...
Requieren de t cnicas de extracci n de datosé óRequieren de t cnicas de extracci n de datosé ó
RecomendacionesRecomendaciones
…… a tener en cuenta antes que ponerte a trabajar:a tener en cuenta antes que ponerte a trabajar:
Solicitud de
acceso a la
informaci nó
Solicitud de
acceso a la
informaci nó
Útil para obtener información públicaÚtil para obtener información pública
3 meses para obtener respuesta (ley 30/1992)3 meses para obtener respuesta (ley 30/1992)
Existe posibilidad de silencio administrativoExiste posibilidad de silencio administrativo
Necesitamos una ley de transparencia ya¡ !Necesitamos una ley de transparencia ya¡ !
Puedes apoyarte en tuderechoasaber.esPuedes apoyarte en tuderechoasaber.es
Licencia de
uso
Licencia de
uso
Dominio públicoDominio público
Algunos derechos reservadosAlgunos derechos reservados
Todos los derechos reservadosTodos los derechos reservados
Aseg rate de informarte y cumplir licenciaúAseg rate de informarte y cumplir licenciaú
antes que reutilizar datos.antes que reutilizar datos.
1
reutilizables#reutilizables#
Un poco de limpieza y a trabajar
OpenRefineOpenRefine
Limpieza profesionalLimpieza profesional al alcance de todos :)al alcance de todos :)
Un poco de
magia
Un poco de
magia
Algoritmos de agrupamiento (Algoritmos de agrupamiento (ClusteringClustering))
Enriquecimiento con fuentes externasEnriquecimiento con fuentes externas
No siempre son necesarias, pero cuando loNo siempre son necesarias, pero cuando lo
son OpenRefine nos¡son OpenRefine nos¡ resuelve la vidaresuelve la vida!!
Funciones
b sicasá
Funciones
b sicasá
Abre todo tipo de formatos reutilizablesAbre todo tipo de formatos reutilizables
BúsquedasBúsquedas facetadasfacetadas
Unifica/divide columnasUnifica/divide columnas
Rellena celdas en base a patronesRellena celdas en base a patrones
Dominar estas t cnicas solucionan el 80% deéDominar estas t cnicas solucionan el 80% deé
las necesidades de limpieza de datoslas necesidades de limpieza de datos
Limpieza profesionalLimpieza profesional al alcance de todos :)al alcance de todos :)
Veamos un ejemplo ...Veamos un ejemplo ...
OpenRefineOpenRefine
Los papeles de B rcenasá
2
No reutilizables#No reutilizables#
Va a tocar hacer scrapping
Ficheros PDFsFicheros PDFs
No siempre es posibleNo siempre es posible
CometDocs
Convierte de PDF a
varios formatos
CometDocs
Convierte de PDF a
varios formatos
Google Drive
Soporta conversi nó
OCR desde PDFs
Google Drive
Soporta conversi nó
OCR desde PDFs
Recomendamos:Recomendamos:
Ficheros PDFsFicheros PDFs
No siempre es posibleNo siempre es posible
Veamos un ejemplo ...Veamos un ejemplo ...
Presus Univ. Granada
Información en páginas webInformación en páginas web
Deber a ser siempre posibleíDeber a ser siempre posibleí
Multip ginaáMultip ginaá
Ruby NokogiriRuby Nokogiri
Python BeautifulScriptPython BeautifulScript
Consulte a su inform ticoáConsulte a su inform ticoá de cabecerade cabecera..
Busque ayuda en ScraperWiki.Busque ayuda en ScraperWiki.
Una sola
p ginaá
Una sola
p ginaá
¿Funciona Copiar / Pegar?¿Funciona Copiar / Pegar?
Scraping con Google SpreadsheetScraping con Google Spreadsheet
Plugin Scraper de Google ChromePlugin Scraper de Google Chrome
DapperDapper
ScrapingScraping sin programar. Limitado asin programar. Limitado a
informaci n contenida en una sola p gina.ó áinformaci n contenida en una sola p gina.ó á
Información en páginas webInformación en páginas web
Deber a ser siempre posibleíDeber a ser siempre posibleí
Veamos un ejemplo ...Veamos un ejemplo ...
US Bank Failures
Por: J. Félix OntañónPor: J. Félix Ontañón
@fontanon@fontanon
S guenosí : http://openkratio.org
Los datos son al
periodismo de la
era internet lo
que la c mara alá
periodismo de la
era mass-media
Para más información consultar:
DDJ Extracción de datos#DDJ Extracción de datos#
Aprende a trabajar con datos en la webAprende a trabajar con datos en la web

Más contenido relacionado

Similar a Extracción de datos desde información en la web

Big Data - El Futuro a través de los Datos
Big Data - El Futuro a través de los DatosBig Data - El Futuro a través de los Datos
Big Data - El Futuro a través de los DatosOscar Corcho
 
Personas e investigación de usuarios
Personas e investigación de usuariosPersonas e investigación de usuarios
Personas e investigación de usuariosGustavo Soto Miño
 
PROYECCION BASES DE DATOS AL FUTURO
PROYECCION BASES DE DATOS AL FUTUROPROYECCION BASES DE DATOS AL FUTURO
PROYECCION BASES DE DATOS AL FUTUROdaayala
 
Periodismo de datos: Básico y con recursos gratis
Periodismo de datos: Básico y con recursos gratisPeriodismo de datos: Básico y con recursos gratis
Periodismo de datos: Básico y con recursos gratisSandra Crucianelli
 
2016 ULL Cabildo KEEDIO - BigData
2016 ULL Cabildo KEEDIO - BigData2016 ULL Cabildo KEEDIO - BigData
2016 ULL Cabildo KEEDIO - BigDataKEEDIO
 
Técnicas y herramientas de extracción de datos
Técnicas y herramientas de extracción de datos Técnicas y herramientas de extracción de datos
Técnicas y herramientas de extracción de datos Juan Sixto
 
Respaldo de datos Agustín Contrera
Respaldo de datos Agustín ContreraRespaldo de datos Agustín Contrera
Respaldo de datos Agustín Contrera1998AgustinRC
 
Ado.net entity framework
Ado.net entity frameworkAdo.net entity framework
Ado.net entity frameworkCein
 
Internet, herramienta para la consulta
Internet, herramienta para la consultaInternet, herramienta para la consulta
Internet, herramienta para la consultaRubén García Pérez
 
Big Data Introducción
Big Data IntroducciónBig Data Introducción
Big Data IntroducciónGorka Armentia
 
Introduction de Logiciel libre
Introduction de Logiciel libreIntroduction de Logiciel libre
Introduction de Logiciel libreInnomarroco
 
Francisco Sanchez. ITI. Big Data, Anaytics El valor de los datos. Semanainfor...
Francisco Sanchez. ITI. Big Data, Anaytics El valor de los datos. Semanainfor...Francisco Sanchez. ITI. Big Data, Anaytics El valor de los datos. Semanainfor...
Francisco Sanchez. ITI. Big Data, Anaytics El valor de los datos. Semanainfor...COIICV
 
Practica4_pet_imagina_el_trabajo_en_2030
Practica4_pet_imagina_el_trabajo_en_2030 Practica4_pet_imagina_el_trabajo_en_2030
Practica4_pet_imagina_el_trabajo_en_2030 Bernardo Diaz-Almeida
 
Recomendaciones presentaciones v3
Recomendaciones presentaciones v3Recomendaciones presentaciones v3
Recomendaciones presentaciones v3Armando Islas
 
Information tracking with OPTOS: siguiendo la pista por la red
Information tracking with OPTOS: siguiendo la pista por la redInformation tracking with OPTOS: siguiendo la pista por la red
Information tracking with OPTOS: siguiendo la pista por la redBlueliv
 
El Idescat en Google Public Data Explorer
El Idescat en Google Public Data ExplorerEl Idescat en Google Public Data Explorer
El Idescat en Google Public Data ExplorerXavier Badosa
 

Similar a Extracción de datos desde información en la web (20)

Big Data - El Futuro a través de los Datos
Big Data - El Futuro a través de los DatosBig Data - El Futuro a través de los Datos
Big Data - El Futuro a través de los Datos
 
Repensando big data
Repensando big dataRepensando big data
Repensando big data
 
Introducción a la Web Semántica
Introducción a la Web SemánticaIntroducción a la Web Semántica
Introducción a la Web Semántica
 
Personas e investigación de usuarios
Personas e investigación de usuariosPersonas e investigación de usuarios
Personas e investigación de usuarios
 
PROYECCION BASES DE DATOS AL FUTURO
PROYECCION BASES DE DATOS AL FUTUROPROYECCION BASES DE DATOS AL FUTURO
PROYECCION BASES DE DATOS AL FUTURO
 
Periodismo de datos: Básico y con recursos gratis
Periodismo de datos: Básico y con recursos gratisPeriodismo de datos: Básico y con recursos gratis
Periodismo de datos: Básico y con recursos gratis
 
2016 ULL Cabildo KEEDIO - BigData
2016 ULL Cabildo KEEDIO - BigData2016 ULL Cabildo KEEDIO - BigData
2016 ULL Cabildo KEEDIO - BigData
 
Técnicas y herramientas de extracción de datos
Técnicas y herramientas de extracción de datos Técnicas y herramientas de extracción de datos
Técnicas y herramientas de extracción de datos
 
Respaldo de datos Agustín Contrera
Respaldo de datos Agustín ContreraRespaldo de datos Agustín Contrera
Respaldo de datos Agustín Contrera
 
Ado.net entity framework
Ado.net entity frameworkAdo.net entity framework
Ado.net entity framework
 
Internet, herramienta para la consulta
Internet, herramienta para la consultaInternet, herramienta para la consulta
Internet, herramienta para la consulta
 
Big Data Introducción
Big Data IntroducciónBig Data Introducción
Big Data Introducción
 
Introduction de Logiciel libre
Introduction de Logiciel libreIntroduction de Logiciel libre
Introduction de Logiciel libre
 
Francisco Sanchez. ITI. Big Data, Anaytics El valor de los datos. Semanainfor...
Francisco Sanchez. ITI. Big Data, Anaytics El valor de los datos. Semanainfor...Francisco Sanchez. ITI. Big Data, Anaytics El valor de los datos. Semanainfor...
Francisco Sanchez. ITI. Big Data, Anaytics El valor de los datos. Semanainfor...
 
Practica4_pet_imagina_el_trabajo_en_2030
Practica4_pet_imagina_el_trabajo_en_2030 Practica4_pet_imagina_el_trabajo_en_2030
Practica4_pet_imagina_el_trabajo_en_2030
 
Recomendaciones presentaciones v3
Recomendaciones presentaciones v3Recomendaciones presentaciones v3
Recomendaciones presentaciones v3
 
Evolución de la web
Evolución de la webEvolución de la web
Evolución de la web
 
Internet e Intranet
Internet e IntranetInternet e Intranet
Internet e Intranet
 
Information tracking with OPTOS: siguiendo la pista por la red
Information tracking with OPTOS: siguiendo la pista por la redInformation tracking with OPTOS: siguiendo la pista por la red
Information tracking with OPTOS: siguiendo la pista por la red
 
El Idescat en Google Public Data Explorer
El Idescat en Google Public Data ExplorerEl Idescat en Google Public Data Explorer
El Idescat en Google Public Data Explorer
 

Más de José Félix Ontañón Carmona

Tarjetas SIM y eSIM (eUICC). Mitos y Realidades que superan la ficción.
Tarjetas SIM y eSIM (eUICC). Mitos y Realidades que superan la ficción.Tarjetas SIM y eSIM (eUICC). Mitos y Realidades que superan la ficción.
Tarjetas SIM y eSIM (eUICC). Mitos y Realidades que superan la ficción.José Félix Ontañón Carmona
 
Tableau Public: Visualizaciones de datos en un periquete.
Tableau Public: Visualizaciones de datos en un periquete.Tableau Public: Visualizaciones de datos en un periquete.
Tableau Public: Visualizaciones de datos en un periquete.José Félix Ontañón Carmona
 
Abrir datos gubernamentales y conseguir que se reutilicen
Abrir datos gubernamentales y conseguir que se reutilicenAbrir datos gubernamentales y conseguir que se reutilicen
Abrir datos gubernamentales y conseguir que se reutilicenJosé Félix Ontañón Carmona
 
Comentarios Borrador Informe de Auto-evaluación Plan de Acción OGP
Comentarios Borrador Informe de Auto-evaluación Plan de Acción OGPComentarios Borrador Informe de Auto-evaluación Plan de Acción OGP
Comentarios Borrador Informe de Auto-evaluación Plan de Acción OGPJosé Félix Ontañón Carmona
 
Planificando la actividad de contibución a comunidades FLOSS
Planificando la actividad de contibución a comunidades FLOSSPlanificando la actividad de contibución a comunidades FLOSS
Planificando la actividad de contibución a comunidades FLOSSJosé Félix Ontañón Carmona
 
VDI: Sirviendo escritorios desde la nube con Software Libre
VDI: Sirviendo escritorios desde la nube con Software LibreVDI: Sirviendo escritorios desde la nube con Software Libre
VDI: Sirviendo escritorios desde la nube con Software LibreJosé Félix Ontañón Carmona
 
Interacción escritorio-web para la movilidad del autónomo
Interacción escritorio-web para la movilidad del autónomoInteracción escritorio-web para la movilidad del autónomo
Interacción escritorio-web para la movilidad del autónomoJosé Félix Ontañón Carmona
 

Más de José Félix Ontañón Carmona (20)

Tarjetas SIM y eSIM (eUICC). Mitos y Realidades que superan la ficción.
Tarjetas SIM y eSIM (eUICC). Mitos y Realidades que superan la ficción.Tarjetas SIM y eSIM (eUICC). Mitos y Realidades que superan la ficción.
Tarjetas SIM y eSIM (eUICC). Mitos y Realidades que superan la ficción.
 
The Things Network Sevilla #ttn_sevilla #LoRaWAN
The Things Network Sevilla #ttn_sevilla #LoRaWANThe Things Network Sevilla #ttn_sevilla #LoRaWAN
The Things Network Sevilla #ttn_sevilla #LoRaWAN
 
La transparencia agoniza. Ayudémosla a morir.
La transparencia agoniza. Ayudémosla a morir.La transparencia agoniza. Ayudémosla a morir.
La transparencia agoniza. Ayudémosla a morir.
 
We Open Governments
We Open GovernmentsWe Open Governments
We Open Governments
 
Tableau Public: Visualizaciones de datos en un periquete.
Tableau Public: Visualizaciones de datos en un periquete.Tableau Public: Visualizaciones de datos en un periquete.
Tableau Public: Visualizaciones de datos en un periquete.
 
Abrir datos gubernamentales y conseguir que se reutilicen
Abrir datos gubernamentales y conseguir que se reutilicenAbrir datos gubernamentales y conseguir que se reutilicen
Abrir datos gubernamentales y conseguir que se reutilicen
 
OpenGoverment y OpenData ¿Y si se llegara a cumplir?
OpenGoverment y OpenData ¿Y si se llegara a cumplir?OpenGoverment y OpenData ¿Y si se llegara a cumplir?
OpenGoverment y OpenData ¿Y si se llegara a cumplir?
 
Datos abiertos sobre gasto económico
Datos abiertos sobre gasto económicoDatos abiertos sobre gasto económico
Datos abiertos sobre gasto económico
 
#MapHacking con datos abiertos
#MapHacking con datos abiertos#MapHacking con datos abiertos
#MapHacking con datos abiertos
 
Comentarios Borrador Informe de Auto-evaluación Plan de Acción OGP
Comentarios Borrador Informe de Auto-evaluación Plan de Acción OGPComentarios Borrador Informe de Auto-evaluación Plan de Acción OGP
Comentarios Borrador Informe de Auto-evaluación Plan de Acción OGP
 
PRTR Open Data Sources
PRTR Open Data SourcesPRTR Open Data Sources
PRTR Open Data Sources
 
El partido político como plataforma
El partido político como plataformaEl partido político como plataforma
El partido político como plataforma
 
Gobierno Abierto y Democracia Digital
Gobierno Abierto y Democracia DigitalGobierno Abierto y Democracia Digital
Gobierno Abierto y Democracia Digital
 
Entrevista Democracia Digital
Entrevista Democracia DigitalEntrevista Democracia Digital
Entrevista Democracia Digital
 
Software Libre como aliado del emprendedor
Software Libre como aliado del emprendedorSoftware Libre como aliado del emprendedor
Software Libre como aliado del emprendedor
 
OpenGovernment como modelo para el Partido Abierto
OpenGovernment como modelo para el Partido AbiertoOpenGovernment como modelo para el Partido Abierto
OpenGovernment como modelo para el Partido Abierto
 
OpenGovernment para una ciudadanía activa
OpenGovernment para una ciudadanía activaOpenGovernment para una ciudadanía activa
OpenGovernment para una ciudadanía activa
 
Planificando la actividad de contibución a comunidades FLOSS
Planificando la actividad de contibución a comunidades FLOSSPlanificando la actividad de contibución a comunidades FLOSS
Planificando la actividad de contibución a comunidades FLOSS
 
VDI: Sirviendo escritorios desde la nube con Software Libre
VDI: Sirviendo escritorios desde la nube con Software LibreVDI: Sirviendo escritorios desde la nube con Software Libre
VDI: Sirviendo escritorios desde la nube con Software Libre
 
Interacción escritorio-web para la movilidad del autónomo
Interacción escritorio-web para la movilidad del autónomoInteracción escritorio-web para la movilidad del autónomo
Interacción escritorio-web para la movilidad del autónomo
 

Último

trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdfIsabellaMontaomurill
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx241521559
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...silviayucra2
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricKeyla Dolores Méndez
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesFundación YOD YOD
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveFagnerLisboa3
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfsoporteupcology
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIAWilbisVega
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITMaricarmen Sánchez Ruiz
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan JosephBRAYANJOSEPHPEREZGOM
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíassuserf18419
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)GDGSucre
 
9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudianteAndreaHuertas24
 
Herramientas de corte de alta velocidad.pptx
Herramientas de corte de alta velocidad.pptxHerramientas de corte de alta velocidad.pptx
Herramientas de corte de alta velocidad.pptxRogerPrieto3
 
Presentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxPresentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxLolaBunny11
 

Último (15)

trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdf
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento Protégeles
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdf
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNIT
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Joseph
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnología
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)
 
9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante
 
Herramientas de corte de alta velocidad.pptx
Herramientas de corte de alta velocidad.pptxHerramientas de corte de alta velocidad.pptx
Herramientas de corte de alta velocidad.pptx
 
Presentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxPresentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptx
 

Extracción de datos desde información en la web

  • 1. DDJ Extracción de datos# Aprende a trabajar con datos en la webAprende a trabajar con datos en la web By @fontanonBy @fontanon
  • 2. Periodimo de datos DDJ#Periodimo de datos DDJ# Descubrir las historias escondidas en los datosDescubrir las historias escondidas en los datos ComparativasComparativas Exploraci nó y Agregados Exploraci nó y Agregados An lisis deá datos An lisis deá datos Por ProporcionesPor Proporciones internas/externasinternas/externas TablaTabla RankingsRankings La universidad administra el doble de becas de familiaLa universidad administra el doble de becas de familia numerosa que por bajo ingreso de alumno.numerosa que por bajo ingreso de alumno. Series temporalesSeries temporales por categoríaspor categorías Las becas universitarias a familias numerosas hanLas becas universitarias a familias numerosas han descandido en un 25% en los ltimos 10 a os.ú ñdescandido en un 25% en los ltimos 10 a os.ú ñ Correlación de variablesCorrelación de variables Modelado predictivoModelado predictivo Las becas universitarias a familias numerosas llegaráLas becas universitarias a familias numerosas llegará a un 10% del importe actual en 2015.a un 10% del importe actual en 2015.
  • 3. EL métodoEL método Presenta resultados Presenta resultados Interpreta resultados Interpreta resultados Obtenci nó y Limpieza Obtenci nó y Limpieza An lisisáAn lisisá La web como fuente de datosLa web como fuente de datos Formula la pregunta correcta Formula la pregunta correcta Identifica fuentes de datos Identifica fuentes de datos
  • 4. EL métodoEL método Formula la pregunta correcta Formula la pregunta correcta Presenta resultados Presenta resultados Identifica fuentes de datos Identifica fuentes de datos Interpreta resultados Interpreta resultados Obtenci nó y Limpieza Obtenci nó y Limpieza An lisisáAn lisisá La web como fuente de datosLa web como fuente de datos Nos centraremos en ... Nos centraremos en ...
  • 5. Objetivo: UnObjetivo: Un datasetdataset limpiolimpio Cada fila una observaci n, cada columna una variableóCada fila una observaci n, cada columna una variableó
  • 6. FormatosFormatos Hacen f cil o dif cil la obtenci n de informaci ná í ó óHacen f cil o dif cil la obtenci n de informaci ná í ó ó ReutilizableReutilizable Hojas de cálculo: XLS, ODS, CSV ...Hojas de cálculo: XLS, ODS, CSV ... Machine-Readable: XML, JSON ...Machine-Readable: XML, JSON ... Facilitan el an lisis de forma directaáFacilitan el an lisis de forma directaá No reutilizable No reutilizable Información contenida en páginas webInformación contenida en páginas web Documentos: PDF, Imágenes ...Documentos: PDF, Imágenes ... Requieren de t cnicas de extracci n de datosé óRequieren de t cnicas de extracci n de datosé ó
  • 7. RecomendacionesRecomendaciones …… a tener en cuenta antes que ponerte a trabajar:a tener en cuenta antes que ponerte a trabajar: Solicitud de acceso a la informaci nó Solicitud de acceso a la informaci nó Útil para obtener información públicaÚtil para obtener información pública 3 meses para obtener respuesta (ley 30/1992)3 meses para obtener respuesta (ley 30/1992) Existe posibilidad de silencio administrativoExiste posibilidad de silencio administrativo Necesitamos una ley de transparencia ya¡ !Necesitamos una ley de transparencia ya¡ ! Puedes apoyarte en tuderechoasaber.esPuedes apoyarte en tuderechoasaber.es Licencia de uso Licencia de uso Dominio públicoDominio público Algunos derechos reservadosAlgunos derechos reservados Todos los derechos reservadosTodos los derechos reservados Aseg rate de informarte y cumplir licenciaúAseg rate de informarte y cumplir licenciaú antes que reutilizar datos.antes que reutilizar datos.
  • 9. OpenRefineOpenRefine Limpieza profesionalLimpieza profesional al alcance de todos :)al alcance de todos :) Un poco de magia Un poco de magia Algoritmos de agrupamiento (Algoritmos de agrupamiento (ClusteringClustering)) Enriquecimiento con fuentes externasEnriquecimiento con fuentes externas No siempre son necesarias, pero cuando loNo siempre son necesarias, pero cuando lo son OpenRefine nos¡son OpenRefine nos¡ resuelve la vidaresuelve la vida!! Funciones b sicasá Funciones b sicasá Abre todo tipo de formatos reutilizablesAbre todo tipo de formatos reutilizables BúsquedasBúsquedas facetadasfacetadas Unifica/divide columnasUnifica/divide columnas Rellena celdas en base a patronesRellena celdas en base a patrones Dominar estas t cnicas solucionan el 80% deéDominar estas t cnicas solucionan el 80% deé las necesidades de limpieza de datoslas necesidades de limpieza de datos
  • 10. Limpieza profesionalLimpieza profesional al alcance de todos :)al alcance de todos :) Veamos un ejemplo ...Veamos un ejemplo ... OpenRefineOpenRefine Los papeles de B rcenasá
  • 11. 2 No reutilizables#No reutilizables# Va a tocar hacer scrapping
  • 12. Ficheros PDFsFicheros PDFs No siempre es posibleNo siempre es posible CometDocs Convierte de PDF a varios formatos CometDocs Convierte de PDF a varios formatos Google Drive Soporta conversi nó OCR desde PDFs Google Drive Soporta conversi nó OCR desde PDFs Recomendamos:Recomendamos:
  • 13. Ficheros PDFsFicheros PDFs No siempre es posibleNo siempre es posible Veamos un ejemplo ...Veamos un ejemplo ... Presus Univ. Granada
  • 14. Información en páginas webInformación en páginas web Deber a ser siempre posibleíDeber a ser siempre posibleí Multip ginaáMultip ginaá Ruby NokogiriRuby Nokogiri Python BeautifulScriptPython BeautifulScript Consulte a su inform ticoáConsulte a su inform ticoá de cabecerade cabecera.. Busque ayuda en ScraperWiki.Busque ayuda en ScraperWiki. Una sola p ginaá Una sola p ginaá ¿Funciona Copiar / Pegar?¿Funciona Copiar / Pegar? Scraping con Google SpreadsheetScraping con Google Spreadsheet Plugin Scraper de Google ChromePlugin Scraper de Google Chrome DapperDapper ScrapingScraping sin programar. Limitado asin programar. Limitado a informaci n contenida en una sola p gina.ó áinformaci n contenida en una sola p gina.ó á
  • 15. Información en páginas webInformación en páginas web Deber a ser siempre posibleíDeber a ser siempre posibleí Veamos un ejemplo ...Veamos un ejemplo ... US Bank Failures
  • 16. Por: J. Félix OntañónPor: J. Félix Ontañón @fontanon@fontanon S guenosí : http://openkratio.org Los datos son al periodismo de la era internet lo que la c mara alá periodismo de la era mass-media Para más información consultar: DDJ Extracción de datos#DDJ Extracción de datos# Aprende a trabajar con datos en la webAprende a trabajar con datos en la web