SlideShare una empresa de Scribd logo
1 de 102
Descargar para leer sin conexión
Introducción a la extracción de datos
DeustoTech - Deusto Institute of Technology, University of Deusto
http://www.morelab.deusto.es
Abril 18, 2015
Técnicas y herramientas de extracción de datos
Introducción a la extracción de datos
Programa Experto en Análisis, Investigación y Comunicación de Datos
Juan Sixto Cesteros
jsixto@deusto.es
Introducción a la extracción de datos
Presentación
► Juan Sixto Cesteros
► email: jsixto@deusto.es
► Ingeniero en Informática por la Universidad de Deusto
► Máster de Desarrollo e Integración de Soluciones
Software
► Realizando el doctorado en el área del Procesamiento
del lenguaje natural, minería de datos y análisis de
sentimientos aplicada a las redes sociales.
► Parte del equipo de investigación de DeustoTech -
Internet.
► http://morelab.deusto.es/
Introducción a la extracción de datos
Resumen
Introducción
Fuentes de datos y cómo organizarse
Cómo realizar búsquedas
Introducción al scrapping de datos
Leyes sobre datos
Técnicas de geolocalización
Trabajar con datos en excel
Técnicas avanzadas de limpieza de datos
Introducción a la extracción de datos
Introducción
► La Pirámide Invertida
► Título
► Cuerpo
► Apoyo (Citas o datos)
► Información secundaria
► La pirámide invertida es una estructura que sugiere escribir organizando la
información con los datos presentados de mayor a menor importancia.
Introducción
Introducción a la extracción de datos
Introducción
► La Pirámide Invertida
► Título
► Cuerpo
► Apoyo (Citas o datos)
► Información secundaria
► La pirámide invertida es una estructura que sugiere escribir organizando la
información con los datos presentados de mayor a menor importancia.
Introducción
Introducción a la extracción de datos
Introducción
Introducción
Introducción a la extracción de datos
Introducción
► La Pirámide Invertida del
Periodismo de Datos
► Paul Bradshaw
Introducción
Introducción a la extracción de datos
Introducción
► Paul Bradshaw
► Fundador de Online Journalism Blog
► Profesor de periodismo online en la
City University de Londres y en la
Birmingham City University
► The Online Journalism Handbook:
Skills to survive and thrive in the
digital age
Introducción
Introducción a la extracción de datos
Introducción
► La Pirámide Invertida del
Periodismo de Datos
► Paul Bradshaw
► Compilar
► Limpiar
► Contextualizar
► Combinar
► Comunicar
Introducción
Introducción a la extracción de datos
Introducción
► La Pirámide Invertida del
Periodismo de Datos
► Paul Bradshaw
► Compilar
► Limpiar
► Contextualizar
► Combinar
► Comunicar
Introducción
Introducción a la extracción de datos
Introducción
► Compilar
► Análisis de Datos
► Necesidad de Datos
► Obtención
● Solicitar
● Búsqueda Web
● Scraping
● APIs
● Formularios
● Crowdsourcing
Introducción
Introducción a la extracción de datos
Introducción
► Limpiar
► Calidad de los Datos
► Error humano
► Formato
► Duplicidades
► Datos extraños
Introducción
Introducción a la extracción de datos
Introducción
► Contextualizar
► La información no
puede siempre ser
confiable
► ¿Quién?
► ¿Cuando?
► ¿Por qué?
► ¿Cómo? (Metodología)
► Estadística
Introducción
Introducción a la extracción de datos
Introducción
► Combinar
► Múltiples datasets
► Visualización
► Extensión
► ¿Ejemplos?
► ¡Formato!
Introducción
Introducción a la extracción de datos
Introducción
Introducción
► Comunicar
► Visualización
► Narración
► Socialización
► Humanizar
► Personalizar
► Utilizar
Introducción a la extracción de datos
Fuentes de datos y cómo organizarse
► Fuentes de datos
Fuentes de datos y cómo organizarse
Introducción a la extracción de datos
Fuentes de datos y cómo organizarse
► Fuentes de datos
► Portales de datos oficiales
► Organizaciones de Consumidores y Usuarios
► Instituciones científicas o académicas
► Motores de Búsqueda
► Datos públicos
► Datos en directo
Fuentes de datos y cómo organizarse
Introducción a la extracción de datos
Fuentes de datos y cómo organizarse
► Formatos de datos
► Data vs Machine-Readable Data
► Preparados para ser procesados por una máquina
► No preparados para ser mostrados a usuarios finales
Fuentes de datos y cómo organizarse
Introducción a la extracción de datos
Fuentes de datos y cómo organizarse
► Formatos de datos
► Data vs Machine-Readable Data
► Preparados para ser procesados por una máquina
► No preparados para ser mostrados a usuarios finales
► Datos para visualización
► HTML (Página Web)
► Documento Word (Texto Formateado)
► Documento PDF (Texto Maquetado)
► JPEG (Imágenes)
Fuentes de datos y cómo organizarse
Introducción a la extracción de datos
Fuentes de datos y cómo organizarse
► Formatos de datos
► Data vs Machine-Readable Data
► Preparados para ser procesados por una máquina
► No preparados para ser mostrados a usuarios finales
► Datos para visualización
► HTML (Página Web)
► Documento Word (Texto Formateado)
► Documento PDF (Texto Maquetado)
► JPEG (Imágenes)
► Datos para procesar
► XLS (Excel)
► CSV (Abierto y sencillo)
► XML (Lenguaje de marcado)
► SQL (Bases de datos)
Fuentes de datos y cómo organizarse
Introducción a la extracción de datos
Fuentes de datos y cómo organizarse
► Formatos de datos
► Hojas de cálculo
► Microsoft Excel
► Apache OpenOffice
► LibreOffice
► Google Spreadsheets
Fuentes de datos y cómo organizarse
Introducción a la extracción de datos
Fuentes de datos y cómo organizarse
► Formatos de datos
► CSV (comma-separated values)
► Formato abierto y sencillo
► En forma de tablas
► Puede abrirse como Hojas de
Cálculo
Fuentes de datos y cómo organizarse
Introducción a la extracción de datos
Fuentes de datos y cómo organizarse
► Formatos de datos
► Lenguajes de Marcado
► XML
► HTML
► Desarrollado por el World Wide Web
Consortium (W3C)
► Utilizado para almacenar datos en forma
legible
Fuentes de datos y cómo organizarse
Introducción a la extracción de datos
Fuentes de datos y cómo organizarse
► Formatos de datos
► Bases de datos
► Colección de información organizada de forma que un
programa de ordenador pueda seleccionar rápidamente
los fragmentos de datos que necesite.
► Se organizan por campos, registros y archivos.
Fuentes de datos y cómo organizarse
Introducción a la extracción de datos
Cómo realizar búsquedas
► Muchos conjuntos de datos se encuentran indexados
por los motores de búsqueda.
Cómo realizar búsquedas
Introducción a la extracción de datos
Cómo realizar búsquedas
► Muchos conjuntos de datos se encuentran indexados
por los motores de búsqueda.
► Algunos motores de búsqueda nos permiten buscar
ficheros por tipo.
► Por ejemplo Google:
► spreadsheets : filetype:XLS o filetype:CSV
► bases de datos : filetype:DB
► PDFs : filetype:PDF
Cómo realizar búsquedas
Introducción a la extracción de datos
Cómo realizar búsquedas
► También podemos buscar por URLs o dominios
concretos:
► Ejemplo: inurl:<download>
► Ejemplo: site:opendata.euskadi.eus
Cómo realizar búsquedas
Introducción a la extracción de datos
Introducción al scraping de datos
► Web scraping es una técnica utilizada mediante
programas de software para extraer información de sitios
web
Introducción al scraping de datos
Introducción a la extracción de datos
Introducción al scraping de datos
► Web scraping es una técnica utilizada mediante
programas de software para extraer información de sitios
web
► Scraping es un método que te permite extraer datos
escondidos en un documento, como páginas web y PDF,
y los hace útiles para usarlos después.
Introducción al scraping de datos
Introducción a la extracción de datos
Introducción al scraping de datos
► Web scraping es una técnica utilizada mediante
programas de software para extraer información de sitios
web
► Scraping es un método que te permite extraer datos
escondidos en un documento, como páginas web y PDF,
y los hace útiles para usarlos después.
► Data scraping o ‘Raspado de Datos’
► Existen incontables herramientas de Scraping
► Google Spreadsheets
► Tábula
Introducción al scraping de datos
Introducción a la extracción de datos
Introducción al scraping de datos
► Google Spreadsheets
► Servicio vía web de hojas de cálculo
► Similar a Microsoft Excel o LibreOffice Calc
► Maneja ficheros .xls .ods y .csv
► Servicio Web integrado en Google Drive
► Método sencillo para el scraping de datos
Introducción al scraping de datos
Introducción a la extracción de datos
Introducción al scraping de datos
► Google Spreadsheets
► ImportHTML
► https://support.google.com/docs/answer/3093339
► Importar tablas y listas directamente desde la Web
► Ejemplo:
► IMPORTHTML("http://en.wikipedia.org/wiki/Demographics_of_India";"table";4)
► Ejercicio:
► ¿Población de la C.A. de Euskadi por año de nacimiento,
según el territorio histórico y el sexo en 2014?
Introducción al scraping de datos
Introducción a la extracción de datos
Introducción al scraping de datos
► Ejercicio:
► ¿Población de la C.A. de Euskadi por año de nacimiento,
según el territorio histórico y el sexo en 2014?
► www.eustat.es (Euskal Estatistika Erakundea - Instituto
Vasco de Estadística)
► =IMPORTHTML("http://www.eustat.
es/elementos/ele0011400/ti_Poblacin_de_la_CA_de_Euskad
i_por_ao_de_nacimiento_segn_el_territorio_histrico_y_el_se
xo_2014/tbl0011424_c.html";"table";1)
Introducción al scraping de datos
Introducción a la extracción de datos
Introducción al scraping de datos
► Ejercicio:
► ¿Comunidades y ciudades autónomas de España por
Densidad y Superficie?
► http://es.wikipedia.org/wiki/Anexo:
Comunidades_y_ciudades_aut%C3%B3nomas_de_Espa%
C3%B1a
► =IMPORTHTML("http://es.wikipedia.org/wiki/Anexo:
Comunidades_y_ciudades_aut%C3%B3nomas_de_Espa%
C3%B1a";"table";1)
Introducción al scraping de datos
Introducción a la extracción de datos
Introducción al scraping de datos
► Google Spreadsheets
► ImportFEED
► https://support.google.com/docs/answer/3093337
► Extraer datos de RSS o ATOM
► Sindicar o compartir contenido en la web.
► Se utiliza para difundir información actualizada
frecuentemente a usuarios que se han suscrito a la fuente
de contenidos
► Ejemplo:
► =IMPORTFEED("http://news.google.com/?output=atom")
Introducción al scraping de datos
Introducción a la extracción de datos
Introducción al scraping de datos
► Google Spreadsheets
► ImportFEED
► Ejercicio:
► Crear Feed Rss con noticias de un periódico cualquiera.
Introducción al scraping de datos
Introducción a la extracción de datos
Introducción al scraping de datos
► Google Spreadsheets
► ImportXML
► https://support.google.com/docs/answer/3093342
► Importa datos en formato XML, HTML, CSV, TSV, RSS y
ATOM XML feeds.
► Utiliza XPath
► http://www.w3schools.com/xpath/
Introducción al scraping de datos
Introducción a la extracción de datos
Introducción al scraping de datos
► Tábula
► Escraper de datos para PDFs
► http://tabula.technology/
► Instalar Tábula
Introducción al scraping de datos
Introducción a la extracción de datos
Introducción al scraping de datos
Introducción al scraping de datos
Introducción a la extracción de datos
Introducción al scraping de datos
Introducción al scraping de datos
Introducción a la extracción de datos
Introducción al scraping de datos
Introducción al scraping de datos
Introducción a la extracción de datos
Introducción al scraping de datos
Introducción al scraping de datos
Introducción a la extracción de datos
Introducción al scraping de datos
► Ejercicios
► Barómetro de Febrero 2015 del CIS: Principales
problemas de España
► CIS Enero 2015: Valoración de Líderes Políticos
Introducción al scraping de datos
Introducción a la extracción de datos
Leyes sobre datos
► Derechos sobre los Datos
► Consideraciones generales
► Antes de publicar, ¿son ya públicos los datos?.
Leyes sobre datos
Introducción a la extracción de datos
Leyes sobre datos
► Derechos sobre los Datos
► Consideraciones generales
► Antes de publicar, ¿son ya públicos los datos?.
► Solicitudes formales
● Suelen llevar tiempo. Cuanto antes mejor.
● Consultar tiempos mínimos y máximos de solicitud.
Leyes sobre datos
Introducción a la extracción de datos
Leyes sobre datos
► Derechos sobre los Datos
► Consideraciones generales
► Antes de publicar, ¿son ya públicos los datos?.
► Solicitudes formales
● Suelen llevar tiempo. Cuanto antes mejor.
● Consultar tiempos mínimos y máximos de solicitud.
► Conocer los derechos sobre los datos
● Obligación de contestar.
Leyes sobre datos
Introducción a la extracción de datos
Leyes sobre datos
► Derechos sobre los Datos
► Consideraciones generales
► Antes de publicar, ¿son ya públicos los datos?.
► Solicitudes formales
● Suelen llevar tiempo. Cuanto antes mejor.
● Consultar tiempos mínimos y máximos de solicitud.
► Conocer los derechos sobre los datos
● Obligación de contestar.
► Sencillez
● Mejor solicitar consultas sencillas sobre los datos
Leyes sobre datos
Introducción a la extracción de datos
Leyes sobre datos
► Derechos sobre los Datos
► Consideraciones generales
► Antes de publicar, ¿son ya públicos los datos?.
► Solicitudes formales
● Suelen llevar tiempo. Cuanto antes mejor.
● Consultar tiempos mínimos y máximos de solicitud.
► Conocer los derechos sobre los datos
● Obligación de contestar.
► Sencillez
● Mejor solicitar consultas sencillas sobre los datos
► Solicitudes Internacionales
● Internet nos permite solicitar datos a todas partes
Leyes sobre datos
Introducción a la extracción de datos
Leyes sobre datos
► Derechos sobre los Datos en España
► Ley de Transparencia, Acceso a la Información Pública y
Buen Gobierno
► Leyes de prensa
► Ley Orgánica de Protección de Datos
Leyes sobre datos
Introducción a la extracción de datos
Leyes sobre datos
► Peligros sobre los datos
► Origen de los datos
► Solicitar siempre datos en crudo
► Casos de Copyright, uso y liberación de datos
► Licencias
● Dominio público
● Licencias permisivas o sólo de atribución
● Licencias copyleft, recíprocas o de compartir por igual
► Otras leyes.
Leyes sobre datos
Introducción a la extracción de datos
Técnicas de geolocalización
► Geolocalización
► ¿Donde?
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
► Geolocalización
► ¿Donde?
► “El poder de las redes sociales: Geolocalización para
noticias”
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
► Geolocalización
► ¿Donde?
► “El poder de las redes sociales: Geolocalización para
noticias”
► Nos permite limitar el alcance de las noticias
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
► Geolocalización
► ¿Donde?
► “El poder de las redes sociales: Geolocalización para
noticias”
► Nos permite limitar el alcance de las noticias
► Conocer su origen
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
► Geolocalización
► ¿Donde?
► “El poder de las redes sociales: Geolocalización para
noticias”
► Nos permite limitar el alcance de las noticias
► Conocer su origen
► Validar la localización para evitar engaños
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
Técnicas de geolocalización
#BugünTelevizyonlarıKapat
Introducción a la extracción de datos
Técnicas de geolocalización
Técnicas de geolocalización
90% Turquía
#BugünTelevizyonlarıKapat
Introducción a la extracción de datos
Técnicas de geolocalización
Técnicas de geolocalización
90% Turquía
50% Istanbul
#BugünTelevizyonlarıKapat
Introducción a la extracción de datos
Técnicas de geolocalización
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
Técnicas de geolocalización
● Sólo el 1% de los usuarios genera alrededor del 80
por ciento de todos los retweets
● Tres cuartas partes de los usuarios que hablan de
las protestas no dieron ningún retweets en
absoluto.
Introducción a la extracción de datos
Técnicas de geolocalización
► Caso de Estudio - Bellingcat
► https://www.bellingcat.com/
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
► Caso de Estudio - Bellingcat
► https://www.bellingcat.com/
► Open source investigations tools and techniques
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
► Caso de Estudio - Bellingcat
► https://www.bellingcat.com/
► Open source investigations tools and techniques
► Confirmar la localización de un vídeo sin salir de casa
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
► Caso de Estudio - Bellingcat
► https://www.bellingcat.com/
► Open source investigations tools and techniques
► Confirmar la localización de un vídeo sin salir de casa
► https://www.bellingcat.com/resources/how-
tos/2014/07/09/a-beginners-guide-to-geolocation/
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
► Caso de Estudio - Bellingcat
► https://www.bellingcat.com/
► Open source investigations tools and techniques
► Confirmar la localización de un vídeo sin salir de casa
► https://www.bellingcat.com/resources/how-
tos/2014/07/09/a-beginners-guide-to-geolocation/
► El 15 de agosto de 2011, la oposición Libia afirmó haber
capturado la pequeña localidad de Tiji, publicando el
siguiente video en youtube como prueba.
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
► ¿Que necesitamos?
► Mapa
► Google Maps
► Bing Maps
► Yahoo! Maps
► Wikimapia
● wikimapia.org
● Buscar: Tiji (cuidado Nombres Árabes)
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
► Caso de Estudio - Bellingcat
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
► Caso de Estudio - Bellingcat
► Verification and Geolocation Tricks and Tips with Google
Earth
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
► Caso de Estudio - Bellingcat
► Verification and Geolocation Tricks and Tips with Google
Earth
► Google Earth
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
► Caso de Estudio - Bellingcat
► Verification and Geolocation Tricks and Tips with Google
Earth
► Google Earth
► es un programa informático que muestra un globo virtual que
permite visualizar múltiple cartografía, con base en la
fotografía satelital.
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
► Caso de Estudio - Bellingcat
► Verification and Geolocation Tricks and Tips with Google
Earth
► Google Earth
► es un programa informático que muestra un globo virtual que
permite visualizar múltiple cartografía, con base en la
fotografía satelital.
► Una herramienta muy poderosa para verificar y localizar
imagenes por todo el mundo.
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
► Caso de Estudio - Bellingcat
► Verification and Geolocation Tricks and Tips with Google
Earth
► Google Earth
► es un programa informático que muestra un globo virtual que
permite visualizar múltiple cartografía, con base en la
fotografía satelital.
► Una herramienta muy poderosa para verificar y localizar
imagenes por todo el mundo.
► Especialmente útil para la geolocalización en zonas de
conflicto.
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
► Caso de Estudio - Bellingcat
► Verification and Geolocation Tricks and Tips with Google
Earth
► Imágenes históricas
► Ejemplo:
► La Batalla de Damasco corresponde a un enfrentamiento acontecido entre el 15 de
julio y el 4 de agosto de 2012 entre las Fuerzas Armadas de Siria y distintos grupos
sublevados en la ciudad capital de Damasco. Todo en el marco de la guerra civil que
azota al país.
► 33°32'30.09"N 36°20'43.69"E
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
Técnicas de geolocalización
23/05/2012
Introducción a la extracción de datos
Técnicas de geolocalización
Técnicas de geolocalización
19/08/2012
Introducción a la extracción de datos
Técnicas de geolocalización
► Caso de Estudio - Bellingcat
► Verification and Geolocation Tricks and Tips with Google
Earth
► Otros Ejemplos:
► 47.848926, 39.750993 - Paso Fronterizo Ukraine - Russia
► 48° 3'51.59"N 39°49'52.48"E - Paso Fronterizo Ukraine - Russia
► 47°19'4.36"N 39°42'6.36"E - Cementerio Rostov
► 39°21'25.53"N 141°54'47.92"E - Otsuchi, Japan
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
► Caso de Estudio - Bellingcat
► Cambiando el ángulo
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
► Caso de Estudio - Bellingcat
► Desarrollo de proyectos
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
► Caso de Estudio - Bellingcat
► Terrenos 3D
► Muy útil para verificar vídeos y fotos
►
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
► Caso de Estudio - Bellingcat
► Edificios 3D
►
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
► Caso de Estudio - Bellingcat
► Marcas y búsquedas
Técnicas de geolocalización
Introducción a la extracción de datos
Trabajar con datos en excel
► Primeros pasos
► Crear un nuevo libro
► Una o varias Hojas de Cálculo
► Celdas y numeración
► Valores y Funciones
► Formularios
Trabajar con datos en excel
Introducción a la extracción de datos
Trabajar con datos en excel
► Funciones y fórmulas más comunes
► Suma/Resta
► SUM()
► Multiplicar/Dividir
► MULTIPLY()/DIVIDE()
► “*” y “/”
► Potencia
► POWER()
► SQRT()
► Ejercicio
► Comprobar totales de documentos previos
Trabajar con datos en excel
Introducción a la extracción de datos
Trabajar con datos en excel
► Operaciones más comunes:
► Símbolo de sumatorio
► SUM()
► AVERAGE()
● Ofrece el valor promedio numérico de un conjunto de datos, sin tener en
cuenta el texto
► COUNT()
● Ofrece el recuento de valores numéricos de un conjunto de datos.
► MAX()
● Ofrece el valor máximo de un conjunto de datos numérico.
► MIN()
● Ofrece el valor mínimo de un conjunto de datos numérico.
► Otras…
● https://support.google.com/docs/table/25273
Trabajar con datos en excel
Introducción a la extracción de datos
Trabajar con datos en excel
► Funciones rápidas:
► Igual =
► Suma +
► Resta -
► Producto *
► División /
► Porcentaje %
► Exponencial ^
► Mayor >
► Mayor o igual >=
► Menor <
► Menor o igual a <=
► Distinto <>
► Referencias a celdas $
Trabajar con datos en excel
Introducción a la extracción de datos
Trabajar con datos en excel
► Funciones Lógicas
► IF
► IF(expresión_lógica; valor_si_true; valor_si_false)
► AND
► AND(expresión_lógica1; [expresión_lógica2; ...])
► OR
► OR(expresión_lógica1; [expresión_lógica2; ...])
► SUMIF
► SUMIF(intervalo; criterio; [intervalo_suma])
Trabajar con datos en excel
Introducción a la extracción de datos
Trabajar con datos en excel
► Gráficos
► Datos - Seleccionar intervalos …
► Manera rápida y sencilla de visualizar datos
Trabajar con datos en excel
Introducción a la extracción de datos
Técnicas avanzadas de limpieza de datos
► Necesidad de limpiar los datos
► Problemas que podemos encontrar en los datos
► Pobre diseño del esquema de datos
► Entradas erróneas
● Faltas de ortografía
● Redundancias y duplicados
● Valores contradictorios
► Singularidad
► Nombres incorrectos
► División de datos
Técnicas avanzadas de limpieza de datos
Introducción a la extracción de datos
Técnicas avanzadas de limpieza de datos
► Herramientas para limpiar los datos
► Excel
► Para pequeños fallos
► De facil solución
► Openrefine
► http://openrefine.org/
► Herramienta potente para limpiar, modificar y formatear los
datos.
Técnicas avanzadas de limpieza de datos
Introducción a la extracción de datos
Bibliografía
► http://datajournalismhandbook.org/
► http://schoolofdata.org/
► http://onlinejournalismblog.com/
► http://www.theatlantic.com/international/archive/2013/06/these-charts-show-how-crucial-twitter-is-
for-the-turkey-protesters/276798/
► https://www.bellingcat.com
► http://blogs.lanacion.com.ar/data/datos-abiertos/como-usar-google-refine-para-trabajar-una-base-
de-datos/
► http://openrefine.org/
► http://tabula.technology/
► wikipedia.org
► http://tejiendo-redes.com/
►
Bibliografia
Introducción a la extracción de datos
All rights of images are reserved by the original
owners, the rest of the content is licensed under a
Creative Commons by-sa 3.0 license.
Introducción a la extracción de datos
DeustoTech - Deusto Institute of Technology, University of Deusto
http://www.morelab.deusto.es
Técnicas y herramientas de extracción de datos
Introducción a la extracción de datos
Juan Sixto
{jsixto@deusto.es}

Más contenido relacionado

La actualidad más candente

(BDT208) A Technical Introduction to Amazon Elastic MapReduce
(BDT208) A Technical Introduction to Amazon Elastic MapReduce(BDT208) A Technical Introduction to Amazon Elastic MapReduce
(BDT208) A Technical Introduction to Amazon Elastic MapReduceAmazon Web Services
 
1. limpieza y transformación de datos
1. limpieza y transformación de datos1. limpieza y transformación de datos
1. limpieza y transformación de datosMiguel Murillo
 
Introducción a Ciencia de datos con Microsoft
Introducción a Ciencia de datos con MicrosoftIntroducción a Ciencia de datos con Microsoft
Introducción a Ciencia de datos con MicrosoftJOSE AHIAS LOPEZ PORTILLO
 
Big data, NoSQL y tendencias en Bases de Datos 2018.
Big data, NoSQL y tendencias en Bases de Datos 2018.Big data, NoSQL y tendencias en Bases de Datos 2018.
Big data, NoSQL y tendencias en Bases de Datos 2018.Roman Herrera
 
Diapositivas de base de datos
Diapositivas de base de datosDiapositivas de base de datos
Diapositivas de base de datosestibenzon
 
BI and Data Analytics
BI and Data Analytics BI and Data Analytics
BI and Data Analytics Incorta
 
Investigación quinta unidad
Investigación quinta unidadInvestigación quinta unidad
Investigación quinta unidadJuan Anaya
 
Módulo 6. Seguridad de Base de Datos
Módulo 6. Seguridad de Base de DatosMódulo 6. Seguridad de Base de Datos
Módulo 6. Seguridad de Base de DatosFrancisco Medina
 
Data pipelines observability: OpenLineage & Marquez
Data pipelines observability:  OpenLineage & MarquezData pipelines observability:  OpenLineage & Marquez
Data pipelines observability: OpenLineage & MarquezJulien Le Dem
 
Big data para principiantes
Big data para principiantesBig data para principiantes
Big data para principiantesCarlos Toxtli
 
Cuadro comprativo de hojas de calculo
Cuadro comprativo de hojas de calculoCuadro comprativo de hojas de calculo
Cuadro comprativo de hojas de calculolessmathn
 
Diapositivas sobre BD (Base de Datos)
Diapositivas sobre BD (Base de Datos)Diapositivas sobre BD (Base de Datos)
Diapositivas sobre BD (Base de Datos)angeljlp08
 
Base de datos para la farmacia "José"
Base de datos para la farmacia "José"Base de datos para la farmacia "José"
Base de datos para la farmacia "José"BrandonDanielUgazSal1
 
Denodo Data Virtualization Platform: Overview (session 1 from Architect to Ar...
Denodo Data Virtualization Platform: Overview (session 1 from Architect to Ar...Denodo Data Virtualization Platform: Overview (session 1 from Architect to Ar...
Denodo Data Virtualization Platform: Overview (session 1 from Architect to Ar...Denodo
 
Building a Modern Data Platform in the Cloud
Building a Modern Data Platform in the CloudBuilding a Modern Data Platform in the Cloud
Building a Modern Data Platform in the CloudAmazon Web Services
 
Intro to Data Vault 2.0 on Snowflake
Intro to Data Vault 2.0 on SnowflakeIntro to Data Vault 2.0 on Snowflake
Intro to Data Vault 2.0 on SnowflakeKent Graziano
 

La actualidad más candente (20)

(BDT208) A Technical Introduction to Amazon Elastic MapReduce
(BDT208) A Technical Introduction to Amazon Elastic MapReduce(BDT208) A Technical Introduction to Amazon Elastic MapReduce
(BDT208) A Technical Introduction to Amazon Elastic MapReduce
 
1. limpieza y transformación de datos
1. limpieza y transformación de datos1. limpieza y transformación de datos
1. limpieza y transformación de datos
 
Introducción a Ciencia de datos con Microsoft
Introducción a Ciencia de datos con MicrosoftIntroducción a Ciencia de datos con Microsoft
Introducción a Ciencia de datos con Microsoft
 
How to Streamline DataOps on AWS
How to Streamline DataOps on AWSHow to Streamline DataOps on AWS
How to Streamline DataOps on AWS
 
Big data, NoSQL y tendencias en Bases de Datos 2018.
Big data, NoSQL y tendencias en Bases de Datos 2018.Big data, NoSQL y tendencias en Bases de Datos 2018.
Big data, NoSQL y tendencias en Bases de Datos 2018.
 
Power-BI-básico.pdf
Power-BI-básico.pdfPower-BI-básico.pdf
Power-BI-básico.pdf
 
Diapositivas de base de datos
Diapositivas de base de datosDiapositivas de base de datos
Diapositivas de base de datos
 
BI and Data Analytics
BI and Data Analytics BI and Data Analytics
BI and Data Analytics
 
8 Steps to Creating a Data Strategy
8 Steps to Creating a Data Strategy8 Steps to Creating a Data Strategy
8 Steps to Creating a Data Strategy
 
Investigación quinta unidad
Investigación quinta unidadInvestigación quinta unidad
Investigación quinta unidad
 
Módulo 6. Seguridad de Base de Datos
Módulo 6. Seguridad de Base de DatosMódulo 6. Seguridad de Base de Datos
Módulo 6. Seguridad de Base de Datos
 
Data pipelines observability: OpenLineage & Marquez
Data pipelines observability:  OpenLineage & MarquezData pipelines observability:  OpenLineage & Marquez
Data pipelines observability: OpenLineage & Marquez
 
Big data para principiantes
Big data para principiantesBig data para principiantes
Big data para principiantes
 
Cuadro comprativo de hojas de calculo
Cuadro comprativo de hojas de calculoCuadro comprativo de hojas de calculo
Cuadro comprativo de hojas de calculo
 
Diapositivas sobre BD (Base de Datos)
Diapositivas sobre BD (Base de Datos)Diapositivas sobre BD (Base de Datos)
Diapositivas sobre BD (Base de Datos)
 
Base de datos para la farmacia "José"
Base de datos para la farmacia "José"Base de datos para la farmacia "José"
Base de datos para la farmacia "José"
 
NoSQL - MongoDB
NoSQL - MongoDBNoSQL - MongoDB
NoSQL - MongoDB
 
Denodo Data Virtualization Platform: Overview (session 1 from Architect to Ar...
Denodo Data Virtualization Platform: Overview (session 1 from Architect to Ar...Denodo Data Virtualization Platform: Overview (session 1 from Architect to Ar...
Denodo Data Virtualization Platform: Overview (session 1 from Architect to Ar...
 
Building a Modern Data Platform in the Cloud
Building a Modern Data Platform in the CloudBuilding a Modern Data Platform in the Cloud
Building a Modern Data Platform in the Cloud
 
Intro to Data Vault 2.0 on Snowflake
Intro to Data Vault 2.0 on SnowflakeIntro to Data Vault 2.0 on Snowflake
Intro to Data Vault 2.0 on Snowflake
 

Destacado

Informatica Pentaho Etl Tools Comparison
Informatica Pentaho Etl Tools ComparisonInformatica Pentaho Etl Tools Comparison
Informatica Pentaho Etl Tools ComparisonRoberto Espinosa
 
Tecnicas Big Data: Meetup Cassandra
Tecnicas Big Data: Meetup CassandraTecnicas Big Data: Meetup Cassandra
Tecnicas Big Data: Meetup CassandraStratebi
 
Web scraping, Codeando México
Web scraping, Codeando MéxicoWeb scraping, Codeando México
Web scraping, Codeando MéxicoBraulio Chavez
 
Investigación de mercados y elaboración de una base de datos
Investigación de mercados y elaboración de una base de datosInvestigación de mercados y elaboración de una base de datos
Investigación de mercados y elaboración de una base de datosAlberto Jimenez
 
Posicionamiento de marca por redes sociales
Posicionamiento de marca por redes socialesPosicionamiento de marca por redes sociales
Posicionamiento de marca por redes socialesPablo
 
Selección de las fuentes de información
Selección de las fuentes de informaciónSelección de las fuentes de información
Selección de las fuentes de informaciónjantony04
 
Sistemas de apoyo a las decisiones de marketing
Sistemas de apoyo a las decisiones de marketingSistemas de apoyo a las decisiones de marketing
Sistemas de apoyo a las decisiones de marketingAlberto Jimenez
 

Destacado (8)

Informatica Pentaho Etl Tools Comparison
Informatica Pentaho Etl Tools ComparisonInformatica Pentaho Etl Tools Comparison
Informatica Pentaho Etl Tools Comparison
 
Tecnicas Big Data: Meetup Cassandra
Tecnicas Big Data: Meetup CassandraTecnicas Big Data: Meetup Cassandra
Tecnicas Big Data: Meetup Cassandra
 
Web scraping, Codeando México
Web scraping, Codeando MéxicoWeb scraping, Codeando México
Web scraping, Codeando México
 
Ut1 Intervencion Social Pdf
Ut1 Intervencion Social PdfUt1 Intervencion Social Pdf
Ut1 Intervencion Social Pdf
 
Investigación de mercados y elaboración de una base de datos
Investigación de mercados y elaboración de una base de datosInvestigación de mercados y elaboración de una base de datos
Investigación de mercados y elaboración de una base de datos
 
Posicionamiento de marca por redes sociales
Posicionamiento de marca por redes socialesPosicionamiento de marca por redes sociales
Posicionamiento de marca por redes sociales
 
Selección de las fuentes de información
Selección de las fuentes de informaciónSelección de las fuentes de información
Selección de las fuentes de información
 
Sistemas de apoyo a las decisiones de marketing
Sistemas de apoyo a las decisiones de marketingSistemas de apoyo a las decisiones de marketing
Sistemas de apoyo a las decisiones de marketing
 

Similar a Introducción a la Extracción de Datos

Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE
Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVEPresentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE
Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVEProgramaMediosCentroCarterVE
 
Periodismo de datos: Básico y con recursos gratis
Periodismo de datos: Básico y con recursos gratisPeriodismo de datos: Básico y con recursos gratis
Periodismo de datos: Básico y con recursos gratisSandra Crucianelli
 
Periodismo de datos
Periodismo de datosPeriodismo de datos
Periodismo de datosRubens Yanes
 
Webinar – Introducción al uso de datos
Webinar – Introducción al uso de datosWebinar – Introducción al uso de datos
Webinar – Introducción al uso de datosSocialTIC
 
Webinar – Introducción al manejo de datos
Webinar – Introducción al manejo de datosWebinar – Introducción al manejo de datos
Webinar – Introducción al manejo de datosSocialTIC
 
Introducción al Uso de Datos
Introducción al Uso de DatosIntroducción al Uso de Datos
Introducción al Uso de DatosSocialTIC
 
Visualización de Big Data con Power View
Visualización de Big Data con Power ViewVisualización de Big Data con Power View
Visualización de Big Data con Power ViewEduardo Castro
 
Presentacion_General_Datos_Abiertos.pptx
Presentacion_General_Datos_Abiertos.pptxPresentacion_General_Datos_Abiertos.pptx
Presentacion_General_Datos_Abiertos.pptxMiltonManuelOrtiz
 
Cómo conseguir un Gobierno Abierto
Cómo conseguir un Gobierno AbiertoCómo conseguir un Gobierno Abierto
Cómo conseguir un Gobierno AbiertoOpenKratio
 
Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...
Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...
Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...Software Guru
 
Datos abiertos: Reutilización de información en el sector público
Datos abiertos: Reutilización de información en el sector públicoDatos abiertos: Reutilización de información en el sector público
Datos abiertos: Reutilización de información en el sector públicoJose Emilio Labra Gayo
 
introduccion-al-analisis-de-datos--------
introduccion-al-analisis-de-datos--------introduccion-al-analisis-de-datos--------
introduccion-al-analisis-de-datos--------RubnGarcs2
 
Herramientas de Microsoft para el Científicos de Datos
Herramientas de Microsoft para el Científicos de DatosHerramientas de Microsoft para el Científicos de Datos
Herramientas de Microsoft para el Científicos de DatosEduardo Castro
 
A. Fuster. La era del Open Data: Caso de éxito y oportunidades. Semanainforma...
A. Fuster. La era del Open Data: Caso de éxito y oportunidades. Semanainforma...A. Fuster. La era del Open Data: Caso de éxito y oportunidades. Semanainforma...
A. Fuster. La era del Open Data: Caso de éxito y oportunidades. Semanainforma...COIICV
 
Webinario sobre Periodismo de Datos
Webinario sobre Periodismo de DatosWebinario sobre Periodismo de Datos
Webinario sobre Periodismo de DatosSandra Crucianelli
 
Herramientas y recursos tecnológicos para el Data Science
Herramientas y recursos tecnológicos para el Data ScienceHerramientas y recursos tecnológicos para el Data Science
Herramientas y recursos tecnológicos para el Data ScienceRoman Herrera
 
20080506 Acm Jornadas Ponencia
20080506 Acm Jornadas Ponencia20080506 Acm Jornadas Ponencia
20080506 Acm Jornadas Ponenciahrodriguez
 
Taller de datos - Data Toolbox #OSR6 #14wkRebiun
Taller de datos - Data Toolbox #OSR6  #14wkRebiunTaller de datos - Data Toolbox #OSR6  #14wkRebiun
Taller de datos - Data Toolbox #OSR6 #14wkRebiunLuis Martinez-Uribe
 
Conceptos en Ciencia de Datos
Conceptos en Ciencia de DatosConceptos en Ciencia de Datos
Conceptos en Ciencia de DatosLuisAzofeifa6
 

Similar a Introducción a la Extracción de Datos (20)

Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE
Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVEPresentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE
Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE
 
Periodismo de datos: Básico y con recursos gratis
Periodismo de datos: Básico y con recursos gratisPeriodismo de datos: Básico y con recursos gratis
Periodismo de datos: Básico y con recursos gratis
 
Periodismo de datos
Periodismo de datosPeriodismo de datos
Periodismo de datos
 
Webinar – Introducción al uso de datos
Webinar – Introducción al uso de datosWebinar – Introducción al uso de datos
Webinar – Introducción al uso de datos
 
Webinar – Introducción al manejo de datos
Webinar – Introducción al manejo de datosWebinar – Introducción al manejo de datos
Webinar – Introducción al manejo de datos
 
Introducción al Uso de Datos
Introducción al Uso de DatosIntroducción al Uso de Datos
Introducción al Uso de Datos
 
Visualización de Big Data con Power View
Visualización de Big Data con Power ViewVisualización de Big Data con Power View
Visualización de Big Data con Power View
 
Presentacion_General_Datos_Abiertos.pptx
Presentacion_General_Datos_Abiertos.pptxPresentacion_General_Datos_Abiertos.pptx
Presentacion_General_Datos_Abiertos.pptx
 
Cómo conseguir un Gobierno Abierto
Cómo conseguir un Gobierno AbiertoCómo conseguir un Gobierno Abierto
Cómo conseguir un Gobierno Abierto
 
Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...
Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...
Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...
 
Datos abiertos: Reutilización de información en el sector público
Datos abiertos: Reutilización de información en el sector públicoDatos abiertos: Reutilización de información en el sector público
Datos abiertos: Reutilización de información en el sector público
 
introduccion-al-analisis-de-datos--------
introduccion-al-analisis-de-datos--------introduccion-al-analisis-de-datos--------
introduccion-al-analisis-de-datos--------
 
Herramientas de Microsoft para el Científicos de Datos
Herramientas de Microsoft para el Científicos de DatosHerramientas de Microsoft para el Científicos de Datos
Herramientas de Microsoft para el Científicos de Datos
 
A. Fuster. La era del Open Data: Caso de éxito y oportunidades. Semanainforma...
A. Fuster. La era del Open Data: Caso de éxito y oportunidades. Semanainforma...A. Fuster. La era del Open Data: Caso de éxito y oportunidades. Semanainforma...
A. Fuster. La era del Open Data: Caso de éxito y oportunidades. Semanainforma...
 
Webinario sobre Periodismo de Datos
Webinario sobre Periodismo de DatosWebinario sobre Periodismo de Datos
Webinario sobre Periodismo de Datos
 
Herramientas y recursos tecnológicos para el Data Science
Herramientas y recursos tecnológicos para el Data ScienceHerramientas y recursos tecnológicos para el Data Science
Herramientas y recursos tecnológicos para el Data Science
 
20080506 Acm Jornadas Ponencia
20080506 Acm Jornadas Ponencia20080506 Acm Jornadas Ponencia
20080506 Acm Jornadas Ponencia
 
Taller de datos - Data Toolbox #OSR6 #14wkRebiun
Taller de datos - Data Toolbox #OSR6  #14wkRebiunTaller de datos - Data Toolbox #OSR6  #14wkRebiun
Taller de datos - Data Toolbox #OSR6 #14wkRebiun
 
Conceptos en Ciencia de Datos
Conceptos en Ciencia de DatosConceptos en Ciencia de Datos
Conceptos en Ciencia de Datos
 
data_collection-es.pptx
data_collection-es.pptxdata_collection-es.pptx
data_collection-es.pptx
 

Último

CIENCIAS NATURALES 4 TO ambientes .docx
CIENCIAS NATURALES 4 TO  ambientes .docxCIENCIAS NATURALES 4 TO  ambientes .docx
CIENCIAS NATURALES 4 TO ambientes .docxAgustinaNuez21
 
Clasificaciones, modalidades y tendencias de investigación educativa.
Clasificaciones, modalidades y tendencias de investigación educativa.Clasificaciones, modalidades y tendencias de investigación educativa.
Clasificaciones, modalidades y tendencias de investigación educativa.José Luis Palma
 
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptxOLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptxjosetrinidadchavez
 
LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...
LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...
LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...JAVIER SOLIS NOYOLA
 
Tarea 5_ Foro _Selección de herramientas digitales_Manuel.pdf
Tarea 5_ Foro _Selección de herramientas digitales_Manuel.pdfTarea 5_ Foro _Selección de herramientas digitales_Manuel.pdf
Tarea 5_ Foro _Selección de herramientas digitales_Manuel.pdfManuel Molina
 
Fundamentos y Principios de Psicopedagogía..pdf
Fundamentos y Principios de Psicopedagogía..pdfFundamentos y Principios de Psicopedagogía..pdf
Fundamentos y Principios de Psicopedagogía..pdfsamyarrocha1
 
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptx
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptxLINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptx
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptxdanalikcruz2000
 
TRIPTICO-SISTEMA-MUSCULAR. PARA NIÑOS DE PRIMARIA
TRIPTICO-SISTEMA-MUSCULAR. PARA NIÑOS DE PRIMARIATRIPTICO-SISTEMA-MUSCULAR. PARA NIÑOS DE PRIMARIA
TRIPTICO-SISTEMA-MUSCULAR. PARA NIÑOS DE PRIMARIAAbelardoVelaAlbrecht1
 
Estrategia de Enseñanza y Aprendizaje.pdf
Estrategia de Enseñanza y Aprendizaje.pdfEstrategia de Enseñanza y Aprendizaje.pdf
Estrategia de Enseñanza y Aprendizaje.pdfromanmillans
 
Análisis de la Implementación de los Servicios Locales de Educación Pública p...
Análisis de la Implementación de los Servicios Locales de Educación Pública p...Análisis de la Implementación de los Servicios Locales de Educación Pública p...
Análisis de la Implementación de los Servicios Locales de Educación Pública p...Baker Publishing Company
 
Día de la Madre Tierra-1.pdf día mundial
Día de la Madre Tierra-1.pdf día mundialDía de la Madre Tierra-1.pdf día mundial
Día de la Madre Tierra-1.pdf día mundialpatriciaines1993
 
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADODECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADOJosé Luis Palma
 
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARONARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFAROJosé Luis Palma
 

Último (20)

CIENCIAS NATURALES 4 TO ambientes .docx
CIENCIAS NATURALES 4 TO  ambientes .docxCIENCIAS NATURALES 4 TO  ambientes .docx
CIENCIAS NATURALES 4 TO ambientes .docx
 
Clasificaciones, modalidades y tendencias de investigación educativa.
Clasificaciones, modalidades y tendencias de investigación educativa.Clasificaciones, modalidades y tendencias de investigación educativa.
Clasificaciones, modalidades y tendencias de investigación educativa.
 
DIA INTERNACIONAL DAS FLORESTAS .
DIA INTERNACIONAL DAS FLORESTAS         .DIA INTERNACIONAL DAS FLORESTAS         .
DIA INTERNACIONAL DAS FLORESTAS .
 
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptxOLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
 
LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...
LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...
LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...
 
Tarea 5_ Foro _Selección de herramientas digitales_Manuel.pdf
Tarea 5_ Foro _Selección de herramientas digitales_Manuel.pdfTarea 5_ Foro _Selección de herramientas digitales_Manuel.pdf
Tarea 5_ Foro _Selección de herramientas digitales_Manuel.pdf
 
Fundamentos y Principios de Psicopedagogía..pdf
Fundamentos y Principios de Psicopedagogía..pdfFundamentos y Principios de Psicopedagogía..pdf
Fundamentos y Principios de Psicopedagogía..pdf
 
Repaso Pruebas CRECE PR 2024. Ciencia General
Repaso Pruebas CRECE PR 2024. Ciencia GeneralRepaso Pruebas CRECE PR 2024. Ciencia General
Repaso Pruebas CRECE PR 2024. Ciencia General
 
Sesión La luz brilla en la oscuridad.pdf
Sesión  La luz brilla en la oscuridad.pdfSesión  La luz brilla en la oscuridad.pdf
Sesión La luz brilla en la oscuridad.pdf
 
Tema 7.- E-COMMERCE SISTEMAS DE INFORMACION.pdf
Tema 7.- E-COMMERCE SISTEMAS DE INFORMACION.pdfTema 7.- E-COMMERCE SISTEMAS DE INFORMACION.pdf
Tema 7.- E-COMMERCE SISTEMAS DE INFORMACION.pdf
 
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptx
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptxLINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptx
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptx
 
TL/CNL – 2.ª FASE .
TL/CNL – 2.ª FASE                       .TL/CNL – 2.ª FASE                       .
TL/CNL – 2.ª FASE .
 
TRIPTICO-SISTEMA-MUSCULAR. PARA NIÑOS DE PRIMARIA
TRIPTICO-SISTEMA-MUSCULAR. PARA NIÑOS DE PRIMARIATRIPTICO-SISTEMA-MUSCULAR. PARA NIÑOS DE PRIMARIA
TRIPTICO-SISTEMA-MUSCULAR. PARA NIÑOS DE PRIMARIA
 
Earth Day Everyday 2024 54th anniversary
Earth Day Everyday 2024 54th anniversaryEarth Day Everyday 2024 54th anniversary
Earth Day Everyday 2024 54th anniversary
 
Estrategia de Enseñanza y Aprendizaje.pdf
Estrategia de Enseñanza y Aprendizaje.pdfEstrategia de Enseñanza y Aprendizaje.pdf
Estrategia de Enseñanza y Aprendizaje.pdf
 
Análisis de la Implementación de los Servicios Locales de Educación Pública p...
Análisis de la Implementación de los Servicios Locales de Educación Pública p...Análisis de la Implementación de los Servicios Locales de Educación Pública p...
Análisis de la Implementación de los Servicios Locales de Educación Pública p...
 
Día de la Madre Tierra-1.pdf día mundial
Día de la Madre Tierra-1.pdf día mundialDía de la Madre Tierra-1.pdf día mundial
Día de la Madre Tierra-1.pdf día mundial
 
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADODECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
 
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARONARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
 
PPTX: La luz brilla en la oscuridad.pptx
PPTX: La luz brilla en la oscuridad.pptxPPTX: La luz brilla en la oscuridad.pptx
PPTX: La luz brilla en la oscuridad.pptx
 

Introducción a la Extracción de Datos

  • 1. Introducción a la extracción de datos DeustoTech - Deusto Institute of Technology, University of Deusto http://www.morelab.deusto.es Abril 18, 2015 Técnicas y herramientas de extracción de datos Introducción a la extracción de datos Programa Experto en Análisis, Investigación y Comunicación de Datos Juan Sixto Cesteros jsixto@deusto.es
  • 2. Introducción a la extracción de datos Presentación ► Juan Sixto Cesteros ► email: jsixto@deusto.es ► Ingeniero en Informática por la Universidad de Deusto ► Máster de Desarrollo e Integración de Soluciones Software ► Realizando el doctorado en el área del Procesamiento del lenguaje natural, minería de datos y análisis de sentimientos aplicada a las redes sociales. ► Parte del equipo de investigación de DeustoTech - Internet. ► http://morelab.deusto.es/
  • 3. Introducción a la extracción de datos Resumen Introducción Fuentes de datos y cómo organizarse Cómo realizar búsquedas Introducción al scrapping de datos Leyes sobre datos Técnicas de geolocalización Trabajar con datos en excel Técnicas avanzadas de limpieza de datos
  • 4. Introducción a la extracción de datos Introducción ► La Pirámide Invertida ► Título ► Cuerpo ► Apoyo (Citas o datos) ► Información secundaria ► La pirámide invertida es una estructura que sugiere escribir organizando la información con los datos presentados de mayor a menor importancia. Introducción
  • 5. Introducción a la extracción de datos Introducción ► La Pirámide Invertida ► Título ► Cuerpo ► Apoyo (Citas o datos) ► Información secundaria ► La pirámide invertida es una estructura que sugiere escribir organizando la información con los datos presentados de mayor a menor importancia. Introducción
  • 6. Introducción a la extracción de datos Introducción Introducción
  • 7. Introducción a la extracción de datos Introducción ► La Pirámide Invertida del Periodismo de Datos ► Paul Bradshaw Introducción
  • 8. Introducción a la extracción de datos Introducción ► Paul Bradshaw ► Fundador de Online Journalism Blog ► Profesor de periodismo online en la City University de Londres y en la Birmingham City University ► The Online Journalism Handbook: Skills to survive and thrive in the digital age Introducción
  • 9. Introducción a la extracción de datos Introducción ► La Pirámide Invertida del Periodismo de Datos ► Paul Bradshaw ► Compilar ► Limpiar ► Contextualizar ► Combinar ► Comunicar Introducción
  • 10. Introducción a la extracción de datos Introducción ► La Pirámide Invertida del Periodismo de Datos ► Paul Bradshaw ► Compilar ► Limpiar ► Contextualizar ► Combinar ► Comunicar Introducción
  • 11. Introducción a la extracción de datos Introducción ► Compilar ► Análisis de Datos ► Necesidad de Datos ► Obtención ● Solicitar ● Búsqueda Web ● Scraping ● APIs ● Formularios ● Crowdsourcing Introducción
  • 12. Introducción a la extracción de datos Introducción ► Limpiar ► Calidad de los Datos ► Error humano ► Formato ► Duplicidades ► Datos extraños Introducción
  • 13. Introducción a la extracción de datos Introducción ► Contextualizar ► La información no puede siempre ser confiable ► ¿Quién? ► ¿Cuando? ► ¿Por qué? ► ¿Cómo? (Metodología) ► Estadística Introducción
  • 14. Introducción a la extracción de datos Introducción ► Combinar ► Múltiples datasets ► Visualización ► Extensión ► ¿Ejemplos? ► ¡Formato! Introducción
  • 15. Introducción a la extracción de datos Introducción Introducción ► Comunicar ► Visualización ► Narración ► Socialización ► Humanizar ► Personalizar ► Utilizar
  • 16. Introducción a la extracción de datos Fuentes de datos y cómo organizarse ► Fuentes de datos Fuentes de datos y cómo organizarse
  • 17. Introducción a la extracción de datos Fuentes de datos y cómo organizarse ► Fuentes de datos ► Portales de datos oficiales ► Organizaciones de Consumidores y Usuarios ► Instituciones científicas o académicas ► Motores de Búsqueda ► Datos públicos ► Datos en directo Fuentes de datos y cómo organizarse
  • 18. Introducción a la extracción de datos Fuentes de datos y cómo organizarse ► Formatos de datos ► Data vs Machine-Readable Data ► Preparados para ser procesados por una máquina ► No preparados para ser mostrados a usuarios finales Fuentes de datos y cómo organizarse
  • 19. Introducción a la extracción de datos Fuentes de datos y cómo organizarse ► Formatos de datos ► Data vs Machine-Readable Data ► Preparados para ser procesados por una máquina ► No preparados para ser mostrados a usuarios finales ► Datos para visualización ► HTML (Página Web) ► Documento Word (Texto Formateado) ► Documento PDF (Texto Maquetado) ► JPEG (Imágenes) Fuentes de datos y cómo organizarse
  • 20. Introducción a la extracción de datos Fuentes de datos y cómo organizarse ► Formatos de datos ► Data vs Machine-Readable Data ► Preparados para ser procesados por una máquina ► No preparados para ser mostrados a usuarios finales ► Datos para visualización ► HTML (Página Web) ► Documento Word (Texto Formateado) ► Documento PDF (Texto Maquetado) ► JPEG (Imágenes) ► Datos para procesar ► XLS (Excel) ► CSV (Abierto y sencillo) ► XML (Lenguaje de marcado) ► SQL (Bases de datos) Fuentes de datos y cómo organizarse
  • 21. Introducción a la extracción de datos Fuentes de datos y cómo organizarse ► Formatos de datos ► Hojas de cálculo ► Microsoft Excel ► Apache OpenOffice ► LibreOffice ► Google Spreadsheets Fuentes de datos y cómo organizarse
  • 22. Introducción a la extracción de datos Fuentes de datos y cómo organizarse ► Formatos de datos ► CSV (comma-separated values) ► Formato abierto y sencillo ► En forma de tablas ► Puede abrirse como Hojas de Cálculo Fuentes de datos y cómo organizarse
  • 23. Introducción a la extracción de datos Fuentes de datos y cómo organizarse ► Formatos de datos ► Lenguajes de Marcado ► XML ► HTML ► Desarrollado por el World Wide Web Consortium (W3C) ► Utilizado para almacenar datos en forma legible Fuentes de datos y cómo organizarse
  • 24. Introducción a la extracción de datos Fuentes de datos y cómo organizarse ► Formatos de datos ► Bases de datos ► Colección de información organizada de forma que un programa de ordenador pueda seleccionar rápidamente los fragmentos de datos que necesite. ► Se organizan por campos, registros y archivos. Fuentes de datos y cómo organizarse
  • 25. Introducción a la extracción de datos Cómo realizar búsquedas ► Muchos conjuntos de datos se encuentran indexados por los motores de búsqueda. Cómo realizar búsquedas
  • 26. Introducción a la extracción de datos Cómo realizar búsquedas ► Muchos conjuntos de datos se encuentran indexados por los motores de búsqueda. ► Algunos motores de búsqueda nos permiten buscar ficheros por tipo. ► Por ejemplo Google: ► spreadsheets : filetype:XLS o filetype:CSV ► bases de datos : filetype:DB ► PDFs : filetype:PDF Cómo realizar búsquedas
  • 27. Introducción a la extracción de datos Cómo realizar búsquedas ► También podemos buscar por URLs o dominios concretos: ► Ejemplo: inurl:<download> ► Ejemplo: site:opendata.euskadi.eus Cómo realizar búsquedas
  • 28. Introducción a la extracción de datos Introducción al scraping de datos ► Web scraping es una técnica utilizada mediante programas de software para extraer información de sitios web Introducción al scraping de datos
  • 29. Introducción a la extracción de datos Introducción al scraping de datos ► Web scraping es una técnica utilizada mediante programas de software para extraer información de sitios web ► Scraping es un método que te permite extraer datos escondidos en un documento, como páginas web y PDF, y los hace útiles para usarlos después. Introducción al scraping de datos
  • 30. Introducción a la extracción de datos Introducción al scraping de datos ► Web scraping es una técnica utilizada mediante programas de software para extraer información de sitios web ► Scraping es un método que te permite extraer datos escondidos en un documento, como páginas web y PDF, y los hace útiles para usarlos después. ► Data scraping o ‘Raspado de Datos’ ► Existen incontables herramientas de Scraping ► Google Spreadsheets ► Tábula Introducción al scraping de datos
  • 31. Introducción a la extracción de datos Introducción al scraping de datos ► Google Spreadsheets ► Servicio vía web de hojas de cálculo ► Similar a Microsoft Excel o LibreOffice Calc ► Maneja ficheros .xls .ods y .csv ► Servicio Web integrado en Google Drive ► Método sencillo para el scraping de datos Introducción al scraping de datos
  • 32. Introducción a la extracción de datos Introducción al scraping de datos ► Google Spreadsheets ► ImportHTML ► https://support.google.com/docs/answer/3093339 ► Importar tablas y listas directamente desde la Web ► Ejemplo: ► IMPORTHTML("http://en.wikipedia.org/wiki/Demographics_of_India";"table";4) ► Ejercicio: ► ¿Población de la C.A. de Euskadi por año de nacimiento, según el territorio histórico y el sexo en 2014? Introducción al scraping de datos
  • 33. Introducción a la extracción de datos Introducción al scraping de datos ► Ejercicio: ► ¿Población de la C.A. de Euskadi por año de nacimiento, según el territorio histórico y el sexo en 2014? ► www.eustat.es (Euskal Estatistika Erakundea - Instituto Vasco de Estadística) ► =IMPORTHTML("http://www.eustat. es/elementos/ele0011400/ti_Poblacin_de_la_CA_de_Euskad i_por_ao_de_nacimiento_segn_el_territorio_histrico_y_el_se xo_2014/tbl0011424_c.html";"table";1) Introducción al scraping de datos
  • 34. Introducción a la extracción de datos Introducción al scraping de datos ► Ejercicio: ► ¿Comunidades y ciudades autónomas de España por Densidad y Superficie? ► http://es.wikipedia.org/wiki/Anexo: Comunidades_y_ciudades_aut%C3%B3nomas_de_Espa% C3%B1a ► =IMPORTHTML("http://es.wikipedia.org/wiki/Anexo: Comunidades_y_ciudades_aut%C3%B3nomas_de_Espa% C3%B1a";"table";1) Introducción al scraping de datos
  • 35. Introducción a la extracción de datos Introducción al scraping de datos ► Google Spreadsheets ► ImportFEED ► https://support.google.com/docs/answer/3093337 ► Extraer datos de RSS o ATOM ► Sindicar o compartir contenido en la web. ► Se utiliza para difundir información actualizada frecuentemente a usuarios que se han suscrito a la fuente de contenidos ► Ejemplo: ► =IMPORTFEED("http://news.google.com/?output=atom") Introducción al scraping de datos
  • 36. Introducción a la extracción de datos Introducción al scraping de datos ► Google Spreadsheets ► ImportFEED ► Ejercicio: ► Crear Feed Rss con noticias de un periódico cualquiera. Introducción al scraping de datos
  • 37. Introducción a la extracción de datos Introducción al scraping de datos ► Google Spreadsheets ► ImportXML ► https://support.google.com/docs/answer/3093342 ► Importa datos en formato XML, HTML, CSV, TSV, RSS y ATOM XML feeds. ► Utiliza XPath ► http://www.w3schools.com/xpath/ Introducción al scraping de datos
  • 38. Introducción a la extracción de datos Introducción al scraping de datos ► Tábula ► Escraper de datos para PDFs ► http://tabula.technology/ ► Instalar Tábula Introducción al scraping de datos
  • 39. Introducción a la extracción de datos Introducción al scraping de datos Introducción al scraping de datos
  • 40. Introducción a la extracción de datos Introducción al scraping de datos Introducción al scraping de datos
  • 41. Introducción a la extracción de datos Introducción al scraping de datos Introducción al scraping de datos
  • 42. Introducción a la extracción de datos Introducción al scraping de datos Introducción al scraping de datos
  • 43. Introducción a la extracción de datos Introducción al scraping de datos ► Ejercicios ► Barómetro de Febrero 2015 del CIS: Principales problemas de España ► CIS Enero 2015: Valoración de Líderes Políticos Introducción al scraping de datos
  • 44. Introducción a la extracción de datos Leyes sobre datos ► Derechos sobre los Datos ► Consideraciones generales ► Antes de publicar, ¿son ya públicos los datos?. Leyes sobre datos
  • 45. Introducción a la extracción de datos Leyes sobre datos ► Derechos sobre los Datos ► Consideraciones generales ► Antes de publicar, ¿son ya públicos los datos?. ► Solicitudes formales ● Suelen llevar tiempo. Cuanto antes mejor. ● Consultar tiempos mínimos y máximos de solicitud. Leyes sobre datos
  • 46. Introducción a la extracción de datos Leyes sobre datos ► Derechos sobre los Datos ► Consideraciones generales ► Antes de publicar, ¿son ya públicos los datos?. ► Solicitudes formales ● Suelen llevar tiempo. Cuanto antes mejor. ● Consultar tiempos mínimos y máximos de solicitud. ► Conocer los derechos sobre los datos ● Obligación de contestar. Leyes sobre datos
  • 47. Introducción a la extracción de datos Leyes sobre datos ► Derechos sobre los Datos ► Consideraciones generales ► Antes de publicar, ¿son ya públicos los datos?. ► Solicitudes formales ● Suelen llevar tiempo. Cuanto antes mejor. ● Consultar tiempos mínimos y máximos de solicitud. ► Conocer los derechos sobre los datos ● Obligación de contestar. ► Sencillez ● Mejor solicitar consultas sencillas sobre los datos Leyes sobre datos
  • 48. Introducción a la extracción de datos Leyes sobre datos ► Derechos sobre los Datos ► Consideraciones generales ► Antes de publicar, ¿son ya públicos los datos?. ► Solicitudes formales ● Suelen llevar tiempo. Cuanto antes mejor. ● Consultar tiempos mínimos y máximos de solicitud. ► Conocer los derechos sobre los datos ● Obligación de contestar. ► Sencillez ● Mejor solicitar consultas sencillas sobre los datos ► Solicitudes Internacionales ● Internet nos permite solicitar datos a todas partes Leyes sobre datos
  • 49. Introducción a la extracción de datos Leyes sobre datos ► Derechos sobre los Datos en España ► Ley de Transparencia, Acceso a la Información Pública y Buen Gobierno ► Leyes de prensa ► Ley Orgánica de Protección de Datos Leyes sobre datos
  • 50. Introducción a la extracción de datos Leyes sobre datos ► Peligros sobre los datos ► Origen de los datos ► Solicitar siempre datos en crudo ► Casos de Copyright, uso y liberación de datos ► Licencias ● Dominio público ● Licencias permisivas o sólo de atribución ● Licencias copyleft, recíprocas o de compartir por igual ► Otras leyes. Leyes sobre datos
  • 51. Introducción a la extracción de datos Técnicas de geolocalización ► Geolocalización ► ¿Donde? Técnicas de geolocalización
  • 52. Introducción a la extracción de datos Técnicas de geolocalización ► Geolocalización ► ¿Donde? ► “El poder de las redes sociales: Geolocalización para noticias” Técnicas de geolocalización
  • 53. Introducción a la extracción de datos Técnicas de geolocalización ► Geolocalización ► ¿Donde? ► “El poder de las redes sociales: Geolocalización para noticias” ► Nos permite limitar el alcance de las noticias Técnicas de geolocalización
  • 54. Introducción a la extracción de datos Técnicas de geolocalización ► Geolocalización ► ¿Donde? ► “El poder de las redes sociales: Geolocalización para noticias” ► Nos permite limitar el alcance de las noticias ► Conocer su origen Técnicas de geolocalización
  • 55. Introducción a la extracción de datos Técnicas de geolocalización ► Geolocalización ► ¿Donde? ► “El poder de las redes sociales: Geolocalización para noticias” ► Nos permite limitar el alcance de las noticias ► Conocer su origen ► Validar la localización para evitar engaños Técnicas de geolocalización
  • 56. Introducción a la extracción de datos Técnicas de geolocalización Técnicas de geolocalización
  • 57. Introducción a la extracción de datos Técnicas de geolocalización Técnicas de geolocalización
  • 58. Introducción a la extracción de datos Técnicas de geolocalización Técnicas de geolocalización #BugünTelevizyonlarıKapat
  • 59. Introducción a la extracción de datos Técnicas de geolocalización Técnicas de geolocalización 90% Turquía #BugünTelevizyonlarıKapat
  • 60. Introducción a la extracción de datos Técnicas de geolocalización Técnicas de geolocalización 90% Turquía 50% Istanbul #BugünTelevizyonlarıKapat
  • 61. Introducción a la extracción de datos Técnicas de geolocalización Técnicas de geolocalización
  • 62. Introducción a la extracción de datos Técnicas de geolocalización Técnicas de geolocalización ● Sólo el 1% de los usuarios genera alrededor del 80 por ciento de todos los retweets ● Tres cuartas partes de los usuarios que hablan de las protestas no dieron ningún retweets en absoluto.
  • 63. Introducción a la extracción de datos Técnicas de geolocalización ► Caso de Estudio - Bellingcat ► https://www.bellingcat.com/ Técnicas de geolocalización
  • 64. Introducción a la extracción de datos Técnicas de geolocalización ► Caso de Estudio - Bellingcat ► https://www.bellingcat.com/ ► Open source investigations tools and techniques Técnicas de geolocalización
  • 65. Introducción a la extracción de datos Técnicas de geolocalización ► Caso de Estudio - Bellingcat ► https://www.bellingcat.com/ ► Open source investigations tools and techniques ► Confirmar la localización de un vídeo sin salir de casa Técnicas de geolocalización
  • 66. Introducción a la extracción de datos Técnicas de geolocalización ► Caso de Estudio - Bellingcat ► https://www.bellingcat.com/ ► Open source investigations tools and techniques ► Confirmar la localización de un vídeo sin salir de casa ► https://www.bellingcat.com/resources/how- tos/2014/07/09/a-beginners-guide-to-geolocation/ Técnicas de geolocalización
  • 67. Introducción a la extracción de datos Técnicas de geolocalización ► Caso de Estudio - Bellingcat ► https://www.bellingcat.com/ ► Open source investigations tools and techniques ► Confirmar la localización de un vídeo sin salir de casa ► https://www.bellingcat.com/resources/how- tos/2014/07/09/a-beginners-guide-to-geolocation/ ► El 15 de agosto de 2011, la oposición Libia afirmó haber capturado la pequeña localidad de Tiji, publicando el siguiente video en youtube como prueba. Técnicas de geolocalización
  • 68. Introducción a la extracción de datos Técnicas de geolocalización Técnicas de geolocalización
  • 69. Introducción a la extracción de datos Técnicas de geolocalización Técnicas de geolocalización
  • 70. Introducción a la extracción de datos Técnicas de geolocalización ► ¿Que necesitamos? ► Mapa ► Google Maps ► Bing Maps ► Yahoo! Maps ► Wikimapia ● wikimapia.org ● Buscar: Tiji (cuidado Nombres Árabes) Técnicas de geolocalización
  • 71. Introducción a la extracción de datos Técnicas de geolocalización Técnicas de geolocalización
  • 72. Introducción a la extracción de datos Técnicas de geolocalización Técnicas de geolocalización
  • 73. Introducción a la extracción de datos Técnicas de geolocalización Técnicas de geolocalización
  • 74. Introducción a la extracción de datos Técnicas de geolocalización Técnicas de geolocalización
  • 75. Introducción a la extracción de datos Técnicas de geolocalización Técnicas de geolocalización
  • 76. Introducción a la extracción de datos Técnicas de geolocalización Técnicas de geolocalización
  • 77. Introducción a la extracción de datos Técnicas de geolocalización ► Caso de Estudio - Bellingcat Técnicas de geolocalización
  • 78. Introducción a la extracción de datos Técnicas de geolocalización ► Caso de Estudio - Bellingcat ► Verification and Geolocation Tricks and Tips with Google Earth Técnicas de geolocalización
  • 79. Introducción a la extracción de datos Técnicas de geolocalización ► Caso de Estudio - Bellingcat ► Verification and Geolocation Tricks and Tips with Google Earth ► Google Earth Técnicas de geolocalización
  • 80. Introducción a la extracción de datos Técnicas de geolocalización ► Caso de Estudio - Bellingcat ► Verification and Geolocation Tricks and Tips with Google Earth ► Google Earth ► es un programa informático que muestra un globo virtual que permite visualizar múltiple cartografía, con base en la fotografía satelital. Técnicas de geolocalización
  • 81. Introducción a la extracción de datos Técnicas de geolocalización ► Caso de Estudio - Bellingcat ► Verification and Geolocation Tricks and Tips with Google Earth ► Google Earth ► es un programa informático que muestra un globo virtual que permite visualizar múltiple cartografía, con base en la fotografía satelital. ► Una herramienta muy poderosa para verificar y localizar imagenes por todo el mundo. Técnicas de geolocalización
  • 82. Introducción a la extracción de datos Técnicas de geolocalización ► Caso de Estudio - Bellingcat ► Verification and Geolocation Tricks and Tips with Google Earth ► Google Earth ► es un programa informático que muestra un globo virtual que permite visualizar múltiple cartografía, con base en la fotografía satelital. ► Una herramienta muy poderosa para verificar y localizar imagenes por todo el mundo. ► Especialmente útil para la geolocalización en zonas de conflicto. Técnicas de geolocalización
  • 83. Introducción a la extracción de datos Técnicas de geolocalización ► Caso de Estudio - Bellingcat ► Verification and Geolocation Tricks and Tips with Google Earth ► Imágenes históricas ► Ejemplo: ► La Batalla de Damasco corresponde a un enfrentamiento acontecido entre el 15 de julio y el 4 de agosto de 2012 entre las Fuerzas Armadas de Siria y distintos grupos sublevados en la ciudad capital de Damasco. Todo en el marco de la guerra civil que azota al país. ► 33°32'30.09"N 36°20'43.69"E Técnicas de geolocalización
  • 84. Introducción a la extracción de datos Técnicas de geolocalización Técnicas de geolocalización 23/05/2012
  • 85. Introducción a la extracción de datos Técnicas de geolocalización Técnicas de geolocalización 19/08/2012
  • 86. Introducción a la extracción de datos Técnicas de geolocalización ► Caso de Estudio - Bellingcat ► Verification and Geolocation Tricks and Tips with Google Earth ► Otros Ejemplos: ► 47.848926, 39.750993 - Paso Fronterizo Ukraine - Russia ► 48° 3'51.59"N 39°49'52.48"E - Paso Fronterizo Ukraine - Russia ► 47°19'4.36"N 39°42'6.36"E - Cementerio Rostov ► 39°21'25.53"N 141°54'47.92"E - Otsuchi, Japan Técnicas de geolocalización
  • 87. Introducción a la extracción de datos Técnicas de geolocalización ► Caso de Estudio - Bellingcat ► Cambiando el ángulo Técnicas de geolocalización
  • 88. Introducción a la extracción de datos Técnicas de geolocalización ► Caso de Estudio - Bellingcat ► Desarrollo de proyectos Técnicas de geolocalización
  • 89. Introducción a la extracción de datos Técnicas de geolocalización ► Caso de Estudio - Bellingcat ► Terrenos 3D ► Muy útil para verificar vídeos y fotos ► Técnicas de geolocalización
  • 90. Introducción a la extracción de datos Técnicas de geolocalización ► Caso de Estudio - Bellingcat ► Edificios 3D ► Técnicas de geolocalización
  • 91. Introducción a la extracción de datos Técnicas de geolocalización ► Caso de Estudio - Bellingcat ► Marcas y búsquedas Técnicas de geolocalización
  • 92. Introducción a la extracción de datos Trabajar con datos en excel ► Primeros pasos ► Crear un nuevo libro ► Una o varias Hojas de Cálculo ► Celdas y numeración ► Valores y Funciones ► Formularios Trabajar con datos en excel
  • 93. Introducción a la extracción de datos Trabajar con datos en excel ► Funciones y fórmulas más comunes ► Suma/Resta ► SUM() ► Multiplicar/Dividir ► MULTIPLY()/DIVIDE() ► “*” y “/” ► Potencia ► POWER() ► SQRT() ► Ejercicio ► Comprobar totales de documentos previos Trabajar con datos en excel
  • 94. Introducción a la extracción de datos Trabajar con datos en excel ► Operaciones más comunes: ► Símbolo de sumatorio ► SUM() ► AVERAGE() ● Ofrece el valor promedio numérico de un conjunto de datos, sin tener en cuenta el texto ► COUNT() ● Ofrece el recuento de valores numéricos de un conjunto de datos. ► MAX() ● Ofrece el valor máximo de un conjunto de datos numérico. ► MIN() ● Ofrece el valor mínimo de un conjunto de datos numérico. ► Otras… ● https://support.google.com/docs/table/25273 Trabajar con datos en excel
  • 95. Introducción a la extracción de datos Trabajar con datos en excel ► Funciones rápidas: ► Igual = ► Suma + ► Resta - ► Producto * ► División / ► Porcentaje % ► Exponencial ^ ► Mayor > ► Mayor o igual >= ► Menor < ► Menor o igual a <= ► Distinto <> ► Referencias a celdas $ Trabajar con datos en excel
  • 96. Introducción a la extracción de datos Trabajar con datos en excel ► Funciones Lógicas ► IF ► IF(expresión_lógica; valor_si_true; valor_si_false) ► AND ► AND(expresión_lógica1; [expresión_lógica2; ...]) ► OR ► OR(expresión_lógica1; [expresión_lógica2; ...]) ► SUMIF ► SUMIF(intervalo; criterio; [intervalo_suma]) Trabajar con datos en excel
  • 97. Introducción a la extracción de datos Trabajar con datos en excel ► Gráficos ► Datos - Seleccionar intervalos … ► Manera rápida y sencilla de visualizar datos Trabajar con datos en excel
  • 98. Introducción a la extracción de datos Técnicas avanzadas de limpieza de datos ► Necesidad de limpiar los datos ► Problemas que podemos encontrar en los datos ► Pobre diseño del esquema de datos ► Entradas erróneas ● Faltas de ortografía ● Redundancias y duplicados ● Valores contradictorios ► Singularidad ► Nombres incorrectos ► División de datos Técnicas avanzadas de limpieza de datos
  • 99. Introducción a la extracción de datos Técnicas avanzadas de limpieza de datos ► Herramientas para limpiar los datos ► Excel ► Para pequeños fallos ► De facil solución ► Openrefine ► http://openrefine.org/ ► Herramienta potente para limpiar, modificar y formatear los datos. Técnicas avanzadas de limpieza de datos
  • 100. Introducción a la extracción de datos Bibliografía ► http://datajournalismhandbook.org/ ► http://schoolofdata.org/ ► http://onlinejournalismblog.com/ ► http://www.theatlantic.com/international/archive/2013/06/these-charts-show-how-crucial-twitter-is- for-the-turkey-protesters/276798/ ► https://www.bellingcat.com ► http://blogs.lanacion.com.ar/data/datos-abiertos/como-usar-google-refine-para-trabajar-una-base- de-datos/ ► http://openrefine.org/ ► http://tabula.technology/ ► wikipedia.org ► http://tejiendo-redes.com/ ► Bibliografia
  • 101. Introducción a la extracción de datos All rights of images are reserved by the original owners, the rest of the content is licensed under a Creative Commons by-sa 3.0 license.
  • 102. Introducción a la extracción de datos DeustoTech - Deusto Institute of Technology, University of Deusto http://www.morelab.deusto.es Técnicas y herramientas de extracción de datos Introducción a la extracción de datos Juan Sixto {jsixto@deusto.es}