SlideShare una empresa de Scribd logo
1 de 102
Descargar para leer sin conexión
Introducción a la extracción de datos
DeustoTech - Deusto Institute of Technology, University of Deusto
http://www.morelab.deusto.es
Abril 18, 2015
Técnicas y herramientas de extracción de datos
Introducción a la extracción de datos
Programa Experto en Análisis, Investigación y Comunicación de Datos
Juan Sixto Cesteros
jsixto@deusto.es
Introducción a la extracción de datos
Presentación
► Juan Sixto Cesteros
► email: jsixto@deusto.es
► Ingeniero en Informática por la Universidad de Deusto
► Máster de Desarrollo e Integración de Soluciones
Software
► Realizando el doctorado en el área del Procesamiento
del lenguaje natural, minería de datos y análisis de
sentimientos aplicada a las redes sociales.
► Parte del equipo de investigación de DeustoTech -
Internet.
► http://morelab.deusto.es/
Introducción a la extracción de datos
Resumen
Introducción
Fuentes de datos y cómo organizarse
Cómo realizar búsquedas
Introducción al scrapping de datos
Leyes sobre datos
Técnicas de geolocalización
Trabajar con datos en excel
Técnicas avanzadas de limpieza de datos
Introducción a la extracción de datos
Introducción
► La Pirámide Invertida
► Título
► Cuerpo
► Apoyo (Citas o datos)
► Información secundaria
► La pirámide invertida es una estructura que sugiere escribir organizando la
información con los datos presentados de mayor a menor importancia.
Introducción
Introducción a la extracción de datos
Introducción
► La Pirámide Invertida
► Título
► Cuerpo
► Apoyo (Citas o datos)
► Información secundaria
► La pirámide invertida es una estructura que sugiere escribir organizando la
información con los datos presentados de mayor a menor importancia.
Introducción
Introducción a la extracción de datos
Introducción
Introducción
Introducción a la extracción de datos
Introducción
► La Pirámide Invertida del
Periodismo de Datos
► Paul Bradshaw
Introducción
Introducción a la extracción de datos
Introducción
► Paul Bradshaw
► Fundador de Online Journalism Blog
► Profesor de periodismo online en la
City University de Londres y en la
Birmingham City University
► The Online Journalism Handbook:
Skills to survive and thrive in the
digital age
Introducción
Introducción a la extracción de datos
Introducción
► La Pirámide Invertida del
Periodismo de Datos
► Paul Bradshaw
► Compilar
► Limpiar
► Contextualizar
► Combinar
► Comunicar
Introducción
Introducción a la extracción de datos
Introducción
► La Pirámide Invertida del
Periodismo de Datos
► Paul Bradshaw
► Compilar
► Limpiar
► Contextualizar
► Combinar
► Comunicar
Introducción
Introducción a la extracción de datos
Introducción
► Compilar
► Análisis de Datos
► Necesidad de Datos
► Obtención
● Solicitar
● Búsqueda Web
● Scraping
● APIs
● Formularios
● Crowdsourcing
Introducción
Introducción a la extracción de datos
Introducción
► Limpiar
► Calidad de los Datos
► Error humano
► Formato
► Duplicidades
► Datos extraños
Introducción
Introducción a la extracción de datos
Introducción
► Contextualizar
► La información no
puede siempre ser
confiable
► ¿Quién?
► ¿Cuando?
► ¿Por qué?
► ¿Cómo? (Metodología)
► Estadística
Introducción
Introducción a la extracción de datos
Introducción
► Combinar
► Múltiples datasets
► Visualización
► Extensión
► ¿Ejemplos?
► ¡Formato!
Introducción
Introducción a la extracción de datos
Introducción
Introducción
► Comunicar
► Visualización
► Narración
► Socialización
► Humanizar
► Personalizar
► Utilizar
Introducción a la extracción de datos
Fuentes de datos y cómo organizarse
► Fuentes de datos
Fuentes de datos y cómo organizarse
Introducción a la extracción de datos
Fuentes de datos y cómo organizarse
► Fuentes de datos
► Portales de datos oficiales
► Organizaciones de Consumidores y Usuarios
► Instituciones científicas o académicas
► Motores de Búsqueda
► Datos públicos
► Datos en directo
Fuentes de datos y cómo organizarse
Introducción a la extracción de datos
Fuentes de datos y cómo organizarse
► Formatos de datos
► Data vs Machine-Readable Data
► Preparados para ser procesados por una máquina
► No preparados para ser mostrados a usuarios finales
Fuentes de datos y cómo organizarse
Introducción a la extracción de datos
Fuentes de datos y cómo organizarse
► Formatos de datos
► Data vs Machine-Readable Data
► Preparados para ser procesados por una máquina
► No preparados para ser mostrados a usuarios finales
► Datos para visualización
► HTML (Página Web)
► Documento Word (Texto Formateado)
► Documento PDF (Texto Maquetado)
► JPEG (Imágenes)
Fuentes de datos y cómo organizarse
Introducción a la extracción de datos
Fuentes de datos y cómo organizarse
► Formatos de datos
► Data vs Machine-Readable Data
► Preparados para ser procesados por una máquina
► No preparados para ser mostrados a usuarios finales
► Datos para visualización
► HTML (Página Web)
► Documento Word (Texto Formateado)
► Documento PDF (Texto Maquetado)
► JPEG (Imágenes)
► Datos para procesar
► XLS (Excel)
► CSV (Abierto y sencillo)
► XML (Lenguaje de marcado)
► SQL (Bases de datos)
Fuentes de datos y cómo organizarse
Introducción a la extracción de datos
Fuentes de datos y cómo organizarse
► Formatos de datos
► Hojas de cálculo
► Microsoft Excel
► Apache OpenOffice
► LibreOffice
► Google Spreadsheets
Fuentes de datos y cómo organizarse
Introducción a la extracción de datos
Fuentes de datos y cómo organizarse
► Formatos de datos
► CSV (comma-separated values)
► Formato abierto y sencillo
► En forma de tablas
► Puede abrirse como Hojas de
Cálculo
Fuentes de datos y cómo organizarse
Introducción a la extracción de datos
Fuentes de datos y cómo organizarse
► Formatos de datos
► Lenguajes de Marcado
► XML
► HTML
► Desarrollado por el World Wide Web
Consortium (W3C)
► Utilizado para almacenar datos en forma
legible
Fuentes de datos y cómo organizarse
Introducción a la extracción de datos
Fuentes de datos y cómo organizarse
► Formatos de datos
► Bases de datos
► Colección de información organizada de forma que un
programa de ordenador pueda seleccionar rápidamente
los fragmentos de datos que necesite.
► Se organizan por campos, registros y archivos.
Fuentes de datos y cómo organizarse
Introducción a la extracción de datos
Cómo realizar búsquedas
► Muchos conjuntos de datos se encuentran indexados
por los motores de búsqueda.
Cómo realizar búsquedas
Introducción a la extracción de datos
Cómo realizar búsquedas
► Muchos conjuntos de datos se encuentran indexados
por los motores de búsqueda.
► Algunos motores de búsqueda nos permiten buscar
ficheros por tipo.
► Por ejemplo Google:
► spreadsheets : filetype:XLS o filetype:CSV
► bases de datos : filetype:DB
► PDFs : filetype:PDF
Cómo realizar búsquedas
Introducción a la extracción de datos
Cómo realizar búsquedas
► También podemos buscar por URLs o dominios
concretos:
► Ejemplo: inurl:<download>
► Ejemplo: site:opendata.euskadi.eus
Cómo realizar búsquedas
Introducción a la extracción de datos
Introducción al scraping de datos
► Web scraping es una técnica utilizada mediante
programas de software para extraer información de sitios
web
Introducción al scraping de datos
Introducción a la extracción de datos
Introducción al scraping de datos
► Web scraping es una técnica utilizada mediante
programas de software para extraer información de sitios
web
► Scraping es un método que te permite extraer datos
escondidos en un documento, como páginas web y PDF,
y los hace útiles para usarlos después.
Introducción al scraping de datos
Introducción a la extracción de datos
Introducción al scraping de datos
► Web scraping es una técnica utilizada mediante
programas de software para extraer información de sitios
web
► Scraping es un método que te permite extraer datos
escondidos en un documento, como páginas web y PDF,
y los hace útiles para usarlos después.
► Data scraping o ‘Raspado de Datos’
► Existen incontables herramientas de Scraping
► Google Spreadsheets
► Tábula
Introducción al scraping de datos
Introducción a la extracción de datos
Introducción al scraping de datos
► Google Spreadsheets
► Servicio vía web de hojas de cálculo
► Similar a Microsoft Excel o LibreOffice Calc
► Maneja ficheros .xls .ods y .csv
► Servicio Web integrado en Google Drive
► Método sencillo para el scraping de datos
Introducción al scraping de datos
Introducción a la extracción de datos
Introducción al scraping de datos
► Google Spreadsheets
► ImportHTML
► https://support.google.com/docs/answer/3093339
► Importar tablas y listas directamente desde la Web
► Ejemplo:
► IMPORTHTML("http://en.wikipedia.org/wiki/Demographics_of_India";"table";4)
► Ejercicio:
► ¿Población de la C.A. de Euskadi por año de nacimiento,
según el territorio histórico y el sexo en 2014?
Introducción al scraping de datos
Introducción a la extracción de datos
Introducción al scraping de datos
► Ejercicio:
► ¿Población de la C.A. de Euskadi por año de nacimiento,
según el territorio histórico y el sexo en 2014?
► www.eustat.es (Euskal Estatistika Erakundea - Instituto
Vasco de Estadística)
► =IMPORTHTML("http://www.eustat.
es/elementos/ele0011400/ti_Poblacin_de_la_CA_de_Euskad
i_por_ao_de_nacimiento_segn_el_territorio_histrico_y_el_se
xo_2014/tbl0011424_c.html";"table";1)
Introducción al scraping de datos
Introducción a la extracción de datos
Introducción al scraping de datos
► Ejercicio:
► ¿Comunidades y ciudades autónomas de España por
Densidad y Superficie?
► http://es.wikipedia.org/wiki/Anexo:
Comunidades_y_ciudades_aut%C3%B3nomas_de_Espa%
C3%B1a
► =IMPORTHTML("http://es.wikipedia.org/wiki/Anexo:
Comunidades_y_ciudades_aut%C3%B3nomas_de_Espa%
C3%B1a";"table";1)
Introducción al scraping de datos
Introducción a la extracción de datos
Introducción al scraping de datos
► Google Spreadsheets
► ImportFEED
► https://support.google.com/docs/answer/3093337
► Extraer datos de RSS o ATOM
► Sindicar o compartir contenido en la web.
► Se utiliza para difundir información actualizada
frecuentemente a usuarios que se han suscrito a la fuente
de contenidos
► Ejemplo:
► =IMPORTFEED("http://news.google.com/?output=atom")
Introducción al scraping de datos
Introducción a la extracción de datos
Introducción al scraping de datos
► Google Spreadsheets
► ImportFEED
► Ejercicio:
► Crear Feed Rss con noticias de un periódico cualquiera.
Introducción al scraping de datos
Introducción a la extracción de datos
Introducción al scraping de datos
► Google Spreadsheets
► ImportXML
► https://support.google.com/docs/answer/3093342
► Importa datos en formato XML, HTML, CSV, TSV, RSS y
ATOM XML feeds.
► Utiliza XPath
► http://www.w3schools.com/xpath/
Introducción al scraping de datos
Introducción a la extracción de datos
Introducción al scraping de datos
► Tábula
► Escraper de datos para PDFs
► http://tabula.technology/
► Instalar Tábula
Introducción al scraping de datos
Introducción a la extracción de datos
Introducción al scraping de datos
Introducción al scraping de datos
Introducción a la extracción de datos
Introducción al scraping de datos
Introducción al scraping de datos
Introducción a la extracción de datos
Introducción al scraping de datos
Introducción al scraping de datos
Introducción a la extracción de datos
Introducción al scraping de datos
Introducción al scraping de datos
Introducción a la extracción de datos
Introducción al scraping de datos
► Ejercicios
► Barómetro de Febrero 2015 del CIS: Principales
problemas de España
► CIS Enero 2015: Valoración de Líderes Políticos
Introducción al scraping de datos
Introducción a la extracción de datos
Leyes sobre datos
► Derechos sobre los Datos
► Consideraciones generales
► Antes de publicar, ¿son ya públicos los datos?.
Leyes sobre datos
Introducción a la extracción de datos
Leyes sobre datos
► Derechos sobre los Datos
► Consideraciones generales
► Antes de publicar, ¿son ya públicos los datos?.
► Solicitudes formales
● Suelen llevar tiempo. Cuanto antes mejor.
● Consultar tiempos mínimos y máximos de solicitud.
Leyes sobre datos
Introducción a la extracción de datos
Leyes sobre datos
► Derechos sobre los Datos
► Consideraciones generales
► Antes de publicar, ¿son ya públicos los datos?.
► Solicitudes formales
● Suelen llevar tiempo. Cuanto antes mejor.
● Consultar tiempos mínimos y máximos de solicitud.
► Conocer los derechos sobre los datos
● Obligación de contestar.
Leyes sobre datos
Introducción a la extracción de datos
Leyes sobre datos
► Derechos sobre los Datos
► Consideraciones generales
► Antes de publicar, ¿son ya públicos los datos?.
► Solicitudes formales
● Suelen llevar tiempo. Cuanto antes mejor.
● Consultar tiempos mínimos y máximos de solicitud.
► Conocer los derechos sobre los datos
● Obligación de contestar.
► Sencillez
● Mejor solicitar consultas sencillas sobre los datos
Leyes sobre datos
Introducción a la extracción de datos
Leyes sobre datos
► Derechos sobre los Datos
► Consideraciones generales
► Antes de publicar, ¿son ya públicos los datos?.
► Solicitudes formales
● Suelen llevar tiempo. Cuanto antes mejor.
● Consultar tiempos mínimos y máximos de solicitud.
► Conocer los derechos sobre los datos
● Obligación de contestar.
► Sencillez
● Mejor solicitar consultas sencillas sobre los datos
► Solicitudes Internacionales
● Internet nos permite solicitar datos a todas partes
Leyes sobre datos
Introducción a la extracción de datos
Leyes sobre datos
► Derechos sobre los Datos en España
► Ley de Transparencia, Acceso a la Información Pública y
Buen Gobierno
► Leyes de prensa
► Ley Orgánica de Protección de Datos
Leyes sobre datos
Introducción a la extracción de datos
Leyes sobre datos
► Peligros sobre los datos
► Origen de los datos
► Solicitar siempre datos en crudo
► Casos de Copyright, uso y liberación de datos
► Licencias
● Dominio público
● Licencias permisivas o sólo de atribución
● Licencias copyleft, recíprocas o de compartir por igual
► Otras leyes.
Leyes sobre datos
Introducción a la extracción de datos
Técnicas de geolocalización
► Geolocalización
► ¿Donde?
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
► Geolocalización
► ¿Donde?
► “El poder de las redes sociales: Geolocalización para
noticias”
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
► Geolocalización
► ¿Donde?
► “El poder de las redes sociales: Geolocalización para
noticias”
► Nos permite limitar el alcance de las noticias
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
► Geolocalización
► ¿Donde?
► “El poder de las redes sociales: Geolocalización para
noticias”
► Nos permite limitar el alcance de las noticias
► Conocer su origen
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
► Geolocalización
► ¿Donde?
► “El poder de las redes sociales: Geolocalización para
noticias”
► Nos permite limitar el alcance de las noticias
► Conocer su origen
► Validar la localización para evitar engaños
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
Técnicas de geolocalización
#BugünTelevizyonlarıKapat
Introducción a la extracción de datos
Técnicas de geolocalización
Técnicas de geolocalización
90% Turquía
#BugünTelevizyonlarıKapat
Introducción a la extracción de datos
Técnicas de geolocalización
Técnicas de geolocalización
90% Turquía
50% Istanbul
#BugünTelevizyonlarıKapat
Introducción a la extracción de datos
Técnicas de geolocalización
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
Técnicas de geolocalización
● Sólo el 1% de los usuarios genera alrededor del 80
por ciento de todos los retweets
● Tres cuartas partes de los usuarios que hablan de
las protestas no dieron ningún retweets en
absoluto.
Introducción a la extracción de datos
Técnicas de geolocalización
► Caso de Estudio - Bellingcat
► https://www.bellingcat.com/
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
► Caso de Estudio - Bellingcat
► https://www.bellingcat.com/
► Open source investigations tools and techniques
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
► Caso de Estudio - Bellingcat
► https://www.bellingcat.com/
► Open source investigations tools and techniques
► Confirmar la localización de un vídeo sin salir de casa
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
► Caso de Estudio - Bellingcat
► https://www.bellingcat.com/
► Open source investigations tools and techniques
► Confirmar la localización de un vídeo sin salir de casa
► https://www.bellingcat.com/resources/how-
tos/2014/07/09/a-beginners-guide-to-geolocation/
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
► Caso de Estudio - Bellingcat
► https://www.bellingcat.com/
► Open source investigations tools and techniques
► Confirmar la localización de un vídeo sin salir de casa
► https://www.bellingcat.com/resources/how-
tos/2014/07/09/a-beginners-guide-to-geolocation/
► El 15 de agosto de 2011, la oposición Libia afirmó haber
capturado la pequeña localidad de Tiji, publicando el
siguiente video en youtube como prueba.
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
► ¿Que necesitamos?
► Mapa
► Google Maps
► Bing Maps
► Yahoo! Maps
► Wikimapia
● wikimapia.org
● Buscar: Tiji (cuidado Nombres Árabes)
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
► Caso de Estudio - Bellingcat
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
► Caso de Estudio - Bellingcat
► Verification and Geolocation Tricks and Tips with Google
Earth
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
► Caso de Estudio - Bellingcat
► Verification and Geolocation Tricks and Tips with Google
Earth
► Google Earth
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
► Caso de Estudio - Bellingcat
► Verification and Geolocation Tricks and Tips with Google
Earth
► Google Earth
► es un programa informático que muestra un globo virtual que
permite visualizar múltiple cartografía, con base en la
fotografía satelital.
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
► Caso de Estudio - Bellingcat
► Verification and Geolocation Tricks and Tips with Google
Earth
► Google Earth
► es un programa informático que muestra un globo virtual que
permite visualizar múltiple cartografía, con base en la
fotografía satelital.
► Una herramienta muy poderosa para verificar y localizar
imagenes por todo el mundo.
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
► Caso de Estudio - Bellingcat
► Verification and Geolocation Tricks and Tips with Google
Earth
► Google Earth
► es un programa informático que muestra un globo virtual que
permite visualizar múltiple cartografía, con base en la
fotografía satelital.
► Una herramienta muy poderosa para verificar y localizar
imagenes por todo el mundo.
► Especialmente útil para la geolocalización en zonas de
conflicto.
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
► Caso de Estudio - Bellingcat
► Verification and Geolocation Tricks and Tips with Google
Earth
► Imágenes históricas
► Ejemplo:
► La Batalla de Damasco corresponde a un enfrentamiento acontecido entre el 15 de
julio y el 4 de agosto de 2012 entre las Fuerzas Armadas de Siria y distintos grupos
sublevados en la ciudad capital de Damasco. Todo en el marco de la guerra civil que
azota al país.
► 33°32'30.09"N 36°20'43.69"E
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
Técnicas de geolocalización
23/05/2012
Introducción a la extracción de datos
Técnicas de geolocalización
Técnicas de geolocalización
19/08/2012
Introducción a la extracción de datos
Técnicas de geolocalización
► Caso de Estudio - Bellingcat
► Verification and Geolocation Tricks and Tips with Google
Earth
► Otros Ejemplos:
► 47.848926, 39.750993 - Paso Fronterizo Ukraine - Russia
► 48° 3'51.59"N 39°49'52.48"E - Paso Fronterizo Ukraine - Russia
► 47°19'4.36"N 39°42'6.36"E - Cementerio Rostov
► 39°21'25.53"N 141°54'47.92"E - Otsuchi, Japan
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
► Caso de Estudio - Bellingcat
► Cambiando el ángulo
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
► Caso de Estudio - Bellingcat
► Desarrollo de proyectos
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
► Caso de Estudio - Bellingcat
► Terrenos 3D
► Muy útil para verificar vídeos y fotos
►
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
► Caso de Estudio - Bellingcat
► Edificios 3D
►
Técnicas de geolocalización
Introducción a la extracción de datos
Técnicas de geolocalización
► Caso de Estudio - Bellingcat
► Marcas y búsquedas
Técnicas de geolocalización
Introducción a la extracción de datos
Trabajar con datos en excel
► Primeros pasos
► Crear un nuevo libro
► Una o varias Hojas de Cálculo
► Celdas y numeración
► Valores y Funciones
► Formularios
Trabajar con datos en excel
Introducción a la extracción de datos
Trabajar con datos en excel
► Funciones y fórmulas más comunes
► Suma/Resta
► SUM()
► Multiplicar/Dividir
► MULTIPLY()/DIVIDE()
► “*” y “/”
► Potencia
► POWER()
► SQRT()
► Ejercicio
► Comprobar totales de documentos previos
Trabajar con datos en excel
Introducción a la extracción de datos
Trabajar con datos en excel
► Operaciones más comunes:
► Símbolo de sumatorio
► SUM()
► AVERAGE()
● Ofrece el valor promedio numérico de un conjunto de datos, sin tener en
cuenta el texto
► COUNT()
● Ofrece el recuento de valores numéricos de un conjunto de datos.
► MAX()
● Ofrece el valor máximo de un conjunto de datos numérico.
► MIN()
● Ofrece el valor mínimo de un conjunto de datos numérico.
► Otras…
● https://support.google.com/docs/table/25273
Trabajar con datos en excel
Introducción a la extracción de datos
Trabajar con datos en excel
► Funciones rápidas:
► Igual =
► Suma +
► Resta -
► Producto *
► División /
► Porcentaje %
► Exponencial ^
► Mayor >
► Mayor o igual >=
► Menor <
► Menor o igual a <=
► Distinto <>
► Referencias a celdas $
Trabajar con datos en excel
Introducción a la extracción de datos
Trabajar con datos en excel
► Funciones Lógicas
► IF
► IF(expresión_lógica; valor_si_true; valor_si_false)
► AND
► AND(expresión_lógica1; [expresión_lógica2; ...])
► OR
► OR(expresión_lógica1; [expresión_lógica2; ...])
► SUMIF
► SUMIF(intervalo; criterio; [intervalo_suma])
Trabajar con datos en excel
Introducción a la extracción de datos
Trabajar con datos en excel
► Gráficos
► Datos - Seleccionar intervalos …
► Manera rápida y sencilla de visualizar datos
Trabajar con datos en excel
Introducción a la extracción de datos
Técnicas avanzadas de limpieza de datos
► Necesidad de limpiar los datos
► Problemas que podemos encontrar en los datos
► Pobre diseño del esquema de datos
► Entradas erróneas
● Faltas de ortografía
● Redundancias y duplicados
● Valores contradictorios
► Singularidad
► Nombres incorrectos
► División de datos
Técnicas avanzadas de limpieza de datos
Introducción a la extracción de datos
Técnicas avanzadas de limpieza de datos
► Herramientas para limpiar los datos
► Excel
► Para pequeños fallos
► De facil solución
► Openrefine
► http://openrefine.org/
► Herramienta potente para limpiar, modificar y formatear los
datos.
Técnicas avanzadas de limpieza de datos
Introducción a la extracción de datos
Bibliografía
► http://datajournalismhandbook.org/
► http://schoolofdata.org/
► http://onlinejournalismblog.com/
► http://www.theatlantic.com/international/archive/2013/06/these-charts-show-how-crucial-twitter-is-
for-the-turkey-protesters/276798/
► https://www.bellingcat.com
► http://blogs.lanacion.com.ar/data/datos-abiertos/como-usar-google-refine-para-trabajar-una-base-
de-datos/
► http://openrefine.org/
► http://tabula.technology/
► wikipedia.org
► http://tejiendo-redes.com/
►
Bibliografia
Introducción a la extracción de datos
All rights of images are reserved by the original
owners, the rest of the content is licensed under a
Creative Commons by-sa 3.0 license.
Introducción a la extracción de datos
DeustoTech - Deusto Institute of Technology, University of Deusto
http://www.morelab.deusto.es
Técnicas y herramientas de extracción de datos
Introducción a la extracción de datos
Juan Sixto
{jsixto@deusto.es}

Más contenido relacionado

La actualidad más candente

DATA WRANGLING presentation.pptx
DATA WRANGLING presentation.pptxDATA WRANGLING presentation.pptx
DATA WRANGLING presentation.pptxAbdullahAbbasi55
 
Ensemble learning Techniques
Ensemble learning TechniquesEnsemble learning Techniques
Ensemble learning TechniquesBabu Priyavrat
 
Introduction to Statistical Machine Learning
Introduction to Statistical Machine LearningIntroduction to Statistical Machine Learning
Introduction to Statistical Machine Learningmahutte
 
The 8 Best Examples Of Real-Time Data Analytics
The 8 Best Examples Of Real-Time Data AnalyticsThe 8 Best Examples Of Real-Time Data Analytics
The 8 Best Examples Of Real-Time Data AnalyticsBernard Marr
 
Diferencia entre dato e informacion
Diferencia entre dato e informacionDiferencia entre dato e informacion
Diferencia entre dato e informacionwarrior92
 
3.5 Exploratory Data Analysis
3.5 Exploratory Data Analysis3.5 Exploratory Data Analysis
3.5 Exploratory Data Analysismlong24
 
Data mining techniques unit 1
Data mining techniques  unit 1Data mining techniques  unit 1
Data mining techniques unit 1malathieswaran29
 
Introduction to Data mining
Introduction to Data miningIntroduction to Data mining
Introduction to Data miningHadi Fadlallah
 
Lecture 6: Ensemble Methods
Lecture 6: Ensemble Methods Lecture 6: Ensemble Methods
Lecture 6: Ensemble Methods Marina Santini
 
CRISP-DM: a data science project methodology
CRISP-DM: a data science project methodologyCRISP-DM: a data science project methodology
CRISP-DM: a data science project methodologySergey Shelpuk
 
Performance Metrics for Machine Learning Algorithms
Performance Metrics for Machine Learning AlgorithmsPerformance Metrics for Machine Learning Algorithms
Performance Metrics for Machine Learning AlgorithmsKush Kulshrestha
 
Data preprocessing in Machine Learning
Data preprocessing in Machine LearningData preprocessing in Machine Learning
Data preprocessing in Machine LearningPyingkodi Maran
 

La actualidad más candente (20)

DATA WRANGLING presentation.pptx
DATA WRANGLING presentation.pptxDATA WRANGLING presentation.pptx
DATA WRANGLING presentation.pptx
 
Ensemble learning Techniques
Ensemble learning TechniquesEnsemble learning Techniques
Ensemble learning Techniques
 
Introduction to Statistical Machine Learning
Introduction to Statistical Machine LearningIntroduction to Statistical Machine Learning
Introduction to Statistical Machine Learning
 
Web mining
Web miningWeb mining
Web mining
 
The 8 Best Examples Of Real-Time Data Analytics
The 8 Best Examples Of Real-Time Data AnalyticsThe 8 Best Examples Of Real-Time Data Analytics
The 8 Best Examples Of Real-Time Data Analytics
 
Diferencia entre dato e informacion
Diferencia entre dato e informacionDiferencia entre dato e informacion
Diferencia entre dato e informacion
 
3.5 Exploratory Data Analysis
3.5 Exploratory Data Analysis3.5 Exploratory Data Analysis
3.5 Exploratory Data Analysis
 
Data mining techniques unit 1
Data mining techniques  unit 1Data mining techniques  unit 1
Data mining techniques unit 1
 
Data PreProcessing
Data PreProcessingData PreProcessing
Data PreProcessing
 
Introduction to Data mining
Introduction to Data miningIntroduction to Data mining
Introduction to Data mining
 
Lecture 6: Ensemble Methods
Lecture 6: Ensemble Methods Lecture 6: Ensemble Methods
Lecture 6: Ensemble Methods
 
Anomaly Detection
Anomaly DetectionAnomaly Detection
Anomaly Detection
 
Data science Big Data
Data science Big DataData science Big Data
Data science Big Data
 
Data Cleaning Techniques
Data Cleaning TechniquesData Cleaning Techniques
Data Cleaning Techniques
 
Data preprocessing
Data preprocessingData preprocessing
Data preprocessing
 
Data Visualization Tools
Data Visualization ToolsData Visualization Tools
Data Visualization Tools
 
CRISP-DM: a data science project methodology
CRISP-DM: a data science project methodologyCRISP-DM: a data science project methodology
CRISP-DM: a data science project methodology
 
Data lake ppt
Data lake pptData lake ppt
Data lake ppt
 
Performance Metrics for Machine Learning Algorithms
Performance Metrics for Machine Learning AlgorithmsPerformance Metrics for Machine Learning Algorithms
Performance Metrics for Machine Learning Algorithms
 
Data preprocessing in Machine Learning
Data preprocessing in Machine LearningData preprocessing in Machine Learning
Data preprocessing in Machine Learning
 

Destacado

Informatica Pentaho Etl Tools Comparison
Informatica Pentaho Etl Tools ComparisonInformatica Pentaho Etl Tools Comparison
Informatica Pentaho Etl Tools ComparisonRoberto Espinosa
 
Tecnicas Big Data: Meetup Cassandra
Tecnicas Big Data: Meetup CassandraTecnicas Big Data: Meetup Cassandra
Tecnicas Big Data: Meetup CassandraStratebi
 
Web scraping, Codeando México
Web scraping, Codeando MéxicoWeb scraping, Codeando México
Web scraping, Codeando MéxicoBraulio Chavez
 
Investigación de mercados y elaboración de una base de datos
Investigación de mercados y elaboración de una base de datosInvestigación de mercados y elaboración de una base de datos
Investigación de mercados y elaboración de una base de datosAlberto Jimenez
 
Posicionamiento de marca por redes sociales
Posicionamiento de marca por redes socialesPosicionamiento de marca por redes sociales
Posicionamiento de marca por redes socialesPablo
 
Selección de las fuentes de información
Selección de las fuentes de informaciónSelección de las fuentes de información
Selección de las fuentes de informaciónjantony04
 
Sistemas de apoyo a las decisiones de marketing
Sistemas de apoyo a las decisiones de marketingSistemas de apoyo a las decisiones de marketing
Sistemas de apoyo a las decisiones de marketingAlberto Jimenez
 

Destacado (8)

Informatica Pentaho Etl Tools Comparison
Informatica Pentaho Etl Tools ComparisonInformatica Pentaho Etl Tools Comparison
Informatica Pentaho Etl Tools Comparison
 
Tecnicas Big Data: Meetup Cassandra
Tecnicas Big Data: Meetup CassandraTecnicas Big Data: Meetup Cassandra
Tecnicas Big Data: Meetup Cassandra
 
Web scraping, Codeando México
Web scraping, Codeando MéxicoWeb scraping, Codeando México
Web scraping, Codeando México
 
Ut1 Intervencion Social Pdf
Ut1 Intervencion Social PdfUt1 Intervencion Social Pdf
Ut1 Intervencion Social Pdf
 
Investigación de mercados y elaboración de una base de datos
Investigación de mercados y elaboración de una base de datosInvestigación de mercados y elaboración de una base de datos
Investigación de mercados y elaboración de una base de datos
 
Posicionamiento de marca por redes sociales
Posicionamiento de marca por redes socialesPosicionamiento de marca por redes sociales
Posicionamiento de marca por redes sociales
 
Selección de las fuentes de información
Selección de las fuentes de informaciónSelección de las fuentes de información
Selección de las fuentes de información
 
Sistemas de apoyo a las decisiones de marketing
Sistemas de apoyo a las decisiones de marketingSistemas de apoyo a las decisiones de marketing
Sistemas de apoyo a las decisiones de marketing
 

Similar a Introducción a la Extracción de Datos

Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE
Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVEPresentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE
Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVEProgramaMediosCentroCarterVE
 
Periodismo de datos: Básico y con recursos gratis
Periodismo de datos: Básico y con recursos gratisPeriodismo de datos: Básico y con recursos gratis
Periodismo de datos: Básico y con recursos gratisSandra Crucianelli
 
Periodismo de datos
Periodismo de datosPeriodismo de datos
Periodismo de datosRubens Yanes
 
Webinar – Introducción al uso de datos
Webinar – Introducción al uso de datosWebinar – Introducción al uso de datos
Webinar – Introducción al uso de datosSocialTIC
 
Webinar – Introducción al manejo de datos
Webinar – Introducción al manejo de datosWebinar – Introducción al manejo de datos
Webinar – Introducción al manejo de datosSocialTIC
 
Introducción al Uso de Datos
Introducción al Uso de DatosIntroducción al Uso de Datos
Introducción al Uso de DatosSocialTIC
 
Visualización de Big Data con Power View
Visualización de Big Data con Power ViewVisualización de Big Data con Power View
Visualización de Big Data con Power ViewEduardo Castro
 
Presentacion_General_Datos_Abiertos.pptx
Presentacion_General_Datos_Abiertos.pptxPresentacion_General_Datos_Abiertos.pptx
Presentacion_General_Datos_Abiertos.pptxMiltonManuelOrtiz
 
Cómo conseguir un Gobierno Abierto
Cómo conseguir un Gobierno AbiertoCómo conseguir un Gobierno Abierto
Cómo conseguir un Gobierno AbiertoOpenKratio
 
Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...
Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...
Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...Software Guru
 
Datos abiertos: Reutilización de información en el sector público
Datos abiertos: Reutilización de información en el sector públicoDatos abiertos: Reutilización de información en el sector público
Datos abiertos: Reutilización de información en el sector públicoJose Emilio Labra Gayo
 
introduccion-al-analisis-de-datos--------
introduccion-al-analisis-de-datos--------introduccion-al-analisis-de-datos--------
introduccion-al-analisis-de-datos--------RubnGarcs2
 
Herramientas de Microsoft para el Científicos de Datos
Herramientas de Microsoft para el Científicos de DatosHerramientas de Microsoft para el Científicos de Datos
Herramientas de Microsoft para el Científicos de DatosEduardo Castro
 
A. Fuster. La era del Open Data: Caso de éxito y oportunidades. Semanainforma...
A. Fuster. La era del Open Data: Caso de éxito y oportunidades. Semanainforma...A. Fuster. La era del Open Data: Caso de éxito y oportunidades. Semanainforma...
A. Fuster. La era del Open Data: Caso de éxito y oportunidades. Semanainforma...COIICV
 
Webinario sobre Periodismo de Datos
Webinario sobre Periodismo de DatosWebinario sobre Periodismo de Datos
Webinario sobre Periodismo de DatosSandra Crucianelli
 
Herramientas y recursos tecnológicos para el Data Science
Herramientas y recursos tecnológicos para el Data ScienceHerramientas y recursos tecnológicos para el Data Science
Herramientas y recursos tecnológicos para el Data ScienceRoman Herrera
 
20080506 Acm Jornadas Ponencia
20080506 Acm Jornadas Ponencia20080506 Acm Jornadas Ponencia
20080506 Acm Jornadas Ponenciahrodriguez
 
Taller de datos - Data Toolbox #OSR6 #14wkRebiun
Taller de datos - Data Toolbox #OSR6  #14wkRebiunTaller de datos - Data Toolbox #OSR6  #14wkRebiun
Taller de datos - Data Toolbox #OSR6 #14wkRebiunLuis Martinez-Uribe
 
Conceptos en Ciencia de Datos
Conceptos en Ciencia de DatosConceptos en Ciencia de Datos
Conceptos en Ciencia de DatosLuisAzofeifa6
 

Similar a Introducción a la Extracción de Datos (20)

Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE
Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVEPresentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE
Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE
 
Periodismo de datos: Básico y con recursos gratis
Periodismo de datos: Básico y con recursos gratisPeriodismo de datos: Básico y con recursos gratis
Periodismo de datos: Básico y con recursos gratis
 
Periodismo de datos
Periodismo de datosPeriodismo de datos
Periodismo de datos
 
Webinar – Introducción al uso de datos
Webinar – Introducción al uso de datosWebinar – Introducción al uso de datos
Webinar – Introducción al uso de datos
 
Webinar – Introducción al manejo de datos
Webinar – Introducción al manejo de datosWebinar – Introducción al manejo de datos
Webinar – Introducción al manejo de datos
 
Introducción al Uso de Datos
Introducción al Uso de DatosIntroducción al Uso de Datos
Introducción al Uso de Datos
 
Visualización de Big Data con Power View
Visualización de Big Data con Power ViewVisualización de Big Data con Power View
Visualización de Big Data con Power View
 
Presentacion_General_Datos_Abiertos.pptx
Presentacion_General_Datos_Abiertos.pptxPresentacion_General_Datos_Abiertos.pptx
Presentacion_General_Datos_Abiertos.pptx
 
Cómo conseguir un Gobierno Abierto
Cómo conseguir un Gobierno AbiertoCómo conseguir un Gobierno Abierto
Cómo conseguir un Gobierno Abierto
 
Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...
Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...
Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...
 
Datos abiertos: Reutilización de información en el sector público
Datos abiertos: Reutilización de información en el sector públicoDatos abiertos: Reutilización de información en el sector público
Datos abiertos: Reutilización de información en el sector público
 
introduccion-al-analisis-de-datos--------
introduccion-al-analisis-de-datos--------introduccion-al-analisis-de-datos--------
introduccion-al-analisis-de-datos--------
 
Herramientas de Microsoft para el Científicos de Datos
Herramientas de Microsoft para el Científicos de DatosHerramientas de Microsoft para el Científicos de Datos
Herramientas de Microsoft para el Científicos de Datos
 
A. Fuster. La era del Open Data: Caso de éxito y oportunidades. Semanainforma...
A. Fuster. La era del Open Data: Caso de éxito y oportunidades. Semanainforma...A. Fuster. La era del Open Data: Caso de éxito y oportunidades. Semanainforma...
A. Fuster. La era del Open Data: Caso de éxito y oportunidades. Semanainforma...
 
Webinario sobre Periodismo de Datos
Webinario sobre Periodismo de DatosWebinario sobre Periodismo de Datos
Webinario sobre Periodismo de Datos
 
Herramientas y recursos tecnológicos para el Data Science
Herramientas y recursos tecnológicos para el Data ScienceHerramientas y recursos tecnológicos para el Data Science
Herramientas y recursos tecnológicos para el Data Science
 
20080506 Acm Jornadas Ponencia
20080506 Acm Jornadas Ponencia20080506 Acm Jornadas Ponencia
20080506 Acm Jornadas Ponencia
 
Taller de datos - Data Toolbox #OSR6 #14wkRebiun
Taller de datos - Data Toolbox #OSR6  #14wkRebiunTaller de datos - Data Toolbox #OSR6  #14wkRebiun
Taller de datos - Data Toolbox #OSR6 #14wkRebiun
 
Conceptos en Ciencia de Datos
Conceptos en Ciencia de DatosConceptos en Ciencia de Datos
Conceptos en Ciencia de Datos
 
data_collection-es.pptx
data_collection-es.pptxdata_collection-es.pptx
data_collection-es.pptx
 

Último

Curso = Metodos Tecnicas y Modelos de Enseñanza.pdf
Curso = Metodos Tecnicas y Modelos de Enseñanza.pdfCurso = Metodos Tecnicas y Modelos de Enseñanza.pdf
Curso = Metodos Tecnicas y Modelos de Enseñanza.pdfFrancisco158360
 
Registro Auxiliar - Primaria 2024 (1).pptx
Registro Auxiliar - Primaria  2024 (1).pptxRegistro Auxiliar - Primaria  2024 (1).pptx
Registro Auxiliar - Primaria 2024 (1).pptxFelicitasAsuncionDia
 
Estrategias de enseñanza-aprendizaje virtual.pptx
Estrategias de enseñanza-aprendizaje virtual.pptxEstrategias de enseñanza-aprendizaje virtual.pptx
Estrategias de enseñanza-aprendizaje virtual.pptxdkmeza
 
OCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VS
OCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VSOCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VS
OCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VSYadi Campos
 
INSTRUCCION PREPARATORIA DE TIRO .pptx
INSTRUCCION PREPARATORIA DE TIRO   .pptxINSTRUCCION PREPARATORIA DE TIRO   .pptx
INSTRUCCION PREPARATORIA DE TIRO .pptxdeimerhdz21
 
ACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLA
ACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLAACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLA
ACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLAJAVIER SOLIS NOYOLA
 
TIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptx
TIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptxTIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptx
TIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptxlclcarmen
 
Imperialismo informal en Europa y el imperio
Imperialismo informal en Europa y el imperioImperialismo informal en Europa y el imperio
Imperialismo informal en Europa y el imperiomiralbaipiales2016
 
SELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdf
SELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdfSELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdf
SELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdfAngélica Soledad Vega Ramírez
 
BIOMETANO SÍ, PERO NO ASÍ. LA NUEVA BURBUJA ENERGÉTICA
BIOMETANO SÍ, PERO NO ASÍ. LA NUEVA BURBUJA ENERGÉTICABIOMETANO SÍ, PERO NO ASÍ. LA NUEVA BURBUJA ENERGÉTICA
BIOMETANO SÍ, PERO NO ASÍ. LA NUEVA BURBUJA ENERGÉTICAÁngel Encinas
 
GUIA DE CIRCUNFERENCIA Y ELIPSE UNDÉCIMO 2024.pdf
GUIA DE CIRCUNFERENCIA Y ELIPSE UNDÉCIMO 2024.pdfGUIA DE CIRCUNFERENCIA Y ELIPSE UNDÉCIMO 2024.pdf
GUIA DE CIRCUNFERENCIA Y ELIPSE UNDÉCIMO 2024.pdfPaolaRopero2
 
CALENDARIZACION DE MAYO / RESPONSABILIDAD
CALENDARIZACION DE MAYO / RESPONSABILIDADCALENDARIZACION DE MAYO / RESPONSABILIDAD
CALENDARIZACION DE MAYO / RESPONSABILIDADauxsoporte
 
Cuaderno de trabajo Matemática 3 tercer grado.pdf
Cuaderno de trabajo Matemática 3 tercer grado.pdfCuaderno de trabajo Matemática 3 tercer grado.pdf
Cuaderno de trabajo Matemática 3 tercer grado.pdfNancyLoaa
 
AFICHE EL MANIERISMO HISTORIA DE LA ARQUITECTURA II
AFICHE EL MANIERISMO HISTORIA DE LA ARQUITECTURA IIAFICHE EL MANIERISMO HISTORIA DE LA ARQUITECTURA II
AFICHE EL MANIERISMO HISTORIA DE LA ARQUITECTURA IIIsauraImbrondone
 
Valoración Crítica de EEEM Feco2023 FFUCV
Valoración Crítica de EEEM Feco2023 FFUCVValoración Crítica de EEEM Feco2023 FFUCV
Valoración Crítica de EEEM Feco2023 FFUCVGiustinoAdesso1
 
Ejercicios de PROBLEMAS PAEV 6 GRADO 2024.pdf
Ejercicios de PROBLEMAS PAEV 6 GRADO 2024.pdfEjercicios de PROBLEMAS PAEV 6 GRADO 2024.pdf
Ejercicios de PROBLEMAS PAEV 6 GRADO 2024.pdfMaritzaRetamozoVera
 
Programacion Anual Matemática4 MPG 2024 Ccesa007.pdf
Programacion Anual Matemática4    MPG 2024  Ccesa007.pdfProgramacion Anual Matemática4    MPG 2024  Ccesa007.pdf
Programacion Anual Matemática4 MPG 2024 Ccesa007.pdfDemetrio Ccesa Rayme
 

Último (20)

Unidad 3 | Metodología de la Investigación
Unidad 3 | Metodología de la InvestigaciónUnidad 3 | Metodología de la Investigación
Unidad 3 | Metodología de la Investigación
 
Curso = Metodos Tecnicas y Modelos de Enseñanza.pdf
Curso = Metodos Tecnicas y Modelos de Enseñanza.pdfCurso = Metodos Tecnicas y Modelos de Enseñanza.pdf
Curso = Metodos Tecnicas y Modelos de Enseñanza.pdf
 
Registro Auxiliar - Primaria 2024 (1).pptx
Registro Auxiliar - Primaria  2024 (1).pptxRegistro Auxiliar - Primaria  2024 (1).pptx
Registro Auxiliar - Primaria 2024 (1).pptx
 
Estrategias de enseñanza-aprendizaje virtual.pptx
Estrategias de enseñanza-aprendizaje virtual.pptxEstrategias de enseñanza-aprendizaje virtual.pptx
Estrategias de enseñanza-aprendizaje virtual.pptx
 
OCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VS
OCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VSOCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VS
OCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VS
 
INSTRUCCION PREPARATORIA DE TIRO .pptx
INSTRUCCION PREPARATORIA DE TIRO   .pptxINSTRUCCION PREPARATORIA DE TIRO   .pptx
INSTRUCCION PREPARATORIA DE TIRO .pptx
 
ACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLA
ACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLAACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLA
ACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLA
 
TIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptx
TIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptxTIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptx
TIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptx
 
Fe contra todo pronóstico. La fe es confianza.
Fe contra todo pronóstico. La fe es confianza.Fe contra todo pronóstico. La fe es confianza.
Fe contra todo pronóstico. La fe es confianza.
 
Imperialismo informal en Europa y el imperio
Imperialismo informal en Europa y el imperioImperialismo informal en Europa y el imperio
Imperialismo informal en Europa y el imperio
 
SELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdf
SELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdfSELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdf
SELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdf
 
BIOMETANO SÍ, PERO NO ASÍ. LA NUEVA BURBUJA ENERGÉTICA
BIOMETANO SÍ, PERO NO ASÍ. LA NUEVA BURBUJA ENERGÉTICABIOMETANO SÍ, PERO NO ASÍ. LA NUEVA BURBUJA ENERGÉTICA
BIOMETANO SÍ, PERO NO ASÍ. LA NUEVA BURBUJA ENERGÉTICA
 
GUIA DE CIRCUNFERENCIA Y ELIPSE UNDÉCIMO 2024.pdf
GUIA DE CIRCUNFERENCIA Y ELIPSE UNDÉCIMO 2024.pdfGUIA DE CIRCUNFERENCIA Y ELIPSE UNDÉCIMO 2024.pdf
GUIA DE CIRCUNFERENCIA Y ELIPSE UNDÉCIMO 2024.pdf
 
CALENDARIZACION DE MAYO / RESPONSABILIDAD
CALENDARIZACION DE MAYO / RESPONSABILIDADCALENDARIZACION DE MAYO / RESPONSABILIDAD
CALENDARIZACION DE MAYO / RESPONSABILIDAD
 
Medición del Movimiento Online 2024.pptx
Medición del Movimiento Online 2024.pptxMedición del Movimiento Online 2024.pptx
Medición del Movimiento Online 2024.pptx
 
Cuaderno de trabajo Matemática 3 tercer grado.pdf
Cuaderno de trabajo Matemática 3 tercer grado.pdfCuaderno de trabajo Matemática 3 tercer grado.pdf
Cuaderno de trabajo Matemática 3 tercer grado.pdf
 
AFICHE EL MANIERISMO HISTORIA DE LA ARQUITECTURA II
AFICHE EL MANIERISMO HISTORIA DE LA ARQUITECTURA IIAFICHE EL MANIERISMO HISTORIA DE LA ARQUITECTURA II
AFICHE EL MANIERISMO HISTORIA DE LA ARQUITECTURA II
 
Valoración Crítica de EEEM Feco2023 FFUCV
Valoración Crítica de EEEM Feco2023 FFUCVValoración Crítica de EEEM Feco2023 FFUCV
Valoración Crítica de EEEM Feco2023 FFUCV
 
Ejercicios de PROBLEMAS PAEV 6 GRADO 2024.pdf
Ejercicios de PROBLEMAS PAEV 6 GRADO 2024.pdfEjercicios de PROBLEMAS PAEV 6 GRADO 2024.pdf
Ejercicios de PROBLEMAS PAEV 6 GRADO 2024.pdf
 
Programacion Anual Matemática4 MPG 2024 Ccesa007.pdf
Programacion Anual Matemática4    MPG 2024  Ccesa007.pdfProgramacion Anual Matemática4    MPG 2024  Ccesa007.pdf
Programacion Anual Matemática4 MPG 2024 Ccesa007.pdf
 

Introducción a la Extracción de Datos

  • 1. Introducción a la extracción de datos DeustoTech - Deusto Institute of Technology, University of Deusto http://www.morelab.deusto.es Abril 18, 2015 Técnicas y herramientas de extracción de datos Introducción a la extracción de datos Programa Experto en Análisis, Investigación y Comunicación de Datos Juan Sixto Cesteros jsixto@deusto.es
  • 2. Introducción a la extracción de datos Presentación ► Juan Sixto Cesteros ► email: jsixto@deusto.es ► Ingeniero en Informática por la Universidad de Deusto ► Máster de Desarrollo e Integración de Soluciones Software ► Realizando el doctorado en el área del Procesamiento del lenguaje natural, minería de datos y análisis de sentimientos aplicada a las redes sociales. ► Parte del equipo de investigación de DeustoTech - Internet. ► http://morelab.deusto.es/
  • 3. Introducción a la extracción de datos Resumen Introducción Fuentes de datos y cómo organizarse Cómo realizar búsquedas Introducción al scrapping de datos Leyes sobre datos Técnicas de geolocalización Trabajar con datos en excel Técnicas avanzadas de limpieza de datos
  • 4. Introducción a la extracción de datos Introducción ► La Pirámide Invertida ► Título ► Cuerpo ► Apoyo (Citas o datos) ► Información secundaria ► La pirámide invertida es una estructura que sugiere escribir organizando la información con los datos presentados de mayor a menor importancia. Introducción
  • 5. Introducción a la extracción de datos Introducción ► La Pirámide Invertida ► Título ► Cuerpo ► Apoyo (Citas o datos) ► Información secundaria ► La pirámide invertida es una estructura que sugiere escribir organizando la información con los datos presentados de mayor a menor importancia. Introducción
  • 6. Introducción a la extracción de datos Introducción Introducción
  • 7. Introducción a la extracción de datos Introducción ► La Pirámide Invertida del Periodismo de Datos ► Paul Bradshaw Introducción
  • 8. Introducción a la extracción de datos Introducción ► Paul Bradshaw ► Fundador de Online Journalism Blog ► Profesor de periodismo online en la City University de Londres y en la Birmingham City University ► The Online Journalism Handbook: Skills to survive and thrive in the digital age Introducción
  • 9. Introducción a la extracción de datos Introducción ► La Pirámide Invertida del Periodismo de Datos ► Paul Bradshaw ► Compilar ► Limpiar ► Contextualizar ► Combinar ► Comunicar Introducción
  • 10. Introducción a la extracción de datos Introducción ► La Pirámide Invertida del Periodismo de Datos ► Paul Bradshaw ► Compilar ► Limpiar ► Contextualizar ► Combinar ► Comunicar Introducción
  • 11. Introducción a la extracción de datos Introducción ► Compilar ► Análisis de Datos ► Necesidad de Datos ► Obtención ● Solicitar ● Búsqueda Web ● Scraping ● APIs ● Formularios ● Crowdsourcing Introducción
  • 12. Introducción a la extracción de datos Introducción ► Limpiar ► Calidad de los Datos ► Error humano ► Formato ► Duplicidades ► Datos extraños Introducción
  • 13. Introducción a la extracción de datos Introducción ► Contextualizar ► La información no puede siempre ser confiable ► ¿Quién? ► ¿Cuando? ► ¿Por qué? ► ¿Cómo? (Metodología) ► Estadística Introducción
  • 14. Introducción a la extracción de datos Introducción ► Combinar ► Múltiples datasets ► Visualización ► Extensión ► ¿Ejemplos? ► ¡Formato! Introducción
  • 15. Introducción a la extracción de datos Introducción Introducción ► Comunicar ► Visualización ► Narración ► Socialización ► Humanizar ► Personalizar ► Utilizar
  • 16. Introducción a la extracción de datos Fuentes de datos y cómo organizarse ► Fuentes de datos Fuentes de datos y cómo organizarse
  • 17. Introducción a la extracción de datos Fuentes de datos y cómo organizarse ► Fuentes de datos ► Portales de datos oficiales ► Organizaciones de Consumidores y Usuarios ► Instituciones científicas o académicas ► Motores de Búsqueda ► Datos públicos ► Datos en directo Fuentes de datos y cómo organizarse
  • 18. Introducción a la extracción de datos Fuentes de datos y cómo organizarse ► Formatos de datos ► Data vs Machine-Readable Data ► Preparados para ser procesados por una máquina ► No preparados para ser mostrados a usuarios finales Fuentes de datos y cómo organizarse
  • 19. Introducción a la extracción de datos Fuentes de datos y cómo organizarse ► Formatos de datos ► Data vs Machine-Readable Data ► Preparados para ser procesados por una máquina ► No preparados para ser mostrados a usuarios finales ► Datos para visualización ► HTML (Página Web) ► Documento Word (Texto Formateado) ► Documento PDF (Texto Maquetado) ► JPEG (Imágenes) Fuentes de datos y cómo organizarse
  • 20. Introducción a la extracción de datos Fuentes de datos y cómo organizarse ► Formatos de datos ► Data vs Machine-Readable Data ► Preparados para ser procesados por una máquina ► No preparados para ser mostrados a usuarios finales ► Datos para visualización ► HTML (Página Web) ► Documento Word (Texto Formateado) ► Documento PDF (Texto Maquetado) ► JPEG (Imágenes) ► Datos para procesar ► XLS (Excel) ► CSV (Abierto y sencillo) ► XML (Lenguaje de marcado) ► SQL (Bases de datos) Fuentes de datos y cómo organizarse
  • 21. Introducción a la extracción de datos Fuentes de datos y cómo organizarse ► Formatos de datos ► Hojas de cálculo ► Microsoft Excel ► Apache OpenOffice ► LibreOffice ► Google Spreadsheets Fuentes de datos y cómo organizarse
  • 22. Introducción a la extracción de datos Fuentes de datos y cómo organizarse ► Formatos de datos ► CSV (comma-separated values) ► Formato abierto y sencillo ► En forma de tablas ► Puede abrirse como Hojas de Cálculo Fuentes de datos y cómo organizarse
  • 23. Introducción a la extracción de datos Fuentes de datos y cómo organizarse ► Formatos de datos ► Lenguajes de Marcado ► XML ► HTML ► Desarrollado por el World Wide Web Consortium (W3C) ► Utilizado para almacenar datos en forma legible Fuentes de datos y cómo organizarse
  • 24. Introducción a la extracción de datos Fuentes de datos y cómo organizarse ► Formatos de datos ► Bases de datos ► Colección de información organizada de forma que un programa de ordenador pueda seleccionar rápidamente los fragmentos de datos que necesite. ► Se organizan por campos, registros y archivos. Fuentes de datos y cómo organizarse
  • 25. Introducción a la extracción de datos Cómo realizar búsquedas ► Muchos conjuntos de datos se encuentran indexados por los motores de búsqueda. Cómo realizar búsquedas
  • 26. Introducción a la extracción de datos Cómo realizar búsquedas ► Muchos conjuntos de datos se encuentran indexados por los motores de búsqueda. ► Algunos motores de búsqueda nos permiten buscar ficheros por tipo. ► Por ejemplo Google: ► spreadsheets : filetype:XLS o filetype:CSV ► bases de datos : filetype:DB ► PDFs : filetype:PDF Cómo realizar búsquedas
  • 27. Introducción a la extracción de datos Cómo realizar búsquedas ► También podemos buscar por URLs o dominios concretos: ► Ejemplo: inurl:<download> ► Ejemplo: site:opendata.euskadi.eus Cómo realizar búsquedas
  • 28. Introducción a la extracción de datos Introducción al scraping de datos ► Web scraping es una técnica utilizada mediante programas de software para extraer información de sitios web Introducción al scraping de datos
  • 29. Introducción a la extracción de datos Introducción al scraping de datos ► Web scraping es una técnica utilizada mediante programas de software para extraer información de sitios web ► Scraping es un método que te permite extraer datos escondidos en un documento, como páginas web y PDF, y los hace útiles para usarlos después. Introducción al scraping de datos
  • 30. Introducción a la extracción de datos Introducción al scraping de datos ► Web scraping es una técnica utilizada mediante programas de software para extraer información de sitios web ► Scraping es un método que te permite extraer datos escondidos en un documento, como páginas web y PDF, y los hace útiles para usarlos después. ► Data scraping o ‘Raspado de Datos’ ► Existen incontables herramientas de Scraping ► Google Spreadsheets ► Tábula Introducción al scraping de datos
  • 31. Introducción a la extracción de datos Introducción al scraping de datos ► Google Spreadsheets ► Servicio vía web de hojas de cálculo ► Similar a Microsoft Excel o LibreOffice Calc ► Maneja ficheros .xls .ods y .csv ► Servicio Web integrado en Google Drive ► Método sencillo para el scraping de datos Introducción al scraping de datos
  • 32. Introducción a la extracción de datos Introducción al scraping de datos ► Google Spreadsheets ► ImportHTML ► https://support.google.com/docs/answer/3093339 ► Importar tablas y listas directamente desde la Web ► Ejemplo: ► IMPORTHTML("http://en.wikipedia.org/wiki/Demographics_of_India";"table";4) ► Ejercicio: ► ¿Población de la C.A. de Euskadi por año de nacimiento, según el territorio histórico y el sexo en 2014? Introducción al scraping de datos
  • 33. Introducción a la extracción de datos Introducción al scraping de datos ► Ejercicio: ► ¿Población de la C.A. de Euskadi por año de nacimiento, según el territorio histórico y el sexo en 2014? ► www.eustat.es (Euskal Estatistika Erakundea - Instituto Vasco de Estadística) ► =IMPORTHTML("http://www.eustat. es/elementos/ele0011400/ti_Poblacin_de_la_CA_de_Euskad i_por_ao_de_nacimiento_segn_el_territorio_histrico_y_el_se xo_2014/tbl0011424_c.html";"table";1) Introducción al scraping de datos
  • 34. Introducción a la extracción de datos Introducción al scraping de datos ► Ejercicio: ► ¿Comunidades y ciudades autónomas de España por Densidad y Superficie? ► http://es.wikipedia.org/wiki/Anexo: Comunidades_y_ciudades_aut%C3%B3nomas_de_Espa% C3%B1a ► =IMPORTHTML("http://es.wikipedia.org/wiki/Anexo: Comunidades_y_ciudades_aut%C3%B3nomas_de_Espa% C3%B1a";"table";1) Introducción al scraping de datos
  • 35. Introducción a la extracción de datos Introducción al scraping de datos ► Google Spreadsheets ► ImportFEED ► https://support.google.com/docs/answer/3093337 ► Extraer datos de RSS o ATOM ► Sindicar o compartir contenido en la web. ► Se utiliza para difundir información actualizada frecuentemente a usuarios que se han suscrito a la fuente de contenidos ► Ejemplo: ► =IMPORTFEED("http://news.google.com/?output=atom") Introducción al scraping de datos
  • 36. Introducción a la extracción de datos Introducción al scraping de datos ► Google Spreadsheets ► ImportFEED ► Ejercicio: ► Crear Feed Rss con noticias de un periódico cualquiera. Introducción al scraping de datos
  • 37. Introducción a la extracción de datos Introducción al scraping de datos ► Google Spreadsheets ► ImportXML ► https://support.google.com/docs/answer/3093342 ► Importa datos en formato XML, HTML, CSV, TSV, RSS y ATOM XML feeds. ► Utiliza XPath ► http://www.w3schools.com/xpath/ Introducción al scraping de datos
  • 38. Introducción a la extracción de datos Introducción al scraping de datos ► Tábula ► Escraper de datos para PDFs ► http://tabula.technology/ ► Instalar Tábula Introducción al scraping de datos
  • 39. Introducción a la extracción de datos Introducción al scraping de datos Introducción al scraping de datos
  • 40. Introducción a la extracción de datos Introducción al scraping de datos Introducción al scraping de datos
  • 41. Introducción a la extracción de datos Introducción al scraping de datos Introducción al scraping de datos
  • 42. Introducción a la extracción de datos Introducción al scraping de datos Introducción al scraping de datos
  • 43. Introducción a la extracción de datos Introducción al scraping de datos ► Ejercicios ► Barómetro de Febrero 2015 del CIS: Principales problemas de España ► CIS Enero 2015: Valoración de Líderes Políticos Introducción al scraping de datos
  • 44. Introducción a la extracción de datos Leyes sobre datos ► Derechos sobre los Datos ► Consideraciones generales ► Antes de publicar, ¿son ya públicos los datos?. Leyes sobre datos
  • 45. Introducción a la extracción de datos Leyes sobre datos ► Derechos sobre los Datos ► Consideraciones generales ► Antes de publicar, ¿son ya públicos los datos?. ► Solicitudes formales ● Suelen llevar tiempo. Cuanto antes mejor. ● Consultar tiempos mínimos y máximos de solicitud. Leyes sobre datos
  • 46. Introducción a la extracción de datos Leyes sobre datos ► Derechos sobre los Datos ► Consideraciones generales ► Antes de publicar, ¿son ya públicos los datos?. ► Solicitudes formales ● Suelen llevar tiempo. Cuanto antes mejor. ● Consultar tiempos mínimos y máximos de solicitud. ► Conocer los derechos sobre los datos ● Obligación de contestar. Leyes sobre datos
  • 47. Introducción a la extracción de datos Leyes sobre datos ► Derechos sobre los Datos ► Consideraciones generales ► Antes de publicar, ¿son ya públicos los datos?. ► Solicitudes formales ● Suelen llevar tiempo. Cuanto antes mejor. ● Consultar tiempos mínimos y máximos de solicitud. ► Conocer los derechos sobre los datos ● Obligación de contestar. ► Sencillez ● Mejor solicitar consultas sencillas sobre los datos Leyes sobre datos
  • 48. Introducción a la extracción de datos Leyes sobre datos ► Derechos sobre los Datos ► Consideraciones generales ► Antes de publicar, ¿son ya públicos los datos?. ► Solicitudes formales ● Suelen llevar tiempo. Cuanto antes mejor. ● Consultar tiempos mínimos y máximos de solicitud. ► Conocer los derechos sobre los datos ● Obligación de contestar. ► Sencillez ● Mejor solicitar consultas sencillas sobre los datos ► Solicitudes Internacionales ● Internet nos permite solicitar datos a todas partes Leyes sobre datos
  • 49. Introducción a la extracción de datos Leyes sobre datos ► Derechos sobre los Datos en España ► Ley de Transparencia, Acceso a la Información Pública y Buen Gobierno ► Leyes de prensa ► Ley Orgánica de Protección de Datos Leyes sobre datos
  • 50. Introducción a la extracción de datos Leyes sobre datos ► Peligros sobre los datos ► Origen de los datos ► Solicitar siempre datos en crudo ► Casos de Copyright, uso y liberación de datos ► Licencias ● Dominio público ● Licencias permisivas o sólo de atribución ● Licencias copyleft, recíprocas o de compartir por igual ► Otras leyes. Leyes sobre datos
  • 51. Introducción a la extracción de datos Técnicas de geolocalización ► Geolocalización ► ¿Donde? Técnicas de geolocalización
  • 52. Introducción a la extracción de datos Técnicas de geolocalización ► Geolocalización ► ¿Donde? ► “El poder de las redes sociales: Geolocalización para noticias” Técnicas de geolocalización
  • 53. Introducción a la extracción de datos Técnicas de geolocalización ► Geolocalización ► ¿Donde? ► “El poder de las redes sociales: Geolocalización para noticias” ► Nos permite limitar el alcance de las noticias Técnicas de geolocalización
  • 54. Introducción a la extracción de datos Técnicas de geolocalización ► Geolocalización ► ¿Donde? ► “El poder de las redes sociales: Geolocalización para noticias” ► Nos permite limitar el alcance de las noticias ► Conocer su origen Técnicas de geolocalización
  • 55. Introducción a la extracción de datos Técnicas de geolocalización ► Geolocalización ► ¿Donde? ► “El poder de las redes sociales: Geolocalización para noticias” ► Nos permite limitar el alcance de las noticias ► Conocer su origen ► Validar la localización para evitar engaños Técnicas de geolocalización
  • 56. Introducción a la extracción de datos Técnicas de geolocalización Técnicas de geolocalización
  • 57. Introducción a la extracción de datos Técnicas de geolocalización Técnicas de geolocalización
  • 58. Introducción a la extracción de datos Técnicas de geolocalización Técnicas de geolocalización #BugünTelevizyonlarıKapat
  • 59. Introducción a la extracción de datos Técnicas de geolocalización Técnicas de geolocalización 90% Turquía #BugünTelevizyonlarıKapat
  • 60. Introducción a la extracción de datos Técnicas de geolocalización Técnicas de geolocalización 90% Turquía 50% Istanbul #BugünTelevizyonlarıKapat
  • 61. Introducción a la extracción de datos Técnicas de geolocalización Técnicas de geolocalización
  • 62. Introducción a la extracción de datos Técnicas de geolocalización Técnicas de geolocalización ● Sólo el 1% de los usuarios genera alrededor del 80 por ciento de todos los retweets ● Tres cuartas partes de los usuarios que hablan de las protestas no dieron ningún retweets en absoluto.
  • 63. Introducción a la extracción de datos Técnicas de geolocalización ► Caso de Estudio - Bellingcat ► https://www.bellingcat.com/ Técnicas de geolocalización
  • 64. Introducción a la extracción de datos Técnicas de geolocalización ► Caso de Estudio - Bellingcat ► https://www.bellingcat.com/ ► Open source investigations tools and techniques Técnicas de geolocalización
  • 65. Introducción a la extracción de datos Técnicas de geolocalización ► Caso de Estudio - Bellingcat ► https://www.bellingcat.com/ ► Open source investigations tools and techniques ► Confirmar la localización de un vídeo sin salir de casa Técnicas de geolocalización
  • 66. Introducción a la extracción de datos Técnicas de geolocalización ► Caso de Estudio - Bellingcat ► https://www.bellingcat.com/ ► Open source investigations tools and techniques ► Confirmar la localización de un vídeo sin salir de casa ► https://www.bellingcat.com/resources/how- tos/2014/07/09/a-beginners-guide-to-geolocation/ Técnicas de geolocalización
  • 67. Introducción a la extracción de datos Técnicas de geolocalización ► Caso de Estudio - Bellingcat ► https://www.bellingcat.com/ ► Open source investigations tools and techniques ► Confirmar la localización de un vídeo sin salir de casa ► https://www.bellingcat.com/resources/how- tos/2014/07/09/a-beginners-guide-to-geolocation/ ► El 15 de agosto de 2011, la oposición Libia afirmó haber capturado la pequeña localidad de Tiji, publicando el siguiente video en youtube como prueba. Técnicas de geolocalización
  • 68. Introducción a la extracción de datos Técnicas de geolocalización Técnicas de geolocalización
  • 69. Introducción a la extracción de datos Técnicas de geolocalización Técnicas de geolocalización
  • 70. Introducción a la extracción de datos Técnicas de geolocalización ► ¿Que necesitamos? ► Mapa ► Google Maps ► Bing Maps ► Yahoo! Maps ► Wikimapia ● wikimapia.org ● Buscar: Tiji (cuidado Nombres Árabes) Técnicas de geolocalización
  • 71. Introducción a la extracción de datos Técnicas de geolocalización Técnicas de geolocalización
  • 72. Introducción a la extracción de datos Técnicas de geolocalización Técnicas de geolocalización
  • 73. Introducción a la extracción de datos Técnicas de geolocalización Técnicas de geolocalización
  • 74. Introducción a la extracción de datos Técnicas de geolocalización Técnicas de geolocalización
  • 75. Introducción a la extracción de datos Técnicas de geolocalización Técnicas de geolocalización
  • 76. Introducción a la extracción de datos Técnicas de geolocalización Técnicas de geolocalización
  • 77. Introducción a la extracción de datos Técnicas de geolocalización ► Caso de Estudio - Bellingcat Técnicas de geolocalización
  • 78. Introducción a la extracción de datos Técnicas de geolocalización ► Caso de Estudio - Bellingcat ► Verification and Geolocation Tricks and Tips with Google Earth Técnicas de geolocalización
  • 79. Introducción a la extracción de datos Técnicas de geolocalización ► Caso de Estudio - Bellingcat ► Verification and Geolocation Tricks and Tips with Google Earth ► Google Earth Técnicas de geolocalización
  • 80. Introducción a la extracción de datos Técnicas de geolocalización ► Caso de Estudio - Bellingcat ► Verification and Geolocation Tricks and Tips with Google Earth ► Google Earth ► es un programa informático que muestra un globo virtual que permite visualizar múltiple cartografía, con base en la fotografía satelital. Técnicas de geolocalización
  • 81. Introducción a la extracción de datos Técnicas de geolocalización ► Caso de Estudio - Bellingcat ► Verification and Geolocation Tricks and Tips with Google Earth ► Google Earth ► es un programa informático que muestra un globo virtual que permite visualizar múltiple cartografía, con base en la fotografía satelital. ► Una herramienta muy poderosa para verificar y localizar imagenes por todo el mundo. Técnicas de geolocalización
  • 82. Introducción a la extracción de datos Técnicas de geolocalización ► Caso de Estudio - Bellingcat ► Verification and Geolocation Tricks and Tips with Google Earth ► Google Earth ► es un programa informático que muestra un globo virtual que permite visualizar múltiple cartografía, con base en la fotografía satelital. ► Una herramienta muy poderosa para verificar y localizar imagenes por todo el mundo. ► Especialmente útil para la geolocalización en zonas de conflicto. Técnicas de geolocalización
  • 83. Introducción a la extracción de datos Técnicas de geolocalización ► Caso de Estudio - Bellingcat ► Verification and Geolocation Tricks and Tips with Google Earth ► Imágenes históricas ► Ejemplo: ► La Batalla de Damasco corresponde a un enfrentamiento acontecido entre el 15 de julio y el 4 de agosto de 2012 entre las Fuerzas Armadas de Siria y distintos grupos sublevados en la ciudad capital de Damasco. Todo en el marco de la guerra civil que azota al país. ► 33°32'30.09"N 36°20'43.69"E Técnicas de geolocalización
  • 84. Introducción a la extracción de datos Técnicas de geolocalización Técnicas de geolocalización 23/05/2012
  • 85. Introducción a la extracción de datos Técnicas de geolocalización Técnicas de geolocalización 19/08/2012
  • 86. Introducción a la extracción de datos Técnicas de geolocalización ► Caso de Estudio - Bellingcat ► Verification and Geolocation Tricks and Tips with Google Earth ► Otros Ejemplos: ► 47.848926, 39.750993 - Paso Fronterizo Ukraine - Russia ► 48° 3'51.59"N 39°49'52.48"E - Paso Fronterizo Ukraine - Russia ► 47°19'4.36"N 39°42'6.36"E - Cementerio Rostov ► 39°21'25.53"N 141°54'47.92"E - Otsuchi, Japan Técnicas de geolocalización
  • 87. Introducción a la extracción de datos Técnicas de geolocalización ► Caso de Estudio - Bellingcat ► Cambiando el ángulo Técnicas de geolocalización
  • 88. Introducción a la extracción de datos Técnicas de geolocalización ► Caso de Estudio - Bellingcat ► Desarrollo de proyectos Técnicas de geolocalización
  • 89. Introducción a la extracción de datos Técnicas de geolocalización ► Caso de Estudio - Bellingcat ► Terrenos 3D ► Muy útil para verificar vídeos y fotos ► Técnicas de geolocalización
  • 90. Introducción a la extracción de datos Técnicas de geolocalización ► Caso de Estudio - Bellingcat ► Edificios 3D ► Técnicas de geolocalización
  • 91. Introducción a la extracción de datos Técnicas de geolocalización ► Caso de Estudio - Bellingcat ► Marcas y búsquedas Técnicas de geolocalización
  • 92. Introducción a la extracción de datos Trabajar con datos en excel ► Primeros pasos ► Crear un nuevo libro ► Una o varias Hojas de Cálculo ► Celdas y numeración ► Valores y Funciones ► Formularios Trabajar con datos en excel
  • 93. Introducción a la extracción de datos Trabajar con datos en excel ► Funciones y fórmulas más comunes ► Suma/Resta ► SUM() ► Multiplicar/Dividir ► MULTIPLY()/DIVIDE() ► “*” y “/” ► Potencia ► POWER() ► SQRT() ► Ejercicio ► Comprobar totales de documentos previos Trabajar con datos en excel
  • 94. Introducción a la extracción de datos Trabajar con datos en excel ► Operaciones más comunes: ► Símbolo de sumatorio ► SUM() ► AVERAGE() ● Ofrece el valor promedio numérico de un conjunto de datos, sin tener en cuenta el texto ► COUNT() ● Ofrece el recuento de valores numéricos de un conjunto de datos. ► MAX() ● Ofrece el valor máximo de un conjunto de datos numérico. ► MIN() ● Ofrece el valor mínimo de un conjunto de datos numérico. ► Otras… ● https://support.google.com/docs/table/25273 Trabajar con datos en excel
  • 95. Introducción a la extracción de datos Trabajar con datos en excel ► Funciones rápidas: ► Igual = ► Suma + ► Resta - ► Producto * ► División / ► Porcentaje % ► Exponencial ^ ► Mayor > ► Mayor o igual >= ► Menor < ► Menor o igual a <= ► Distinto <> ► Referencias a celdas $ Trabajar con datos en excel
  • 96. Introducción a la extracción de datos Trabajar con datos en excel ► Funciones Lógicas ► IF ► IF(expresión_lógica; valor_si_true; valor_si_false) ► AND ► AND(expresión_lógica1; [expresión_lógica2; ...]) ► OR ► OR(expresión_lógica1; [expresión_lógica2; ...]) ► SUMIF ► SUMIF(intervalo; criterio; [intervalo_suma]) Trabajar con datos en excel
  • 97. Introducción a la extracción de datos Trabajar con datos en excel ► Gráficos ► Datos - Seleccionar intervalos … ► Manera rápida y sencilla de visualizar datos Trabajar con datos en excel
  • 98. Introducción a la extracción de datos Técnicas avanzadas de limpieza de datos ► Necesidad de limpiar los datos ► Problemas que podemos encontrar en los datos ► Pobre diseño del esquema de datos ► Entradas erróneas ● Faltas de ortografía ● Redundancias y duplicados ● Valores contradictorios ► Singularidad ► Nombres incorrectos ► División de datos Técnicas avanzadas de limpieza de datos
  • 99. Introducción a la extracción de datos Técnicas avanzadas de limpieza de datos ► Herramientas para limpiar los datos ► Excel ► Para pequeños fallos ► De facil solución ► Openrefine ► http://openrefine.org/ ► Herramienta potente para limpiar, modificar y formatear los datos. Técnicas avanzadas de limpieza de datos
  • 100. Introducción a la extracción de datos Bibliografía ► http://datajournalismhandbook.org/ ► http://schoolofdata.org/ ► http://onlinejournalismblog.com/ ► http://www.theatlantic.com/international/archive/2013/06/these-charts-show-how-crucial-twitter-is- for-the-turkey-protesters/276798/ ► https://www.bellingcat.com ► http://blogs.lanacion.com.ar/data/datos-abiertos/como-usar-google-refine-para-trabajar-una-base- de-datos/ ► http://openrefine.org/ ► http://tabula.technology/ ► wikipedia.org ► http://tejiendo-redes.com/ ► Bibliografia
  • 101. Introducción a la extracción de datos All rights of images are reserved by the original owners, the rest of the content is licensed under a Creative Commons by-sa 3.0 license.
  • 102. Introducción a la extracción de datos DeustoTech - Deusto Institute of Technology, University of Deusto http://www.morelab.deusto.es Técnicas y herramientas de extracción de datos Introducción a la extracción de datos Juan Sixto {jsixto@deusto.es}