Presentación en diapositivas para el webinar sobre "Spatial Data Science con R" realizado con la comunidad GeoDevelopers.org. El video del webinar y los materiales de la presentación incluyendo el código fuente y los datos de muestra se pueden descargar desde este link: http://amsantac.co/blog/es/2016/08/07/spatial-data-science-r-es.html
En este webinar se explican algunos conceptos y herramientas de Spatial Data Science, con un énfasis en el uso del lenguaje R durante las diferentes fases de trabajo, desde la importación y procesamiento de datos espaciales hasta la visualización y publicación de resultados.
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Spatial Data Science con R
1. 1
Intro a Spatial Data Science con
R
Alí Santacruz
amsantac.co
JULIO 2016
2. 2
Acerca de mí
• Geomático con background ambiental
• R geek
• Candidato a PhD en Geografía
• Interesado en Spatial Data Science
• Autor de paquetes de R (disponibles en CRAN)
3. 3
Objetivo de esta charla
• Discutir qué es Spatial Data Science
• Presentar de manera introductoria cómo realizar Spatial Data Science
con R
4. 4
Qué es Spatial Data Science?
Spatial Data Scientist (n.):
Estadístico Experto SIG/RSDesarrollador
SIG
Ingeniero de
software
Spatial Data
Scientist
Spatial Data Science
Data Science
Spatial
Persona que es mejor en análisis de datos espaciales que un desarrollador
SIG y mejor en ingeniería de software que un experto SIG/RS
5. 5
Spatial Data Science
Se combinan para el análisis de
datos con el fin de …
Apoyar una mejor toma de
decisiones
"The key word in data science is not data; it is science"
Jeff Leek. Coursera.
8. 8
Por qué usar R?
• Libre, de código abierto y gratuito
• Un conjunto de paquetes (> 8600) comprehensivo
• Acceso a los datos
• Data cleaning
• Análisis
• Visualización y creación de reportes
• Excelentes ambientes de desarrollo – RStudio IDE
• Una comunidad activa y amigable de desarrolladores
• Una extensa comunidad de usuarios: > 2 millones
9. 9
Por qué usar R para análisis espacial
• 160+ paquetes en CRAN Task View: Analysis of Spatial Data
• Clases para datos espaciales (y espacio-temporales)
• Importación y exportación de datos
• Análisis exploratorio de datos espaciales
• Soporte para operaciones en vector y raster
• Estadística espacial
• Visualización en gráficos estáticos o interactivos (web)
• Integración con software SIG
• Integración con técnicas de análisis de paquetes ‘no-espaciales’ usualmente
sencilla
10. 10
Clases de R para datos espaciales
• Antes de 2003:
• Varios paquetes para datos espaciales con diferentes supuestos sobre cómo los
datos espaciales estaban organizados
• En 2003:
• Paquete ‘sp’: extiende R con clases y métodos para datos espaciales (vector y
raster)
• En 2010:
• Paquete ‘raster’: maneja datos raster almacenados en disco demasiado grandes
como para ser cargados en la memoria (RAM)
11. 11
Clases de R para datos espaciales
SpatialPointsDataFrame SpatialLinesDataFrame SpatialPolygonsDataFrame
SpatialPixelsDataFrame
SpatialGridDataFrame
Paquete sp
RasterLayer
RasterStack
RasterBrick
Paquete raster (preferido)
13. 13
MODELAR
los datos
MODELAR
los datos
EXPLORAR
los datos
EXPLORAR
los datos
PREPARAR
los datos
PREPARAR
los datos
• Es esto A o B o C? :: clasificación
• Es esto extraño? :: detección de anomalías
• Cuánto/qué tanto? :: regresión
• Cómo está organizado? :: clustering
• Cómo cambiará? :: predicción
"The key word in data science is not data; it is science"
Jeff Leek. Coursera.
OBTENER
los datos
OBTENER
los datos
Domain expertise
PLANTEAR la
pregunta correcta
PLANTEAR la
pregunta correcta
PLANTEAR la
pregunta correcta
COMUNICAR
los resultados
COMUNICAR
resultados
14. 14
• Importar capas vector: paquetes rgdal, raster
• Importar capas raster: paquete raster
• Obtener datos georreferenciados mediante APIs: paquete twitteR, ver ejemplo
• Descargar imágenes satelitales/información geográfica: paquete raster, modis,
MODISTools
MODELAR
los datos
MODELAR
los datos
EXPLORAR
los datos
EXPLORAR
los datos
PREPARAR
los datos
PREPARAR
los datos
OBTENER
los datos
PLANTEAR la
pregunta correcta
PLANTEAR la
pregunta correcta
PLANTEAR la
pregunta correcta
COMUNICAR
los resultados
COMUNICAR
resultados
Para esta diapositiva y las siguientes ver el
código y ejemplos en esta página
15. 15
• Data cleaning, subset, etc.
• Manipular datos con “verbos” del paquete dplyr y otros del Hadley-verse
• Subset espacial (paquetes sp, raster)
• Operaciones en vector:
• Operaciones en tabla de atributos (paquete sp)
• Superposición: unión, intersección, clip, extracción de valores de raster en
puntos (paquetes raster, rgeos)
• Dissolve (paquetes sp, rgeos), buffer (paquete rgeos)
• Rasterización (paquete raster)
• Operaciones en raster:
• Álgebra de mapas, filtros espaciales, remuestreo, … (paquete raster)
• Vectorización (paquetes rgdal, raster)
MODELAR
los datos
MODELAR
los datos
EXPLORAR
los datos
EXPLORAR
los datos
PREPARAR
los datos
OBTENER
los datos
OBTENER
los datos
PLANTEAR la
pregunta correcta
PLANTEAR la
pregunta correcta
PLANTEAR la
pregunta correcta
COMUNICAR
los resultados
COMUNICAR
resultados
Para diapositivas 14 a 18 ver el código y
ejemplos en esta página
16. 16
MODELAR
los datos
MODELAR
los datos
EXPLORAR
los datos
PREPARAR
los datos
PREPARAR
los datos
OBTENER
los datos
OBTENER
los datos
PLANTEAR la
pregunta correcta
PLANTEAR la
pregunta correcta
PLANTEAR la
pregunta correcta
COMUNICAR
los resultados
COMUNICAR
resultados
Para diapositivas 14 a 18 ver el código y
ejemplos en esta página
• Estadísticos descriptivos: medidas de tendencia central y de dispersión
• Gráficos exploratorios (2D y 3D): scatterplot, boxplot, histograma, …
• Autocorrelación espacial:
• Medidas globales de autocorrelación espacial: I de Moran, C de Geary, G(d) de
Getis y Ord (paquete spdep)
• Medidas locales de autocorrelación espacial: estadístico local Ii de Moran, Gi y
Gi*(d) de Getis y Ord (paquete spdep)
17. 17
MODELAR
los datos
EXPLORAR
los datos
EXPLORAR
los datos
PREPARAR
los datos
PREPARAR
los datos
OBTENER
los datos
OBTENER
los datos
PLANTEAR la
pregunta correcta
PLANTEAR la
pregunta correcta
PLANTEAR la
pregunta correcta
COMUNICAR
los resultados
COMUNICAR
resultados
Para diapositivas 14 a 18 ver el código y
ejemplos en esta página
• Regresión:
• Modelos espaciales autoregresivos (paquete spdep)
• Regresión ponderada geográficamente (paquete spgwr)
• Clasificación (Machine Learning):
• Supervisada: RandomForests, SVM, boosting, … (paquete caret)
• No supervisada: k-means clustering (paquete stats)
• Estadística espacial:
• Geoestadística (paquetes gstat, geoR, geospt, …)
• Patrones de puntos espaciales (paquete spatstat)
18. 18
MODELAR
los datos
MODELAR
los datos
EXPLORAR
los datos
EXPLORAR
los datos
PREPARAR
los datos
PREPARAR
los datos
OBTENER
los datos
OBTENER
los datos
PLANTEAR la
pregunta correcta
PLANTEAR la
pregunta correcta
PLANTEAR la
pregunta correcta
COMUNICAR
los resultados
Para diapositivas 14 a 18 ver el código y
ejemplos en esta página
• Mapas temáticos estáticos o interactivos: paquetes tmap, leaflet, mapview
• Gráficos interactivos, aplicaciones web y dashboards:
• paquetes plotly (ejemplo), rcharts, googleVis (ejemplo)
• paquete shiny, ver ejemplo
• paquete flexdashboard, ver ejemplo
19. 19
No olvides: Reproducibilidad!
• El código de R y los resultados de ejemplos presentados (diapositivas 17-
21) pueden ser reproducidos a partir de este documento .Rmd usando
RMarkdown
• Mira este ejemplo sobre análisis espaciales reproducibles usando
notebooks interactivos
• Conoce más sobre reproducibilidad en análisis geoespaciales
20. 20
Integración de R con software SIG
• QGIS: ver ejemplo en este post
• ArcGIS: paquete arcgisbinding, ver ejemplo en este post
• GRASS GIS: versión 6, paquete spgrass6; versión 7, paquete rgrass7
• gvSIG: más info en este post
• SAGA: paquete RSAGA
• GME (Geospatial Modelling Environment): más info en esta página
21. 21
Referencias / Dónde aprender más
• Bivand, R., Pebesma, E., Gómez-Rubio, V. 2013. Applied Spatial Data
Analysis with R. New York: Springer. 2nd ed.
• R-SIG-Geo mailing list
• CRAN Task View: Analysis of Spatial Data
• Grupos en Facebook: GIS with R, R project en Español
• Grupos en G+: Statistics and R, R Programming for Data Analysis
• Mi blog: amsantac.co/es/blog.html
22. Si tienes alguna pregunta puedes contactarme en:
amsantac.co/es/contact.html
Gracias!