Refinando un modelo predictivo gracias al GIS con Python

Reﬁnando un modelo predictivo gracias
al GIS con Python
MARINA VALENTÍN
Especialista GIS - BIM / CAD
30/10/2019 - Conferencia Esri España 2019
ROI MARTÍNEZ
Data Scientist Jr. / Ing. de
implantación
RAÚL JIMÉNEZ
Responsable de startups y
spin-offs @ Esri España

Problema
Predicción del precio de una vivienda
AGENDA:
● Primera aproximación desde Jupyter Notebooks
● Evaluación del modelo desde ArcGIS Pro
● Reﬁnamiento del modelo con ArcGIS Pro
● Exploración en PowerBI

Disclaimer
Ninguno de nosotros es experto (aún al menos ;P) en Machine Learning
Hands-on ML with Scikit-Learn
& TensorFlow by O’Reilly
Machine Learning in ArcGIS,
Esri User Conference August
2018
Using Forest-based
Classiﬁcation & Regression in
GIS to Model and Estimate
House Values

JUPYTER NOTEBOOKS
Qué papel juegan Jupyter, Scikit-learn, Pandas, Scypi y otras
bibliotecas en el proceso de selección, entrenamiento y reﬁnamiento
de un modelo de ML antes de pasar a ArcGIS Pro.
Ver Notebook en: Github | Google Colab

Explorar y visualizar
Los datos para comprenderlos mejor

Exploramos los datos de entrenamiento
Con Pandas podemos ver rápidamente qué atributos tenemos, cuántos valores nulos, qué rango de valores, ...
Explorar y visualizar los datos | Preparar los datos | Seleccionar y entrenar el modelo | Reﬁnar el modelo

Pandas + matplotlib: qué valores tienen los atributos, cómo están distribuidos, existen truncamientos, …

matplotlib: Visualizamos los datos geográﬁcamente

Buscamos correlaciones entre los datos de entrenamiento
Pandas: Analizamos el coeﬁciente estándar de correlación (o el coeﬁciente de correlación de Pearson)
El coeficiente de correlación sólo mide correlaciones lineales pero no la pendiente de la relación ni otros aspectos, por ejemplo puede
perderse por completo las relaciones no lineales (por ejemplo, "si x está cerca de cero, entonces el genérico sube").

Buscamos correlaciones entre los datos de entrenamiento
Pandas: Usando la función “pandas.plotting.scatter_matrix” para visualizar correlación entre pares de atributos

Experimentando con combinaciones de atributos
Pandas y matplotlib: Exploramos si tiene sentido generamos atributos derivados a partir de otros

Preparar los datos
Para los algoritmos de Machine Learning

Limpiamos los datos
Scikit-learn: Reemplazamos los valores nulos por la mediana de cada atributo

Limpiamos los datos
Scikit-learn: Transformamos los atributos categóricos usando sklearn.preprocessing.OneHotEncoder
Escalamos los valores usando sklearn.preprocessing.StandardScaler

Seleccionar y entrenar
Entrenar y evaluar el modelo con los datos de entrenamiento

Entrenamos con un modelo de regresión lineal
Scikit-learn: Usando sklearn.linear_model.LinearRegression

Entrenamos con un modelo de árboles de decisión
Scikit-learn: Usando sklearn.tree.DecisionTreeRegressor

Entrenamos con un modelo de árboles aleatorios
Scikit-learn: Usando sklearn.ensemble.RandomForestRegressor

Reﬁnar el modelo
Mecanismo para mejorar el ajuste del modelo

Búsqueda por cuadrículas (Grid Search)
Scikit-learn: Usando sklearn.model_selection.GridSearchCV

Búsqueda aleatoria
Scikit-learn + Scipy: Usando sklearn.model_selection.RandomizedSearchCV

Analizar la relevancia de cada dato
Scikit-learn: Explorando las importancia gracias a sklearn.model_selection.GridSearchCV

EVALUACIÓN DEL MODELO
DESDE ARCGIS PRO
Cómo podemos entrenar un modelo de ML desde Arc GIS Pro
utilizando la herramienta Forest-Based Classiﬁcation and Regression

Bosques Aleatorios
¿De dónde viene este algoritmo?

Bosques aleatorios
Bosques Aleatorios | Datos de partida | Caso 1
Breve introducción al algoritmo.
Árbol de Decisión

Datos de partida
Dataset que vamos a utilizar

Datos de Partida
Dataset procedente de Jupyter

Datos de Partida
Representación gráﬁca de los datos.

Caso 1
Modelo sin variables espaciales

Caso 1
Herramienta Forest-based Classiﬁcation and Regression.

Caso 1
Resultados del modelo sin variables espaciales

Caso 2
Modelo con variables espaciales

Caso 2 - Variables espaciales
Herramienta Forest-based Classiﬁcation and Regression.

Caso 2
Resultados del modelo con variables espaciales

Refinando un modelo predictivo gracias al GIS con Python

Más contenido relacionado

Similar a Refinando un modelo predictivo gracias al GIS con Python

Más de Esri España

Refinando un modelo predictivo gracias al GIS con Python