SlideShare una empresa de Scribd logo
1 de 27
PCATM - Predicción y Clasificación de Accidentes de Tráfico de Madrid
4 de Abril 2019Big Data & AI for Social Good
Carlos López Sobrino | Germán Cabrera Martínez
2
MADRID
Un accidente cada hora
3
PCATM
4
PCATM
5
La importancia del tiempo
¿Y si pudiésemos anticipar el despliegue de los servicios donde y cuando se
prediga su necesidad?
6
Madrid: 21 distritos
7
Objetivo
Clasificación de existencia de accidente
Clasificar la gravedad media de los mismos
Predicción del número de accidentes exacto
8
Datasets
ACCIDENTES
Datos abiertos madrid
https://datos.madrid.es/portal/site/egob
METEOROLOGÍA
Aemet
http://www.aemet.es/en/datos_abiertos
TRAFICO
Datos abiertos madrid
https://datos.madrid.es/portal/site/egob
CALENDARIO
9
Accidentes
• Información a nivel geográfico.
• Nivel distrito.
• Información sobre los días que hay accidente pero
no de los días que no hay accidente.
FECHA
RANGO HORARIO
DIA SEMANA
DISTRITO
LUGAR ACCIDENTE
Nº
Cruce
Nº PARTE
CPFA Granizo
CPFA Hielo
CPFA Lluvia
CPFA Niebla
CPFA Seco
CPFA Nieve
CPSV Mojada
CPSV Aceite
CPSV Barro
CPSV Grava Suelta
CPSV Hielo
CPSV Seca Y Limpia
Nº VICTIMAS
TIPO ACCIDENTE
Tipo Vehiculo
TIPO PERSONA
SEXO
LESIVIDAD
Tramo Edad
10
Tráfico
ID
FECHA
TIPO_ELEM
INTENSIDAD
OCUPACION
CARGA
VMED
ERROR
PERIODO_INTEGRACION
Sensores localizados por latitud y longitud.
GeoPy como traductor de coordenas a distrito
Gran volumen de información (> 300k registros por
distrito, 7millones en total)
11
Meteorología
ID
NOMBRE
MUNICIPIO
ALTURA
LONGITUD
LATITUD
FECHA
TMAX
HTMAX
TMIN
HTMIN
TMED
RACHA
HRACHA
VMAX
HVMAX
TPREC
PREC1
PREC2
PREC3
PREC4
4 estaciones meteorológicas en Madrid.
Interpolación de la información meteorológica.
12
Calendario
FECHA
FESTIVO NACIONAL
FESTIVO REGIONAL
FESTIVO LOCAL
Festividades en Madrid a nivel nacional, regional y
local (distrito).
13
Preprocessing
ACCIDENTES
METEOROLOGÍA
TRAFICO
 OUTLIERS:
-N/A
 MISSING VALUES:
- N/A
 OUTLIERS:
- N/A
 MISSING VALUES:
• MEAN(): Distorsiona.
• BOLTZMANNCLEAN: Desigual.
• KNN.
• Ventana móvil 365 días.
 OUTLIERS:
Precipitaciones. Se admiten
 MISSING VALUES:
• MEAN(): Distorsiona.
• BOLTZMANNCLEAN: Desigual.
• KNN
• Ventana manual ±3 días.
14
Machine Learning
APRENDIZAJE SUPERVISADO
• Clasificamos la existencia de accidente o no
• Clasificamos la gravedad media de accidentes
CLASIFICACIÓN
REGRESIÓN
Número de accidentes
15
Clasificación
1. Selección del algoritmo de clasificación óptimo
16
Clasificación
2. Analizamos resultados:
• Variables influyentes:
17
Clasificación
3. Revisamos el enfoque:
• Presencia de estacionalidad anual y semanal:
18
Clasificación
4. XGBoost. Clasificación binaria de accidente:
19
Clasificación
5. XGBoost:
Gravedades medias:
 Desbalanceado
 Falsos positivos
GRAVEDAD FREQ % FREQ ACUM % ACUM
LEVE 17.512 75,29 15.512 75,29
MODERADO 5.418 23,30 22.930 98,59
GRAVE 328 1,41 23.258 100,00
Tratamientos
 Oversamppling / Undersampling
 Matriz de pesos / Función de coste
 SMOTE-ENN (Synthetic Minority Oversampling via
EditedNN)
 Binarización
20
Clasificación
6. XGBoost. Clasificación gravedad de accidente:
XGBoost Pre-balanceo XGBoost Post-balanceo
21
Clasificación
6. Clasificación gravedad de accidente: Validación
XGBoost LRegressionRandomForest
22
Modelo
Clasificamos la existencia de accidente o no
Categorizamos la gravedad media de accidentes
CLASIFICACIÓN
• Predecimos el número de accidentes por distrito
REGRESIÓN
APRENDIZAJE SUPERVISADO
23
Regresión
7. Prophet:
Variable temperatura  Estacionalidad
Regresión
7. 1 modelo Prophet traducido para cada distrito:
Proporción aprox. constante de accidentes por distrito
Estimación número accidentes para un día:
errores por exceso y defecto
25
Producto
8. Bokeh: toda la información en una imagen
GRAVEDAD
NÚMERO
ACCIDENTES
26
PCATM
9. Next steps:
Incorporar datos de importancia: factor humano
Granularizar el conjunto de datos
Streaming analytics: IoT -> tiempo real & precisión
TARGET: Día/Distrito Hora/Barrio
¡GRACIAS!
Germán Cabrera Martínez
Data Scientist - Minsait by Indra
Contacto
germanthro86@gmail.com
https://www.linkedin.com/in/german-cm/
https://github.com/GermanCM/
Carlos A. López Sobrino
Data Scientist - Minsait by Indra
Contacto
clopezsobrino@gmail.com
https://www.linkedin.com/in/carlos-lópez-sobrino/
https://github.com/carlosls90

Más contenido relacionado

Similar a Predicción de accidentes en la ciudad de Madrid mediante técnicas machine learning

Gestor integral e innovador de variables de tráfico
Gestor integral e innovador de variables de tráficoGestor integral e innovador de variables de tráfico
Gestor integral e innovador de variables de tráfico
Javier Dalmau
 

Similar a Predicción de accidentes en la ciudad de Madrid mediante técnicas machine learning (9)

Informe estudio de caso
Informe estudio de casoInforme estudio de caso
Informe estudio de caso
 
Predicción de tráfico mediante co-evolución de Redes Neuronales de Funciones ...
Predicción de tráfico mediante co-evolución de Redes Neuronales de Funciones ...Predicción de tráfico mediante co-evolución de Redes Neuronales de Funciones ...
Predicción de tráfico mediante co-evolución de Redes Neuronales de Funciones ...
 
Transformación de datos_RaulSao - MaratónVirtualPP.pptx
Transformación de datos_RaulSao - MaratónVirtualPP.pptxTransformación de datos_RaulSao - MaratónVirtualPP.pptx
Transformación de datos_RaulSao - MaratónVirtualPP.pptx
 
Chile GIR Agricultura y tecnologías balance de daños
Chile GIR Agricultura y tecnologías balance de dañosChile GIR Agricultura y tecnologías balance de daños
Chile GIR Agricultura y tecnologías balance de daños
 
Gestor integral e innovador de variables de tráfico
Gestor integral e innovador de variables de tráficoGestor integral e innovador de variables de tráfico
Gestor integral e innovador de variables de tráfico
 
Evaluacion de riesgo
Evaluacion de riesgoEvaluacion de riesgo
Evaluacion de riesgo
 
PLAN de NEGOCIOS FIDEICOMISO INMOBILIARIO
PLAN de NEGOCIOS FIDEICOMISO INMOBILIARIOPLAN de NEGOCIOS FIDEICOMISO INMOBILIARIO
PLAN de NEGOCIOS FIDEICOMISO INMOBILIARIO
 
BARÓMETRO DE REDES SOCIALES MARATONES DE ESPAÑA.pdf
BARÓMETRO DE REDES SOCIALES MARATONES DE ESPAÑA.pdfBARÓMETRO DE REDES SOCIALES MARATONES DE ESPAÑA.pdf
BARÓMETRO DE REDES SOCIALES MARATONES DE ESPAÑA.pdf
 
¿Cómo se van a construir las 4G con seguridad vial?
¿Cómo se van a construir las 4G con seguridad vial?¿Cómo se van a construir las 4G con seguridad vial?
¿Cómo se van a construir las 4G con seguridad vial?
 

Último

Letra de cambio definición y características.ppt
Letra de cambio definición y características.pptLetra de cambio definición y características.ppt
Letra de cambio definición y características.ppt
ssuserbdc329
 

Último (20)

PRESENTACIÓN DR. ÓSCAR CABRERA - Visión Económica de El Salvador.pptx
PRESENTACIÓN DR. ÓSCAR CABRERA - Visión Económica de El Salvador.pptxPRESENTACIÓN DR. ÓSCAR CABRERA - Visión Económica de El Salvador.pptx
PRESENTACIÓN DR. ÓSCAR CABRERA - Visión Económica de El Salvador.pptx
 
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptxCUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
 
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docxAMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
 
data lista de ingresantes de la universidad de ucayali 2024.pdf
data lista de ingresantes de la universidad de ucayali 2024.pdfdata lista de ingresantes de la universidad de ucayali 2024.pdf
data lista de ingresantes de la universidad de ucayali 2024.pdf
 
Las familias más ricas de África en el año (2024).pdf
Las familias más ricas de África en el año (2024).pdfLas familias más ricas de África en el año (2024).pdf
Las familias más ricas de África en el año (2024).pdf
 
Análisis del Modo y Efecto de Fallas AMEF.ppt
Análisis del Modo y Efecto de Fallas AMEF.pptAnálisis del Modo y Efecto de Fallas AMEF.ppt
Análisis del Modo y Efecto de Fallas AMEF.ppt
 
Letra de cambio definición y características.ppt
Letra de cambio definición y características.pptLetra de cambio definición y características.ppt
Letra de cambio definición y características.ppt
 
decreto 2090 de 2003.pdf actividades de alto riesgo en Colombia
decreto 2090 de 2003.pdf actividades de alto riesgo en Colombiadecreto 2090 de 2003.pdf actividades de alto riesgo en Colombia
decreto 2090 de 2003.pdf actividades de alto riesgo en Colombia
 
ROMA Y EL IMPERIO, CIUDADES ANTIGUA ROMANAS
ROMA Y EL  IMPERIO, CIUDADES  ANTIGUA ROMANASROMA Y EL  IMPERIO, CIUDADES  ANTIGUA ROMANAS
ROMA Y EL IMPERIO, CIUDADES ANTIGUA ROMANAS
 
Perú en el ranking mundial, segun datos mineria
Perú en el ranking mundial, segun datos mineriaPerú en el ranking mundial, segun datos mineria
Perú en el ranking mundial, segun datos mineria
 
6.3 Hidrologia Geomorfologia Cuenca.pptx
6.3 Hidrologia Geomorfologia Cuenca.pptx6.3 Hidrologia Geomorfologia Cuenca.pptx
6.3 Hidrologia Geomorfologia Cuenca.pptx
 
Alfredo Gabriel Rodriguez Yajure Tarea#1
Alfredo Gabriel Rodriguez Yajure Tarea#1Alfredo Gabriel Rodriguez Yajure Tarea#1
Alfredo Gabriel Rodriguez Yajure Tarea#1
 
La Guerra Biologica - Emiliano Paico Vilchez.pdf
La Guerra Biologica - Emiliano Paico Vilchez.pdfLa Guerra Biologica - Emiliano Paico Vilchez.pdf
La Guerra Biologica - Emiliano Paico Vilchez.pdf
 
max-weber-principales-aportes de la sociologia (2).pptx
max-weber-principales-aportes de la sociologia (2).pptxmax-weber-principales-aportes de la sociologia (2).pptx
max-weber-principales-aportes de la sociologia (2).pptx
 
El Manierismo. El Manierismo
El Manierismo.              El ManierismoEl Manierismo.              El Manierismo
El Manierismo. El Manierismo
 
biometria hematica y hemostasia y preanalitica.pptx
biometria hematica y hemostasia y preanalitica.pptxbiometria hematica y hemostasia y preanalitica.pptx
biometria hematica y hemostasia y preanalitica.pptx
 
Sistema Nacional de Vigilancia en Salud Pública SIVIGILA
Sistema Nacional de Vigilancia en Salud Pública SIVIGILASistema Nacional de Vigilancia en Salud Pública SIVIGILA
Sistema Nacional de Vigilancia en Salud Pública SIVIGILA
 
02 protocolo en caso de robo o asalto.pdf
02 protocolo en caso de robo o asalto.pdf02 protocolo en caso de robo o asalto.pdf
02 protocolo en caso de robo o asalto.pdf
 
aine-2014.pdf/tipos de aines-clasificación
aine-2014.pdf/tipos de aines-clasificaciónaine-2014.pdf/tipos de aines-clasificación
aine-2014.pdf/tipos de aines-clasificación
 
diseño de una linea de produccion de jabon liquido.pptx
diseño de una linea de produccion de jabon liquido.pptxdiseño de una linea de produccion de jabon liquido.pptx
diseño de una linea de produccion de jabon liquido.pptx
 

Predicción de accidentes en la ciudad de Madrid mediante técnicas machine learning