Presentación a cargo de Elena Kraseninnikova, de IKUSI, en el marco del 32º Encuentro de la Economía Digital y las Telecomunicaciones, "Dando voz a la industria digital", organizado por Ametic, Banco Santander y la UIMP los días 3 a 5 de septiembre de 2018.
5. Es necesaria una visión integrada y
coherente, que aborde la ciudad como
un todo.
Es imprescindible superar la
compartimentación de la información que
generan los diferentes departamentos,
organismos e instituciones que intervienen
en la gestión de la ciudad.
6. Spider es el nuevo concepto de
solución Integral de Ikusi basado en
una arquitectura de gestión,
información y comunicación robusta,
abierta, horizontal y altamente
escalable, que permite el desarrollo y
despliegue de servicios y aplicaciones
avanzados, eficientes y sostenibles en
el ámbito de la gestión de los servicios
municipales de la ciudad.
9. OBJETIVO DEL CASO DE USO
Predicción del nivel de disponibilidad
de bicicletas en una estación (una hora
determinada) -> ayuda al ciudadano a
saber si tiene bicis disponibles en una
estación y ayuda al proveedor en
planificación del reparto de bicicletas.
10. Analítica descriptiva
Se ha querido dar respuesta a una
serie de preguntas sobre el
funcionamiento de bici pública en
los siguientes ámbitos:
• USO DEL SISTEMA DE ALQUILER
• TIPOS DE USO DEL SISTEMA
• NUMERO DE USUARIOS
• FLUJOS DEL SISTEMA
• UTILIZACIÓN SIMULTÁNEA
• DURACIÓN DEL USO
• USO DE LAS BICIS
Fig. 1 Gráfica alquileres por mes
11. Analítica descriptiva
Fig. 2 Número de alquileres por mes y estación de desenganche Fig. 3 Número de alquileres diarios de una estación por año
y tipo de alquiler
12. Analítica predictiva
ESTAMOS ANTE UN CASO DE CLASIFICACIÓN MULTICLASE
• Múltiples variables de entrada
• Una variable de salida que puede ser de clases diferentes
¿CÓMO SE REALIZA LA PREDICCIÓN?
• Preprocesamiento de datos
• División del dataset (80/20)
• Entrenamiento de modelos
• Evaluación de modelos
• Comparación de modelos
• Selección del modelo final
• Mejora del modelo
13. Analítica predictiva
• Se calcula la disponibilidad de bicicletas en
cada estación por hora en el dataset
histórico (variable clase_hora)
Clase_hora puede tener 5 niveles:
L1 = 1 empty
L2 = 2 almost empty
L3 = 3 balanced
L4 = 4 almost full
L5 = 5 full
• Se identifican las variables relevantes y se
eliminan las variables correladas (matriz de
correlación y de Cramer)
14. Analítica predictiva
¿CÓMO SE REALIZA LA PREDICCIÓN?
• Preprocesamiento de datos
• División del dataset (80/20)
• Entrenamiento de modelos
• Evaluación de modelos
• Comparación de modelos
• Selección del modelo final
• Mejora del modelo
• Regresión Logística Multiclase
• SVM
• Redes Neuronales Artificiales (ANNs)
⇢ Balanceadas
⇢ No balanceadas
• Random Forest
⇢ Caret
⇢ No caret
• Se calculan las métricas de los distintos modelos:
⇢ Matriz de confusión
⇢ Estadísticas generales
⇢ Estadísticas por clase
Predicción 1 2 3 4 5
1 1994 551 173 29 11
2 831 2974 915 114 40
3 705 3991 21489 3904 1189
4 3 13 203 755 227
5 4 12 72 256 1649
15. Analítica predictiva
‣¿CÓMO SE REALIZA LA PREDICCIÓN?
• Preprocesamiento de datos
• División del dataset (80/20)
• Entrenamiento de modelos
• Evaluación de modelos
• Comparación de modelos
• Selección del modelo final
• Mejora del modelo
• Se utiliza como métrica de comparación el área bajo la
curva ROC:
• Tras escoger RANDOM FOREST con Caret la precisión
del modelo se puede mejorar así que se realizan
diferentes pruebas para obtener mejor resultado:
⇢Reducir el tamaño de la muestra (sólo 2017)
⇢Upsample
⇢SMOTE
⇢Variación de pesos para calcular clase_hora
Modelo %
MRL-1 69.14
MRL-2 69.36
MRL-3 67.99
SVM 62.15
ANN 78.65
RF - Caret 82.05
RF - randomForest 80.20