Se ha denunciado esta presentación.
Utilizamos tu perfil de LinkedIn y tus datos de actividad para personalizar los anuncios y mostrarte publicidad más relevante. Puedes cambiar tus preferencias de publicidad en cualquier momento.

Big Data & AI for Social Good

230 visualizaciones

Publicado el

II Meetup de las comunidades Data Science Spain & IoT Analytics Spain organizado por LUCA; Unidad de datos de Telefónica.

Publicado en: Datos y análisis
  • Sé el primero en comentar

  • Sé el primero en recomendar esto

Big Data & AI for Social Good

  1. 1. 18:00 - Recepción asistentes 18:30 - Richard Benjamins: Introducción Big Data & AI for Social Good. 18:40 - Pedro de Alarcón: Entender migraciones forzosas en Colombia y Ecuador. 19:00 - German Cabrera Martínez y Carlos López Sobrino: Predecir accidentes de tráfico en Madrid. 19:20 - Networking 20:00 – Cierre AGENDA
  2. 2. Big Data and AI for Social Good Richard Benjamins @vrbenjamins
  3. 3. Contributing to the UN’s Sustainable Development Goals
  4. 4. Big Data is a huge opportunity to measure progress and shape policy Payment Data Search Queries Satellite Imaging Mobile Phone Data • Estimation of consumer price index and poverty rates. • Economic impact of natural disasters. • Identify influenza breakouts. • Monitor dengue fever spread geographically. • Light emissions picked up by satellites to estimate GDP growth. • Time series of satellite images to identify flood risk areas. • Estimating literacy rates of countries. • Cell phone records to predict socio-economic levels. Data Type Use Case
  5. 5. Telefonica: One of the largest telecoms companies in the worldTelefónica´s contribution Natural Disaster Response • Magic box initiative (Colombia) • Measuring earthquake’s impact (Mexico) Climate change in rural areas • Internal Forced Displacements (Colombia) • Smart Livestock Farming (Ecuador) Air Quality in Urban Areas • Pollution forecasting (Spain, Brazil) • Quantifying emissions with mobility data (Germany) Poverty & Development Metrics • Improving SDG metrics with telco data (Spain, Central America) Epidemics & spread forecasting • Analyzing the spread of Zika (Colombia, Brazil) • Anayzing the spread of Measles (Brazil) • Mobility impact analysis of swine flu (Mexico)
  6. 6. How to convince your company to do work on Data & AI for Good? 7 Socialize the idea with key stakeholders in company Show what other companies are doing Build a convincing presentation Make your CEO state something publicly Communicate aggressively early results Public Affairs
  7. 7. “When I think about social good, I think about the commitments we have all made with the UN when it comes to the 17 Sustainable Development Goals for 2030. Forging a relationship between our big data work for social good is fundamental, especially as 80% of the 6 billion mobile phones in the world are in developing countries, which is where we can have the greatest impact.” —Jose Maria Álvarez Pallete, Chairman of Telefonica Our Mission: Data as a Force for the Greater Good World Economic Forum Blog. Big data: moneymaker and force for social good?
  8. 8. 11
  9. 9. 2018 © Telefónica Digital España, S.L.U. Todos los derechos reservados. La información contenida en el presente documento es propiedad de Telefónica Digital España, S.L.U. (“TDE”) y/o de cualquier otra entidad dentro del Grupo Telefónica o sus licenciantes. TDE y/o cualquier compañía del Grupo Telefónica o los licenciantes de TDE se reservan todos los derechos de propiedad industrial e intelectual (incluida cualquier patente o copyright) que se deriven o recaigan sobre este documento, incluidos los derechos de diseño, producción, reproducción, uso y venta del mismo, salvo en el supuesto de que dichos derechos sean expresamente conferidos a terceros por escrito. La información contenida en el presente documento podrá ser objeto de modificación en cualquier momento sin necesidad de previo aviso. La información contenida en el presente documento no podrá ser ni parcial ni totalmente copiada, distribuida, adaptada o reproducida en ningún soporte sin que medie el previo consentimiento por escrito por parte de TDE. El presente documento tiene como único objetivo servir de soporte a su lector en el uso del producto o servicio descrito en el mismo. El lector se compromete y queda obligado a usar la información contenida en el mismo para su propio uso y no para ningún otro. TDE no será responsable de ninguna pérdida o daño que se derive del uso de la información contenida en el presente documento o de cualquier error u omisión del documento o por el uso incorrecto del servicio o producto. El uso del producto o servicio descrito en el presente documento se regulará de acuerdo con lo establecido en los términos y condiciones aceptados por el usuario del mismo para su uso.TDE y sus marcas (así como cualquier marca perteneciente al Grupo Telefónica) son marcas registradas. TDE y sus filiales se reservan todo los derechos sobre las mismas. www.luca-d3.com ¡Muchas gracias!
  10. 10. Understanding Migration Flows with Mobile Data. Challenges & Opportunities Pedro A. de Alarcon, PhD Head of Big Data for Social Good Meetup Madrid – Abril 2019
  11. 11. BIG CHALLENGES
  12. 12. Emergencies We’re seeing an increase in emergencies like never before.
  13. 13. Conflict Impacting in lives of millions of people, forced to migrate in many cases.
  14. 14. Climate Change Today, over half a billion children live in extremely high flood occurrence zones; nearly 160 million live in high or extremely high drought severity zones
  15. 15. Displacement An unprecedented 65 million people around the world have been forced from home. Among them are nearly 22 million refugees, over half of whom are under the age of 18.
  16. 16. Rapid Urbanisation By 2050, over 66% of the global population will reside in cities, and 92% of this urban growth is expected to occur in low to middle income countries.
  17. 17. Frontier Tech Areas
  18. 18. SDGs and mobile phone metadata
  19. 19. Data for Refugee Challenge
  20. 20. Understanding migrations with telco data • Segmentation: Who are the migrants? • Volume estimation: How many are they? • Monitoring flows: Which pathways are they using? • Settlement: Where do they arrive and settle? • Impact in hosting communities: How integration with natives is happening?
  21. 21. Mobile phone “metadata” typically means Call Details Records. • Per antenna KPIs (activity, pop. density…) • Social Graph • Mobility
  22. 22. When moving, call logs are like breadcrumbs But…
  23. 23. From Raw User Events…XDRs mean more breadcrumbs (up to 5x)
  24. 24. Billions of network events 24 / 7 / 365 Active Passive WiFi Small Cell Apps Websites Macro Local Behavioural Source Mobility Insights from Telco Data Type Events
  25. 25. The Individual Trajectories Matrix
  26. 26. The Individual Trajectories Matrix PhoneID Week1 Week2 … WeekN sdqadw Bogotá Bogotá .. Bogotá fw4efef Cali Cali … Bogotá … Adjust temporal resolution to days, weeks, months… Most common location: Adjust spatial resolution to district, municipality, Department…Full customer base (>11M users)
  27. 27. Climate change is exacerbating extreme climate phenomena. Rural populations are specially impacted and, in many cases, forced to migrate to urban areas.
  28. 28. La Guajira (Colombia). Severe drought … for years. Index of Hydric Vulnerability, average year, 2010. Source: Sistema de Información Ambiental de Colombia.
  29. 29. Analysing forced displacements due to climate variability in Colombia • Telefónica leveraged open datasets from SIAC (Environmental Information System of Colombia) to identify regions with high vulnerability to drought conditions and limited ability to recover, focusing on departments La Guajira, Tolima and Huila • Mobility insights from anonymized mobile network data helped to identify clusters of users with specific long-term movement patterns, indicative of internal displacement. • We combined these movement patterns with census data from Colombia’s National Administrative Department of Statistics to estimate the number of people displaced from the focal region during the period of the drought.
  30. 30. Visualization tool to navigate & discover insights
  31. 31. Other sources: Facebook Audience Insights SOURCE: http://www.emdat.be/country_profile/index.html
  32. 32. Challenges SOURCE: http://www.emdat.be/country_profile/index.html • Limitations to create group profiling: • The new personal data privacy regulation (GDPR). • Most users are pre-paid subscribers (scarce information from CRM) • Addressing different market share rates within the same country • Filtering out people < 18yo • Very few official and reliable ground truth sources to compare with.
  33. 33. Opportunities Building robust IDP indicators from multidimensional data integration (from public and private sources) Satellite Imagery & Computer Vision Digital Globe Social Media Facebook and others Telco Data Telefonica
  34. 34. 2018 © Telefónica Digital España, S.L.U. Todos los derechos reservados. La información contenida en el presente documento es propiedad de Telefónica Digital España, S.L.U. (“TDE”) y/o de cualquier otra entidad dentro del Grupo Telefónica o sus licenciantes. TDE y/o cualquier compañía del Grupo Telefónica o los licenciantes de TDE se reservan todos los derechos de propiedad industrial e intelectual (incluida cualquier patente o copyright) que se deriven o recaigan sobre este documento, incluidos los derechos de diseño, producción, reproducción, uso y venta del mismo, salvo en el supuesto de que dichos derechos sean expresamente conferidos a terceros por escrito. La información contenida en el presente documento podrá ser objeto de modificación en cualquier momento sin necesidad de previo aviso. La información contenida en el presente documento no podrá ser ni parcial ni totalmente copiada, distribuida, adaptada o reproducida en ningún soporte sin que medie el previo consentimiento por escrito por parte de TDE. El presente documento tiene como único objetivo servir de soporte a su lector en el uso del producto o servicio descrito en el mismo. El lector se compromete y queda obligado a usar la información contenida en el mismo para su propio uso y no para ningún otro. TDE no será responsable de ninguna pérdida o daño que se derive del uso de la información contenida en el presente documento o de cualquier error u omisión del documento o por el uso incorrecto del servicio o producto. El uso del producto o servicio descrito en el presente documento se regulará de acuerdo con lo establecido en los términos y condiciones aceptados por el usuario del mismo para su uso.TDE y sus marcas (así como cualquier marca perteneciente al Grupo Telefónica) son marcas registradas. TDE y sus filiales se reservan todo los derechos sobre las mismas. www.luca-d3.com ¡Muchas gracias! Follow us on Twitter: @pdealarcon @LUCA_D3
  35. 35. PCATM - Predicción y Clasificación de Accidentes de Tráfico de Madrid 4 de Abril 2019Big Data & AI for Social Good Carlos López Sobrino | Germán Cabrera Martínez
  36. 36. 41 MADRID Un accidente cada hora
  37. 37. 42 PCATM
  38. 38. 43 PCATM
  39. 39. 44 La importancia del tiempo ¿Y si pudiésemos anticipar el despliegue de los servicios donde y cuando se prediga su necesidad?
  40. 40. 45 Madrid: 21 distritos
  41. 41. 46 Objetivo Clasificación de existencia de accidente Clasificar la gravedad media de los mismos Predicción del número de accidentes exacto
  42. 42. 47 Datasets ACCIDENTES Datos abiertos madrid https://datos.madrid.es/portal/site/egob METEOROLOGÍA Aemet http://www.aemet.es/en/datos_abiertos TRAFICO Datos abiertos madrid https://datos.madrid.es/portal/site/egob CALENDARIO
  43. 43. 48 Accidentes • Información a nivel geográfico. • Nivel distrito. • Información sobre los días que hay accidente pero no de los días que no hay accidente. FECHA RANGO HORARIO DIA SEMANA DISTRITO LUGAR ACCIDENTE Nº Cruce Nº PARTE CPFA Granizo CPFA Hielo CPFA Lluvia CPFA Niebla CPFA Seco CPFA Nieve CPSV Mojada CPSV Aceite CPSV Barro CPSV Grava Suelta CPSV Hielo CPSV Seca Y Limpia Nº VICTIMAS TIPO ACCIDENTE Tipo Vehiculo TIPO PERSONA SEXO LESIVIDAD Tramo Edad
  44. 44. 49 Tráfico ID FECHA TIPO_ELEM INTENSIDAD OCUPACION CARGA VMED ERROR PERIODO_INTEGRACION Sensores localizados por latitud y longitud. GeoPy como traductor de coordenas a distrito Gran volumen de información (> 300k registros por distrito, 7millones en total)
  45. 45. 50 Meteorología ID NOMBRE MUNICIPIO ALTURA LONGITUD LATITUD FECHA TMAX HTMAX TMIN HTMIN TMED RACHA HRACHA VMAX HVMAX TPREC PREC1 PREC2 PREC3 PREC4 4 estaciones meteorológicas en Madrid. Interpolación de la información meteorológica.
  46. 46. 51 Calendario FECHA FESTIVO NACIONAL FESTIVO REGIONAL FESTIVO LOCAL Festividades en Madrid a nivel nacional, regional y local (distrito).
  47. 47. 52 Preprocessing ACCIDENTES METEOROLOGÍA TRAFICO ▪ OUTLIERS: -N/A ▪ MISSING VALUES: - N/A ▪ OUTLIERS: - N/A ▪ MISSING VALUES: • MEAN(): Distorsiona. • BOLTZMANNCLEAN: Desigual. • KNN. • Ventana móvil 365 días. ▪ OUTLIERS: Precipitaciones. Se admiten ▪ MISSING VALUES: • MEAN(): Distorsiona. • BOLTZMANNCLEAN: Desigual. • KNN • Ventana manual ±3 días.
  48. 48. 53 Machine Learning APRENDIZAJE SUPERVISADO • Clasificamos la existencia de accidente o no • Clasificamos la gravedad media de accidentes CLASIFICACIÓN REGRESIÓN Número de accidentes
  49. 49. 54 Clasificación 1. Selección del algoritmo de clasificación óptimo
  50. 50. 55 Clasificación 2. Analizamos resultados: • Variables influyentes:
  51. 51. 56 Clasificación 3. Revisamos el enfoque: • Presencia de estacionalidad anual y semanal:
  52. 52. 57 Clasificación 4. XGBoost. Clasificación binaria de accidente:
  53. 53. 58 Clasificación 5. XGBoost: Gravedades medias: ⚫ Desbalanceado ⚫ Falsos positivos GRAVEDAD FREQ % FREQ ACUM % ACUM LEVE 17.512 75,29 15.512 75,29 MODERADO 5.418 23,30 22.930 98,59 GRAVE 328 1,41 23.258 100,00 Tratamientos ⚫ Oversamppling / Undersampling ⚫ Matriz de pesos / Función de coste ⚫ SMOTE-ENN (Synthetic Minority Oversampling via EditedNN) ⚫ Binarización
  54. 54. 59 Clasificación 6. XGBoost. Clasificación gravedad de accidente: XGBoost Pre-balanceo XGBoost Post-balanceo
  55. 55. 60 Clasificación 6. Clasificación gravedad de accidente: Validación XGBoost LRegressionRandomForest
  56. 56. 61 Modelo Clasificamos la existencia de accidente o no Categorizamos la gravedad media de accidentes CLASIFICACIÓN • Predecimos el número de accidentes por distrito REGRESIÓN APRENDIZAJE SUPERVISADO
  57. 57. 62 Regresión 7. Prophet: Variable temperatura → Estacionalidad
  58. 58. Regresión 7. 1 modelo Prophet traducido para cada distrito: Proporción aprox. constante de accidentes por distrito Estimación número accidentes para un día: errores por exceso y defecto
  59. 59. 64 Producto 8. Bokeh: toda la información en una imagen GRAVEDAD NÚMERO ACCIDENTES
  60. 60. 65 PCATM 9. Next steps: Incorporar datos de importancia: factor humano Granularizar el conjunto de datos Streaming analytics: IoT -> tiempo real & precisión TARGET: Día/Distrito Hora/Barrio
  61. 61. ¡GRACIAS! Germán Cabrera Martínez Data Scientist - Minsait by Indra Contacto germanthro86@gmail.com https://www.linkedin.com/in/german-cm/ https://github.com/GermanCM/ Carlos A. López Sobrino Data Scientist - Minsait by Indra Contacto clopezsobrino@gmail.com https://www.linkedin.com/in/carlos-lópez-sobrino/ https://github.com/carlosls90

×