Este documento explora cómo los datos no convencionales de fuentes como redes sociales, ubicaciones de teléfonos móviles y datos de aplicaciones pueden usarse para resolver problemas financieros. Explica cómo estos datos pueden usarse para predecir el riesgo de impago, detectar el estado laboral de una persona y estimar el impacto económico de desastres naturales.
4. @estebanmoro
Mejorar problemas que ya tenían respuesta
Responder a problemas que no tenían respuesta
Encontrar problemas que no sabíamos que teníamos
¿Datos no convencionales?
5. @estebanmoro
You are who you know
¿Quién tiene más riesgo de impago de un crédito en esta red social?
Utilizar llamadas de teléfono o redes sociales para determinar la probabilidad de impago
Lenddo, Cignifi.
Granovetter: más diversidad de contactos, más oportunidades, más trabajo, etc.
6. @estebanmoro−3.80 −3.75 −3.70 −3.65 −3.60
40.3540.4040.4540.50
You are what is surrounding you
Renta
Cocktail
Art Gallery
Pool
Garden
Bank
Renta ➡
Bar
Brewery
Grocery Store
Automotive
Datos de Foursquare para obtener el ADN comercial de las zonas
Renta de las personas está correlacionada con el ADN de la zona (R2 = 0.5)
Data: 65000 fsq venues in Madrid
7. @estebanmoro
You are how you move
Datos de movilidad para detectar si una persona está en paro
(Tweets geolocalizados)
−3.7 −3.6 −3.5 −3.4 −3.3
40.4040.4540.5040.55
tabla$lon[ii]
tabla$lat[ii]
−3.7 −3.6 −3.5 −3.4 −3.3
40.4040.4540.5040.55
tabla$lon[jj]
tabla$lat[jj]
10km
8. @estebanmoro
You are how you move
Datos de movilidad para detectar si una persona está en paro
(Tweets geolocalizados)
−3.7 −3.6 −3.5 −3.4 −3.3
40.4040.4540.5040.55
tabla$lon[ii]
tabla$lat[ii]
−3.7 −3.6 −3.5 −3.4 −3.3
40.4040.4540.5040.55
tabla$lon[jj]
tabla$lat[jj]
Trabajando
10km
9. @estebanmoro
You are how you move
Datos de movilidad para detectar si una persona está en paro
(Tweets geolocalizados)
−3.7 −3.6 −3.5 −3.4 −3.3
40.4040.4540.5040.55
tabla$lon[ii]
tabla$lat[ii]
−3.7 −3.6 −3.5 −3.4 −3.3
40.4040.4540.5040.55
tabla$lon[jj]
tabla$lat[jj]
Trabajando En paro
10km
10. @estebanmoro
You are how you move
Datos de movilidad para detectar si una persona está en paro
(Tweets geolocalizados)
−3.7 −3.6 −3.5 −3.4 −3.3
40.4040.4540.5040.55
tabla$lon[ii]
tabla$lat[ii]
−3.7 −3.6 −3.5 −3.4 −3.3
40.4040.4540.5040.55
tabla$lon[jj]
tabla$lat[jj]
Trabajando En paro
Menor movilidad geográfica, más probabilidad de estar en paro
10km
11. @estebanmoro
You are when you act
Datos de actividad en redes sociales para detectar si una persona está en paro
(Tweets geolocalizados)
0
20
40
0 5 10 15 20 25
dos
count
0 4 8 12 16 20 24
Númerodetweets
0 4 8 12 16 20 24
0
10
20
30
40
0 5 10 15 20 25
uno
count
10
20
40
30
20
10
Hora Hora
12. @estebanmoro
You are when you act
Datos de actividad en redes sociales para detectar si una persona está en paro
(Tweets geolocalizados)
Trabajando
0
20
40
0 5 10 15 20 25
dos
count
0 4 8 12 16 20 24
Númerodetweets
0 4 8 12 16 20 24
0
10
20
30
40
0 5 10 15 20 25
uno
count
10
20
40
30
20
10
Hora Hora
13. @estebanmoro
You are when you act
Datos de actividad en redes sociales para detectar si una persona está en paro
(Tweets geolocalizados)
Trabajando En paro
0
20
40
0 5 10 15 20 25
dos
count
0 4 8 12 16 20 24
Númerodetweets
0 4 8 12 16 20 24
0
10
20
30
40
0 5 10 15 20 25
uno
count
10
20
40
30
20
10
Hora Hora
14. @estebanmoro
You are when you act
Datos de actividad en redes sociales para detectar si una persona está en paro
(Tweets geolocalizados)
Trabajando En paro
Más tweets por la mañana, más probabilidad de trabajar
0
20
40
0 5 10 15 20 25
dos
count
0 4 8 12 16 20 24
Númerodetweets
0 4 8 12 16 20 24
0
10
20
30
40
0 5 10 15 20 25
uno
count
10
20
40
30
20
10
Hora Hora
15. @estebanmoro
We are when we act
Datos de actividad para detectar el paro en una zona
(Tweets geolocalizados)
Torrijos, 26% paro
Sobrarbe, 7% paro
2
4
6
8
5 10 15 20
hour
fraction
0 4 8 12 16 20
2%
Fraccióndetweets
4%
6%
8%
Hora
Modelo sencillo: Paro = Actividad por la mañana Dataset: 19.6 Million geolocalized tweets
A. Llorente, EM, et al, 2015
http://arxiv.org/abs/1411.3140
16. @estebanmoro
Are we what we say or what we do?
Detectamos más o menos paro que oficialmente se declara? (por provincias)
Error = ModeloParo(Actividad) - Paro declarado
(Tweets geolocalizados)
Dataset: 19.6 Million geolocalized tweets
A. Llorente, EM, et al, 2015
http://arxiv.org/abs/1411.3140
15 20 25 30 35
−0.3−0.10.00.10.20.3
tt$sumergida
error
30%
20%
10%
0%
-10%
-20%
-30%
Error
% Economía Sumergida
15 20 25 30 35
El modelo predice
menos paro que el
oficial en las
provincias con
mayor economía
sumergida
17. @estebanmoro
We are what we said
Podemos predecir el impacto económico de un desastre natural? Cuantía de los Seguros?
Huracán Sandy, 29 de Octubre de 2012
Impacto económico ~10/20 mil millones de dólares
Dataset: 52.55 Million messages, 14Million users
Yury Kryvasheyeu, Manuel Cebrián, EM, et al 2015
http://arxiv.org/abs/1504.06827
18. @estebanmoro
We are what we said
Podemos predecir el impacto económico de un desastre natural? Cuantía de los Seguros?
Huracán Sandy, 29 de Octubre de 2012
Impacto económico ~10/20 mil millones de dólares
Dataset: 52.55 Million messages, 14Million users
Yury Kryvasheyeu, Manuel Cebrián, EM, et al 2015
http://arxiv.org/abs/1504.06827
19. @estebanmoro
We are what we said
Podemos predecir el impacto económico de un desastre natural? Cuantía de los Seguros?
Huracán Sandy, 29 de Octubre de 2012
Impacto económico ~10/20 mil millones de dólares
Dataset: 52.55 Million messages, 14Million users
Yury Kryvasheyeu, Manuel Cebrián, EM, et al 2015
http://arxiv.org/abs/1504.06827
Número de tweets
Sentimiento de los
tweets
Ayudas (FEMA)
Reclamaciones
Seguros
Correlaciónconimpactoeconómico
Horas desde toma de tierra
actividad
sentimiento