Datos no convencionales en problemas
financieros
Esteban Moro

UC3M, AFI
You are what you do
Esteban Moro

UC3M, AFI
@estebanmoro
Situation Behavior Observation
You are what you do
You are what you repeatedly do [Aristóteles]
@estebanmoro
Mejorar problemas que ya tenían respuesta
Responder a problemas que no tenían respuesta
Encontrar problemas que no sabíamos que teníamos
¿Datos no convencionales?
@estebanmoro
You are who you know
¿Quién tiene más riesgo de impago de un crédito en esta red social?
Utilizar llamadas de teléfono o redes sociales para determinar la probabilidad de impago

Lenddo, Cignifi.
Granovetter: más diversidad de contactos, más oportunidades, más trabajo, etc.
@estebanmoro−3.80 −3.75 −3.70 −3.65 −3.60
40.3540.4040.4540.50
You are what is surrounding you
Renta
Cocktail
Art Gallery
Pool
Garden
Bank
Renta ➡
Bar
Brewery
Grocery Store
Automotive
Datos de Foursquare para obtener el ADN comercial de las zonas
Renta de las personas está correlacionada con el ADN de la zona (R2 = 0.5)
Data: 65000 fsq venues in Madrid
@estebanmoro
You are how you move
Datos de movilidad para detectar si una persona está en paro
(Tweets geolocalizados)
−3.7 −3.6 −3.5 −3.4 −3.3
40.4040.4540.5040.55
tabla$lon[ii]
tabla$lat[ii]
−3.7 −3.6 −3.5 −3.4 −3.3
40.4040.4540.5040.55
tabla$lon[jj]
tabla$lat[jj]
10km
@estebanmoro
You are how you move
Datos de movilidad para detectar si una persona está en paro
(Tweets geolocalizados)
−3.7 −3.6 −3.5 −3.4 −3.3
40.4040.4540.5040.55
tabla$lon[ii]
tabla$lat[ii]
−3.7 −3.6 −3.5 −3.4 −3.3
40.4040.4540.5040.55
tabla$lon[jj]
tabla$lat[jj]
Trabajando
10km
@estebanmoro
You are how you move
Datos de movilidad para detectar si una persona está en paro
(Tweets geolocalizados)
−3.7 −3.6 −3.5 −3.4 −3.3
40.4040.4540.5040.55
tabla$lon[ii]
tabla$lat[ii]
−3.7 −3.6 −3.5 −3.4 −3.3
40.4040.4540.5040.55
tabla$lon[jj]
tabla$lat[jj]
Trabajando En paro
10km
@estebanmoro
You are how you move
Datos de movilidad para detectar si una persona está en paro
(Tweets geolocalizados)
−3.7 −3.6 −3.5 −3.4 −3.3
40.4040.4540.5040.55
tabla$lon[ii]
tabla$lat[ii]
−3.7 −3.6 −3.5 −3.4 −3.3
40.4040.4540.5040.55
tabla$lon[jj]
tabla$lat[jj]
Trabajando En paro
Menor movilidad geográfica, más probabilidad de estar en paro
10km
@estebanmoro
You are when you act
Datos de actividad en redes sociales para detectar si una persona está en paro
(Tweets geolocalizados)
0
20
40
0 5 10 15 20 25
dos
count
0 4 8 12 16 20 24
Númerodetweets
0 4 8 12 16 20 24
0
10
20
30
40
0 5 10 15 20 25
uno
count
10
20
40
30
20
10
Hora Hora
@estebanmoro
You are when you act
Datos de actividad en redes sociales para detectar si una persona está en paro
(Tweets geolocalizados)
Trabajando
0
20
40
0 5 10 15 20 25
dos
count
0 4 8 12 16 20 24
Númerodetweets
0 4 8 12 16 20 24
0
10
20
30
40
0 5 10 15 20 25
uno
count
10
20
40
30
20
10
Hora Hora
@estebanmoro
You are when you act
Datos de actividad en redes sociales para detectar si una persona está en paro
(Tweets geolocalizados)
Trabajando En paro
0
20
40
0 5 10 15 20 25
dos
count
0 4 8 12 16 20 24
Númerodetweets
0 4 8 12 16 20 24
0
10
20
30
40
0 5 10 15 20 25
uno
count
10
20
40
30
20
10
Hora Hora
@estebanmoro
You are when you act
Datos de actividad en redes sociales para detectar si una persona está en paro
(Tweets geolocalizados)
Trabajando En paro
Más tweets por la mañana, más probabilidad de trabajar
0
20
40
0 5 10 15 20 25
dos
count
0 4 8 12 16 20 24
Númerodetweets
0 4 8 12 16 20 24
0
10
20
30
40
0 5 10 15 20 25
uno
count
10
20
40
30
20
10
Hora Hora
@estebanmoro
We are when we act
Datos de actividad para detectar el paro en una zona
(Tweets geolocalizados)
Torrijos, 26% paro
Sobrarbe, 7% paro
2
4
6
8
5 10 15 20
hour
fraction
0 4 8 12 16 20
2%
Fraccióndetweets
4%
6%
8%
Hora
Modelo sencillo: Paro = Actividad por la mañana Dataset: 19.6 Million geolocalized tweets

A. Llorente, EM, et al, 2015
http://arxiv.org/abs/1411.3140
@estebanmoro
Are we what we say or what we do?
Detectamos más o menos paro que oficialmente se declara? (por provincias)

Error = ModeloParo(Actividad) - Paro declarado
(Tweets geolocalizados)
Dataset: 19.6 Million geolocalized tweets

A. Llorente, EM, et al, 2015
http://arxiv.org/abs/1411.3140
15 20 25 30 35
−0.3−0.10.00.10.20.3
tt$sumergida
error
30%
20%
10%
0%
-10%
-20%
-30%
Error
% Economía Sumergida
15 20 25 30 35
El modelo predice
menos paro que el
oficial en las
provincias con
mayor economía
sumergida
@estebanmoro
We are what we said
Podemos predecir el impacto económico de un desastre natural? Cuantía de los Seguros?
Huracán Sandy, 29 de Octubre de 2012
Impacto económico ~10/20 mil millones de dólares
Dataset: 52.55 Million messages, 14Million users
Yury Kryvasheyeu, Manuel Cebrián, EM, et al 2015
http://arxiv.org/abs/1504.06827
@estebanmoro
We are what we said
Podemos predecir el impacto económico de un desastre natural? Cuantía de los Seguros?
Huracán Sandy, 29 de Octubre de 2012
Impacto económico ~10/20 mil millones de dólares
Dataset: 52.55 Million messages, 14Million users
Yury Kryvasheyeu, Manuel Cebrián, EM, et al 2015
http://arxiv.org/abs/1504.06827
@estebanmoro
We are what we said
Podemos predecir el impacto económico de un desastre natural? Cuantía de los Seguros?
Huracán Sandy, 29 de Octubre de 2012
Impacto económico ~10/20 mil millones de dólares
Dataset: 52.55 Million messages, 14Million users
Yury Kryvasheyeu, Manuel Cebrián, EM, et al 2015
http://arxiv.org/abs/1504.06827
Número de tweets
Sentimiento de los
tweets
Ayudas (FEMA)

Reclamaciones
Seguros
Correlaciónconimpactoeconómico
Horas desde toma de tierra
actividad
sentimiento
@estebanmoro
Gracias
Esteban Moro
UC3M, AFI
You are what you repeatedly do [Aristóteles]

[Databeers] 20150423 “Datos no convencionales en problemas financieros”. Esteban Moro

  • 1.
    Datos no convencionalesen problemas financieros Esteban Moro UC3M, AFI
  • 2.
    You are whatyou do Esteban Moro UC3M, AFI
  • 3.
    @estebanmoro Situation Behavior Observation Youare what you do You are what you repeatedly do [Aristóteles]
  • 4.
    @estebanmoro Mejorar problemas queya tenían respuesta Responder a problemas que no tenían respuesta Encontrar problemas que no sabíamos que teníamos ¿Datos no convencionales?
  • 5.
    @estebanmoro You are whoyou know ¿Quién tiene más riesgo de impago de un crédito en esta red social? Utilizar llamadas de teléfono o redes sociales para determinar la probabilidad de impago
 Lenddo, Cignifi. Granovetter: más diversidad de contactos, más oportunidades, más trabajo, etc.
  • 6.
    @estebanmoro−3.80 −3.75 −3.70−3.65 −3.60 40.3540.4040.4540.50 You are what is surrounding you Renta Cocktail Art Gallery Pool Garden Bank Renta ➡ Bar Brewery Grocery Store Automotive Datos de Foursquare para obtener el ADN comercial de las zonas Renta de las personas está correlacionada con el ADN de la zona (R2 = 0.5) Data: 65000 fsq venues in Madrid
  • 7.
    @estebanmoro You are howyou move Datos de movilidad para detectar si una persona está en paro (Tweets geolocalizados) −3.7 −3.6 −3.5 −3.4 −3.3 40.4040.4540.5040.55 tabla$lon[ii] tabla$lat[ii] −3.7 −3.6 −3.5 −3.4 −3.3 40.4040.4540.5040.55 tabla$lon[jj] tabla$lat[jj] 10km
  • 8.
    @estebanmoro You are howyou move Datos de movilidad para detectar si una persona está en paro (Tweets geolocalizados) −3.7 −3.6 −3.5 −3.4 −3.3 40.4040.4540.5040.55 tabla$lon[ii] tabla$lat[ii] −3.7 −3.6 −3.5 −3.4 −3.3 40.4040.4540.5040.55 tabla$lon[jj] tabla$lat[jj] Trabajando 10km
  • 9.
    @estebanmoro You are howyou move Datos de movilidad para detectar si una persona está en paro (Tweets geolocalizados) −3.7 −3.6 −3.5 −3.4 −3.3 40.4040.4540.5040.55 tabla$lon[ii] tabla$lat[ii] −3.7 −3.6 −3.5 −3.4 −3.3 40.4040.4540.5040.55 tabla$lon[jj] tabla$lat[jj] Trabajando En paro 10km
  • 10.
    @estebanmoro You are howyou move Datos de movilidad para detectar si una persona está en paro (Tweets geolocalizados) −3.7 −3.6 −3.5 −3.4 −3.3 40.4040.4540.5040.55 tabla$lon[ii] tabla$lat[ii] −3.7 −3.6 −3.5 −3.4 −3.3 40.4040.4540.5040.55 tabla$lon[jj] tabla$lat[jj] Trabajando En paro Menor movilidad geográfica, más probabilidad de estar en paro 10km
  • 11.
    @estebanmoro You are whenyou act Datos de actividad en redes sociales para detectar si una persona está en paro (Tweets geolocalizados) 0 20 40 0 5 10 15 20 25 dos count 0 4 8 12 16 20 24 Númerodetweets 0 4 8 12 16 20 24 0 10 20 30 40 0 5 10 15 20 25 uno count 10 20 40 30 20 10 Hora Hora
  • 12.
    @estebanmoro You are whenyou act Datos de actividad en redes sociales para detectar si una persona está en paro (Tweets geolocalizados) Trabajando 0 20 40 0 5 10 15 20 25 dos count 0 4 8 12 16 20 24 Númerodetweets 0 4 8 12 16 20 24 0 10 20 30 40 0 5 10 15 20 25 uno count 10 20 40 30 20 10 Hora Hora
  • 13.
    @estebanmoro You are whenyou act Datos de actividad en redes sociales para detectar si una persona está en paro (Tweets geolocalizados) Trabajando En paro 0 20 40 0 5 10 15 20 25 dos count 0 4 8 12 16 20 24 Númerodetweets 0 4 8 12 16 20 24 0 10 20 30 40 0 5 10 15 20 25 uno count 10 20 40 30 20 10 Hora Hora
  • 14.
    @estebanmoro You are whenyou act Datos de actividad en redes sociales para detectar si una persona está en paro (Tweets geolocalizados) Trabajando En paro Más tweets por la mañana, más probabilidad de trabajar 0 20 40 0 5 10 15 20 25 dos count 0 4 8 12 16 20 24 Númerodetweets 0 4 8 12 16 20 24 0 10 20 30 40 0 5 10 15 20 25 uno count 10 20 40 30 20 10 Hora Hora
  • 15.
    @estebanmoro We are whenwe act Datos de actividad para detectar el paro en una zona (Tweets geolocalizados) Torrijos, 26% paro Sobrarbe, 7% paro 2 4 6 8 5 10 15 20 hour fraction 0 4 8 12 16 20 2% Fraccióndetweets 4% 6% 8% Hora Modelo sencillo: Paro = Actividad por la mañana Dataset: 19.6 Million geolocalized tweets
 A. Llorente, EM, et al, 2015 http://arxiv.org/abs/1411.3140
  • 16.
    @estebanmoro Are we whatwe say or what we do? Detectamos más o menos paro que oficialmente se declara? (por provincias)
 Error = ModeloParo(Actividad) - Paro declarado (Tweets geolocalizados) Dataset: 19.6 Million geolocalized tweets
 A. Llorente, EM, et al, 2015 http://arxiv.org/abs/1411.3140 15 20 25 30 35 −0.3−0.10.00.10.20.3 tt$sumergida error 30% 20% 10% 0% -10% -20% -30% Error % Economía Sumergida 15 20 25 30 35 El modelo predice menos paro que el oficial en las provincias con mayor economía sumergida
  • 17.
    @estebanmoro We are whatwe said Podemos predecir el impacto económico de un desastre natural? Cuantía de los Seguros? Huracán Sandy, 29 de Octubre de 2012 Impacto económico ~10/20 mil millones de dólares Dataset: 52.55 Million messages, 14Million users Yury Kryvasheyeu, Manuel Cebrián, EM, et al 2015 http://arxiv.org/abs/1504.06827
  • 18.
    @estebanmoro We are whatwe said Podemos predecir el impacto económico de un desastre natural? Cuantía de los Seguros? Huracán Sandy, 29 de Octubre de 2012 Impacto económico ~10/20 mil millones de dólares Dataset: 52.55 Million messages, 14Million users Yury Kryvasheyeu, Manuel Cebrián, EM, et al 2015 http://arxiv.org/abs/1504.06827
  • 19.
    @estebanmoro We are whatwe said Podemos predecir el impacto económico de un desastre natural? Cuantía de los Seguros? Huracán Sandy, 29 de Octubre de 2012 Impacto económico ~10/20 mil millones de dólares Dataset: 52.55 Million messages, 14Million users Yury Kryvasheyeu, Manuel Cebrián, EM, et al 2015 http://arxiv.org/abs/1504.06827 Número de tweets Sentimiento de los tweets Ayudas (FEMA)
 Reclamaciones Seguros Correlaciónconimpactoeconómico Horas desde toma de tierra actividad sentimiento
  • 20.
    @estebanmoro Gracias Esteban Moro UC3M, AFI Youare what you repeatedly do [Aristóteles]