¾Podemos predecir si Twitter hundirá un banco?
Carlos Perales González
Índice
1 ¾Puede Twitter hundir un banco?
2 Análisis de Sentimiento
Usos de este análisis
Análisis en español
Entrenamiento...
Índice
1 ¾Puede Twitter hundir un banco?
2 Análisis de Sentimiento
Usos de este análisis
Análisis en español
Entrenamiento...
¾Puede Twitter hundir un banco?
¾Puede Twitter hundir un banco?
Realmente, no hay datos históricos de que haya ocurrido co...
La regulación está asociada al riesgo:
• Riesgo de mercado
• Riesgo de crédito
• . . .
En breve, la Autoridad Bancaria Eur...
Causas y consecuencias
Hay una serie de directrices de la EBA sobre los temas más sensibles
a la reputación.
Causas de una...
Organización del trabajo
1 Recogida de tweets (tweemanager)
2 Base de datos con tweets `positivos' y `negativos'
3 Entrena...
Índice
1 ¾Puede Twitter hundir un banco?
2 Análisis de Sentimiento
Usos de este análisis
Análisis en español
Entrenamiento...
Usos de este análisis
Análisis de sentimiento: determinación automatizada de la subjeti-
vidad, polaridad (`positivo', `ne...
Análisis en español
La mayoría de la bibliografía que se puede encontrar sobre el tema
está en inglés. ¾Por qué?
Análisis en español
¾Por qué hay más análisis de sentimiento en inglés, pese a ser el
español una lengua bastante hablada?...
Análisis en español
Para un análisis en español hemos tenido que trabajar antes el texto.
1 Stopwords (artículos, preposic...
Corpus
Para que el algoritmo clasicador funcione el entrenamiento tiene
que ser el adecuado.
Buen entrenamiento → Buen cla...
Índice
1 ¾Puede Twitter hundir un banco?
2 Análisis de Sentimiento
Usos de este análisis
Análisis en español
Entrenamiento...
Estructura
1 Extracción del tweet en sus features
2 Reglas de probabilidad para los features
3 Composición de features en ...
Extracción de features
• Se aplica stemming y stopwords
`CaixaBank, reconocida por su compromiso con la conciliación
labor...
Laplace simple
La probabilidad de Laplace simple (LS) es puramente frecuentista
P(ngram|pos) =
d
N
(1)
Donde:
d es el no d...
Laplace suavizado (o adición suavizada)
La probabilidad de Laplace suavizada (AS) es una composición de la
probabilidad de...
Laplace simple vs suavizado
• Ante variación de N y d, Laplace suavizado funciona mejor
• Con valores d y N altos, tiende ...
Ejemplos
`CaixaBank impulsará el crédito entre los abogados de Castellón'
`impuls' (LS) → 1,0 `impuls' (AS) → 0,75
`credit...
Clasicadores
El tweet está formado por features
tweet ∼ features
Para la clasicación usamos el teorema de Bayes
P(pos|feat...
Bayesiano ingenuo y nuestro indicador
reputacional
¾Relación entre tweet y features? El bayesiano ingenuo (Naive Ba-
yesia...
Comparación. Clasicador de manzanas
Tenemos un objeto. ¾Será una manzana?
• Rojo
• Redondo
• ∼ 7 cm de diámetro
Bayesiano ...
Índice
1 ¾Puede Twitter hundir un banco?
2 Análisis de Sentimiento
Usos de este análisis
Análisis en español
Entrenamiento...
¾Qué medimos? Acierto y ROC
Escogemos un set de validación para testear nuestros clasicadores.
Set de validación → 10 % de...
Curva ROC
La curva ROC es una técnica para ver cómo varía la tasa de verda-
deros positivos (TPR) y de falsos positivos (F...
Grácas de la curva ROC. NB
Grácas de la curva ROC. IR
Índice
1 ¾Puede Twitter hundir un banco?
2 Análisis de Sentimiento
Usos de este análisis
Análisis en español
Entrenamiento...
Conclusiones
• El clasicador NB tiene overtting que el clasicador IR no
tiene.
• Esto se debe, entre otras cosas, al uso d...
Conclusiones
• Prueba de una nueva concepción de objeto a clasicar
• Obtención de corpus especíco para reputación
• Soluci...
Gracias por su atención!!
Agradecimientos: Hugo Marrão y Rogelio Rodríguez
Próxima SlideShare
Cargando en…5
×

¿Podemos predecir si Twitter hundirá un banco?

517 visualizaciones

Publicado el

Charla de la PyCon ES 2016 en Almería, sobre clasificadores de texto y riesgo reputacional aplicado al ámbito financiero.

El análisis de sentimiento es una herramienta con la cual se exploran las opiniones de un producto mediante valoración automática de mensajes en redes sociales. Se ha utilizado esta herramienta sobre Twitter para extraer una métrica sobre la reputación que tiene una entidad financiera, y poder estimar las pérdidas por riesgo reputacional.

Publicado en: Datos y análisis
0 comentarios
0 recomendaciones
Estadísticas
Notas
  • Sé el primero en comentar

  • Sé el primero en recomendar esto

Sin descargas
Visualizaciones
Visualizaciones totales
517
En SlideShare
0
De insertados
0
Número de insertados
153
Acciones
Compartido
0
Descargas
8
Comentarios
0
Recomendaciones
0
Insertados 0
No insertados

No hay notas en la diapositiva.

¿Podemos predecir si Twitter hundirá un banco?

  1. 1. ¾Podemos predecir si Twitter hundirá un banco? Carlos Perales González
  2. 2. Índice 1 ¾Puede Twitter hundir un banco? 2 Análisis de Sentimiento Usos de este análisis Análisis en español Entrenamiento especíco para reputación 3 Metodología de clasicación Extracción de features Estimación de probabilidades Clasicadores 4 Resultados Tasa de acierto Curva ROC 5 Conclusiones
  3. 3. Índice 1 ¾Puede Twitter hundir un banco? 2 Análisis de Sentimiento Usos de este análisis Análisis en español Entrenamiento especíco para reputación 3 Metodología de clasicación Extracción de features Estimación de probabilidades Clasicadores 4 Resultados Tasa de acierto Curva ROC 5 Conclusiones
  4. 4. ¾Puede Twitter hundir un banco? ¾Puede Twitter hundir un banco? Realmente, no hay datos históricos de que haya ocurrido con ante- rioridad. Sin embargo, con la reciente crisis nanciera, los reguladores (BCE, FED) están empezando a pedir más medidas de control sobre los bancos.
  5. 5. La regulación está asociada al riesgo: • Riesgo de mercado • Riesgo de crédito • . . . En breve, la Autoridad Bancaria Europea (EBA) exigirá a los bancos una medida del riesgo reputacional. Riesgo → posibilidad de pérdidas (ganancias, liquidez . . . ) En este caso, a consecuencia del daño de de la perspectiva que la sociedad tenga de esta.
  6. 6. Causas y consecuencias Hay una serie de directrices de la EBA sobre los temas más sensibles a la reputación. Causas de una mala reputación • Corrupción • Mala gestión • Política de empresa (negocios armamentísticos, deshaucios . . .) • . . . Consecuencias • Retirada de efectivo • No apertura de cuentas • . . .
  7. 7. Organización del trabajo 1 Recogida de tweets (tweemanager) 2 Base de datos con tweets `positivos' y `negativos' 3 Entrenamiento de un clasicador 4 Clasicación a lo largo del tiempo → Indicador reputacional Clasicador: instrumento matemático que se sirve de un algoritmo estadístico con el n de asignar una etiqueta clasicatoria.
  8. 8. Índice 1 ¾Puede Twitter hundir un banco? 2 Análisis de Sentimiento Usos de este análisis Análisis en español Entrenamiento especíco para reputación 3 Metodología de clasicación Extracción de features Estimación de probabilidades Clasicadores 4 Resultados Tasa de acierto Curva ROC 5 Conclusiones
  9. 9. Usos de este análisis Análisis de sentimiento: determinación automatizada de la subjeti- vidad, polaridad (`positivo', `negativo') y fuerza que tenga un texto. En pocas palabras, clasica en `bueno' y `malo'. Nos puede servir para ver cómo evolucionan las opiniones. • Análisis de mercado • Inteligencia articial
  10. 10. Análisis en español La mayoría de la bibliografía que se puede encontrar sobre el tema está en inglés. ¾Por qué?
  11. 11. Análisis en español ¾Por qué hay más análisis de sentimiento en inglés, pese a ser el español una lengua bastante hablada? • Construcción gramatical más sencilla • Menos formas verbales • Muchos verbos regulares y lexemas sencillos El español es más difícil que el inglés
  12. 12. Análisis en español Para un análisis en español hemos tenido que trabajar antes el texto. 1 Stopwords (artículos, preposiciones . . . ) 2 Stemming (reducir una palabra a su raíz) 3 Uso de n-gramas (secuencias de n palabras) Inicialmente nos apoyamos en el paquete NLTK para estos procesos, por la cantidad de reglas que involucraban.
  13. 13. Corpus Para que el algoritmo clasicador funcione el entrenamiento tiene que ser el adecuado. Buen entrenamiento → Buen clasicador El entrenamiento se ha conseguido escogiendo tweets que represen- ten las directrices de la EBA sobre qué afecta a la reputación. Nuestro corpus se ha obtenido mediante recogida de tweets, usando tweemanager, buscando sobre entidades nancieras. https://github.com/nfqsolutions/tweemanager
  14. 14. Índice 1 ¾Puede Twitter hundir un banco? 2 Análisis de Sentimiento Usos de este análisis Análisis en español Entrenamiento especíco para reputación 3 Metodología de clasicación Extracción de features Estimación de probabilidades Clasicadores 4 Resultados Tasa de acierto Curva ROC 5 Conclusiones
  15. 15. Estructura 1 Extracción del tweet en sus features 2 Reglas de probabilidad para los features 3 Composición de features en un clasicador Features: propiedades de un fenómeno a estudiar. Sirven como va- riables. • Nuestras features serán n-gramas del texto
  16. 16. Extracción de features • Se aplica stemming y stopwords `CaixaBank, reconocida por su compromiso con la conciliación laboral y familiar' `caixabank', `reconoc', `compromis', `conciliacion', `laboral', `famili', `caixabank reconoc', `reconoc por', `por su', `su compromis', `com- promis con', `con la', `la conciliacion', `conciliacion laboral', `laboral y', `y famili', `caixabank reconoc por', `reconoc por su', `por su com- promis', `su compromis con', `compromis con la', `con la conciliacion', `la conciliacion laboral', `conciliacion laboral y', `laboral y famili'
  17. 17. Laplace simple La probabilidad de Laplace simple (LS) es puramente frecuentista P(ngram|pos) = d N (1) Donde: d es el no de veces que aparece en positivo N es el no de veces total que aparece
  18. 18. Laplace suavizado (o adición suavizada) La probabilidad de Laplace suavizada (AS) es una composición de la probabilidad de Laplace con la prob. uniforme P(ngram|pos) = d + α N + ncatα (2) Donde: α es un factor de composición. Se ha escogido 0,5 ncat es el no de categorías (`positivo' y `negativo' → 2)
  19. 19. Laplace simple vs suavizado • Ante variación de N y d, Laplace suavizado funciona mejor • Con valores d y N altos, tiende a Laplace simple • Laplace suavizado evita asignar valores extremos
  20. 20. Ejemplos `CaixaBank impulsará el crédito entre los abogados de Castellón' `impuls' (LS) → 1,0 `impuls' (AS) → 0,75 `credit' (LS) → 0,9167 `credit' (AS) → 0,8846
  21. 21. Clasicadores El tweet está formado por features tweet ∼ features Para la clasicación usamos el teorema de Bayes P(pos|features) = P(pos)P(features|pos) P(pos)P(features|pos) + P(neg)P(features|neg) (3) Se usa junto con la hipótesis de independencia P(fi ∩ fj ) = P(fi |fj )P(fj ) = P(fi )P(fj ) ∀i,j i = j (4)
  22. 22. Bayesiano ingenuo y nuestro indicador reputacional ¾Relación entre tweet y features? El bayesiano ingenuo (Naive Ba- yesian o NB): tweet = (feature1, feature2, . . . , featuren) = i fi ≡ features (5) ½Hipótesis! Cambiamos la concepción del elemento a clasicar tweet ∼ i fi ≡ features (6)
  23. 23. Comparación. Clasicador de manzanas Tenemos un objeto. ¾Será una manzana? • Rojo • Redondo • ∼ 7 cm de diámetro Bayesiano ingenuo (NB) → Rojo y redondo y ∼ 7 cm de diámetro Nuestro indicador (IR) → Promedio de variables. NB presenta overtting. Tiende a puntuar con valores extremos. IR puntúa con valores intermedios. Es más conservador.
  24. 24. Índice 1 ¾Puede Twitter hundir un banco? 2 Análisis de Sentimiento Usos de este análisis Análisis en español Entrenamiento especíco para reputación 3 Metodología de clasicación Extracción de features Estimación de probabilidades Clasicadores 4 Resultados Tasa de acierto Curva ROC 5 Conclusiones
  25. 25. ¾Qué medimos? Acierto y ROC Escogemos un set de validación para testear nuestros clasicadores. Set de validación → 10 % del tamaño del entrenamiento Probamos cuántos es capaz de acertar (tasa de aciertos), junto con la curva ROC y el área bajo esta curva. Acierto (validación) Acierto (entrenamiento) NB 0.715 0.995 IR 0.790 0.990
  26. 26. Curva ROC La curva ROC es una técnica para ver cómo varía la tasa de verda- deros positivos (TPR) y de falsos positivos (FPR) conforme el umbral discriminante cambia. El área bajo esta curva representa la probabilidad de que un caso que el clasicador haya categorizado como positivo, efectivamente, sea realmente positivo
  27. 27. Grácas de la curva ROC. NB
  28. 28. Grácas de la curva ROC. IR
  29. 29. Índice 1 ¾Puede Twitter hundir un banco? 2 Análisis de Sentimiento Usos de este análisis Análisis en español Entrenamiento especíco para reputación 3 Metodología de clasicación Extracción de features Estimación de probabilidades Clasicadores 4 Resultados Tasa de acierto Curva ROC 5 Conclusiones
  30. 30. Conclusiones • El clasicador NB tiene overtting que el clasicador IR no tiene. • Esto se debe, entre otras cosas, al uso de Laplace suavizado y a la hipótesis tweet ∼ i fi • La hipótesis de independencia es ingenua pero funciona • Los bigramas y trigramas ayudan al análisis en español Resultados parecidos + ventajas de nuestro clasicador → IR ≥ NB
  31. 31. Conclusiones • Prueba de una nueva concepción de objeto a clasicar • Obtención de corpus especíco para reputación • Solución técnica de un problema real • Desarrollo de la aplicación Qdos
  32. 32. Gracias por su atención!! Agradecimientos: Hugo Marrão y Rogelio Rodríguez

×