SlideShare una empresa de Scribd logo
1 de 32
Descargar para leer sin conexión
¾Podemos predecir si Twitter hundirá un banco?
Carlos Perales González
Índice
1 ¾Puede Twitter hundir un banco?
2 Análisis de Sentimiento
Usos de este análisis
Análisis en español
Entrenamiento especíco para reputación
3 Metodología de clasicación
Extracción de features
Estimación de probabilidades
Clasicadores
4 Resultados
Tasa de acierto
Curva ROC
5 Conclusiones
Índice
1 ¾Puede Twitter hundir un banco?
2 Análisis de Sentimiento
Usos de este análisis
Análisis en español
Entrenamiento especíco para reputación
3 Metodología de clasicación
Extracción de features
Estimación de probabilidades
Clasicadores
4 Resultados
Tasa de acierto
Curva ROC
5 Conclusiones
¾Puede Twitter hundir un banco?
¾Puede Twitter hundir un banco?
Realmente, no hay datos históricos de que haya ocurrido con ante-
rioridad.
Sin embargo, con la reciente crisis nanciera, los reguladores (BCE,
FED) están empezando a pedir más medidas de control sobre los
bancos.
La regulación está asociada al riesgo:
• Riesgo de mercado
• Riesgo de crédito
• . . .
En breve, la Autoridad Bancaria Europea (EBA) exigirá a los bancos
una medida del riesgo reputacional.
Riesgo → posibilidad de pérdidas (ganancias, liquidez . . . )
En este caso, a consecuencia del daño de de la perspectiva que la
sociedad tenga de esta.
Causas y consecuencias
Hay una serie de directrices de la EBA sobre los temas más sensibles
a la reputación.
Causas de una mala reputación
• Corrupción
• Mala gestión
• Política de empresa (negocios armamentísticos, deshaucios . . .)
• . . .
Consecuencias
• Retirada de efectivo
• No apertura de cuentas
• . . .
Organización del trabajo
1 Recogida de tweets (tweemanager)
2 Base de datos con tweets `positivos' y `negativos'
3 Entrenamiento de un clasicador
4 Clasicación a lo largo del tiempo → Indicador reputacional
Clasicador: instrumento matemático que se sirve de un algoritmo
estadístico con el n de asignar una etiqueta clasicatoria.
Índice
1 ¾Puede Twitter hundir un banco?
2 Análisis de Sentimiento
Usos de este análisis
Análisis en español
Entrenamiento especíco para reputación
3 Metodología de clasicación
Extracción de features
Estimación de probabilidades
Clasicadores
4 Resultados
Tasa de acierto
Curva ROC
5 Conclusiones
Usos de este análisis
Análisis de sentimiento: determinación automatizada de la subjeti-
vidad, polaridad (`positivo', `negativo') y fuerza que tenga un texto.
En pocas palabras, clasica en `bueno' y `malo'. Nos puede servir
para ver cómo evolucionan las opiniones.
• Análisis de mercado
• Inteligencia articial
Análisis en español
La mayoría de la bibliografía que se puede encontrar sobre el tema
está en inglés. ¾Por qué?
Análisis en español
¾Por qué hay más análisis de sentimiento en inglés, pese a ser el
español una lengua bastante hablada?
• Construcción gramatical más sencilla
• Menos formas verbales
• Muchos verbos regulares y lexemas sencillos
El español es más difícil que el inglés
Análisis en español
Para un análisis en español hemos tenido que trabajar antes el texto.
1 Stopwords (artículos, preposiciones . . . )
2 Stemming (reducir una palabra a su raíz)
3 Uso de n-gramas (secuencias de n palabras)
Inicialmente nos apoyamos en el paquete NLTK para estos procesos,
por la cantidad de reglas que involucraban.
Corpus
Para que el algoritmo clasicador funcione el entrenamiento tiene
que ser el adecuado.
Buen entrenamiento → Buen clasicador
El entrenamiento se ha conseguido escogiendo tweets que represen-
ten las directrices de la EBA sobre qué afecta a la reputación.
Nuestro corpus se ha obtenido mediante recogida de tweets, usando
tweemanager, buscando sobre entidades nancieras.
https://github.com/nfqsolutions/tweemanager
Índice
1 ¾Puede Twitter hundir un banco?
2 Análisis de Sentimiento
Usos de este análisis
Análisis en español
Entrenamiento especíco para reputación
3 Metodología de clasicación
Extracción de features
Estimación de probabilidades
Clasicadores
4 Resultados
Tasa de acierto
Curva ROC
5 Conclusiones
Estructura
1 Extracción del tweet en sus features
2 Reglas de probabilidad para los features
3 Composición de features en un clasicador
Features: propiedades de un fenómeno a estudiar. Sirven como va-
riables.
• Nuestras features serán n-gramas del texto
Extracción de features
• Se aplica stemming y stopwords
`CaixaBank, reconocida por su compromiso con la conciliación
laboral y familiar'
`caixabank', `reconoc', `compromis', `conciliacion', `laboral', `famili',
`caixabank reconoc', `reconoc por', `por su', `su compromis', `com-
promis con', `con la', `la conciliacion', `conciliacion laboral', `laboral
y', `y famili', `caixabank reconoc por', `reconoc por su', `por su com-
promis', `su compromis con', `compromis con la', `con la conciliacion',
`la conciliacion laboral', `conciliacion laboral y', `laboral y famili'
Laplace simple
La probabilidad de Laplace simple (LS) es puramente frecuentista
P(ngram|pos) =
d
N
(1)
Donde:
d es el no de veces que aparece en positivo
N es el no de veces total que aparece
Laplace suavizado (o adición suavizada)
La probabilidad de Laplace suavizada (AS) es una composición de la
probabilidad de Laplace con la prob. uniforme
P(ngram|pos) =
d + α
N + ncatα
(2)
Donde:
α es un factor de composición. Se ha escogido 0,5
ncat es el no de categorías (`positivo' y `negativo'
→ 2)
Laplace simple vs suavizado
• Ante variación de N y d, Laplace suavizado funciona mejor
• Con valores d y N altos, tiende a Laplace simple
• Laplace suavizado evita asignar valores extremos
Ejemplos
`CaixaBank impulsará el crédito entre los abogados de Castellón'
`impuls' (LS) → 1,0 `impuls' (AS) → 0,75
`credit' (LS) → 0,9167 `credit' (AS) → 0,8846
Clasicadores
El tweet está formado por features
tweet ∼ features
Para la clasicación usamos el teorema de Bayes
P(pos|features) =
P(pos)P(features|pos)
P(pos)P(features|pos) + P(neg)P(features|neg)
(3)
Se usa junto con la hipótesis de independencia
P(fi ∩ fj ) = P(fi |fj )P(fj ) = P(fi )P(fj ) ∀i,j i = j (4)
Bayesiano ingenuo y nuestro indicador
reputacional
¾Relación entre tweet y features? El bayesiano ingenuo (Naive Ba-
yesian o NB):
tweet = (feature1, feature2, . . . , featuren) =
i
fi ≡ features (5)
½Hipótesis! Cambiamos la concepción del elemento a clasicar
tweet ∼
i
fi ≡ features (6)
Comparación. Clasicador de manzanas
Tenemos un objeto. ¾Será una manzana?
• Rojo
• Redondo
• ∼ 7 cm de diámetro
Bayesiano ingenuo (NB) → Rojo y redondo y ∼ 7 cm de diámetro
Nuestro indicador (IR) → Promedio de variables.
NB presenta overtting. Tiende a puntuar con valores extremos.
IR puntúa con valores intermedios. Es más conservador.
Índice
1 ¾Puede Twitter hundir un banco?
2 Análisis de Sentimiento
Usos de este análisis
Análisis en español
Entrenamiento especíco para reputación
3 Metodología de clasicación
Extracción de features
Estimación de probabilidades
Clasicadores
4 Resultados
Tasa de acierto
Curva ROC
5 Conclusiones
¾Qué medimos? Acierto y ROC
Escogemos un set de validación para testear nuestros clasicadores.
Set de validación → 10 % del tamaño del entrenamiento
Probamos cuántos es capaz de acertar (tasa de aciertos), junto con
la curva ROC y el área bajo esta curva.
Acierto (validación) Acierto (entrenamiento)
NB 0.715 0.995
IR 0.790 0.990
Curva ROC
La curva ROC es una técnica para ver cómo varía la tasa de verda-
deros positivos (TPR) y de falsos positivos (FPR) conforme el umbral
discriminante cambia.
El área bajo esta curva representa la probabilidad de que un caso
que el clasicador haya categorizado como positivo, efectivamente,
sea realmente positivo
Grácas de la curva ROC. NB
Grácas de la curva ROC. IR
Índice
1 ¾Puede Twitter hundir un banco?
2 Análisis de Sentimiento
Usos de este análisis
Análisis en español
Entrenamiento especíco para reputación
3 Metodología de clasicación
Extracción de features
Estimación de probabilidades
Clasicadores
4 Resultados
Tasa de acierto
Curva ROC
5 Conclusiones
Conclusiones
• El clasicador NB tiene overtting que el clasicador IR no
tiene.
• Esto se debe, entre otras cosas, al uso de Laplace suavizado y
a la hipótesis tweet ∼ i fi
• La hipótesis de independencia es ingenua pero funciona
• Los bigramas y trigramas ayudan al análisis en español
Resultados parecidos + ventajas de nuestro clasicador →
IR ≥ NB
Conclusiones
• Prueba de una nueva concepción de objeto a clasicar
• Obtención de corpus especíco para reputación
• Solución técnica de un problema real
• Desarrollo de la aplicación Qdos
Gracias por su atención!!
Agradecimientos: Hugo Marrão y Rogelio Rodríguez

Más contenido relacionado

Similar a ¿Podemos predecir si Twitter hundirá un banco?

Analisis multivariante ss13
Analisis multivariante ss13Analisis multivariante ss13
Analisis multivariante ss13Maestros Online
 
Introduccion a Machine Learning
Introduccion a Machine LearningIntroduccion a Machine Learning
Introduccion a Machine LearningStratebi
 
Taller crystal ball raphael rey tovar
Taller crystal ball raphael rey tovarTaller crystal ball raphael rey tovar
Taller crystal ball raphael rey tovarUniversidad de Lima
 
Estadistica y pronostico para la toma de decisiones s14
Estadistica y pronostico para la toma de decisiones s14Estadistica y pronostico para la toma de decisiones s14
Estadistica y pronostico para la toma de decisiones s14Maestros Online
 
Estadistica y pronostico para la toma de decisiones s14
Estadistica y pronostico para la toma de decisiones s14Estadistica y pronostico para la toma de decisiones s14
Estadistica y pronostico para la toma de decisiones s14Maestros en Linea
 
Incorpora la analitica de texto mas avanzada a tus modelos predictivos - Mean...
Incorpora la analitica de texto mas avanzada a tus modelos predictivos - Mean...Incorpora la analitica de texto mas avanzada a tus modelos predictivos - Mean...
Incorpora la analitica de texto mas avanzada a tus modelos predictivos - Mean...MeaningCloud
 
Tema 2 mglpc Escalas de medida
Tema 2 mglpc Escalas de medidaTema 2 mglpc Escalas de medida
Tema 2 mglpc Escalas de medidaJaime Manera
 
Procesamiento, nalisis e interpretacion de resultado.
Procesamiento, nalisis e interpretacion de resultado.Procesamiento, nalisis e interpretacion de resultado.
Procesamiento, nalisis e interpretacion de resultado.N Andre Vc
 
Meetup TestingUy 2017 - Lo que aprendí de Rapid Software Testing con Michael ...
Meetup TestingUy 2017 - Lo que aprendí de Rapid Software Testing con Michael ...Meetup TestingUy 2017 - Lo que aprendí de Rapid Software Testing con Michael ...
Meetup TestingUy 2017 - Lo que aprendí de Rapid Software Testing con Michael ...TestingUy
 
Teoria de la estimación
Teoria de la estimaciónTeoria de la estimación
Teoria de la estimaciónJOHNNY28000
 
Tecnologias de información ebc
Tecnologias de información ebcTecnologias de información ebc
Tecnologias de información ebcMaestros Online
 
Como lograr mejora con agile dev
Como lograr mejora con agile devComo lograr mejora con agile dev
Como lograr mejora con agile devLuis Mulato
 
Analisis y diseño de experimentos
Analisis y diseño de experimentosAnalisis y diseño de experimentos
Analisis y diseño de experimentosMaestros Online
 
Leader´s Guide - Lean Start Up
Leader´s Guide - Lean Start UpLeader´s Guide - Lean Start Up
Leader´s Guide - Lean Start UpINNOGYZER.com
 
Evaluacion de sistemas de recomendacion
Evaluacion de sistemas de recomendacionEvaluacion de sistemas de recomendacion
Evaluacion de sistemas de recomendacionLuis Francisco
 

Similar a ¿Podemos predecir si Twitter hundirá un banco? (20)

Analisis multivariante ss13
Analisis multivariante ss13Analisis multivariante ss13
Analisis multivariante ss13
 
Analisis multivariante ss13
Analisis multivariante ss13Analisis multivariante ss13
Analisis multivariante ss13
 
Introduccion a Machine Learning
Introduccion a Machine LearningIntroduccion a Machine Learning
Introduccion a Machine Learning
 
Taller crystal ball raphael rey tovar
Taller crystal ball raphael rey tovarTaller crystal ball raphael rey tovar
Taller crystal ball raphael rey tovar
 
Opinion Mining
Opinion MiningOpinion Mining
Opinion Mining
 
ESCALAS DE MEDICION.pdf
ESCALAS DE MEDICION.pdfESCALAS DE MEDICION.pdf
ESCALAS DE MEDICION.pdf
 
Estadistica y pronostico para la toma de decisiones s14
Estadistica y pronostico para la toma de decisiones s14Estadistica y pronostico para la toma de decisiones s14
Estadistica y pronostico para la toma de decisiones s14
 
Estadistica y pronostico para la toma de decisiones s14
Estadistica y pronostico para la toma de decisiones s14Estadistica y pronostico para la toma de decisiones s14
Estadistica y pronostico para la toma de decisiones s14
 
Introducción al CRO
Introducción al CROIntroducción al CRO
Introducción al CRO
 
Incorpora la analitica de texto mas avanzada a tus modelos predictivos - Mean...
Incorpora la analitica de texto mas avanzada a tus modelos predictivos - Mean...Incorpora la analitica de texto mas avanzada a tus modelos predictivos - Mean...
Incorpora la analitica de texto mas avanzada a tus modelos predictivos - Mean...
 
Tema 2 mglpc Escalas de medida
Tema 2 mglpc Escalas de medidaTema 2 mglpc Escalas de medida
Tema 2 mglpc Escalas de medida
 
Procesamiento, nalisis e interpretacion de resultado.
Procesamiento, nalisis e interpretacion de resultado.Procesamiento, nalisis e interpretacion de resultado.
Procesamiento, nalisis e interpretacion de resultado.
 
Meetup TestingUy 2017 - Lo que aprendí de Rapid Software Testing con Michael ...
Meetup TestingUy 2017 - Lo que aprendí de Rapid Software Testing con Michael ...Meetup TestingUy 2017 - Lo que aprendí de Rapid Software Testing con Michael ...
Meetup TestingUy 2017 - Lo que aprendí de Rapid Software Testing con Michael ...
 
Teoria de la estimación
Teoria de la estimaciónTeoria de la estimación
Teoria de la estimación
 
Historias de usuario y estimacion
Historias de usuario y estimacionHistorias de usuario y estimacion
Historias de usuario y estimacion
 
Tecnologias de información ebc
Tecnologias de información ebcTecnologias de información ebc
Tecnologias de información ebc
 
Como lograr mejora con agile dev
Como lograr mejora con agile devComo lograr mejora con agile dev
Como lograr mejora con agile dev
 
Analisis y diseño de experimentos
Analisis y diseño de experimentosAnalisis y diseño de experimentos
Analisis y diseño de experimentos
 
Leader´s Guide - Lean Start Up
Leader´s Guide - Lean Start UpLeader´s Guide - Lean Start Up
Leader´s Guide - Lean Start Up
 
Evaluacion de sistemas de recomendacion
Evaluacion de sistemas de recomendacionEvaluacion de sistemas de recomendacion
Evaluacion de sistemas de recomendacion
 

Más de Carlos Perales

Clustering de canciones usando Fourier
Clustering de canciones usando FourierClustering de canciones usando Fourier
Clustering de canciones usando FourierCarlos Perales
 
A preliminary study of diversity in ELM ensembles (HAIS 2018)
A preliminary study of diversity in ELM ensembles (HAIS 2018)A preliminary study of diversity in ELM ensembles (HAIS 2018)
A preliminary study of diversity in ELM ensembles (HAIS 2018)Carlos Perales
 
Estudio y simulación numérica de las ecuaciones de aguas someras
Estudio y simulación numérica de las ecuaciones de aguas somerasEstudio y simulación numérica de las ecuaciones de aguas someras
Estudio y simulación numérica de las ecuaciones de aguas somerasCarlos Perales
 
Un estudio numérico sobre el número de Mach
Un estudio numérico sobre el número de MachUn estudio numérico sobre el número de Mach
Un estudio numérico sobre el número de MachCarlos Perales
 
Energía fotovoltaica en España y el mundo (2004-2008)
Energía fotovoltaica en España y el mundo (2004-2008)Energía fotovoltaica en España y el mundo (2004-2008)
Energía fotovoltaica en España y el mundo (2004-2008)Carlos Perales
 
Propagación de una enfermedad en poblaciones dinámicas
Propagación de una enfermedad en poblaciones dinámicasPropagación de una enfermedad en poblaciones dinámicas
Propagación de una enfermedad en poblaciones dinámicasCarlos Perales
 
Sobre la radiación Cherenkov (presentación)
Sobre la radiación Cherenkov (presentación)Sobre la radiación Cherenkov (presentación)
Sobre la radiación Cherenkov (presentación)Carlos Perales
 
Sobre la radiación Cherenkov y los rayos cósmicos
Sobre la radiación Cherenkov y los rayos cósmicosSobre la radiación Cherenkov y los rayos cósmicos
Sobre la radiación Cherenkov y los rayos cósmicosCarlos Perales
 

Más de Carlos Perales (8)

Clustering de canciones usando Fourier
Clustering de canciones usando FourierClustering de canciones usando Fourier
Clustering de canciones usando Fourier
 
A preliminary study of diversity in ELM ensembles (HAIS 2018)
A preliminary study of diversity in ELM ensembles (HAIS 2018)A preliminary study of diversity in ELM ensembles (HAIS 2018)
A preliminary study of diversity in ELM ensembles (HAIS 2018)
 
Estudio y simulación numérica de las ecuaciones de aguas someras
Estudio y simulación numérica de las ecuaciones de aguas somerasEstudio y simulación numérica de las ecuaciones de aguas someras
Estudio y simulación numérica de las ecuaciones de aguas someras
 
Un estudio numérico sobre el número de Mach
Un estudio numérico sobre el número de MachUn estudio numérico sobre el número de Mach
Un estudio numérico sobre el número de Mach
 
Energía fotovoltaica en España y el mundo (2004-2008)
Energía fotovoltaica en España y el mundo (2004-2008)Energía fotovoltaica en España y el mundo (2004-2008)
Energía fotovoltaica en España y el mundo (2004-2008)
 
Propagación de una enfermedad en poblaciones dinámicas
Propagación de una enfermedad en poblaciones dinámicasPropagación de una enfermedad en poblaciones dinámicas
Propagación de una enfermedad en poblaciones dinámicas
 
Sobre la radiación Cherenkov (presentación)
Sobre la radiación Cherenkov (presentación)Sobre la radiación Cherenkov (presentación)
Sobre la radiación Cherenkov (presentación)
 
Sobre la radiación Cherenkov y los rayos cósmicos
Sobre la radiación Cherenkov y los rayos cósmicosSobre la radiación Cherenkov y los rayos cósmicos
Sobre la radiación Cherenkov y los rayos cósmicos
 

Último

AREA TECNOLOGIA E INFORMATICA.pdf Santiago
AREA TECNOLOGIA E INFORMATICA.pdf SantiagoAREA TECNOLOGIA E INFORMATICA.pdf Santiago
AREA TECNOLOGIA E INFORMATICA.pdf SantiagoSantiagoRodriguezLoz
 
Análisis de un mapa de riesgos de una tortillería
Análisis de un mapa de riesgos de una tortillería Análisis de un mapa de riesgos de una tortillería
Análisis de un mapa de riesgos de una tortillería yocelynsanchezerasmo
 
TEORIA DEL DEFICIT DEL AUTOCUIDADO .pptx
TEORIA DEL DEFICIT DEL AUTOCUIDADO .pptxTEORIA DEL DEFICIT DEL AUTOCUIDADO .pptx
TEORIA DEL DEFICIT DEL AUTOCUIDADO .pptxmarinosudarioneyer
 
Diarrea aguda en pacientes Pediatricos tratamiento y conducta
Diarrea aguda en pacientes Pediatricos tratamiento y conductaDiarrea aguda en pacientes Pediatricos tratamiento y conducta
Diarrea aguda en pacientes Pediatricos tratamiento y conductaraymaris1914
 
El guion museográfico. definición. componentes. parte 1.pptx
El guion museográfico. definición. componentes. parte 1.pptxEl guion museográfico. definición. componentes. parte 1.pptx
El guion museográfico. definición. componentes. parte 1.pptxAngelaMarquez27
 
Presentación del Mapa del Talento Cotec-Ivie 2023
Presentación del Mapa del Talento Cotec-Ivie 2023Presentación del Mapa del Talento Cotec-Ivie 2023
Presentación del Mapa del Talento Cotec-Ivie 2023Ivie
 
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRILPREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRILeluniversocom
 
FORMATO INVENTARIO MOBILIARIO PASO A PASO
FORMATO INVENTARIO MOBILIARIO PASO A PASOFORMATO INVENTARIO MOBILIARIO PASO A PASO
FORMATO INVENTARIO MOBILIARIO PASO A PASOsecundariatecnica891
 
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRILPREGUNTA H DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRILeluniversocom
 
PREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRIL
PREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRILPREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRIL
PREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRILeluniversocom
 
Mapa de riesgos de un taller mecánico 405
Mapa de riesgos de un taller mecánico 405Mapa de riesgos de un taller mecánico 405
Mapa de riesgos de un taller mecánico 405rodrimarxim
 
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docxmarthaarroyo16
 
Mapa de riesgos de un cine, equipo 4.pdf
Mapa de riesgos de un cine, equipo 4.pdfMapa de riesgos de un cine, equipo 4.pdf
Mapa de riesgos de un cine, equipo 4.pdfhees071224mmcrpna1
 
TABLERO-DE-CONTROL-SOFOMES-ENR_08012024.pdf
TABLERO-DE-CONTROL-SOFOMES-ENR_08012024.pdfTABLERO-DE-CONTROL-SOFOMES-ENR_08012024.pdf
TABLERO-DE-CONTROL-SOFOMES-ENR_08012024.pdfMartinRodriguezchave1
 
Civilizacióne Precolonbinas Resumen pdf.
Civilizacióne Precolonbinas Resumen pdf.Civilizacióne Precolonbinas Resumen pdf.
Civilizacióne Precolonbinas Resumen pdf.gpoiquicuellar
 
Países por velocidad de sus misiles hipersónicos (2024).pdf
Países por velocidad de sus misiles hipersónicos  (2024).pdfPaíses por velocidad de sus misiles hipersónicos  (2024).pdf
Países por velocidad de sus misiles hipersónicos (2024).pdfJC Díaz Herrera
 
Las familias más ricas dentro del sionismo (2024).pdf
Las familias más ricas dentro del sionismo (2024).pdfLas familias más ricas dentro del sionismo (2024).pdf
Las familias más ricas dentro del sionismo (2024).pdfJC Díaz Herrera
 
ANÁLISIS DE LA ÉTICA UTILIRALISTA DE JEREMY BENTHAM.pdf
ANÁLISIS DE LA ÉTICA UTILIRALISTA DE JEREMY BENTHAM.pdfANÁLISIS DE LA ÉTICA UTILIRALISTA DE JEREMY BENTHAM.pdf
ANÁLISIS DE LA ÉTICA UTILIRALISTA DE JEREMY BENTHAM.pdfDaniloAstoVeliz
 
El sistema solar el gran descubrimiento del sistema solar .pptx
El sistema solar el gran descubrimiento del sistema solar .pptxEl sistema solar el gran descubrimiento del sistema solar .pptx
El sistema solar el gran descubrimiento del sistema solar .pptxYoladsCabarcasTous
 
LÍNEA DE TIEMPO- ANTROPOLOGIA jsjudhdv.pdf
LÍNEA DE TIEMPO- ANTROPOLOGIA jsjudhdv.pdfLÍNEA DE TIEMPO- ANTROPOLOGIA jsjudhdv.pdf
LÍNEA DE TIEMPO- ANTROPOLOGIA jsjudhdv.pdfFranyeskaMagallanes
 

Último (20)

AREA TECNOLOGIA E INFORMATICA.pdf Santiago
AREA TECNOLOGIA E INFORMATICA.pdf SantiagoAREA TECNOLOGIA E INFORMATICA.pdf Santiago
AREA TECNOLOGIA E INFORMATICA.pdf Santiago
 
Análisis de un mapa de riesgos de una tortillería
Análisis de un mapa de riesgos de una tortillería Análisis de un mapa de riesgos de una tortillería
Análisis de un mapa de riesgos de una tortillería
 
TEORIA DEL DEFICIT DEL AUTOCUIDADO .pptx
TEORIA DEL DEFICIT DEL AUTOCUIDADO .pptxTEORIA DEL DEFICIT DEL AUTOCUIDADO .pptx
TEORIA DEL DEFICIT DEL AUTOCUIDADO .pptx
 
Diarrea aguda en pacientes Pediatricos tratamiento y conducta
Diarrea aguda en pacientes Pediatricos tratamiento y conductaDiarrea aguda en pacientes Pediatricos tratamiento y conducta
Diarrea aguda en pacientes Pediatricos tratamiento y conducta
 
El guion museográfico. definición. componentes. parte 1.pptx
El guion museográfico. definición. componentes. parte 1.pptxEl guion museográfico. definición. componentes. parte 1.pptx
El guion museográfico. definición. componentes. parte 1.pptx
 
Presentación del Mapa del Talento Cotec-Ivie 2023
Presentación del Mapa del Talento Cotec-Ivie 2023Presentación del Mapa del Talento Cotec-Ivie 2023
Presentación del Mapa del Talento Cotec-Ivie 2023
 
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRILPREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
 
FORMATO INVENTARIO MOBILIARIO PASO A PASO
FORMATO INVENTARIO MOBILIARIO PASO A PASOFORMATO INVENTARIO MOBILIARIO PASO A PASO
FORMATO INVENTARIO MOBILIARIO PASO A PASO
 
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRILPREGUNTA H DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRIL
 
PREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRIL
PREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRILPREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRIL
PREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRIL
 
Mapa de riesgos de un taller mecánico 405
Mapa de riesgos de un taller mecánico 405Mapa de riesgos de un taller mecánico 405
Mapa de riesgos de un taller mecánico 405
 
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
 
Mapa de riesgos de un cine, equipo 4.pdf
Mapa de riesgos de un cine, equipo 4.pdfMapa de riesgos de un cine, equipo 4.pdf
Mapa de riesgos de un cine, equipo 4.pdf
 
TABLERO-DE-CONTROL-SOFOMES-ENR_08012024.pdf
TABLERO-DE-CONTROL-SOFOMES-ENR_08012024.pdfTABLERO-DE-CONTROL-SOFOMES-ENR_08012024.pdf
TABLERO-DE-CONTROL-SOFOMES-ENR_08012024.pdf
 
Civilizacióne Precolonbinas Resumen pdf.
Civilizacióne Precolonbinas Resumen pdf.Civilizacióne Precolonbinas Resumen pdf.
Civilizacióne Precolonbinas Resumen pdf.
 
Países por velocidad de sus misiles hipersónicos (2024).pdf
Países por velocidad de sus misiles hipersónicos  (2024).pdfPaíses por velocidad de sus misiles hipersónicos  (2024).pdf
Países por velocidad de sus misiles hipersónicos (2024).pdf
 
Las familias más ricas dentro del sionismo (2024).pdf
Las familias más ricas dentro del sionismo (2024).pdfLas familias más ricas dentro del sionismo (2024).pdf
Las familias más ricas dentro del sionismo (2024).pdf
 
ANÁLISIS DE LA ÉTICA UTILIRALISTA DE JEREMY BENTHAM.pdf
ANÁLISIS DE LA ÉTICA UTILIRALISTA DE JEREMY BENTHAM.pdfANÁLISIS DE LA ÉTICA UTILIRALISTA DE JEREMY BENTHAM.pdf
ANÁLISIS DE LA ÉTICA UTILIRALISTA DE JEREMY BENTHAM.pdf
 
El sistema solar el gran descubrimiento del sistema solar .pptx
El sistema solar el gran descubrimiento del sistema solar .pptxEl sistema solar el gran descubrimiento del sistema solar .pptx
El sistema solar el gran descubrimiento del sistema solar .pptx
 
LÍNEA DE TIEMPO- ANTROPOLOGIA jsjudhdv.pdf
LÍNEA DE TIEMPO- ANTROPOLOGIA jsjudhdv.pdfLÍNEA DE TIEMPO- ANTROPOLOGIA jsjudhdv.pdf
LÍNEA DE TIEMPO- ANTROPOLOGIA jsjudhdv.pdf
 

¿Podemos predecir si Twitter hundirá un banco?

  • 1. ¾Podemos predecir si Twitter hundirá un banco? Carlos Perales González
  • 2. Índice 1 ¾Puede Twitter hundir un banco? 2 Análisis de Sentimiento Usos de este análisis Análisis en español Entrenamiento especíco para reputación 3 Metodología de clasicación Extracción de features Estimación de probabilidades Clasicadores 4 Resultados Tasa de acierto Curva ROC 5 Conclusiones
  • 3. Índice 1 ¾Puede Twitter hundir un banco? 2 Análisis de Sentimiento Usos de este análisis Análisis en español Entrenamiento especíco para reputación 3 Metodología de clasicación Extracción de features Estimación de probabilidades Clasicadores 4 Resultados Tasa de acierto Curva ROC 5 Conclusiones
  • 4. ¾Puede Twitter hundir un banco? ¾Puede Twitter hundir un banco? Realmente, no hay datos históricos de que haya ocurrido con ante- rioridad. Sin embargo, con la reciente crisis nanciera, los reguladores (BCE, FED) están empezando a pedir más medidas de control sobre los bancos.
  • 5. La regulación está asociada al riesgo: • Riesgo de mercado • Riesgo de crédito • . . . En breve, la Autoridad Bancaria Europea (EBA) exigirá a los bancos una medida del riesgo reputacional. Riesgo → posibilidad de pérdidas (ganancias, liquidez . . . ) En este caso, a consecuencia del daño de de la perspectiva que la sociedad tenga de esta.
  • 6. Causas y consecuencias Hay una serie de directrices de la EBA sobre los temas más sensibles a la reputación. Causas de una mala reputación • Corrupción • Mala gestión • Política de empresa (negocios armamentísticos, deshaucios . . .) • . . . Consecuencias • Retirada de efectivo • No apertura de cuentas • . . .
  • 7. Organización del trabajo 1 Recogida de tweets (tweemanager) 2 Base de datos con tweets `positivos' y `negativos' 3 Entrenamiento de un clasicador 4 Clasicación a lo largo del tiempo → Indicador reputacional Clasicador: instrumento matemático que se sirve de un algoritmo estadístico con el n de asignar una etiqueta clasicatoria.
  • 8. Índice 1 ¾Puede Twitter hundir un banco? 2 Análisis de Sentimiento Usos de este análisis Análisis en español Entrenamiento especíco para reputación 3 Metodología de clasicación Extracción de features Estimación de probabilidades Clasicadores 4 Resultados Tasa de acierto Curva ROC 5 Conclusiones
  • 9. Usos de este análisis Análisis de sentimiento: determinación automatizada de la subjeti- vidad, polaridad (`positivo', `negativo') y fuerza que tenga un texto. En pocas palabras, clasica en `bueno' y `malo'. Nos puede servir para ver cómo evolucionan las opiniones. • Análisis de mercado • Inteligencia articial
  • 10. Análisis en español La mayoría de la bibliografía que se puede encontrar sobre el tema está en inglés. ¾Por qué?
  • 11. Análisis en español ¾Por qué hay más análisis de sentimiento en inglés, pese a ser el español una lengua bastante hablada? • Construcción gramatical más sencilla • Menos formas verbales • Muchos verbos regulares y lexemas sencillos El español es más difícil que el inglés
  • 12. Análisis en español Para un análisis en español hemos tenido que trabajar antes el texto. 1 Stopwords (artículos, preposiciones . . . ) 2 Stemming (reducir una palabra a su raíz) 3 Uso de n-gramas (secuencias de n palabras) Inicialmente nos apoyamos en el paquete NLTK para estos procesos, por la cantidad de reglas que involucraban.
  • 13. Corpus Para que el algoritmo clasicador funcione el entrenamiento tiene que ser el adecuado. Buen entrenamiento → Buen clasicador El entrenamiento se ha conseguido escogiendo tweets que represen- ten las directrices de la EBA sobre qué afecta a la reputación. Nuestro corpus se ha obtenido mediante recogida de tweets, usando tweemanager, buscando sobre entidades nancieras. https://github.com/nfqsolutions/tweemanager
  • 14. Índice 1 ¾Puede Twitter hundir un banco? 2 Análisis de Sentimiento Usos de este análisis Análisis en español Entrenamiento especíco para reputación 3 Metodología de clasicación Extracción de features Estimación de probabilidades Clasicadores 4 Resultados Tasa de acierto Curva ROC 5 Conclusiones
  • 15. Estructura 1 Extracción del tweet en sus features 2 Reglas de probabilidad para los features 3 Composición de features en un clasicador Features: propiedades de un fenómeno a estudiar. Sirven como va- riables. • Nuestras features serán n-gramas del texto
  • 16. Extracción de features • Se aplica stemming y stopwords `CaixaBank, reconocida por su compromiso con la conciliación laboral y familiar' `caixabank', `reconoc', `compromis', `conciliacion', `laboral', `famili', `caixabank reconoc', `reconoc por', `por su', `su compromis', `com- promis con', `con la', `la conciliacion', `conciliacion laboral', `laboral y', `y famili', `caixabank reconoc por', `reconoc por su', `por su com- promis', `su compromis con', `compromis con la', `con la conciliacion', `la conciliacion laboral', `conciliacion laboral y', `laboral y famili'
  • 17. Laplace simple La probabilidad de Laplace simple (LS) es puramente frecuentista P(ngram|pos) = d N (1) Donde: d es el no de veces que aparece en positivo N es el no de veces total que aparece
  • 18. Laplace suavizado (o adición suavizada) La probabilidad de Laplace suavizada (AS) es una composición de la probabilidad de Laplace con la prob. uniforme P(ngram|pos) = d + α N + ncatα (2) Donde: α es un factor de composición. Se ha escogido 0,5 ncat es el no de categorías (`positivo' y `negativo' → 2)
  • 19. Laplace simple vs suavizado • Ante variación de N y d, Laplace suavizado funciona mejor • Con valores d y N altos, tiende a Laplace simple • Laplace suavizado evita asignar valores extremos
  • 20. Ejemplos `CaixaBank impulsará el crédito entre los abogados de Castellón' `impuls' (LS) → 1,0 `impuls' (AS) → 0,75 `credit' (LS) → 0,9167 `credit' (AS) → 0,8846
  • 21. Clasicadores El tweet está formado por features tweet ∼ features Para la clasicación usamos el teorema de Bayes P(pos|features) = P(pos)P(features|pos) P(pos)P(features|pos) + P(neg)P(features|neg) (3) Se usa junto con la hipótesis de independencia P(fi ∩ fj ) = P(fi |fj )P(fj ) = P(fi )P(fj ) ∀i,j i = j (4)
  • 22. Bayesiano ingenuo y nuestro indicador reputacional ¾Relación entre tweet y features? El bayesiano ingenuo (Naive Ba- yesian o NB): tweet = (feature1, feature2, . . . , featuren) = i fi ≡ features (5) ½Hipótesis! Cambiamos la concepción del elemento a clasicar tweet ∼ i fi ≡ features (6)
  • 23. Comparación. Clasicador de manzanas Tenemos un objeto. ¾Será una manzana? • Rojo • Redondo • ∼ 7 cm de diámetro Bayesiano ingenuo (NB) → Rojo y redondo y ∼ 7 cm de diámetro Nuestro indicador (IR) → Promedio de variables. NB presenta overtting. Tiende a puntuar con valores extremos. IR puntúa con valores intermedios. Es más conservador.
  • 24. Índice 1 ¾Puede Twitter hundir un banco? 2 Análisis de Sentimiento Usos de este análisis Análisis en español Entrenamiento especíco para reputación 3 Metodología de clasicación Extracción de features Estimación de probabilidades Clasicadores 4 Resultados Tasa de acierto Curva ROC 5 Conclusiones
  • 25. ¾Qué medimos? Acierto y ROC Escogemos un set de validación para testear nuestros clasicadores. Set de validación → 10 % del tamaño del entrenamiento Probamos cuántos es capaz de acertar (tasa de aciertos), junto con la curva ROC y el área bajo esta curva. Acierto (validación) Acierto (entrenamiento) NB 0.715 0.995 IR 0.790 0.990
  • 26. Curva ROC La curva ROC es una técnica para ver cómo varía la tasa de verda- deros positivos (TPR) y de falsos positivos (FPR) conforme el umbral discriminante cambia. El área bajo esta curva representa la probabilidad de que un caso que el clasicador haya categorizado como positivo, efectivamente, sea realmente positivo
  • 27. Grácas de la curva ROC. NB
  • 28. Grácas de la curva ROC. IR
  • 29. Índice 1 ¾Puede Twitter hundir un banco? 2 Análisis de Sentimiento Usos de este análisis Análisis en español Entrenamiento especíco para reputación 3 Metodología de clasicación Extracción de features Estimación de probabilidades Clasicadores 4 Resultados Tasa de acierto Curva ROC 5 Conclusiones
  • 30. Conclusiones • El clasicador NB tiene overtting que el clasicador IR no tiene. • Esto se debe, entre otras cosas, al uso de Laplace suavizado y a la hipótesis tweet ∼ i fi • La hipótesis de independencia es ingenua pero funciona • Los bigramas y trigramas ayudan al análisis en español Resultados parecidos + ventajas de nuestro clasicador → IR ≥ NB
  • 31. Conclusiones • Prueba de una nueva concepción de objeto a clasicar • Obtención de corpus especíco para reputación • Solución técnica de un problema real • Desarrollo de la aplicación Qdos
  • 32. Gracias por su atención!! Agradecimientos: Hugo Marrão y Rogelio Rodríguez