Este documento presenta un resumen de los conceptos y técnicas de minería de datos social aplicados a Twitter en Perú. Explica brevemente el proceso de minería de datos y cómo se puede usar para identificar patrones en grandes conjuntos de datos de redes sociales. Luego describe cómo se pueden estimar atributos como la nacionalidad, edad y género de usuarios de Twitter en Perú analizando sus seguidores y comportamientos de red. Finalmente, presenta algunas aplicaciones como el análisis de sentimiento y generación de alertas e in
Quantico Academy 3 - “Investiga a tus clientes y competencia en Redes Sociales”Quantico Trends
En esta sesión Javier Albarracín, CEO de Quantico Trends & Inventarte, nos enseñó cómo identificar los intereses del público objetivo a través del análisis semántico de las conversaciones en redes sociales para identificar a potenciales clientes, conocer sus gustos respecto a productos y servicios ofrecidos por nuestra marca y los competidores.
Presentamos nuestro modelo de cálculo de Influencia en Twitter.
Este modelo calcula la influencia de un usuario de twitter sobre las siguientes dimensiones: Popularidad (Seguidores), Autoridad (Calidad de Seguidores), Impacto (Conversaciones). El modelo se diferencia además porque se hace para un determinado país, en este caso presentamos el resultado de Perú, pero la metodología empleada ha sido la misma en todo América Latina.
Perú: Termómetro de las elecciones presidenciales en Redes SocialesQuantico Trends
En noviembre, se eligió presidente en Argentina y el ganador fue aquel de quien más se habló en redes sociales, Mauricio Macri. Se acercan las elecciones presidenciales en Perú, ¿cuánto se está hablando de cada candidato?
Quantico Academy 3 - “Investiga a tus clientes y competencia en Redes Sociales”Quantico Trends
En esta sesión Javier Albarracín, CEO de Quantico Trends & Inventarte, nos enseñó cómo identificar los intereses del público objetivo a través del análisis semántico de las conversaciones en redes sociales para identificar a potenciales clientes, conocer sus gustos respecto a productos y servicios ofrecidos por nuestra marca y los competidores.
Presentamos nuestro modelo de cálculo de Influencia en Twitter.
Este modelo calcula la influencia de un usuario de twitter sobre las siguientes dimensiones: Popularidad (Seguidores), Autoridad (Calidad de Seguidores), Impacto (Conversaciones). El modelo se diferencia además porque se hace para un determinado país, en este caso presentamos el resultado de Perú, pero la metodología empleada ha sido la misma en todo América Latina.
Perú: Termómetro de las elecciones presidenciales en Redes SocialesQuantico Trends
En noviembre, se eligió presidente en Argentina y el ganador fue aquel de quien más se habló en redes sociales, Mauricio Macri. Se acercan las elecciones presidenciales en Perú, ¿cuánto se está hablando de cada candidato?
Segmentacion por Comunidades Twitter Peru - QuanticoQuantico Trends
Segmentación por comunidades identificadas sobre el análisis de conversaciones en Twitter en Perú. Documento preparado por el equipo de Quantico Trends.
Empresas Eléctricas en la Mira de las Redes SocialesQuantico Trends
Estudio realizado por Quantico Trends - Industria Electrica en Perú. Del 1 de Enero al 31 de Julio de 2015. Enfoque en las principales eléctricas: Edelnor y Luz del Sur.
Segmentacion por Comunidades Twitter Peru - QuanticoQuantico Trends
Segmentación por comunidades identificadas sobre el análisis de conversaciones en Twitter en Perú. Documento preparado por el equipo de Quantico Trends.
Empresas Eléctricas en la Mira de las Redes SocialesQuantico Trends
Estudio realizado por Quantico Trends - Industria Electrica en Perú. Del 1 de Enero al 31 de Julio de 2015. Enfoque en las principales eléctricas: Edelnor y Luz del Sur.
La Universidad Popular Carmen de Michelena de Tres Cantos y el Espacio de Psicología de Tres Cantos colaboran en este proyecto para familias resilientes, aquellas que están abiertas a aprender y a mejorar. Este curso vamos a trabajar sobre las interacciones humanas. Porque comunicarnos bien nos ayuda a comprendernos, a querernos y a relacionarnos mejor, pero la comunicación no es siempre una tarea fácil.
La naturaleza nos ha dotado del más complejo sistema de comunicación, es verbal y no verbal, implícita y explícita, analógica y digital, escrita y oral... Nos podemos comunicar a través de diferentes canales, en diferentes idiomas, incluso nos comunicamos con otras especies, pero paradójicamente, en múltiples ocasiones tenemos verdaderas dificultades para comunicarnos con quienes tenemos más cerca, con nuestros hijos, con nuestra pareja, en definitiva, con nuestra familia.
Durante este curso, Sara Mallo, de Espacio Psicología Tres Cantos, en el seminario de familia profundizará en la familia reconstituida y también dedicará una sesión a los abuelos.
1. Data Mining de la información Social
Caso: Twitter en el Perú
Javier Albarracín / @jalbarracin
Adap – 22 de Noviembre, 2012
2. 01
Prometo
brevísima
Introducción :)
Data Mining de la Información Social 2
3. 01 Definición de Data Mining
Es un campo de las ciencias de la computación referido al proceso que intenta
descubrir patrones en grandes volúmenes de conjuntos de datos. Utiliza los
métodos de la inteligencia artificial, aprendizaje automático, estadística y
sistemas de bases de datos.
El objetivo general del proceso de minería de datos consiste en extraer información
de un conjunto de datos y transformarla en una estructura comprensible para su
uso posterior.
Fuente: Facebook NOV 2012 y Twitter (Estimación Quántico) NOV 2012
Data Mining de la Información Social 3
4. 01 Libro y Herramienta que no debes perderte: WEKA
Eibe Frank & Ian Witten
● Explica como funcionan los algorítmos.
● Te ayuda a seleccionar el mejor abordaje a problemas
particulares, comparar y evaluar los resultados de
diferentes técnicas.
● Cubre técnicas de mejoramiento de performance.
● Muestra como usar el software Weka Machine Learning.
http://www.cs.waikato.ac.nz/ml/weka/
Data Mining de la Información Social 4
5. 01 Quantico: bloques de construcción:
Algoritmo de Captura y Segmentación
Sentimiento Almacenamiento de Usuarios
Procesamiento Social
Big Data
de Lenguaje Intelligence
“Real-time” Modelo de
Actitudes
Analisis Influencia
Data Mining de la Información Social 5
6. 02
Descubriendo
usuarios peruanos
de twitter en el
mundo del internet
libre
Data Mining de la Información Social 6
7. El desafío: Tres usuarios de twitter peruanos... ¿Cómo
02 identificar su nacionalidad?
Fuente: Twitter / Noviembre 2012
Data Mining de la Información Social 7
8. Seleccionamos una lista de peruanos “Notablemente
02 peruanos” y obtuvimos uno a uno todos sus seguidores
@larepublica_pe @RicardoMoran
262.768 seguidores 65.768 seguidores
@elcomercio @Ollanta_HumalaT
481.019 seguidores 436.420 seguidores 500 ~
Peruanos
“Notablemente
Peruanos”
@Uterope @JulianaOxenford Seleccionados
62.137 seguidores 59.173 seguidores
@elmorsa @CuchoPenaloza
14.432 seguidores 20.167 seguidores
* “Notablemente peruano” = Estamos seguros que son usuarios que son ampliamente conocidos en Perú. No estamos hablando de nacionalidad.
Fuente: Twitter / Noviembre 2012
Data Mining de la Información Social 8
9. La Hipótesis: La proporción típica de “peruanos notables”
02 a los que sigue un peruano es mayor a la de un extranjero.
Tú X
? ?
?
?
?
> ?
?
?
?
? ?
p(PeruanosN) p(PeruanosN)
Fuente: Twitter / Noviembre 2012
Data Mining de la Información Social 9
10. 02 Encontrar el “cut-off” no ha sido tan dificil...
p(Peruanos)
2.5 millones de peruanos que siguen a “peruanos notables”
Probabilidad de “Ser Peruano”
X p >= 99%
Y Probabilidad de “Ser Peruano”
p >=70%
1.3MM
Probabilidad de “Ser Peruano”
Z
p < 70%
Fuente: Twitter / Noviembre 2012
Data Mining de la Información Social 10
11. 02 Un ejemplo de usuario de twitter “X”, “Y” y “Z”
?
X Y Z
Fuente: Twitter / Noviembre 2012
Data Mining de la Información Social 11
12. Hasta el momento hemos analizado 3 países. En Perú
02 estimamos 1.3 Millones de Usuarios de Twitter :)
HONDURAS: 1.2MM fb
~0.2MM tw NICARAGUA: 0.8MM fb
~0.2MM tw
PANAMA: 1.0MM fb
~0.3MM tw
MEXICO: 39.38MM fb
~8MM tw COLOMBIA: 17.4MM fb
~3.5MM tw
GUATEMALA: 2.2MM fb
~0.3MM VENEZUELA: 9.9MM fb
2.7MM tw
COSTA RICA: 1.9MM fb
~0.3MM
ECUADOR: 5MM fb
0.8MM
BRASIL: 60.6MM fb
PERU: 9.5MM fb ~15.0MM tw
1.3MM tw
BOLIVIA: 1.7MM fb
PARAGUAY: 1.3MM fb
~0.2MM tw
~0.1MM tw
URUGUAY: 1.6MM fb
CHILE: 9.7MM fb
~0.3MM tw
~2.5MM tw
ARGENTINA: 20.4MM fb
~2.5MM tw
182MM Usuarios de facebook
~38 MM Usuarios de twitter
Fuente: Facebook NOV 2012 y Twitter (Estimación Quántico) NOV 2012
Data Mining de la Información Social 12
13. 03
Estimando la Edad
(y utilizando un
truco simple para
estimar el género)
de los usuarios de
twitter.
Data Mining de la Información Social 13
14. Hipótesis “Personas del misma generación siguen a algunos
03 usuarios con mayor proporción que otras generaciones”
@spencerlandia
@adammoband
@nelsonmanrique
@padelriol
@merinobeatriz
Data Mining de la Información Social 14
15. Weka: Arbol de decisión utilizando el algoritmo J48
03 (C4.5 Open Source – Ross Quinlan)
Data Mining de la Información Social 15
16. 03 Metodología: Grupo de 100 personas se divide en 2 grupos.
50 50
Con edad conocida, nos Con edad conocida, nos
servirá para diseñar el servirá para probar el
modelo. modelo.
Data Mining de la Información Social 16
17. Hipótesis “Personas del misma generación siguen a algunos
03 usuarios con mayor proporción que otras generaciones”
Clasificador Influenciador Twitter Muestra: 100Usuarios con edad conocida
Muestra: 50 Usuarios con edad conocida
22 23 24 26 28 32 38 40 44 46 48 50
O @usuarioperiodista1
O
Usuarios Influenciadores (con >5,000 followers)
@usuarioperiodista2
Y @usuariomusico1
M @usuariomusico2
Y @usuariocanaltv1
O @usuarioartista1
M @usuariopolitico1
Y @usuarioartista2
M @usuarioperiodista3
M @usuariopolitico2
Y @usuarioradio1
O @usuarioliderop1
Data Mining de la Información Social 17
18. 03 Interpretando los resultados del modelo
J48 pruned tree* Modelo Generado
---------------------- 50
Correctly Classified Instances 48
P_Y <= 15 95.4545 %
| P_T <= 14 Incorrectly Classified Instances 2
| | P_M <= 88: “36 - 45 Años” 4.5455 %
| | P_M > 88: “25 - 35 Años” Kappa statistic 0.938
Mean absolute error 0.0394
| P_T > 14: “>45 Años” Total Number of Instances 50
P_Y > 15
| P_Y <= 25: “25 - 35 Años” Modelo Contrastado
| P_Y > 25: “< 25 Años” 50
Correctly Classified Instances 46
90.9091 %
Incorrectly Classified Instances 4
9.0909 %
* Este no es el modelo final, este es un modelo simplificado para la presentación, pero válido y funcional.
Data Mining de la Información Social 18
19. 03 Matriz de Confusión
Grupo: 50 Usuarios con edad conocida (modelo contrastado)
A B C D <-- clasificado
como
=== Detailed Accuracy By Class ===
17 0 0 0 A = <25 años
TP Rate FP Rate ROC Area Class
1 0.030 0.998 < 25 Años
0.938 0.058 0.981 25 - 35 Años
1 15 0 0 B = 25-35 años 0.833 0 0.982 36 - 45 Años
0.800 0.026 0.978 > 45 Años
0.909 0.035 0.987 weighted avg.
0 1 10 1 C = 36-45 años
0 1 0 4 D = >45 años
* Este no es el modelo final, este es un modelo simplificado para la presentación, pero válido y funcional.
Data Mining de la Información Social 19
20. Estimando “rápidamente” el género de los twitteros:
03 Seleccionamos los nombres que más se repiten...
20133 Luis M
1.3MM 17026 Jose M
Base Total Usuarios de Twitter Peruanos
1MM
16478 Carlos M
15664 Juan M
11274 Jorge M
9013 Maria F
8516 Miguel M
6632 Cesar M
6470 Diego M
5936 Victor M
5775 Daniel M
5616 Julio M
5208 Ana F
5127 David M
5081 Claudia F
Luis Tula Maryo 5005 Manuel M
4630 Andrea F
2300 12000+
4590 Diana F
Nombres únicos ordenados del más repetido al menos repetido 4565 Javier M
De la base de 1.3 MM de Twitteros pudimos colocarle género con un alto grado de precisión a 1MM
Data Mining de la Información Social 20
21. 04
Creando un
algorítmo de
“análisis del
sentimiento” con
sabor nacional.
Data Mining de la Información Social 21
22. Algoritmo de sentimiento: El objetivo es generar un score de
04 sentimiento para la expresión
Limpieza de Diccionario Reglas
“Lemmatización”
Texto Palabras y Frases de Contexto
bieeeeen jugado! detestando todo Potencia:
“Detestar” -> -3 “muy bueno” vs. “bueno”
“Bien” -> +1
bien jugado! detestar todo “la rompen” -> +2 Negación:
“no es bueno”
Typos Lemas Ppos/Pneg Reglas
Data Mining de la Información Social 22
23. Algoritmo de sentimiento: El objetivo es generar un score de
04 sentimiento para la expresión
-3
Sentimiento Categoria
Que basuuuuraaa el patita de serv. al cliente por eso -6
no compraré ni muerto en crappybrand.
Intención de
-3
Sentimiento
Compra
Data Mining de la Información Social 23
24. 05
¿Qué es lo que
podemos hacer con
tantos juguetes? :)
Data Mining de la Información Social 24
25. 05 Geolocalizando la conversación...
Data Mining de la Información Social 25
26. 05 QUANTICO TV !
Data “DUMMY” no es información real. Solamente como ejemplo de una posible visualización a ser lanzada en unas semanas.
Data Mining de la Información Social 26
27. 05 QUANTICO TV !
Data “DUMMY” no es información real. Solamente como ejemplo de una posible visualización a ser lanzada en unas semanas.
Data Mining de la Información Social 27
28. 05 Quantico Trends, hace simple el trabajo de análisis
Revisión de • Lectura ad-hoc de medios nacionales
millones de • 1.3 Millones+ de Twitteros Peruanos mapeados
fuentes • Páginas de Facebook peruanas (abiertas)
• Miles de blogs peruanos, videos youtube, foros, webs…
Organizamos • Clasificamos “keywords” de la Empresa y la competencia
y clasificamos • Clasificamos por negocios : Marcas, Categorias, Temas..
los temas • Clasificaciones adicionales (ej. “Evento1”, “Evento2”)
Asignación
de score de
• Se le asigna un score de sentimiento automáticamente
sentimiento
• Expresiones “locales” (ej. “que mostra la promo”)
Generación • La herramienta envía alertas automáticas de acuerdo a
distintos criterios definidos.
de Alertas
e Informes • Se generan informes periódicos que se comparten
internamente con los diferentes stakeholders.
Data Mining de la Información Social 28
29. muchas gracias!
Data Mining de la información Social
Caso: Twitter en el Perú
Javier Albarracín / @jalbarracin
Adap – 22 de Noviembre, 2012