El documento presenta un resumen de la sesión #5 del Meetup de Desarrollo de Software de Querétaro de marzo de 2018. El orador, Osvaldo Mercado Coss, realizó un análisis preliminar de datos públicos de los principales candidatos presidenciales mexicanos para las elecciones de 2018, incluyendo tweets, términos de búsqueda y contenido en las redes sociales. El objetivo fue contar una historia a partir de los datos sin hacer suposiciones iniciales.
2. Buscamos hacer un análisis de datos, pero
principalmente buscábamos contar una historia y
dejar preguntas en el camino.
Tampoco buscamos encontrar quién es mejor? sólo
buscamos saber cómo llegar a los datos a analizar y
encontrar datos del día a día con la finalidad de
interpretarlos.
Hablaremos de Data Science, pero muy
breve y sencillo; y a veces sin detalles.
No verás esto
Expectativas Reales
Cuales son sus expectativas de la presentación?
3. Marzo, 2018
Los Datos de los Presidenciables:
qué dicen los datos de tus
candidatos?
Presentado por Osvaldo Mercado Coss
4. 4
Osvaldo Mercado Coss
Backend Developer por error
● De Guadalajara, México
● No soy Data Scientist, ni Data Engineer, ni Data {algo}, pero
actualmente lanzando un venture de big data
● Senior Backend Developer en PSL Group
● Estudios en Multimedia, de alguna manera termine codeando en el
backend
○ Stack: LA|EMP, PHP + Framework, NodeJS
○ DevOps: AWS + Vagrant + Chef
○ DBs: MySQL/MariaDB, Amazon Aurora, CouchDB, Couchbase,
MongoDB y desgraciadamente SQL Server
○ Interesado en Software Escalable, DevOps & Perros
Un poco sobre mi:
Hola!
@omercadocoss
omercadocoss@polynomial.com.mx
https://mx.linkedin.com/in/osvaldomercado
14. Hasta el 15 de diciembre, en la lista
nominal —en la que están los
ciudadanos que solicitaron su
inscripción al Padrón y sí cuentan
con su credencial para votar con
fotografía vigente— estaban
inscritos 87 millones 879 mil 838
mexicanos AnimalPolítico.com
16. 16
La Línea de Tiempo Electoral
Qué está pasando y qué va a pasar?
Termina Precampaña
Precandidatos están
anunciándose desde el 14 de
Diciembre
Informes de
Precampaña / Registro
de Candidatos
Inicia Campaña
Electoral
Termina Campaña
Electoral
11 Febrero 12 Febrero 30 Marzo 27 Junio 28 Junio
Veda Electoral
Terminan y se prohíbe
cualquier tema de candidatos
1 Julio
Showtime!
21. Buscamos contar una historia a partir
de los datos, entrando
peligrosamente sin hipótesis a un
lugar sin ley del ámbito político:
la web.
22. 22
La “Terminator Experience” en Polynomial
Es el término interno para partir de la idea de que alguien con 0 conocimiento del entorno, empieza a tratar de entender su realidad
35. Insight #1:
En búsquedas locales y específicas,
tienes más información disponible
del candidato Ricardo Anaya Cortés,
que de cualquier otro
36. Insight #2:
Podrás encontrar más referencias y
contenido de Scooby Doo Papa, que
de cualquier otro candidato
(3x contenido más que Meade)
37. Preguntas:
¿Qué tanta variación existe por estado
en cuanto a los resultados?
¿Tendrá influencia el partido
gobernante local con el número de
resultados del candidato?
44. Preguntas:
¿Desde el punto de vista de
marketing/partido político, podrían
involucrarse con la Liga MX para
difundir información/propuestas de
candidatos?
¿Sería viable?¿y ético?
45. 45
Scrapper de Términos Sugeridos de Candidatos
Empezamos a indagar de qué nos hablaban los buscadores
10
Páginas
3
Buscadores
3
Búsquedas más
repetidas
3
Dispositivos
47. 47
Términos Sugeridos de AMLO - Sin Nombre
Qué nos sugieren los buscadores de Andrés Manuel López Obrador
48. 48
Términos Sugeridos de Anaya - Sin Nombre
Qué nos sugieren los buscadores de Ricardo Anaya Cortés
49. 49
Términos Sugeridos de Meade - Sin Nombre
Qué nos sugieren los buscadores de Antonio Meade Kuribreña
50. 50
Top 10 de Frecuencia de Términos Sugeridos
Por medio de Elasticsearch pudimos aplicar term vector a las palabras y obtener las más repetidas
Term vector
Stemmer
(light spanish)
Stop Whitespace /
Punctuation
84palabras únicas
51. 51
Top 10 de Frecuencia de Términos Sugeridos
Por medio de Elasticsearch pudimos aplicar term vector a las palabras y obtener las más repetidas
# PALABRA
1 biografía
2 esposa
3 propuestas | 2018
4 presidente
5 morena
6 familia | noticias
7 educación | padres
8 twitter
9 currículum | encuestas | apellido
10 (+15 términos )
52. 52
Top 10 de Frecuencia de Términos Sugeridos
Por medio de Elasticsearch pudimos aplicar term vector a las palabras y obtener las más repetidas
~290,000noticias en español de 2006 a 2018
en Polynomial | Media Metrics
entrenamos un modelo propietario de
categorización con las noticias
disponibles que pudimos obtener,
donde buscábamos un string de tema
político.
53. 53
Categorización de Términos Sugeridos
Por medio de un proceso de categorización con Apache Mahout que hemos trabajado, se categorizó así
# PALABRA CATEGORÍA CATEGORÍA CATEGORÍA
1 biografía
información
personal
2 esposa familia
3 propuestas | 2018
información
profesional
no asignada
4 presidente proyección
5 morena partido político
6 familia | noticias familia
7 educación | padres
información
profesional
familia
8 twitter social media
9 currículum | encuestas | apellido
información
profesional
proyección
información
personal
10 (+15 términos ) N/A N/A N/A
54. 54
Migrando nuestro modelo a Amazon Comprehend
Por medio de un proceso de categorización con Apache Mahout que hemos trabajado, se categorizó así
55. Insight #5:
Temas de índole familiar de los
candidatos son sugeridos por los
motores de búsqueda, a la par que la
información profesional.
56. Insight #6:
El primer término de búsqueda en
México es Facebook, sin embargo la
cuando se buscan candidatos
presidenciales la red social principal
es Twitter
59. Pregunta:
Al hacer una búsqueda neutral de un
candidato, es posible recibir términos
negativos de un candidato.
¿Esto puede afectar una decisión
electoral?
E.j corrupto, muerto
61. 61
Llegamos a Twitter
Quién es el más activo? Análisis de 10 días (arbitrarios)antes de terminar la precampaña y después de terminarla (sin retweets)
63. Insight #7:
El puntero en las encuestas: AMLO, es
el candidato con menos contenido en
Twitter, que es la plataforma más
asociada a candidatos
¿Conformismo? ¿ o Conservadurismo?
64. Insight #8:
Los candidatos manejan estrategias de
contenido completamente diferentes
uno de otro…
¿Casualidad? ¿Coincidencia?
¿Planeado?
¿o Diferencias de Audiencia Meta?
65. Insight #9:
Un tweet con una imagen
acompañada por texto, es la manera
más común de que un candidato se
dirija a sus followers
70. 70
De qué habló Anaya en Precampaña?
Qué temas salían de las cuentas de Ricardo Anaya Cortés?
71. 71
De qué habló AMLO en Precampaña?
Qué temas salían de las cuentas de Andrés Manuel López Obrador?
72. 72
De qué habló Meade en Precampaña?
Qué temas salían de las cuentas de José Antonio Meade Kuribreña?
73. Insight #12:
El contenido de cada candidato
denota preferencias por ubicaciones
específicas, así como se denota
claramente el discurso político propio
de cada uno.
74. Insight #13:
Meade es el candidato con más léxico
y que más palabras escribió en Twitter
AMLO es el más reservado y
repetitivo
(generó sólo 44% de palabras únicas que Meade)
76. Preguntas:
¿Meade está hablando de múltiples
temas mientras que los otros
candidatos no?
¿O será que los otros candidatos están
hablando por otro tipo de contenido?
77. 77
De qué hablaron más los candidatos?
Qué temas salían de las cuentas de todos los candidatos?
78. 78
Conclusión de los Datos de los Candidatos
No es grande, esta bastante resumida, pero es algo
El análisis de candidatos tiene
infinidad de análisis cuantitativos
y cualitativos por hacerse.
Ésta simple introducción sólo
busca dar una idea del mundo de
datos por analizarse
79. Preguntas:
¿Por medio de un análisis de datos o
de contenido podrías llegar a la
conclusión de elegir tu candidato?
¿O simplemente buscaría reforzar tu
selección por medio de éste?
81. Gracias!
Bienvenidas las preguntas, comentarios, quejas y sugerencias
omercadocoss@polynomial.com.mx
@omercadocoss
https://mx.linkedin.com/in/osvaldomercado
82. Apenas el inicio…
Storytelling y análisis de datos
de los candidatos 2018 a partir
del 30 de Marzo:
Polynomial Media Metrics @polynomialmm Polynomial Media Metrics @polynomialmm