SlideShare una empresa de Scribd logo
1 de 83
Querétaro Software
Development Meetup
Sesión #5
Marzo, 2018
Buscamos hacer un análisis de datos, pero
principalmente buscábamos contar una historia y
dejar preguntas en el camino.
Tampoco buscamos encontrar quién es mejor? sólo
buscamos saber cómo llegar a los datos a analizar y
encontrar datos del día a día con la finalidad de
interpretarlos.
Hablaremos de Data Science, pero muy
breve y sencillo; y a veces sin detalles.
No verás esto
Expectativas Reales
Cuales son sus expectativas de la presentación?
Marzo, 2018
Los Datos de los Presidenciables:
qué dicen los datos de tus
candidatos?
Presentado por Osvaldo Mercado Coss
4
Osvaldo Mercado Coss
Backend Developer por error
● De Guadalajara, México
● No soy Data Scientist, ni Data Engineer, ni Data {algo}, pero
actualmente lanzando un venture de big data
● Senior Backend Developer en PSL Group
● Estudios en Multimedia, de alguna manera termine codeando en el
backend
○ Stack: LA|EMP, PHP + Framework, NodeJS
○ DevOps: AWS + Vagrant + Chef
○ DBs: MySQL/MariaDB, Amazon Aurora, CouchDB, Couchbase,
MongoDB y desgraciadamente SQL Server
○ Interesado en Software Escalable, DevOps & Perros
Un poco sobre mi:
Hola!
@omercadocoss
omercadocoss@polynomial.com.mx
https://mx.linkedin.com/in/osvaldomercado
Agenda
¿Porqué el Tema?
¿Qué está Pasando en México?
Análisis de Datos de Candidatos Punteros
Conclusión
¡Pobre México, tan lejos de Dios y
tan cerca de Estados Unidos!
Jose Nemesio García Naranjo
12
Hasta el 15 de diciembre, en la lista
nominal —en la que están los
ciudadanos que solicitaron su
inscripción al Padrón y sí cuentan
con su credencial para votar con
fotografía vigente— estaban
inscritos 87 millones 879 mil 838
mexicanos AnimalPolítico.com
México Electoral - El Universal
16
La Línea de Tiempo Electoral
Qué está pasando y qué va a pasar?
Termina Precampaña
Precandidatos están
anunciándose desde el 14 de
Diciembre
Informes de
Precampaña / Registro
de Candidatos
Inicia Campaña
Electoral
Termina Campaña
Electoral
11 Febrero 12 Febrero 30 Marzo 27 Junio 28 Junio
Veda Electoral
Terminan y se prohíbe
cualquier tema de candidatos
1 Julio
Showtime!
17
18
19
Casualidad?
Buscamos contar una historia a partir
de los datos, entrando
peligrosamente sin hipótesis a un
lugar sin ley del ámbito político:
la web.
22
La “Terminator Experience” en Polynomial
Es el término interno para partir de la idea de que alguien con 0 conocimiento del entorno, empieza a tratar de entender su realidad
No opinamos, ni suponemos.
Nuestro análisis de datos empezó de
lo más básico y sin asunciones.
Y empezamos a desarrollar
preguntas e insights
28
29
30
31
32
33
34
Insight #1:
En búsquedas locales y específicas,
tienes más información disponible
del candidato Ricardo Anaya Cortés,
que de cualquier otro
Insight #2:
Podrás encontrar más referencias y
contenido de Scooby Doo Papa, que
de cualquier otro candidato
(3x contenido más que Meade)
Preguntas:
¿Qué tanta variación existe por estado
en cuanto a los resultados?
¿Tendrá influencia el partido
gobernante local con el número de
resultados del candidato?
38
39
Insight #3:
En plena precampaña, ninguno de los
top 25 queries en búsquedas de
Google en México fue acerca de un
tema electoral
41
Existe Información, pero Qué Se Busca?
Qué está pasando y qué va a pasar?
Insight #4:
Ninguno de los top 25 queries en
búsquedas rising de Google en México,
fue acerca de un tema electoral
Preguntas:
¿Son las elecciones en México no
relevantes para la población?
¿Buscan información de alguna otra
manera?
Preguntas:
¿Desde el punto de vista de
marketing/partido político, podrían
involucrarse con la Liga MX para
difundir información/propuestas de
candidatos?
¿Sería viable?¿y ético?
45
Scrapper de Términos Sugeridos de Candidatos
Empezamos a indagar de qué nos hablaban los buscadores
10
Páginas
3
Buscadores
3
Búsquedas más
repetidas
3
Dispositivos
46
Términos Sugeridos de AMLO
Qué nos sugieren los buscadores de Andrés Manuel López Obrador
47
Términos Sugeridos de AMLO - Sin Nombre
Qué nos sugieren los buscadores de Andrés Manuel López Obrador
48
Términos Sugeridos de Anaya - Sin Nombre
Qué nos sugieren los buscadores de Ricardo Anaya Cortés
49
Términos Sugeridos de Meade - Sin Nombre
Qué nos sugieren los buscadores de Antonio Meade Kuribreña
50
Top 10 de Frecuencia de Términos Sugeridos
Por medio de Elasticsearch pudimos aplicar term vector a las palabras y obtener las más repetidas
Term vector
Stemmer
(light spanish)
Stop Whitespace /
Punctuation
84palabras únicas
51
Top 10 de Frecuencia de Términos Sugeridos
Por medio de Elasticsearch pudimos aplicar term vector a las palabras y obtener las más repetidas
# PALABRA
1 biografía
2 esposa
3 propuestas | 2018
4 presidente
5 morena
6 familia | noticias
7 educación | padres
8 twitter
9 currículum | encuestas | apellido
10 (+15 términos )
52
Top 10 de Frecuencia de Términos Sugeridos
Por medio de Elasticsearch pudimos aplicar term vector a las palabras y obtener las más repetidas
~290,000noticias en español de 2006 a 2018
en Polynomial | Media Metrics
entrenamos un modelo propietario de
categorización con las noticias
disponibles que pudimos obtener,
donde buscábamos un string de tema
político.
53
Categorización de Términos Sugeridos
Por medio de un proceso de categorización con Apache Mahout que hemos trabajado, se categorizó así
# PALABRA CATEGORÍA CATEGORÍA CATEGORÍA
1 biografía
información
personal
2 esposa familia
3 propuestas | 2018
información
profesional
no asignada
4 presidente proyección
5 morena partido político
6 familia | noticias familia
7 educación | padres
información
profesional
familia
8 twitter social media
9 currículum | encuestas | apellido
información
profesional
proyección
información
personal
10 (+15 términos ) N/A N/A N/A
54
Migrando nuestro modelo a Amazon Comprehend
Por medio de un proceso de categorización con Apache Mahout que hemos trabajado, se categorizó así
Insight #5:
Temas de índole familiar de los
candidatos son sugeridos por los
motores de búsqueda, a la par que la
información profesional.
Insight #6:
El primer término de búsqueda en
México es Facebook, sin embargo la
cuando se buscan candidatos
presidenciales la red social principal
es Twitter
¿Twitter? ¿Covfefe?
Preguntas:
¿Porqué Twitter está asociándose a
nombres de candidatos aun cuando no
es la red social más buscada?
Pregunta:
Al hacer una búsqueda neutral de un
candidato, es posible recibir términos
negativos de un candidato.
¿Esto puede afectar una decisión
electoral?
E.j corrupto, muerto
60
Llegamos a Twitter...
Amamos odiar a Twitter
61
Llegamos a Twitter
Quién es el más activo? Análisis de 10 días (arbitrarios)antes de terminar la precampaña y después de terminarla (sin retweets)
62
Insight #7:
El puntero en las encuestas: AMLO, es
el candidato con menos contenido en
Twitter, que es la plataforma más
asociada a candidatos
¿Conformismo? ¿ o Conservadurismo?
Insight #8:
Los candidatos manejan estrategias de
contenido completamente diferentes
uno de otro…
¿Casualidad? ¿Coincidencia?
¿Planeado?
¿o Diferencias de Audiencia Meta?
Insight #9:
Un tweet con una imagen
acompañada por texto, es la manera
más común de que un candidato se
dirija a sus followers
Insight #10:
Meade es el único candidato que hace
uso del Retweet con quote
Insight #11:
YouTube es usado como plataforma
de apoyo en las candidaturas, pues
aún cuando no es la más buscada, es la
más referenciada
Preguntas:
¿Será la imagen la manera más efectiva
de twittear?
¿Cómo podrías medir esto?
¿Likes y Shares?
Preguntas:
¿Qué están haciendo los candidatos en
YouTube?
¿Están siendo vistos y escuchados en la
era del gold fish?
70
De qué habló Anaya en Precampaña?
Qué temas salían de las cuentas de Ricardo Anaya Cortés?
71
De qué habló AMLO en Precampaña?
Qué temas salían de las cuentas de Andrés Manuel López Obrador?
72
De qué habló Meade en Precampaña?
Qué temas salían de las cuentas de José Antonio Meade Kuribreña?
Insight #12:
El contenido de cada candidato
denota preferencias por ubicaciones
específicas, así como se denota
claramente el discurso político propio
de cada uno.
Insight #13:
Meade es el candidato con más léxico
y que más palabras escribió en Twitter
AMLO es el más reservado y
repetitivo
(generó sólo 44% de palabras únicas que Meade)
Insight #14:
Anaya es el candidato que más
hashtags usó
Preguntas:
¿Meade está hablando de múltiples
temas mientras que los otros
candidatos no?
¿O será que los otros candidatos están
hablando por otro tipo de contenido?
77
De qué hablaron más los candidatos?
Qué temas salían de las cuentas de todos los candidatos?
78
Conclusión de los Datos de los Candidatos
No es grande, esta bastante resumida, pero es algo
El análisis de candidatos tiene
infinidad de análisis cuantitativos
y cualitativos por hacerse.
Ésta simple introducción sólo
busca dar una idea del mundo de
datos por analizarse
Preguntas:
¿Por medio de un análisis de datos o
de contenido podrías llegar a la
conclusión de elegir tu candidato?
¿O simplemente buscaría reforzar tu
selección por medio de éste?
80
Gracias!
Bienvenidas las preguntas, comentarios, quejas y sugerencias
omercadocoss@polynomial.com.mx
@omercadocoss
https://mx.linkedin.com/in/osvaldomercado
Apenas el inicio…
Storytelling y análisis de datos
de los candidatos 2018 a partir
del 30 de Marzo:
Polynomial Media Metrics @polynomialmm Polynomial Media Metrics @polynomialmm
Estamos Contratando!
Web Developer
Web Designer
SEO Consultant
Data Analyst | Data Scientist
Graphic / Information Designer
countmein@polynomial.com.mx

Más contenido relacionado

Similar a Meetup Sesion #5: Que Dicen los Datos de tus Presidenciablaes

4. planeación para obtener el triunfo
4. planeación para obtener el triunfo4. planeación para obtener el triunfo
4. planeación para obtener el triunfo
Diana de Silan
 
Kapitolio reporte final1
Kapitolio reporte final1Kapitolio reporte final1
Kapitolio reporte final1
Martin Triana
 

Similar a Meetup Sesion #5: Que Dicen los Datos de tus Presidenciablaes (20)

Elementos de Estrategia Electoral
Elementos de Estrategia Electoral Elementos de Estrategia Electoral
Elementos de Estrategia Electoral
 
4. planeación para obtener el triunfo
4. planeación para obtener el triunfo4. planeación para obtener el triunfo
4. planeación para obtener el triunfo
 
Pronósticos de Resultados Electorales a Junio 2018
Pronósticos de Resultados Electorales a Junio 2018Pronósticos de Resultados Electorales a Junio 2018
Pronósticos de Resultados Electorales a Junio 2018
 
Murphine
MurphineMurphine
Murphine
 
Murphine
MurphineMurphine
Murphine
 
Israel navarro
Israel navarroIsrael navarro
Israel navarro
 
Ejercicio 7 slideshare
Ejercicio 7 slideshareEjercicio 7 slideshare
Ejercicio 7 slideshare
 
Kapitolio reporte final1
Kapitolio reporte final1Kapitolio reporte final1
Kapitolio reporte final1
 
1 honduras días de ciencia política
1  honduras   días de ciencia política1  honduras   días de ciencia política
1 honduras días de ciencia política
 
Protocolo Completo
Protocolo CompletoProtocolo Completo
Protocolo Completo
 
Campañas Electorales y Redes Sociales
Campañas Electorales y Redes SocialesCampañas Electorales y Redes Sociales
Campañas Electorales y Redes Sociales
 
Informe Monitero Online Elecciones Presidenciales Ecuador 2017
Informe Monitero Online Elecciones Presidenciales Ecuador 2017Informe Monitero Online Elecciones Presidenciales Ecuador 2017
Informe Monitero Online Elecciones Presidenciales Ecuador 2017
 
Estudio "Un lugar llamado Twitter" 2014 - El Departamento de los Investegas
Estudio "Un lugar llamado Twitter" 2014 - El Departamento de los InvestegasEstudio "Un lugar llamado Twitter" 2014 - El Departamento de los Investegas
Estudio "Un lugar llamado Twitter" 2014 - El Departamento de los Investegas
 
Pronósticos de Resultados Electorales a Junio 2018 (Formato Móvil)
Pronósticos de Resultados Electorales a Junio 2018 (Formato Móvil)Pronósticos de Resultados Electorales a Junio 2018 (Formato Móvil)
Pronósticos de Resultados Electorales a Junio 2018 (Formato Móvil)
 
Lara miranda adrián
Lara miranda adriánLara miranda adrián
Lara miranda adrián
 
Diapositivas de deivis
Diapositivas de deivisDiapositivas de deivis
Diapositivas de deivis
 
1er Reporte Radar ICP_Diciembre 2017
1er Reporte Radar ICP_Diciembre 20171er Reporte Radar ICP_Diciembre 2017
1er Reporte Radar ICP_Diciembre 2017
 
egos - Estrategias 2.0 para encontrar trabajo y talento en las Redes Sociales
egos - Estrategias 2.0 para encontrar trabajo y talento en las Redes Socialesegos - Estrategias 2.0 para encontrar trabajo y talento en las Redes Sociales
egos - Estrategias 2.0 para encontrar trabajo y talento en las Redes Sociales
 
Politica 2 0
Politica 2 0Politica 2 0
Politica 2 0
 
4ta Encuesta Giro País
4ta Encuesta Giro País4ta Encuesta Giro País
4ta Encuesta Giro País
 

Más de Osvaldo Mercado Coss

Más de Osvaldo Mercado Coss (6)

Meetup: Sesión #8 Domain Driven Design
Meetup: Sesión #8 Domain Driven DesignMeetup: Sesión #8 Domain Driven Design
Meetup: Sesión #8 Domain Driven Design
 
Meetup Sesión #4: Scrum, Kanban & XP
Meetup Sesión #4: Scrum, Kanban & XPMeetup Sesión #4: Scrum, Kanban & XP
Meetup Sesión #4: Scrum, Kanban & XP
 
Geekend 2018 - No trabajes en Local! (Utiliza Vagrant o Docker)
Geekend 2018 - No trabajes en Local! (Utiliza Vagrant o Docker)Geekend 2018 - No trabajes en Local! (Utiliza Vagrant o Docker)
Geekend 2018 - No trabajes en Local! (Utiliza Vagrant o Docker)
 
Meetup: Sesion #3 MongoDB - Pt 2
Meetup: Sesion #3 MongoDB - Pt 2Meetup: Sesion #3 MongoDB - Pt 2
Meetup: Sesion #3 MongoDB - Pt 2
 
Meetup: Sesion #2 MongoDB
Meetup: Sesion #2 MongoDBMeetup: Sesion #2 MongoDB
Meetup: Sesion #2 MongoDB
 
Meetup: Sesion #1 Unit Testing & Simian Army
Meetup: Sesion #1 Unit Testing & Simian ArmyMeetup: Sesion #1 Unit Testing & Simian Army
Meetup: Sesion #1 Unit Testing & Simian Army
 

Último

redes informaticas en una oficina administrativa
redes informaticas en una oficina administrativaredes informaticas en una oficina administrativa
redes informaticas en una oficina administrativa
nicho110
 

Último (12)

Avances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanaAvances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvana
 
How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.
 
investigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXIinvestigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXI
 
Buenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptxBuenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptx
 
redes informaticas en una oficina administrativa
redes informaticas en una oficina administrativaredes informaticas en una oficina administrativa
redes informaticas en una oficina administrativa
 
Avances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estosAvances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estos
 
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptxEL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
 
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptxPROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
 
Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21
 
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
 
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptxEVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNIT
 

Meetup Sesion #5: Que Dicen los Datos de tus Presidenciablaes

  • 2. Buscamos hacer un análisis de datos, pero principalmente buscábamos contar una historia y dejar preguntas en el camino. Tampoco buscamos encontrar quién es mejor? sólo buscamos saber cómo llegar a los datos a analizar y encontrar datos del día a día con la finalidad de interpretarlos. Hablaremos de Data Science, pero muy breve y sencillo; y a veces sin detalles. No verás esto Expectativas Reales Cuales son sus expectativas de la presentación?
  • 3. Marzo, 2018 Los Datos de los Presidenciables: qué dicen los datos de tus candidatos? Presentado por Osvaldo Mercado Coss
  • 4. 4 Osvaldo Mercado Coss Backend Developer por error ● De Guadalajara, México ● No soy Data Scientist, ni Data Engineer, ni Data {algo}, pero actualmente lanzando un venture de big data ● Senior Backend Developer en PSL Group ● Estudios en Multimedia, de alguna manera termine codeando en el backend ○ Stack: LA|EMP, PHP + Framework, NodeJS ○ DevOps: AWS + Vagrant + Chef ○ DBs: MySQL/MariaDB, Amazon Aurora, CouchDB, Couchbase, MongoDB y desgraciadamente SQL Server ○ Interesado en Software Escalable, DevOps & Perros Un poco sobre mi: Hola! @omercadocoss omercadocoss@polynomial.com.mx https://mx.linkedin.com/in/osvaldomercado
  • 5. Agenda ¿Porqué el Tema? ¿Qué está Pasando en México? Análisis de Datos de Candidatos Punteros Conclusión
  • 6.
  • 7.
  • 8.
  • 9.
  • 10.
  • 11. ¡Pobre México, tan lejos de Dios y tan cerca de Estados Unidos! Jose Nemesio García Naranjo
  • 12. 12
  • 13.
  • 14. Hasta el 15 de diciembre, en la lista nominal —en la que están los ciudadanos que solicitaron su inscripción al Padrón y sí cuentan con su credencial para votar con fotografía vigente— estaban inscritos 87 millones 879 mil 838 mexicanos AnimalPolítico.com
  • 15. México Electoral - El Universal
  • 16. 16 La Línea de Tiempo Electoral Qué está pasando y qué va a pasar? Termina Precampaña Precandidatos están anunciándose desde el 14 de Diciembre Informes de Precampaña / Registro de Candidatos Inicia Campaña Electoral Termina Campaña Electoral 11 Febrero 12 Febrero 30 Marzo 27 Junio 28 Junio Veda Electoral Terminan y se prohíbe cualquier tema de candidatos 1 Julio Showtime!
  • 17. 17
  • 18. 18
  • 19. 19
  • 21. Buscamos contar una historia a partir de los datos, entrando peligrosamente sin hipótesis a un lugar sin ley del ámbito político: la web.
  • 22. 22 La “Terminator Experience” en Polynomial Es el término interno para partir de la idea de que alguien con 0 conocimiento del entorno, empieza a tratar de entender su realidad
  • 23. No opinamos, ni suponemos.
  • 24. Nuestro análisis de datos empezó de lo más básico y sin asunciones. Y empezamos a desarrollar preguntas e insights
  • 25.
  • 26.
  • 27.
  • 28. 28
  • 29. 29
  • 30. 30
  • 31. 31
  • 32. 32
  • 33. 33
  • 34. 34
  • 35. Insight #1: En búsquedas locales y específicas, tienes más información disponible del candidato Ricardo Anaya Cortés, que de cualquier otro
  • 36. Insight #2: Podrás encontrar más referencias y contenido de Scooby Doo Papa, que de cualquier otro candidato (3x contenido más que Meade)
  • 37. Preguntas: ¿Qué tanta variación existe por estado en cuanto a los resultados? ¿Tendrá influencia el partido gobernante local con el número de resultados del candidato?
  • 38. 38
  • 39. 39
  • 40. Insight #3: En plena precampaña, ninguno de los top 25 queries en búsquedas de Google en México fue acerca de un tema electoral
  • 41. 41 Existe Información, pero Qué Se Busca? Qué está pasando y qué va a pasar?
  • 42. Insight #4: Ninguno de los top 25 queries en búsquedas rising de Google en México, fue acerca de un tema electoral
  • 43. Preguntas: ¿Son las elecciones en México no relevantes para la población? ¿Buscan información de alguna otra manera?
  • 44. Preguntas: ¿Desde el punto de vista de marketing/partido político, podrían involucrarse con la Liga MX para difundir información/propuestas de candidatos? ¿Sería viable?¿y ético?
  • 45. 45 Scrapper de Términos Sugeridos de Candidatos Empezamos a indagar de qué nos hablaban los buscadores 10 Páginas 3 Buscadores 3 Búsquedas más repetidas 3 Dispositivos
  • 46. 46 Términos Sugeridos de AMLO Qué nos sugieren los buscadores de Andrés Manuel López Obrador
  • 47. 47 Términos Sugeridos de AMLO - Sin Nombre Qué nos sugieren los buscadores de Andrés Manuel López Obrador
  • 48. 48 Términos Sugeridos de Anaya - Sin Nombre Qué nos sugieren los buscadores de Ricardo Anaya Cortés
  • 49. 49 Términos Sugeridos de Meade - Sin Nombre Qué nos sugieren los buscadores de Antonio Meade Kuribreña
  • 50. 50 Top 10 de Frecuencia de Términos Sugeridos Por medio de Elasticsearch pudimos aplicar term vector a las palabras y obtener las más repetidas Term vector Stemmer (light spanish) Stop Whitespace / Punctuation 84palabras únicas
  • 51. 51 Top 10 de Frecuencia de Términos Sugeridos Por medio de Elasticsearch pudimos aplicar term vector a las palabras y obtener las más repetidas # PALABRA 1 biografía 2 esposa 3 propuestas | 2018 4 presidente 5 morena 6 familia | noticias 7 educación | padres 8 twitter 9 currículum | encuestas | apellido 10 (+15 términos )
  • 52. 52 Top 10 de Frecuencia de Términos Sugeridos Por medio de Elasticsearch pudimos aplicar term vector a las palabras y obtener las más repetidas ~290,000noticias en español de 2006 a 2018 en Polynomial | Media Metrics entrenamos un modelo propietario de categorización con las noticias disponibles que pudimos obtener, donde buscábamos un string de tema político.
  • 53. 53 Categorización de Términos Sugeridos Por medio de un proceso de categorización con Apache Mahout que hemos trabajado, se categorizó así # PALABRA CATEGORÍA CATEGORÍA CATEGORÍA 1 biografía información personal 2 esposa familia 3 propuestas | 2018 información profesional no asignada 4 presidente proyección 5 morena partido político 6 familia | noticias familia 7 educación | padres información profesional familia 8 twitter social media 9 currículum | encuestas | apellido información profesional proyección información personal 10 (+15 términos ) N/A N/A N/A
  • 54. 54 Migrando nuestro modelo a Amazon Comprehend Por medio de un proceso de categorización con Apache Mahout que hemos trabajado, se categorizó así
  • 55. Insight #5: Temas de índole familiar de los candidatos son sugeridos por los motores de búsqueda, a la par que la información profesional.
  • 56. Insight #6: El primer término de búsqueda en México es Facebook, sin embargo la cuando se buscan candidatos presidenciales la red social principal es Twitter
  • 58. Preguntas: ¿Porqué Twitter está asociándose a nombres de candidatos aun cuando no es la red social más buscada?
  • 59. Pregunta: Al hacer una búsqueda neutral de un candidato, es posible recibir términos negativos de un candidato. ¿Esto puede afectar una decisión electoral? E.j corrupto, muerto
  • 61. 61 Llegamos a Twitter Quién es el más activo? Análisis de 10 días (arbitrarios)antes de terminar la precampaña y después de terminarla (sin retweets)
  • 62. 62
  • 63. Insight #7: El puntero en las encuestas: AMLO, es el candidato con menos contenido en Twitter, que es la plataforma más asociada a candidatos ¿Conformismo? ¿ o Conservadurismo?
  • 64. Insight #8: Los candidatos manejan estrategias de contenido completamente diferentes uno de otro… ¿Casualidad? ¿Coincidencia? ¿Planeado? ¿o Diferencias de Audiencia Meta?
  • 65. Insight #9: Un tweet con una imagen acompañada por texto, es la manera más común de que un candidato se dirija a sus followers
  • 66. Insight #10: Meade es el único candidato que hace uso del Retweet con quote
  • 67. Insight #11: YouTube es usado como plataforma de apoyo en las candidaturas, pues aún cuando no es la más buscada, es la más referenciada
  • 68. Preguntas: ¿Será la imagen la manera más efectiva de twittear? ¿Cómo podrías medir esto? ¿Likes y Shares?
  • 69. Preguntas: ¿Qué están haciendo los candidatos en YouTube? ¿Están siendo vistos y escuchados en la era del gold fish?
  • 70. 70 De qué habló Anaya en Precampaña? Qué temas salían de las cuentas de Ricardo Anaya Cortés?
  • 71. 71 De qué habló AMLO en Precampaña? Qué temas salían de las cuentas de Andrés Manuel López Obrador?
  • 72. 72 De qué habló Meade en Precampaña? Qué temas salían de las cuentas de José Antonio Meade Kuribreña?
  • 73. Insight #12: El contenido de cada candidato denota preferencias por ubicaciones específicas, así como se denota claramente el discurso político propio de cada uno.
  • 74. Insight #13: Meade es el candidato con más léxico y que más palabras escribió en Twitter AMLO es el más reservado y repetitivo (generó sólo 44% de palabras únicas que Meade)
  • 75. Insight #14: Anaya es el candidato que más hashtags usó
  • 76. Preguntas: ¿Meade está hablando de múltiples temas mientras que los otros candidatos no? ¿O será que los otros candidatos están hablando por otro tipo de contenido?
  • 77. 77 De qué hablaron más los candidatos? Qué temas salían de las cuentas de todos los candidatos?
  • 78. 78 Conclusión de los Datos de los Candidatos No es grande, esta bastante resumida, pero es algo El análisis de candidatos tiene infinidad de análisis cuantitativos y cualitativos por hacerse. Ésta simple introducción sólo busca dar una idea del mundo de datos por analizarse
  • 79. Preguntas: ¿Por medio de un análisis de datos o de contenido podrías llegar a la conclusión de elegir tu candidato? ¿O simplemente buscaría reforzar tu selección por medio de éste?
  • 80. 80
  • 81. Gracias! Bienvenidas las preguntas, comentarios, quejas y sugerencias omercadocoss@polynomial.com.mx @omercadocoss https://mx.linkedin.com/in/osvaldomercado
  • 82. Apenas el inicio… Storytelling y análisis de datos de los candidatos 2018 a partir del 30 de Marzo: Polynomial Media Metrics @polynomialmm Polynomial Media Metrics @polynomialmm
  • 83. Estamos Contratando! Web Developer Web Designer SEO Consultant Data Analyst | Data Scientist Graphic / Information Designer countmein@polynomial.com.mx