Congreso UAA 2018 Animo Tuitero 2 0

Arquitectura y Experiencia en la construcción del
"Estado de Ánimo de los Tuiteros en México 2.0"
@abxda

XII Congreso de Ciencias Exactas UAA
@abxdaAño 2012
Primer Producto de Ciencia de Datos

@abxda
El equipo de trabajo

@abxda
Grupo Directivo
Management-Group: The managers of the
Entire data science unit.
• Chief Data Scientist
• Domain Experts (Staff)
• Research Scientists (Staff)
• Agile Master (Staff)
• Systems Engineering Expert (Staff)
Dr. Alfredo Bustos

@abxda
Equipo de Ingeniería de Datos
• Data Engineering Team
• Data Engineer
• SysAdmin
• Statistician
• Geomatic Engineer
• Dataviz Expert
• GPU Developer
• IoT Expert
• Cloud Engineer
M.C. Abel Coronado
M.I. Oswaldo Diaz
L.I. Brenda Alejandra Muñoz
Tendencia: Kubernetes; Mesosphere DC/OS; Docker

@abxda
Equipo de Ciencia de Datos
Tendencia: AutoML ; Tensorflow; Keras; Python
• Data Science Team
• Data Scientist
• Statistician
• Mathematician
• Machine Learning Expert
• Deep Learning Expert
M.C. Miriam Romo
M.C. Abel Coronado

@abxda
Equipo de Producto de Datos
• Data Product Team
• Data Engineer
• Software Architect
• UX Expert
• App Developer
• Web Developer
• API Developer
M.C. Abel Coronado
L.D.G. Marco Ibarra
I.S.C. Ricardo Olvera
M.I. Oswaldo Diaz
Tendencia: SAAS; ITCSS; REACT, VUE.js, D3.js

@abxda
Grupo Dev Sec Ops
• Arquitecto DevSecOps (Developer Security Operation)
• Ingeniería de procesos
• [Patrones de Diseño]
• Control de Calidad TI
• [Normatividad y Cumplimientos]
• Infraestructura TI
• [Tolerante a fallas]
• Ciberseguridad
• [Administración de riesgos]
M.I. Oswaldo Diaz
Tendencia: Cloud to the edge; Hyper Converged Infrastructure; Blockchain
By  edgaroswaldodiaz2375@gmail.com

@abxda
Producto de Datos año 2013

@abxda
Big Data

@abxda
Arquitectura de Big Data y Ciencia de Datos

@abxda
Big Data y Ciencia de Datos
• Propuesta de indicadores obtenidos a partir de fuentes Big Data
• Establecimiento de correlaciones entre éstos y los producidos por la estadística oficial.
• Producción científica de los académicos participantes

@abxda
Equipo Interinstitucional

@abxda
Equipo de Ciencia de Datos
• Data Science Team
• Data Scientist
• Statistician
• Mathematician
• Machine Learning Expert
• Deep Learning Expert
Dra. Daniela Moctezuma
C. Dr. Elio Villaseñor
Dr. Mario Graff
Dr. Eric Tellez
Dr. Sabino Miranda
Dr. Oscar S. Siordia https://goo.gl/tegYae https://goo.gl/tzzbR0

@abxda
Recolección de Tuits Feb. 2014

@abxda
Infraestructura de Recolección Inicial

@abxda
Tuits geo-referenciados
https://abxda.wordpress.com

@abxda
Tuits Recolectados

@abxda
Base de Datos de Entrenamiento
https://cienciadedatos.inegi.org.mx/pioanalisis/

@abxda
Conjunto de Datos Etiquetado
• 54,131 Tuits etiquetados manualmente por 9,330 personas
• La clasificación sigue en :
https://cienciadedatos.inegi.org.mx/pioanalisis/

@abxda
Retos del análisis de sentimiento en redes
sociales
• Uso de Modismos
• Errores Ortográficos
• Errores Gramaticales
• Entre otros . . . 38,000
palabras
95,000
palabras

@abxda
Proceso de Clasificación de Sentimiento
• Normalización del Texto
• Representación vectorial del texto
• Entrenamiento del algoritmo de Machine Learning
• Clasificación del texto en producción

@abxda
Ejemplo de la normalización del texto
TEXTO ORIGINAL:
pésiiiimo auto :( @autoX fallan frenos y sistema de
entretenimiento; no lo compren
NORMALIZACIÓN:
pesiiiimo auto _negativo _user fallan frenos y sistema de
entretenimiento ; lo no_compren

@abxda
Ejemplo de la normalización del texto q-gramas
{_pes, pesi, esii, siii, iiii, iiim, iimo, imo_, mo_a, o_au, _aut, auto, uto_, to__,
o__n, __ne, _neg, nega, egat, gati, ativ, tivo, ivo_, vo__, o__u, __us, _use, user,
ser_, er_f, r_fa, _fal, fall, alla, llan, lan_, an_f, n_fr, _fre, fren, reno, enos,
nos_, os_y, s_y_, _y_s, y_si, _sis, sist, iste, stem, tema, ema_, ma_d, a_de, _de_,
de_e, e_en, _ent, entr, ntre, tret, rete, eten, teni, enim, nimi, imie, mien, ient,
ento, nto_, to_;, o_;_, _;_l, ;_lo, _lo_, lo_n, o_no, _no_, no_c, o_co, _com, comp,
ompr, mpre, pren, ren_ }
_pesiiiimo_auto__negativo__user_fallan_frenos_y_sistema_de_entretenimiento_;_
lo_no_compren
q=4

@abxda
{_pes, pesi, esii, siii, iiii, iiim, iimo, imo_, mo_a, o_au, _aut, auto, uto_, to__,
o__n, __ne, _neg, nega, egat, gati, ativ, tivo, ivo_, vo__, o__u, __us, _use, user,
ser_, er_f, r_fa, _fal, fall, alla, llan, lan_, an_f, n_fr, _fre, fren, reno, enos,
nos_, os_y, s_y_, _y_s, y_si, _sis, sist, iste, stem, tema, ema_, ma_d, a_de, _de_,
de_e, e_en, _ent, entr, ntre, tret, rete, eten, teni, enim, nimi, imie, mien, ient,
ento, nto_, to_;, o_;_, _;_l, ;_lo, _lo_, lo_n, o_no, _no_, no_c, o_co, _com, comp,
ompr, mpre, pren, ren_ }
_pesiiiimo_auto__negativo__user_fallan_frenos_y_sistema_de_entretenimiento_;_
lo_no_compren
q=4
Ejemplo de la normalización del texto q-gramas

@abxda
Representación vectorial del texto

@abxda
Algoritmo de Aprendizaje Maquina SVM

@abxda
Entrenamiento del algoritmo SVM
Tuits Positivos
Tuits Negativos

@abxda
Tuits Positivos
Tuits Negativos
Entrenamiento del algoritmo SVM

@abxda
Regla de Decisión
Clasificación Supervisada
Tuits Etiquetados Normalización y Representación Vectorial Entrenamiento
Nuevo Tuit
Estado de ánimo de los tuiteros
Normalización y Representación Vectorial
54,131 Tuits
etiquetados manualmente
por 9,330 personas

@abxda
Ánimo Tuitero 1.0 año 2015

@abxda
LOGSTASH
(2 Cores)
Location Query
Free Access
Apache Spark
(16 Cores)
Clean & Sentiment Analysis
Tweets
Procesamiento
Diario (6 Min)
(3 a.m.)
300 K
Geo-Tweets
Minimal
Representation
~8 Redhat Servers (8 Gb Ram, 4 Cores)
~300 Milliones of Geo-Tweets
~150 Milliones dentro de México
> 3 Years ~ 24/7
Ánimo Tuitero 2.0 año - 2018

@abxda

@abxda
Otros Proyectos
(Experiencia en 2014)
https://goo.gl/wHG0xE

@abxda
Estudiar la movilidad es un proceso complejo

@abxda
Herramienta de Consulta de la Movilidad de los Tuiteros
(2017)

@abxda
Detección del crecimiento de localidades
urbanas usando Twitter (2017)

@abxda
Nuevas Fuentes de Datos

@abxda
Imágenes de Satélite
https://www.technologyreview.com/s/603706/the-startup-thats-in-charge-of-the-biggest-private-satellite-fleet/ http://www.bbc.com/news/science-environment-39183353

@abxda

@abxda
Extender los trabajos a otras fuentes de datos
Landsat 8
https://aws.amazon.com/es/public-datasets/landsat/
Tiempo de Revisita es de 16 días
30 m
https://upload.wikimedia.org/wikipedia/commons/4/48/HyperspectralCube.jpg

@abxda
Big Data 2,737,273,075 pixeles

@abxda
Extender los trabajos a otras fuentes de datos
Sentinel 2 A & B
https://scihub.copernicus.eu/
Tiempo de Revisita es de 5 días (Nov. 2017)
10 m
https://upload.wikimedia.org/wikipedia/commons/4/48/HyperspectralCube.jpg
http://www.mallontechnology.com/blog/view/198/sentinel-data-helping-downstream-space-industry-deliver-31-billion-in-benefits

@abxda
LANDSAT & SENTINEL
LANDSAT 8 (30 m) SENTINEL 2 (10 m)
30 m 10 m
2,737,273,075 pixeles 24,635,457,675 pixeles

@abxda
Sentinel
SENTINEL 2 (10 m)

@abxda
Datos de Entrenamiento

@abxda
Proceso de clasificación de imágenes de satélite
Selección del Modelo de Clasificación
Clases de cobertura
de suelo
(30 m y 10 m)
Clasificación realizada por Expertos
de Percepción Remota
INEGI
15m, Modelo Digital de Elevación
Información Auxiliar
+
Extracción / Selección /
Generación de
Carácterísticas
Conjunto de Entrenamiento y
Pruebas
Experimentos
mediante validación
cruzada
Clasificador
Seleccionado
Bosques Aleatorios
SVM
Redes Neuronales
(Deep Learning)

@abxda
Algunos Aprendizajes
• Se requiere involucramiento y liderazgo de expertos del negocio.
• Es fundamental colaborar con la academia.
• No se requiere gran inversión en hardware, se pueden hacer los proyectos piloto
con los recursos que ya se cuentan.
• En proyectos de clasificación supervisada lo mas valioso es construir y mantener
actualizada una base de entrenamiento.
• Los proyectos de Big Data / Ciencia de Datos son proyectos de investigación, NO
HAY GARANTIAS DE ÉXITO.

@abxda
GRACIAS!

@abxda
¿Preguntas?
abel.coronado@inegi.org.mx
MC Abel Coronado
@abxda

Conociendo México
01 800 111 46 34
www.inegi.org.mx
atencion.usuarios@inegi.org.mx
@inegi_informa INEGI Informa

Congreso UAA 2018 Animo Tuitero 2 0

Recomendados

Recomendados

Más contenido relacionado

Similar a Congreso UAA 2018 Animo Tuitero 2 0

Similar a Congreso UAA 2018 Animo Tuitero 2 0 (20)

Más de Abel Alejandro Coronado Iruegas

Más de Abel Alejandro Coronado Iruegas (20)

Último

Último (20)

Congreso UAA 2018 Animo Tuitero 2 0