Catedra INEGI Big Data en IBERO

BIG DATA
Marzo 2010
Febrero 2012

https://www.researchgate.net/publication/238704525_Managing_big_data_for_scientific_visualization
Antecedentes

TOTAL
Los algoritmos viajan a los datos distribuidos
Aportación básica

El mundo cambió hace ~ 14 años
https://en.wikipedia.org/wiki/Timeline_of_social_media

El mundo cambió hace ~ 14 22 años

Diciembre 2004
Octubre 2003
Y entonces:

Panorama Tecnológico (2010’s)

¿Qué es Big Data?
http://datascience.berkeley.edu/what-is-big-data/

(Gartner, 2012) Big data son activos de
información de gran volumen, alta velocidad y / o
gran variedad que exigen formas rentables e
innovadoras de procesamiento que permitan una
mejor comprensión, toma de decisiones y
automatización de procesos.
¿Qué es Big Data?
https://www.gartner.com/en/information-technology/glossary/big-data

http://www1.unece.org/stat/platform/download/attachments/58492100/Big+Data+HLG+Final.docx
Big Data en las Oficinas Nacionales de
Estadística (ONE)

Estadística (ONE)
• It is clear that during the next two years there is a need
to identify a few pilot projects that will serve as proof of
concept.
• Statistical organisations are, therefore, encouraged to
address formally Big data issues in their annual and
multi-annual work programmes by undertaking
research and pilot projects in selected areas and by
allocating appropriate resources for that purpose.

Estadística (ONE)
• 'new' exploration and analysis methods are required:
Visualization methods, Text mining, and High Performance
Computing.
• To use Big data, statisticians are needed with a different
mind-set and new skills. The processing of more and
more data for official statistics requires statistically aware
people with an analytical mind-set, an affinity for IT (e.g.
programming skills)

Estratificación Multivariada Nacional
Censo 2010
Acceso a Internet, Computadora, Teléfono Celular y Automóvil
2013

http://www.anlytcs.com/2014/01/data-science-venn-diagram-v20.html

Hilary Mason, Chief Data Scientist at bitly
http://www.forbes.com/sites/danwoods/2012/03/08/hilary-mason-what-is-a-data-scientist
Científico de Datos

https://101.datascience.community/2014/07/08/data-scientist-vs-data-engineer/

Equipo de Big Data y Ciencia de Datos

Valor
Análisis de Datos
Estadística
Machine Learning
Estadística
Descriptiva
Procesamiento de
Lenguaje Natural
Muestreo
Mucho más…
Análisis de
Redes (Grafos)
Visualización
Análisis de
Series de Tiempo
http://www.datascienceassn.org/
http://en.wikipedia.org/wiki/DIKW_Pyramid
https://im.ft-static.com/content/images/e91a32d0-2bac-11e3-bfe2-00144feab7de.pdf
Inspirado en:
Gramática de visualización
https://vega.github.io/vega/
Componentes de Big Data y Ciencia de Datos

Ciclo de vida de Ciencia de Datos
https://docs.microsoft.com/en-us/archive/blogs/machinelearning/introducing-the-team-data-science-process-from-microsoft

Estratificador INEGI (2011)

Estado de Animo de los Tuiteros
https://www.inegi.org.mx/app/animotuitero

Estado de Animo de los Tuiteros (2014)

~8 Redhat Servers (8 Gb Ram, 4 Cores)
~500 Milliones of Geo-Tweets
~200 Milliones dentro de México
> 4 Years ~ 24/7

Cubo de Datos Geoespaciales de México

Machine Learning (2019)
Entrenamiento
Censo 2010
Muestra Aleatoria
Geomediana libre de
nubes
30 metros
Machine Learning
Supervisado
Clasificación de
Densidad Urbana
Años no-censales
2019
Imágenes 2010

Cubo de Datos Geoespaciales de México (2020)

Lago de Datos 2020 - …
Mathis, C. (2017). Data Lakes. Datenbank-Spektrum, 17(3), 289–293.
https://doi.org/10.1007/s13222-017-0272-7

• Se requiere involucramiento y liderazgo de expertos del negocio.
• Es fundamental colaborar con la academia.
• No se requiere gran inversión en hardware, se pueden hacer los proyectos
piloto con los recursos que ya se cuentan.
• En proyectos de clasificación supervisada lo mas valioso es construir y
mantener actualizada una base de entrenamiento.
• Los proyectos de Big Data / Ciencia de Datos son proyectos de
investigación, NO HAY GARANTIAS DE ÉXITO.
Algunas lecciones aprendidas

Abel Alejandro Coronado Iruegas
abel.coronado@inegi.org.mx
GRACIAS @abxda

Catedra INEGI Big Data en IBERO

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (15)

Similar a Catedra INEGI Big Data en IBERO

Similar a Catedra INEGI Big Data en IBERO (20)

Más de Abel Alejandro Coronado Iruegas

Más de Abel Alejandro Coronado Iruegas (16)

Último

Último (20)

Catedra INEGI Big Data en IBERO

Notas del editor