Esta es una actualización de el proyecto de Big Data que ha llegado a un primer resultado, El mapa de emotividad basada en Twitter, por cada entidad de México. El siguiente paso será hacer esto en tiempo real.
12. Según Gartner
Big data es información en altos
volúmenes, alta velocidad o alta
variedad que demanda formas
creativas y viables económicamente
para procesarla con el fin de contribuir
a tomar decisiones, actuar y crear
valor.
http://www.ft.com/intl/cms/e91a32d0-2bac-11e3-bfe2-00144feab7de.pdf
¿Qué es Big Data?
@abxda
16. Big Data en las Oficinas Nacionales de
Estadística
http://www1.unece.org/stat/platform/download/attachments/58492100/Big+Data+HLG+Final.docx?version=1&modificationDate=1362939424184
@abxda
17. • It is clear that during the next two years there
is a need to identify a few pilot projects that
will serve as proof of concept.
• Statistical organisations are, therefore,
encouraged to address formally Big data
issues in their annual and multi-annual work
programmes by undertaking research and pilot
projects in selected areas and by allocating
appropriate resources for that purpose.
@abxda
Big Data en las Oficinas Nacionales de
Estadística
18. • 'new' exploration and analysis methods are
required: Visualization methods, Text mining, and
High Performance Computing.
• To use Big data, statisticians are needed with a
different mind-set and new skills. The
processing of more and more data for official
statistics requires statistically aware people with
an analytical mind-set, an affinity for IT (e.g.
programming skills)
@abxda
Big Data en las Oficinas Nacionales de
Estadística
20. Experto en
computación y
desarrollo
avanzados
Experto en
estadística
matemática
Experto en
el dominio de
datos
CIENCIA
DE
DATOS
Zona
peligrosa!
Investigación
tradicional
Machine
learning
Ciencia de Datos
@abxda
http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram
21. Experto en
computación y
desarrollo
avanzados
Experto en
estadística
matemática
Experto en
el dominio de
datos
Unicornio
Zona
peligrosa!
Investigación
tradicional
Machine
learning
Ciencia de Datos
@abxda
CIENCIA
DE
DATOS
http://www.anlytcs.com/2014/01/data-science-venn-diagram-v20.html
22. Científico de Datos
Ingeniero de Datos
@abxda
Productos
de Datos
Manejar
las 3 v’s
vs
Visualización
Modelado
Contar
Historias
Científico de Datos
Administración
de Sistemas
Programación
Matemáticas
Estadística
Ingeniero de Datos
Administración de
Bases de Datos
Almacenamiento de
Datos
http://101.datascience.community/2014/07/08/data-scientist-vs-data-engineer/
23. Equipo de Big Data y Ciencia de Datos
Estadística
Matemáticas
Machine Learning
Minería de Texto
Interfaces de Usuario
Experiencia del Usuario
First Mobile
Visualización de Datos
Ingeniería de Software
Administradores de Sistemas
Bases de datos NoSQL
Arquitecturas Big Data
Arquitecturas de Software
Crowdsourcing
@abxda
24. Internet de las cosas
Internet de las personas
Internet de las ideas
Internet del todo
Datos
Crudos
hdfs://
Información
(Significado)
Tomar
Decisiones
Actuar
¿quién?
¿cuántos?
¿por qué?
¿qué?¿Dónde?
Análisis de Datos
Estadística Machine Learning
Estratificaciones
Análisis de Regresión
Muestreo
Mucho más…
Análisis de Redes (Grafos)
Minería de Datos
Volumen
Ciencia de Datos
(Transforma/Modela)
Cómputo Concurrente y Paralelo
Arquitectura para
Ciencia de Datos y Big Data
@abxda@hbcolectivo
25. Internet de las Personas
Internet de las Cosas
Sensores
{ json }
< xml >
c,s,v
Redes Sociales
Internet de las Ideas
Crowdsourcing
Sistemas de Archivos
Distribuidos
Computo Paralelo y
Concurrente
Programación Funcional
Razonamiento Algebraico
Estadística
Análisis Multivariado
Machine Learning
Análisis de Interacción Espacial
{ json }
< xml >
c,s,v
{ json }
< xml >
c,s,v
Bases de Datos
NoSQL
Visualización
Panorama Tecnológico
Infraestructura de Cómputo
28. Tecnologías Involucradas (2013)
@abxda
D3.js Librería JavaScript para creación de los
gráficos vectoriales interactivos.
Librería JavaScript facilita la incorporación del patrón
MVC en aplicaciones web de una sola página
Diseño de estructura de la página y habilitación
responsiva via Twitter Bootstrap.
JSON formato de intercambio de datos.
Motor de análisis estadístico,
habilitador de la inteligencia
estadística.
33. %Acceso a Internet, %Pc, %Telefono Celular, %Automovil @abxda
Estratificación de 1.2 M de Manzanas
En la misma Pc de 4 Procesadores:
(2013)
Software Tiempo Manzanas
Big Data 8 Seg. 1’221,18
0
Tradicional 8 Seg. 2,666
https://spark.apache.org/
35. 2009 2010 2011 2012 2013 2014 2015
(Junio) GIVAS =
Global Pulse
(2010) UNECE-
CES crea HLG-
BAS = HLG on
Modernisation
of Statistical
Production and
Services
(Oct. 2010) Día Mundial
de la Estadística.
“Tendencias actuales
de la estadística
aplicada”, por John
Brocklebank, SAS
(Agosto 2011)
ISI Dublin sesión
sobre Análisis
Estadístico de
Redes Sociales.
(Nov. 2012)
HLG_BAS
“IDENTIFYING KEY
PRIORITIES FOR
2013 AND
BEYOND”
menciona, por fin,
Big Data y Open
Data.
(Agosto 2013)
propuesta BigData
– Fondo Conacyt
Inegi.
DGAI Inicia
con
Herramientas
Big Data
(Octubre 2013)
Encuentro con
Seligman en
Monterrey en
evento de Tec
Milenio Institu
to de ciencias
de la felicidad.
(Diciembre
2013) Visita
de Upenn a
INEGI
(Febrero
2014) Inicia
recolección
de Tuits
(Hydra)
(Junio 2014)
Seminario
Internacional
Inegi Big Data
en INFOTEC
(Julio 2014)
SECTUR y
mapa
resultado y
paper.
(Agosto
2014) Inicia
Pioanálisis
(Nov.
2014)
Concluye
clasificac
ión de
Twits.
(Diciembre
2014)
Involucramien
to Infotec-
Geo etiquetad
o de tuits
(Febrero
2015) Viaje
a UPenn
(Febrero
2015)
Seminario
Infotec-
CentroGeo-
Inegi.
(Abril 2015)
Herramienta
de Medición
de Bienestar
en Tiempo
Real
(Junio 2015)
Entrega del
primer conjunto
de 60M
clasificado por
INFOTEC
(Julio 2015)
Herramienta
de
Visualización
@abxda
37. OBJETIVO DEL PROYECTO
Generar indicadores experimentales, nuevos o que
complementen los generados por métodos tradicionales,
utilizando técnicas de Big Data para la extracción,
almacenamiento, procesamiento, análisis y visualización de
los datos.
@abxda
38. Impactos esperados del proyecto
Desarrollo Estadístico
• Propuesta de indicadores obtenidos a partir de
fuentes Big Data
• Establecimiento de correlaciones entre éstos y los
producidos por la estadística oficial.
• Producción científica de los académicos
participantes
@abxda
39. Impactos esperados del proyecto
Desarrollo Tecnológico
• Adquirir experiencia práctica en nuevas técnicas de
recolección, integración, procesamiento, análisis y
visualización de datos
• Identificar el proceso, los procedimiento, las habilidades, los
roles y el flujo de trabajo que serían necesarios para poder
desarrollar las capacidades institucionales
• Identificar los requerimientos de Hardware y Software para
desarrollar un ambiente de producción de Big Data
@abxda
52. – 1 año 7 meses de estar recolectando las 24 horas 7 días de la
semana tuits georeferenciados.
– Mas de 150 millones de tuits recolectados
Recolección de tuits en Archivos
Distribuidos con Bases de Datos NoSQL.
@abxda
66. Proceso de Machine Learning
Muestra de Tuits
Etiquetado Manual
Representación numérica
http://scikit-learn.org/
http://www.r-project.org/
Machine Learning
Tuits en Tiempo Real
Clasificador
Indicador
de sentimiento
@abxda
Entrenamiento
Producción
68. @abxda
D3.js Librería JavaScript para creación de los
gráficos vectoriales interactivos.
Librería JavaScript facilita la incorporación del patrón
MVC en aplicaciones web de una sola página
Diseño de estructura de la página y habilitación
responsiva via Twitter Bootstrap.
JSON formato de intercambio de datos.
Web Api 2 / Interface REST
Tecnologías Involucradas
Big Data solía significar que una sola maquina cierta cantidad de datos, Ahora Big Data se ha convertido en una palabra de moda.
Nota:
El tema de Big Data es tan nuevo para la generación de la Estadística Oficial, que no existe un modelo único, en varios Organismos Internacionales y Oficinas Nacionales de Estadística se están llevando a cabo proyectos piloto como el de INEGI, para tener la oportunidad de adquirir experiencia práctica en el tema.
Fortalecimiento de los procesos de generación de información estadística, mediante el establecimiento de nuevas técnicas de recolección, integración, procesamiento, análisis y visualización de información, proveniente de nuevas fuentes de datos electrónicos (como sistemas en Internet, dispositivos inteligentes, etc.)
Identificación a un alto nivel de abstracción del proceso, los procedimiento, las habilidades, los roles y el flujo de trabajo que serían necesarios para poder desarrollar las capacidades institucionales
Identificación de los requerimientos de Hardware y Software para soportar las técnicas y metodologías de Big Data y generar arquitecturas tecnológicas solidas para un ambiente de producción
Fortalecimiento de los procesos de generación de información estadística, mediante el establecimiento de nuevas técnicas de recolección, integración, procesamiento, análisis y visualización de información, proveniente de nuevas fuentes de datos electrónicos (como sistemas en Internet, dispositivos inteligentes, etc.)
Identificación a un alto nivel de abstracción del proceso, los procedimiento, las habilidades, los roles y el flujo de trabajo que serían necesarios para poder desarrollar las capacidades institucionales
Identificación de los requerimientos de Hardware y Software para soportar las técnicas y metodologías de Big Data y generar arquitecturas tecnológicas solidas para un ambiente de producción