Se ha denunciado esta presentación.
Se está descargando tu SlideShare. ×

Anatomía de un proyecto de Big Data

Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio

Eche un vistazo a continuación

1 de 82 Anuncio

Anatomía de un proyecto de Big Data

Descargar para leer sin conexión

Esta es una actualización de el proyecto de Big Data que ha llegado a un primer resultado, El mapa de emotividad basada en Twitter, por cada entidad de México. El siguiente paso será hacer esto en tiempo real.

Esta es una actualización de el proyecto de Big Data que ha llegado a un primer resultado, El mapa de emotividad basada en Twitter, por cada entidad de México. El siguiente paso será hacer esto en tiempo real.

Anuncio
Anuncio

Más Contenido Relacionado

Presentaciones para usted (20)

A los espectadores también les gustó (20)

Anuncio

Similares a Anatomía de un proyecto de Big Data (20)

Más de Abel Alejandro Coronado Iruegas (11)

Anuncio

Más reciente (20)

Anatomía de un proyecto de Big Data

  1. 1. Anatomía de un proyecto de Big Data 8 Septiembre 2015
  2. 2. abel.coronado @ inegi.org.mx @abxda
  3. 3. COOPERACIÓN INTERINSTITUCIONAL • Nacional • Internacional @abxda
  4. 4. ¿QUÉ ES BIG DATA?
  5. 5. Dan Ariely, Duke University ¿Qué es Big Data? @abxda
  6. 6. ¿Qué es Big Data? http://es.wikipedia.org/wiki/Los_ciegos_y_el_elefante @abxda
  7. 7. http://datascience.berkeley.edu/what-is-big-data/ @abxda ¿Qué es Big Data?
  8. 8. http://datascience.berkeley.edu/what-is-big-data/ @abxda ¿Qué es Big Data?
  9. 9. http://datascience.berkeley.edu/what-is-big-data/ @abxda ¿Qué es Big Data?
  10. 10. http://datascience.berkeley.edu/what-is-big-data/ @abxda ¿Qué es Big Data?
  11. 11. Según Gartner Big data es información en altos volúmenes, alta velocidad o alta variedad que demanda formas creativas y viables económicamente para procesarla con el fin de contribuir a tomar decisiones, actuar y crear valor. http://www.ft.com/intl/cms/e91a32d0-2bac-11e3-bfe2-00144feab7de.pdf ¿Qué es Big Data? @abxda
  12. 12. Considerar las Nuevas Fuentes de Datos para Complementar a las Tradicionales @abxda
  13. 13. @abxda
  14. 14. http://upload.wikimedia.org/wikipedia/commons/5/5b/Samurai_award.jpg Tomar decisiones, actuar y crear valor @abxda
  15. 15. Big Data en las Oficinas Nacionales de Estadística http://www1.unece.org/stat/platform/download/attachments/58492100/Big+Data+HLG+Final.docx?version=1&modificationDate=1362939424184 @abxda
  16. 16. • It is clear that during the next two years there is a need to identify a few pilot projects that will serve as proof of concept. • Statistical organisations are, therefore, encouraged to address formally Big data issues in their annual and multi-annual work programmes by undertaking research and pilot projects in selected areas and by allocating appropriate resources for that purpose. @abxda Big Data en las Oficinas Nacionales de Estadística
  17. 17. • 'new' exploration and analysis methods are required: Visualization methods, Text mining, and High Performance Computing. • To use Big data, statisticians are needed with a different mind-set and new skills. The processing of more and more data for official statistics requires statistically aware people with an analytical mind-set, an affinity for IT (e.g. programming skills) @abxda Big Data en las Oficinas Nacionales de Estadística
  18. 18. Mayor: Desagregación, Precisión, Comparabilidad Costo, Recursos, Dificultad de Obtención Mayor: Oportunidad, Autonomía (intrínseca) Conocimientos, Capacidades Técnicas, Dificultad de Análisis @abxda
  19. 19. Experto en computación y desarrollo avanzados Experto en estadística matemática Experto en el dominio de datos CIENCIA DE DATOS Zona peligrosa! Investigación tradicional Machine learning Ciencia de Datos @abxda http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram
  20. 20. Experto en computación y desarrollo avanzados Experto en estadística matemática Experto en el dominio de datos Unicornio Zona peligrosa! Investigación tradicional Machine learning Ciencia de Datos @abxda CIENCIA DE DATOS http://www.anlytcs.com/2014/01/data-science-venn-diagram-v20.html
  21. 21. Científico de Datos Ingeniero de Datos @abxda Productos de Datos Manejar las 3 v’s vs Visualización Modelado Contar Historias Científico de Datos Administración de Sistemas Programación Matemáticas Estadística Ingeniero de Datos Administración de Bases de Datos Almacenamiento de Datos http://101.datascience.community/2014/07/08/data-scientist-vs-data-engineer/
  22. 22. Equipo de Big Data y Ciencia de Datos Estadística Matemáticas Machine Learning Minería de Texto Interfaces de Usuario Experiencia del Usuario First Mobile Visualización de Datos Ingeniería de Software Administradores de Sistemas Bases de datos NoSQL Arquitecturas Big Data Arquitecturas de Software Crowdsourcing @abxda
  23. 23. Internet de las cosas Internet de las personas Internet de las ideas Internet del todo Datos Crudos hdfs:// Información (Significado) Tomar Decisiones Actuar ¿quién? ¿cuántos? ¿por qué? ¿qué?¿Dónde? Análisis de Datos Estadística Machine Learning Estratificaciones Análisis de Regresión Muestreo Mucho más… Análisis de Redes (Grafos) Minería de Datos Volumen Ciencia de Datos (Transforma/Modela) Cómputo Concurrente y Paralelo Arquitectura para Ciencia de Datos y Big Data @abxda@hbcolectivo
  24. 24. Internet de las Personas Internet de las Cosas Sensores { json } < xml > c,s,v Redes Sociales Internet de las Ideas Crowdsourcing Sistemas de Archivos Distribuidos Computo Paralelo y Concurrente Programación Funcional Razonamiento Algebraico Estadística Análisis Multivariado Machine Learning Análisis de Interacción Espacial { json } < xml > c,s,v { json } < xml > c,s,v Bases de Datos NoSQL Visualización Panorama Tecnológico Infraestructura de Cómputo
  25. 25. ESTRATIFICADOR INEGI Qué es un producto de datos
  26. 26. Ciencia de Datos www.inegi.org.mx/est/contenidos/Proyectos/estratificador/ @abxda
  27. 27. Tecnologías Involucradas (2013) @abxda D3.js Librería JavaScript para creación de los gráficos vectoriales interactivos. Librería JavaScript facilita la incorporación del patrón MVC en aplicaciones web de una sola página Diseño de estructura de la página y habilitación responsiva via Twitter Bootstrap. JSON formato de intercambio de datos. Motor de análisis estadístico, habilitador de la inteligencia estadística.
  28. 28. Ciencia de Datos
  29. 29. Ciencia de Datos
  30. 30. @abxda Ciencia de Datos
  31. 31. @abxda Ciencia de Datos
  32. 32. %Acceso a Internet, %Pc, %Telefono Celular, %Automovil @abxda Estratificación de 1.2 M de Manzanas En la misma Pc de 4 Procesadores: (2013) Software Tiempo Manzanas Big Data 8 Seg. 1’221,18 0 Tradicional 8 Seg. 2,666 https://spark.apache.org/
  33. 33. @hbcolectivo TWITTER COMO FUENTE DE BIG DATA Para medir el pulso emotivo de México …y mucho más …
  34. 34. 2009 2010 2011 2012 2013 2014 2015 (Junio) GIVAS = Global Pulse (2010) UNECE- CES crea HLG- BAS = HLG on Modernisation of Statistical Production and Services (Oct. 2010) Día Mundial de la Estadística. “Tendencias actuales de la estadística aplicada”, por John Brocklebank, SAS (Agosto 2011) ISI Dublin sesión sobre Análisis Estadístico de Redes Sociales. (Nov. 2012) HLG_BAS “IDENTIFYING KEY PRIORITIES FOR 2013 AND BEYOND” menciona, por fin, Big Data y Open Data. (Agosto 2013) propuesta BigData – Fondo Conacyt Inegi. DGAI Inicia con Herramientas Big Data (Octubre 2013) Encuentro con Seligman en Monterrey en evento de Tec Milenio Institu to de ciencias de la felicidad. (Diciembre 2013) Visita de Upenn a INEGI (Febrero 2014) Inicia recolección de Tuits (Hydra) (Junio 2014) Seminario Internacional Inegi Big Data en INFOTEC (Julio 2014) SECTUR y mapa resultado y paper. (Agosto 2014) Inicia Pioanálisis (Nov. 2014) Concluye clasificac ión de Twits. (Diciembre 2014) Involucramien to Infotec- Geo etiquetad o de tuits (Febrero 2015) Viaje a UPenn (Febrero 2015) Seminario Infotec- CentroGeo- Inegi. (Abril 2015) Herramienta de Medición de Bienestar en Tiempo Real (Junio 2015) Entrega del primer conjunto de 60M clasificado por INFOTEC (Julio 2015) Herramienta de Visualización @abxda
  35. 35. Equipo de Trabajo Y el apoyo de: Y en la parte de visualización: @abxda
  36. 36. OBJETIVO DEL PROYECTO Generar indicadores experimentales, nuevos o que complementen los generados por métodos tradicionales, utilizando técnicas de Big Data para la extracción, almacenamiento, procesamiento, análisis y visualización de los datos. @abxda
  37. 37. Impactos esperados del proyecto Desarrollo Estadístico • Propuesta de indicadores obtenidos a partir de fuentes Big Data • Establecimiento de correlaciones entre éstos y los producidos por la estadística oficial. • Producción científica de los académicos participantes @abxda
  38. 38. Impactos esperados del proyecto Desarrollo Tecnológico • Adquirir experiencia práctica en nuevas técnicas de recolección, integración, procesamiento, análisis y visualización de datos • Identificar el proceso, los procedimiento, las habilidades, los roles y el flujo de trabajo que serían necesarios para poder desarrollar las capacidades institucionales • Identificar los requerimientos de Hardware y Software para desarrollar un ambiente de producción de Big Data @abxda
  39. 39. ¿Cuántos caracteres? @abxda
  40. 40. 140 ??? @abxda
  41. 41. Todo listo para la presentación de #BigData en el @FSLmx . 1482 Json: Formato de Intercambio
  42. 42. Nuestra huella en las Redes Sociales @abxda
  43. 43. Todos los tuits están disponibles para su recolección en tiempo real. @abxda
  44. 44. Incluso permite consultas geográficas @abxda
  45. 45. ¿Dónde recolectar? @abxda
  46. 46. http://www.elasticsearch.org/ @abxda
  47. 47. ¿Por qué ElasticSearch? @abxda
  48. 48. Hydra @abxda< ESCALABILIDAD HORIZONTAL >
  49. 49. Hydra @abxda
  50. 50. @abxda
  51. 51. – 1 año 7 meses de estar recolectando las 24 horas 7 días de la semana tuits georeferenciados. – Mas de 150 millones de tuits recolectados Recolección de tuits en Archivos Distribuidos con Bases de Datos NoSQL. @abxda
  52. 52. Visualización de la Base de Datos >150 Millones de Tuits @abxda
  53. 53. ~ 70 Millones de Tuits @abxda
  54. 54. Frecuencia de Tuiteo # Tuits Frecuencia por hora del día 882,007 Tuiteros generaron 43’079,312 de Tuits @abxda
  55. 55. Movilidad de los Tuiteros 4’469,550 de desplazamientos inter-municipales 347,157 Tuiteros @abxda
  56. 56. @abxda Red Nacional de Caminos y Twitter
  57. 57. Red Nacional de Caminos y Twitter @abxda
  58. 58. DENUE & Twitter @abxda
  59. 59. DENUE & Twitter @abxda
  60. 60. DENUE & Twitter @abxda
  61. 61. DENUE & Twitter @abxda
  62. 62. Horarios de Tuiteo cerca de algún sector @abxda
  63. 63. PIO ANÁLISIS Y LA MEDICIÓN DEL BIENESTAR A TRAVÉS DE TWITTER MACHINE LEARNING Qué es un producto de datos
  64. 64. Indicador de sentimiento … … Proceso de Machine Learning Objetivo: @abxda
  65. 65. Proceso de Machine Learning Muestra de Tuits Etiquetado Manual Representación numérica http://scikit-learn.org/ http://www.r-project.org/ Machine Learning Tuits en Tiempo Real Clasificador Indicador de sentimiento @abxda Entrenamiento Producción
  66. 66. http://cienciadedatos.inegi.org.mx/pioanalisis @hbcolectivo @ricardoaolvera @abxda
  67. 67. @abxda D3.js Librería JavaScript para creación de los gráficos vectoriales interactivos. Librería JavaScript facilita la incorporación del patrón MVC en aplicaciones web de una sola página Diseño de estructura de la página y habilitación responsiva via Twitter Bootstrap. JSON formato de intercambio de datos. Web Api 2 / Interface REST Tecnologías Involucradas
  68. 68. Resultados @hbcolectivo @ricardoaolvera @abxda Alrededor de 5000 anotadores de la Universidad Tec Milenio
  69. 69. El proceso de limpieza sirvió para eliminar redundancias e inconsistencias, dejando un conjunto menor de Tuits pero con mayor calidad. @abxda
  70. 70. El proceso de normalización convierte cada tuit a una representación que facilite su clasificación automatizada. @abxda
  71. 71. Preparación para el entrenamiento de algoritmos de Machine Learning @abxda
  72. 72. El resultado final de la fase de entrenamiento consistió en un ensamblado desarrollado por la colaboración INFOTEC - Centro Geo @abxda
  73. 73. @abxda
  74. 74. @abxda
  75. 75. IMPLEMENTACIÓN DE BIG DATA Visión de
  76. 76. Hadoop / Apache Spark @abxda ó Procesamiento 70 Cores > 3 Ghz >250 Gb Ram 5 TB + Recolección 20 Cores > 3 Ghz 100 Gb Ram 1 TB
  77. 77. • Tecnología de procesamiento en paralelo para Ciencia de Datos Apache Spark @abxda
  78. 78. @abxda
  79. 79. http://www.scidev.net/global/data/feature/big-data-for-development-facts-and-figures.html Reflexión @abxda
  80. 80. Preguntas @abxda
  81. 81. abel.coronado@inegi.org.mx @abxda

Notas del editor

  • Big Data solía significar que una sola maquina cierta cantidad de datos, Ahora Big Data se ha convertido en una palabra de moda.
  • Nota:
    El tema de Big Data es tan nuevo para la generación de la Estadística Oficial, que no existe un modelo único, en varios Organismos Internacionales y Oficinas Nacionales de Estadística se están llevando a cabo proyectos piloto como el de INEGI, para tener la oportunidad de adquirir experiencia práctica en el tema.
  • Fortalecimiento de los procesos de generación de información estadística, mediante el establecimiento de nuevas técnicas de recolección, integración, procesamiento, análisis y visualización de información, proveniente de nuevas fuentes de datos electrónicos (como sistemas en Internet, dispositivos inteligentes, etc.)

    Identificación a un alto nivel de abstracción del proceso, los procedimiento, las habilidades, los roles y el flujo de trabajo que serían necesarios para poder desarrollar las capacidades institucionales

    Identificación de los requerimientos de Hardware y Software para soportar las técnicas y metodologías de Big Data y generar arquitecturas tecnológicas solidas para un ambiente de producción
  • Fortalecimiento de los procesos de generación de información estadística, mediante el establecimiento de nuevas técnicas de recolección, integración, procesamiento, análisis y visualización de información, proveniente de nuevas fuentes de datos electrónicos (como sistemas en Internet, dispositivos inteligentes, etc.)

    Identificación a un alto nivel de abstracción del proceso, los procedimiento, las habilidades, los roles y el flujo de trabajo que serían necesarios para poder desarrollar las capacidades institucionales

    Identificación de los requerimientos de Hardware y Software para soportar las técnicas y metodologías de Big Data y generar arquitecturas tecnológicas solidas para un ambiente de producción

×