Actualización de los avances en la implantación del proyecto de análisis de Twitter en México para la generación de una estadística del Sentimiento de los Tuiteros Mexicanos.
Este documento presenta una introducción al tema de Big Data y Ciencia de Datos. Explica brevemente qué es Big Data según Gartner y describe algunas herramientas y tecnologías clave como Hadoop, Spark y RDD. También discute el uso de datos masivos en oficinas de estadística oficiales y propone el análisis de Twitter como un primer proyecto piloto para medir el sentimiento de los tuiteros mexicanos.
Esta es una actualización de el proyecto de Big Data que ha llegado a un primer resultado, El mapa de emotividad basada en Twitter, por cada entidad de México. El siguiente paso será hacer esto en tiempo real.
Big data se refiere a datos de alto volumen, velocidad y variedad que requieren formas innovadoras y rentables de procesamiento de información para obtener conocimientos y apoyar la toma de decisiones. El documento describe cómo las oficinas nacionales de estadística están explorando el uso de big data a través de proyectos piloto, y la necesidad de nuevas habilidades como el procesamiento de grandes cantidades de datos y el análisis visual para aprovechar completamente big data.
Este documento presenta una introducción a Big Data, incluyendo definiciones de Big Data, historia y tecnologías clave como Hadoop. Explica roles como científico de datos y oportunidades financieras en el campo. También describe ejemplos prácticos de análisis de Big Data como el monitoreo del sentimiento público en México usando Twitter y la combinación de datos geoespaciales y de redes sociales.
Este documento explora el uso de GPUs (tarjetas gráficas) para procesar grandes cantidades de datos (Big Data) y realizar ciencia de datos. Explica cómo las GPUs permiten analizar millones de registros de manzanas (unidades geográficas) 8 veces más rápido que métodos tradicionales. También presenta varias tecnologías y proyectos relacionados con Big Data, ciencia de datos y aprendizaje automático que aprovechan la capacidad de procesamiento paralelo de las GPUs.
Introducción a data science, la guía práctica para volverse data scientistCarlos Toxtli
La ciencia de datos es cada vez más indispensable, ya no solo necesitamos extraer información de los datos, sino ahora conocimiento. En esta guía mostraremos las areas que comprende la ciencia de datos, las herramientas más usadas y tutoriales para cada una de ellas.
Este documento presenta una introducción a los conceptos y aplicaciones de Big Data utilizando Twitter como fuente de datos. Explica cómo recolectar y almacenar datos de Twitter usando Elasticsearch e Hadoop/Spark, y cómo analizar los datos recolectados para identificar tendencias temporales, hashtags populares, y patrones de actividad de usuarios. También muestra ejemplos de correlacionar datos de Twitter con otros conjuntos de datos como la red nacional de caminos.
Este documento presenta una introducción al tema de Big Data y Ciencia de Datos. Explica brevemente qué es Big Data según Gartner y describe algunas herramientas y tecnologías clave como Hadoop, Spark y RDD. También discute el uso de datos masivos en oficinas de estadística oficiales y propone el análisis de Twitter como un primer proyecto piloto para medir el sentimiento de los tuiteros mexicanos.
Esta es una actualización de el proyecto de Big Data que ha llegado a un primer resultado, El mapa de emotividad basada en Twitter, por cada entidad de México. El siguiente paso será hacer esto en tiempo real.
Big data se refiere a datos de alto volumen, velocidad y variedad que requieren formas innovadoras y rentables de procesamiento de información para obtener conocimientos y apoyar la toma de decisiones. El documento describe cómo las oficinas nacionales de estadística están explorando el uso de big data a través de proyectos piloto, y la necesidad de nuevas habilidades como el procesamiento de grandes cantidades de datos y el análisis visual para aprovechar completamente big data.
Este documento presenta una introducción a Big Data, incluyendo definiciones de Big Data, historia y tecnologías clave como Hadoop. Explica roles como científico de datos y oportunidades financieras en el campo. También describe ejemplos prácticos de análisis de Big Data como el monitoreo del sentimiento público en México usando Twitter y la combinación de datos geoespaciales y de redes sociales.
Este documento explora el uso de GPUs (tarjetas gráficas) para procesar grandes cantidades de datos (Big Data) y realizar ciencia de datos. Explica cómo las GPUs permiten analizar millones de registros de manzanas (unidades geográficas) 8 veces más rápido que métodos tradicionales. También presenta varias tecnologías y proyectos relacionados con Big Data, ciencia de datos y aprendizaje automático que aprovechan la capacidad de procesamiento paralelo de las GPUs.
Introducción a data science, la guía práctica para volverse data scientistCarlos Toxtli
La ciencia de datos es cada vez más indispensable, ya no solo necesitamos extraer información de los datos, sino ahora conocimiento. En esta guía mostraremos las areas que comprende la ciencia de datos, las herramientas más usadas y tutoriales para cada una de ellas.
Este documento presenta una introducción a los conceptos y aplicaciones de Big Data utilizando Twitter como fuente de datos. Explica cómo recolectar y almacenar datos de Twitter usando Elasticsearch e Hadoop/Spark, y cómo analizar los datos recolectados para identificar tendencias temporales, hashtags populares, y patrones de actividad de usuarios. También muestra ejemplos de correlacionar datos de Twitter con otros conjuntos de datos como la red nacional de caminos.
Situación de las iniciativas de Open Data internacionales (y algunas recomen...Oscar Corcho
Presentación sobre iniciativas de Open Data Internacionales y nacionales, realizada en el contexto del Curso de Verano de la Universidad de Extremadura "BigData y Machine Learning junto a fuentes de datos abiertos para especializar el sector agroganadero", el 25/09/2018
Este documento presenta una plantilla para la elaboración de un trabajo académico utilizando las normas ICONTEC. En las primeras páginas incluye elementos como portada, contraportada y agradecimientos. Luego contiene secciones como objetivos, marco teórico y metodología. También incluye listas de tablas, figuras y anexos. Al final presenta referencias bibliográficas y un glosario de términos. El propósito de esta plantilla es servir de guía para la elaboración de trabajos acad
Cómo construir tu propia data platform. From zero to hero. GustavoMartin46
Esta presentación es el resultado de la ponencia presentada el día 28 de abril de 2023 en la Salmorejo Tech https://salmorejo.tech/2023/.
Con esta ponencia se buscaba explicar a una audiencia con conocimientos básicos de tecnología, las distintas herramientas que se pueden emplear para construir una plataforma de datos.
La ponencia comienza con una configuración sencilla, que prácticamente cualquier persona del mundo de la informática puede entender. Termina con una configuración compleja, donde sin entrar en muchos detalles, sí permite a la audiencia hacerse una idea de qué herramientas se requieren para implementar la solución.
IX Encuentros de Centros de Documentación de Arte Contemporáneo en Artium - O...Artium Vitoria
"Principios básicos de la web semántica y linked data, y su aplicación en el gobierno abierto" por Oscar Corcho, catedrático de la Escuela Técnica Superior de Ingenieros Informáticos (Universidad Politécnica de Madrid).
#Aprender3C - Métricas y estadísticas en Repositorios y Bibliotecas DigitalesAprender 3C
El documento discute las métricas de uso en repositorios y bibliotecas digitales. Explica que las estadísticas de uso son importantes para justificar la existencia de un servicio, valorar su utilidad, introducir mejoras y detectar tendencias. También cubre diferentes enfoques para medir el uso, como el software de analítica web, y proyectos para armonizar las métricas como COUNTER, PIRUS2, IRUS-UK y OAS.
Desarrollo de un agente buscador inteligente de metadatosHugo Banda
El documento presenta una propuesta para implementar un sistema de metadatos geográficos para la UNISIG utilizando el estándar CSDGM. Se propone desarrollar un agente inteligente de búsqueda de metadatos que permita localizar y visualizar recursos como imágenes, videos y documentos. El sistema brindará opciones de consulta local y remota para que los usuarios puedan acceder a la información descriptiva de los recursos de la UNISIG.
En la charla realizada por Néstor Campos de Metric Arts (https://metricarts.com/), nos presentaron su producto Video Analytics y cómo utilizan Algoritmos de Machine Learning, junto a procesos y modelamientos de Visual Computing para poder realizar seguimiento de objetos y personas a través de video.
La Universidad Privada Antenor Orrego cuenta con varias áreas clave como Contabilidad, Alta Dirección, Direcciones de Escuela, Recursos Humanos y Sistemas. Almacena y procesa grandes cantidades de datos de estudiantes y profesores en tres mainframes IBM ubicados en su Data Center, el cual se encuentra en el Departamento de Sistemas.
El documento presenta el perfil profesional de Carlos Gabriel Torres Páez, un experto en sistemas y administración de proyectos con experiencia en el desarrollo de aplicaciones, digitalización de archivos y gestión documental. Incluye detalles de sus logros profesionales en proyectos para instituciones como el Congreso Internacional de Pediatría, el Instituto Hondureño de Seguridad Social y la Audiencia Nacional de España. Finaliza comprometiéndose a participar en el proceso de contratación si resulta ganador del proyecto presentado.
El documento proporciona una introducción al software Atlas. Ti, que es ampliamente utilizado para el análisis de datos cualitativos. Explica las principales características y herramientas del programa, como la unidad hermenéutica, la creación de códigos, citas y memos, y las redes y familias. El objetivo es ilustrar los procedimientos básicos de Atlas. Ti para facilitar el análisis de datos cualitativos en investigaciones.
El documento presenta Atlas. Ti, un software para análisis de datos cualitativos. Explica que Atlas. Ti es uno de los programas más conocidos y utilizados debido a que es sencillo de usar y aprender. Luego describe brevemente algunas de las herramientas principales del programa como la codificación de códigos, citas de texto, creación de memos y presentación de redes. Finalmente, justifica la elección de Atlas. Ti sobre otros programas debido a que es gratuito, tiene una interfaz amigable, permite el análisis de grandes
Este documento describe un proyecto para desarrollar un buscador semántico de libros. El buscador permitirá realizar búsquedas de recursos digitales dentro de una biblioteca de manera precisa. Los usuarios podrán asignar valoraciones a los recursos para mejorar los resultados de búsqueda. El proyecto se enfocará en recursos educativos de áreas técnicas definidas y presentará metadatos pero no permitirá descargar materiales.
Este documento habla sobre algoritmos genéticos. Explica que fueron inventados en 1975 por John Holland y se basan en la evolución biológica. Los algoritmos genéticos son métodos de búsqueda y optimización que utilizan principios como la selección natural, la mutación y el cruzamiento. También describe la estructura típica de un algoritmo genético y algunas de sus aplicaciones.
Este documento presenta un resumen del trabajo colaborativo realizado por un grupo de estudiantes sobre sistemas operativos. El grupo analizó las generaciones de sistemas operativos, sus características y tipos. También comprendieron el modelo cliente-servidor y la importancia de la memoria cache y las funciones del núcleo. Cada miembro del grupo creó una presentación en Emaze sobre los temas cubiertos en la fase individual.
Grupo DESI propone el desarrollo de una plataforma de capacitación para servidores públicos que permita a los usuarios editar su perfil, seleccionar temas de interés, visualizar cursos recomendados y tomados, y definir objetivos profesionales. La plataforma también mostrará la oferta de programas de capacitación disponibles para ciudadanos y permitirá a administradores ver información de actividades y cursos de usuarios. El proyecto incluye el diseño de la base de datos, interfaces y módulos para diferentes tip
Adiós a los ficheros, hola a los grafos de conocimientos estadísticosOscar Corcho
Esta presentación se ha realizado en el contexto de la Jornada sobre difusión, accesibilidad y reutilización de la estadística y cartografía oficial (http://www.juntadeandalucia.es/institutodeestadisticaycartografia/blog/2019/11/jornada-plan/), organizada por el Instituto de Estadística y Cartografía de Andalucía.
Este documento presenta el manejo y almacenamiento de datos del proyecto Paisajes Sostenibles para la Amazonía. Describe los objetivos de diseñar una base de datos integrada que almacene datos económicos, sociales, biofísicos y geográficos del proyecto de manera amigable y automatizada. También resume las actividades realizadas como generar identificadores únicos, diseñar la estructura de la base de datos, y organizar los datos preliminares de muestreo de suelos. Finalmente, presenta las actividades planeadas para
Este documento describe los fundamentos, metodologías y aplicaciones de los sistemas expertos. Introduce el origen de los sistemas expertos y sus características principales como la estructura, tipos y representación del conocimiento. También menciona algunos sistemas expertos pioneros como DENDRAL, MYCIN y XCON.
This presentation provides an introduction to the basics of managing mobility data. It covers fundamental concepts and ideas related to data processing, and aims to provide the audience with a better understanding of how to manage mobility data more effectively. The content of the presentation is based on practical examples and real-world scenarios.
El documento describe el Cubo de Datos Geoespaciales de México creado por el INEGI. El cubo contiene más de 90 terabytes de imágenes Landsat de 37 años que han sido procesadas y están disponibles para análisis. El INEGI usa estas imágenes satelitales, junto con machine learning, para monitorear cambios en el uso del suelo a nivel nacional y producir productos como la Geomediana que muestran tendencias a lo largo del tiempo.
Situación de las iniciativas de Open Data internacionales (y algunas recomen...Oscar Corcho
Presentación sobre iniciativas de Open Data Internacionales y nacionales, realizada en el contexto del Curso de Verano de la Universidad de Extremadura "BigData y Machine Learning junto a fuentes de datos abiertos para especializar el sector agroganadero", el 25/09/2018
Este documento presenta una plantilla para la elaboración de un trabajo académico utilizando las normas ICONTEC. En las primeras páginas incluye elementos como portada, contraportada y agradecimientos. Luego contiene secciones como objetivos, marco teórico y metodología. También incluye listas de tablas, figuras y anexos. Al final presenta referencias bibliográficas y un glosario de términos. El propósito de esta plantilla es servir de guía para la elaboración de trabajos acad
Cómo construir tu propia data platform. From zero to hero. GustavoMartin46
Esta presentación es el resultado de la ponencia presentada el día 28 de abril de 2023 en la Salmorejo Tech https://salmorejo.tech/2023/.
Con esta ponencia se buscaba explicar a una audiencia con conocimientos básicos de tecnología, las distintas herramientas que se pueden emplear para construir una plataforma de datos.
La ponencia comienza con una configuración sencilla, que prácticamente cualquier persona del mundo de la informática puede entender. Termina con una configuración compleja, donde sin entrar en muchos detalles, sí permite a la audiencia hacerse una idea de qué herramientas se requieren para implementar la solución.
IX Encuentros de Centros de Documentación de Arte Contemporáneo en Artium - O...Artium Vitoria
"Principios básicos de la web semántica y linked data, y su aplicación en el gobierno abierto" por Oscar Corcho, catedrático de la Escuela Técnica Superior de Ingenieros Informáticos (Universidad Politécnica de Madrid).
#Aprender3C - Métricas y estadísticas en Repositorios y Bibliotecas DigitalesAprender 3C
El documento discute las métricas de uso en repositorios y bibliotecas digitales. Explica que las estadísticas de uso son importantes para justificar la existencia de un servicio, valorar su utilidad, introducir mejoras y detectar tendencias. También cubre diferentes enfoques para medir el uso, como el software de analítica web, y proyectos para armonizar las métricas como COUNTER, PIRUS2, IRUS-UK y OAS.
Desarrollo de un agente buscador inteligente de metadatosHugo Banda
El documento presenta una propuesta para implementar un sistema de metadatos geográficos para la UNISIG utilizando el estándar CSDGM. Se propone desarrollar un agente inteligente de búsqueda de metadatos que permita localizar y visualizar recursos como imágenes, videos y documentos. El sistema brindará opciones de consulta local y remota para que los usuarios puedan acceder a la información descriptiva de los recursos de la UNISIG.
En la charla realizada por Néstor Campos de Metric Arts (https://metricarts.com/), nos presentaron su producto Video Analytics y cómo utilizan Algoritmos de Machine Learning, junto a procesos y modelamientos de Visual Computing para poder realizar seguimiento de objetos y personas a través de video.
La Universidad Privada Antenor Orrego cuenta con varias áreas clave como Contabilidad, Alta Dirección, Direcciones de Escuela, Recursos Humanos y Sistemas. Almacena y procesa grandes cantidades de datos de estudiantes y profesores en tres mainframes IBM ubicados en su Data Center, el cual se encuentra en el Departamento de Sistemas.
El documento presenta el perfil profesional de Carlos Gabriel Torres Páez, un experto en sistemas y administración de proyectos con experiencia en el desarrollo de aplicaciones, digitalización de archivos y gestión documental. Incluye detalles de sus logros profesionales en proyectos para instituciones como el Congreso Internacional de Pediatría, el Instituto Hondureño de Seguridad Social y la Audiencia Nacional de España. Finaliza comprometiéndose a participar en el proceso de contratación si resulta ganador del proyecto presentado.
El documento proporciona una introducción al software Atlas. Ti, que es ampliamente utilizado para el análisis de datos cualitativos. Explica las principales características y herramientas del programa, como la unidad hermenéutica, la creación de códigos, citas y memos, y las redes y familias. El objetivo es ilustrar los procedimientos básicos de Atlas. Ti para facilitar el análisis de datos cualitativos en investigaciones.
El documento presenta Atlas. Ti, un software para análisis de datos cualitativos. Explica que Atlas. Ti es uno de los programas más conocidos y utilizados debido a que es sencillo de usar y aprender. Luego describe brevemente algunas de las herramientas principales del programa como la codificación de códigos, citas de texto, creación de memos y presentación de redes. Finalmente, justifica la elección de Atlas. Ti sobre otros programas debido a que es gratuito, tiene una interfaz amigable, permite el análisis de grandes
Este documento describe un proyecto para desarrollar un buscador semántico de libros. El buscador permitirá realizar búsquedas de recursos digitales dentro de una biblioteca de manera precisa. Los usuarios podrán asignar valoraciones a los recursos para mejorar los resultados de búsqueda. El proyecto se enfocará en recursos educativos de áreas técnicas definidas y presentará metadatos pero no permitirá descargar materiales.
Este documento habla sobre algoritmos genéticos. Explica que fueron inventados en 1975 por John Holland y se basan en la evolución biológica. Los algoritmos genéticos son métodos de búsqueda y optimización que utilizan principios como la selección natural, la mutación y el cruzamiento. También describe la estructura típica de un algoritmo genético y algunas de sus aplicaciones.
Este documento presenta un resumen del trabajo colaborativo realizado por un grupo de estudiantes sobre sistemas operativos. El grupo analizó las generaciones de sistemas operativos, sus características y tipos. También comprendieron el modelo cliente-servidor y la importancia de la memoria cache y las funciones del núcleo. Cada miembro del grupo creó una presentación en Emaze sobre los temas cubiertos en la fase individual.
Grupo DESI propone el desarrollo de una plataforma de capacitación para servidores públicos que permita a los usuarios editar su perfil, seleccionar temas de interés, visualizar cursos recomendados y tomados, y definir objetivos profesionales. La plataforma también mostrará la oferta de programas de capacitación disponibles para ciudadanos y permitirá a administradores ver información de actividades y cursos de usuarios. El proyecto incluye el diseño de la base de datos, interfaces y módulos para diferentes tip
Adiós a los ficheros, hola a los grafos de conocimientos estadísticosOscar Corcho
Esta presentación se ha realizado en el contexto de la Jornada sobre difusión, accesibilidad y reutilización de la estadística y cartografía oficial (http://www.juntadeandalucia.es/institutodeestadisticaycartografia/blog/2019/11/jornada-plan/), organizada por el Instituto de Estadística y Cartografía de Andalucía.
Este documento presenta el manejo y almacenamiento de datos del proyecto Paisajes Sostenibles para la Amazonía. Describe los objetivos de diseñar una base de datos integrada que almacene datos económicos, sociales, biofísicos y geográficos del proyecto de manera amigable y automatizada. También resume las actividades realizadas como generar identificadores únicos, diseñar la estructura de la base de datos, y organizar los datos preliminares de muestreo de suelos. Finalmente, presenta las actividades planeadas para
Este documento describe los fundamentos, metodologías y aplicaciones de los sistemas expertos. Introduce el origen de los sistemas expertos y sus características principales como la estructura, tipos y representación del conocimiento. También menciona algunos sistemas expertos pioneros como DENDRAL, MYCIN y XCON.
Similar a Congreso UAA 2018 Animo Tuitero 2 0 (20)
This presentation provides an introduction to the basics of managing mobility data. It covers fundamental concepts and ideas related to data processing, and aims to provide the audience with a better understanding of how to manage mobility data more effectively. The content of the presentation is based on practical examples and real-world scenarios.
El documento describe el Cubo de Datos Geoespaciales de México creado por el INEGI. El cubo contiene más de 90 terabytes de imágenes Landsat de 37 años que han sido procesadas y están disponibles para análisis. El INEGI usa estas imágenes satelitales, junto con machine learning, para monitorear cambios en el uso del suelo a nivel nacional y producir productos como la Geomediana que muestran tendencias a lo largo del tiempo.
El documento presenta una introducción a los conceptos básicos de los datos geográficos, incluyendo representaciones vectoriales y ráster, sistemas de coordenadas y proyecciones. Luego describe cómo usar herramientas de Python, R y Apache Spark para analizar y procesar datos geográficos abiertos como los del Censo de Población y Vivienda de México 2020, con el objetivo de identificar patrones como las áreas con mayor concentración de gamers.
Proyectos de Big Data del INEGI presentados en la Universidad Iberoamericana. Mostrando principios de Big Data y 3 proyectos: El estratificador Inegi, El Animo Tuitero y el Cubo de Datos Geoespaciales.
Sharing the experience and results of using georeferenced 2010 Census data in Mexico and EO to train algorithms in order to detect urban growth and generate useful information for estimating population for non-census years.
We use the Georeferenced results of the 2010 Census in Mexico to train machine learning algorithms to detect growth in cities and contribute new information to estimate the total population.
El documento describe el Cubo de Datos Geoespaciales de México creado por el INEGI. El cubo utiliza imágenes satelitales gratuitas y de código abierto como Landsat y Sentinel para realizar análisis de series temporales a nivel de píxel y monitorear el cambio en el uso del suelo a lo largo del tiempo. El cubo permite procesar y analizar masivamente grandes volúmenes de datos satelitales para generar productos nacionales que apoyen el seguimiento de los Objetivos de Desarrol
Este documento habla sobre los tipos de datos NOSQL, incluyendo datos estructurados, semi-estructurados y no estructurados. También menciona big data, data lake y la diferencia entre un data lake y un data warehouse. Finalmente, nombra algunas bases de datos NOSQL dignas de mención y proporciona un enlace a un ranking de bases de datos.
En esta presentación se describen las características de las imágenes de satélite y se muestra el valor del Open Data Cube. Tambien se describe el potencial de esta fuente de datos para el monitoreo de fenómenos ambientales, socioeconomicos y demográficos .
Este documento resume los proyectos de ciencia de datos y big data del INEGI entre 2011 y 2017, incluyendo el desarrollo inicial de herramientas de análisis de datos masivos, la recolección y clasificación de tweets para medir el sentimiento público, y planes futuros para analizar movilidad y clasificar imágenes de satélite.
This document discusses INEGI's use of Twitter as a source of big data. It outlines INEGI's process for collecting over 260 million geo-tagged tweets from Twitter's API and analyzing them using Apache Spark. The tweets are analyzed to extract sentiment indicators and examine mobility patterns. INEGI has also integrated tweets with other data sources and is exploring various applications of the Twitter data like tracking tourism, migration, and subjective wellbeing.
El documento discute el tema de Big Data y Ciencia de Datos. Explica conceptos clave como qué es Big Data, fuentes de datos emergentes, y los procesos involucrados en Ciencia de Datos. También describe proyectos del INEGI que utilizan Big Data, incluyendo un estratificador basado en Big Data y análisis de sentimiento en Twitter.
Este documento presenta una introducción a Scala. Explica los conceptos básicos de valores, variables, tipos de datos, inferencia de tipos, expresiones y condicionales. Define la diferencia entre valores y variables, y cómo Scala puede determinar automáticamente el tipo de datos basado en la inicialización de un valor. También cubre expresiones simples y compuestas, y el uso de if/else para crear expresiones condicionales.
El documento resume los avances realizados entre julio de 2013 y diciembre de 2014 en ciencia de datos utilizando Twitter como fuente de datos masivos. Se recolectaron más de 95 millones de tweets durante este periodo los cuales fueron procesados utilizando herramientas como Apache Spark y Elasticsearch para extraer información sobre temas, ubicaciones y patrones temporales. El análisis reveló eventos importantes como el mundial de fútbol de 2014 y permitió generar visualizaciones que muestran la movilidad de usuarios de Twitter en México.
Que mejor ejemplo de Big Data que la corriente masiva de datos que generan las redes sociales, en la conferencia se mostraran herramientas y técnicas que se están aplicado para explorar los secretos de twitter en México.
Acompañame en un recorrido práctico en el uso de herramientas OpenSource para el análisis de datos masivos que están al alcance de todos.
Semblanza del conferencista:
Abel Coronado es Científico de datos, Analista de Big data y Arquitecto de plataformas BigData, así como Desarrollador de Software en múltiples lenguajes y paradigmas. Twitter: @abxda
Este documento presenta información sobre el análisis de grandes datos (Big Data) obtenidos de redes sociales como Twitter. Explica conceptos clave de Big Data como volumen, velocidad y variedad de datos, y describe herramientas como ElasticSearch y Hadoop que permiten recolectar y analizar grandes cantidades de datos de Twitter. También muestra ejemplos de análisis realizados con los datos de Twitter como estudios de movilidad y detección de sentimientos en los tuits.
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIOAaronPleitez
linea de tiempo del antiguo testamento donde se detalla la cronología de todos los eventos, personas, sucesos, etc. Además se incluye una parte del periodo intertestamentario en orden cronológico donde se detalla todo lo que sucede en los 400 años del periodo del silencio. Basicamente es un resumen de todos los sucesos desde Abraham hasta Cristo
Minería de Datos e IA Conceptos, Fundamentos y Aplicaciones.pdfMedTechBiz
Este libro ofrece una introducción completa y accesible a los campos de la minería de datos y la inteligencia artificial. Cubre todo, desde conceptos básicos hasta estudios de casos avanzados, con énfasis en la aplicación práctica utilizando herramientas como Python y R.
También aborda cuestiones críticas de ética y responsabilidad en el uso de estas tecnologías, discutiendo temas como la privacidad, el sesgo algorítmico y transparencia.
El objetivo es permitir al lector aplicar técnicas de minería de datos e inteligencia artificial a problemas reales, contribuyendo a la innovación y el progreso en su área de especialización.
Este documento ha sido elaborado por el Observatorio Ciudadano de Seguridad Justicia y Legalidad de Irapuato siendo nuestro propósito conocer datos sociodemográficos en conjunto con información de incidencia delictiva de las 10 colonias y/o comunidades que del año 2020 a la fecha han tenido mayor incidencia.
Existen muchas más colonias que presentan cifras y datos en materia de seguridad, sin embargo, en este primer acercamiento lo que se prevées darle al lector una idea de como se encuentran las colonias analizadas, tomando como referencia los datos del INEGI 2020, datos del Secretariado Ejecutivo del Sistema Nacional de Seguridad Pública del 2020 al 2023 y las bases de datos propias que desde el 2017 el Observatorio Ciudadano ha recopilado de manera puntual con datos de las vıć timas de homicidio doloso, accidentes de tránsito, personas lesionadas por arma de fuego, entre otros indicadores.
Reporte homicidio doloso descripción
Reporte que contiene información de las víctimas de homicidio doloso registradas en el municipio de Irapuato Guanajuato durante el periodo señalado, comprende información cualitativa y cuantitativa que hace referencia a las características principales de cada uno de los homicidios.
La información proviene tanto de medios de comunicación digitales e impresos como de los boletines que la propia Fiscalía del Estado de Guanajuato emite de manera diaria a los medios de comunicación quienes publican estas incidencias en sus distintos canales.
Podemos observar cantidad de personas fallecidas, lugar donde se registraron los eventos, colonia y calle así como un comparativo con el mismo periodo pero del año anterior.
Edades y género de las víctimas es parte de la información que incluye el reporte.
2. XII Congreso de Ciencias Exactas UAA
@abxdaAño 2012
Primer Producto de Ciencia de Datos
3. XII Congreso de Ciencias Exactas UAA
@abxda
El equipo de trabajo
4. XII Congreso de Ciencias Exactas UAA
@abxda
Grupo Directivo
Management-Group: The managers of the
Entire data science unit.
• Chief Data Scientist
• Domain Experts (Staff)
• Research Scientists (Staff)
• Agile Master (Staff)
• Systems Engineering Expert (Staff)
Dr. Alfredo Bustos
5. XII Congreso de Ciencias Exactas UAA
@abxda
Equipo de Ingeniería de Datos
• Data Engineering Team
• Data Engineer
• SysAdmin
• Statistician
• Geomatic Engineer
• Dataviz Expert
• GPU Developer
• IoT Expert
• Cloud Engineer
M.C. Abel Coronado
M.I. Oswaldo Diaz
L.I. Brenda Alejandra Muñoz
Tendencia: Kubernetes; Mesosphere DC/OS; Docker
6. XII Congreso de Ciencias Exactas UAA
@abxda
Equipo de Ciencia de Datos
Tendencia: AutoML ; Tensorflow; Keras; Python
• Data Science Team
• Data Scientist
• Statistician
• Mathematician
• Machine Learning Expert
• Deep Learning Expert
M.C. Miriam Romo
M.C. Abel Coronado
7. XII Congreso de Ciencias Exactas UAA
@abxda
Equipo de Producto de Datos
• Data Product Team
• Data Engineer
• Software Architect
• UX Expert
• App Developer
• Web Developer
• API Developer
M.C. Abel Coronado
L.D.G. Marco Ibarra
I.S.C. Ricardo Olvera
M.I. Oswaldo Diaz
Tendencia: SAAS; ITCSS; REACT, VUE.js, D3.js
8. XII Congreso de Ciencias Exactas UAA
@abxda
Grupo Dev Sec Ops
• Arquitecto DevSecOps (Developer Security Operation)
• Ingeniería de procesos
• [Patrones de Diseño]
• Control de Calidad TI
• [Normatividad y Cumplimientos]
• Infraestructura TI
• [Tolerante a fallas]
• Ciberseguridad
• [Administración de riesgos]
M.I. Oswaldo Diaz
Tendencia: Cloud to the edge; Hyper Converged Infrastructure; Blockchain
By edgaroswaldodiaz2375@gmail.com
9. XII Congreso de Ciencias Exactas UAA
@abxda
Producto de Datos año 2013
11. XII Congreso de Ciencias Exactas UAA
@abxda
Arquitectura de Big Data y Ciencia de Datos
12. XII Congreso de Ciencias Exactas UAA
@abxda
Big Data y Ciencia de Datos
• Propuesta de indicadores obtenidos a partir de fuentes Big Data
• Establecimiento de correlaciones entre éstos y los producidos por la estadística oficial.
• Producción científica de los académicos participantes
13. XII Congreso de Ciencias Exactas UAA
@abxda
Equipo Interinstitucional
14. XII Congreso de Ciencias Exactas UAA
@abxda
Equipo de Ciencia de Datos
• Data Science Team
• Data Scientist
• Statistician
• Mathematician
• Machine Learning Expert
• Deep Learning Expert
Dra. Daniela Moctezuma
C. Dr. Elio Villaseñor
Dr. Mario Graff
Dr. Eric Tellez
Dr. Sabino Miranda
Dr. Oscar S. Siordia https://goo.gl/tegYae https://goo.gl/tzzbR0
15. XII Congreso de Ciencias Exactas UAA
@abxda
Recolección de Tuits Feb. 2014
16. XII Congreso de Ciencias Exactas UAA
@abxda
Infraestructura de Recolección Inicial
17. XII Congreso de Ciencias Exactas UAA
@abxda
Tuits geo-referenciados
https://abxda.wordpress.com
18. XII Congreso de Ciencias Exactas UAA
@abxda
Tuits Recolectados
19. XII Congreso de Ciencias Exactas UAA
@abxda
Base de Datos de Entrenamiento
https://cienciadedatos.inegi.org.mx/pioanalisis/
20. XII Congreso de Ciencias Exactas UAA
@abxda
Conjunto de Datos Etiquetado
• 54,131 Tuits etiquetados manualmente por 9,330 personas
• La clasificación sigue en :
https://cienciadedatos.inegi.org.mx/pioanalisis/
21. XII Congreso de Ciencias Exactas UAA
@abxda
Retos del análisis de sentimiento en redes
sociales
• Uso de Modismos
• Errores Ortográficos
• Errores Gramaticales
• Entre otros . . . 38,000
palabras
95,000
palabras
22. XII Congreso de Ciencias Exactas UAA
@abxda
Proceso de Clasificación de Sentimiento
• Normalización del Texto
• Representación vectorial del texto
• Entrenamiento del algoritmo de Machine Learning
• Clasificación del texto en producción
23. @abxda
XII Congreso de Ciencias Exactas UAA
Ejemplo de la normalización del texto
TEXTO ORIGINAL:
pésiiiimo auto :( @autoX fallan frenos y sistema de
entretenimiento; no lo compren
NORMALIZACIÓN:
pesiiiimo auto _negativo _user fallan frenos y sistema de
entretenimiento ; lo no_compren
30. @abxda
XII Congreso de Ciencias Exactas UAA
Entrenamiento del algoritmo SVM
Tuits Positivos
Tuits Negativos
31. @abxda
XII Congreso de Ciencias Exactas UAA
Entrenamiento del algoritmo SVM
Tuits Positivos
Tuits Negativos
32. @abxda
XII Congreso de Ciencias Exactas UAA
Tuits Positivos
Tuits Negativos
Entrenamiento del algoritmo SVM
33. XII Congreso de Ciencias Exactas UAA
@abxda
Regla de Decisión
Clasificación Supervisada
Tuits Etiquetados Normalización y Representación Vectorial Entrenamiento
Nuevo Tuit
Estado de ánimo de los tuiteros
Normalización y Representación Vectorial
54,131 Tuits
etiquetados manualmente
por 9,330 personas
34. XII Congreso de Ciencias Exactas UAA
@abxda
Ánimo Tuitero 1.0 año 2015
35. XII Congreso de Ciencias Exactas UAA
@abxda
LOGSTASH
(2 Cores)
Location Query
Free Access
Apache Spark
(16 Cores)
Clean & Sentiment Analysis
Tweets
Procesamiento
Diario (6 Min)
(3 a.m.)
300 K
Geo-Tweets
Minimal
Representation
~8 Redhat Servers (8 Gb Ram, 4 Cores)
~300 Milliones of Geo-Tweets
~150 Milliones dentro de México
> 3 Years ~ 24/7
Ánimo Tuitero 2.0 año - 2018
39. XII Congreso de Ciencias Exactas UAA
@abxda
Otros Proyectos
(Experiencia en 2014)
https://goo.gl/wHG0xE
40. XII Congreso de Ciencias Exactas UAA
@abxda
Estudiar la movilidad es un proceso complejo
41. XII Congreso de Ciencias Exactas UAA
@abxda
Herramienta de Consulta de la Movilidad de los Tuiteros
(2017)
42. XII Congreso de Ciencias Exactas UAA
@abxda
Herramienta de Consulta de la Movilidad de los Tuiteros
(2017)
43. XII Congreso de Ciencias Exactas UAA
@abxda
Detección del crecimiento de localidades
urbanas usando Twitter (2017)
44. XII Congreso de Ciencias Exactas UAA
@abxda
Nuevas Fuentes de Datos
45. XII Congreso de Ciencias Exactas UAA
@abxda
Imágenes de Satélite
https://www.technologyreview.com/s/603706/the-startup-thats-in-charge-of-the-biggest-private-satellite-fleet/ http://www.bbc.com/news/science-environment-39183353
46. XII Congreso de Ciencias Exactas UAA
@abxda
Imágenes de Satélite
47. XII Congreso de Ciencias Exactas UAA
@abxda
Extender los trabajos a otras fuentes de datos
Landsat 8
https://aws.amazon.com/es/public-datasets/landsat/
Tiempo de Revisita es de 16 días
30 m
https://upload.wikimedia.org/wikipedia/commons/4/48/HyperspectralCube.jpg
48. XII Congreso de Ciencias Exactas UAA
@abxda
Big Data 2,737,273,075 pixeles
49. XII Congreso de Ciencias Exactas UAA
@abxda
Extender los trabajos a otras fuentes de datos
Sentinel 2 A & B
https://scihub.copernicus.eu/
Tiempo de Revisita es de 5 días (Nov. 2017)
10 m
https://upload.wikimedia.org/wikipedia/commons/4/48/HyperspectralCube.jpg
http://www.mallontechnology.com/blog/view/198/sentinel-data-helping-downstream-space-industry-deliver-31-billion-in-benefits
50. XII Congreso de Ciencias Exactas UAA
@abxda
LANDSAT & SENTINEL
LANDSAT 8 (30 m) SENTINEL 2 (10 m)
30 m 10 m
2,737,273,075 pixeles 24,635,457,675 pixeles
51. XII Congreso de Ciencias Exactas UAA
@abxda
Sentinel
SENTINEL 2 (10 m)
52. XII Congreso de Ciencias Exactas UAA
@abxda
Datos de Entrenamiento
53. XII Congreso de Ciencias Exactas UAA
@abxda
Proceso de clasificación de imágenes de satélite
Selección del Modelo de Clasificación
Clases de cobertura
de suelo
Imágenes de Satélite
(30 m y 10 m)
Clasificación realizada por Expertos
de Percepción Remota
INEGI
15m, Modelo Digital de Elevación
Información Auxiliar
+
Extracción / Selección /
Generación de
Carácterísticas
Conjunto de Entrenamiento y
Pruebas
Experimentos
mediante validación
cruzada
Clasificador
Seleccionado
Bosques Aleatorios
SVM
Redes Neuronales
(Deep Learning)
54. XII Congreso de Ciencias Exactas UAA
@abxda
Algunos Aprendizajes
• Se requiere involucramiento y liderazgo de expertos del negocio.
• Es fundamental colaborar con la academia.
• No se requiere gran inversión en hardware, se pueden hacer los proyectos piloto
con los recursos que ya se cuentan.
• En proyectos de clasificación supervisada lo mas valioso es construir y mantener
actualizada una base de entrenamiento.
• Los proyectos de Big Data / Ciencia de Datos son proyectos de investigación, NO
HAY GARANTIAS DE ÉXITO.