Proyectos de Big Data del INEGI presentados en la Universidad Iberoamericana. Mostrando principios de Big Data y 3 proyectos: El estratificador Inegi, El Animo Tuitero y el Cubo de Datos Geoespaciales.
El documento presenta una introducción a los conceptos básicos de los datos geográficos, incluyendo representaciones vectoriales y ráster, sistemas de coordenadas y proyecciones. Luego describe cómo usar herramientas de Python, R y Apache Spark para analizar y procesar datos geográficos abiertos como los del Censo de Población y Vivienda de México 2020, con el objetivo de identificar patrones como las áreas con mayor concentración de gamers.
Este documento resume los proyectos de ciencia de datos y big data del INEGI entre 2011 y 2017, incluyendo el desarrollo inicial de herramientas de análisis de datos masivos, la recolección y clasificación de tweets para medir el sentimiento público, y planes futuros para analizar movilidad y clasificar imágenes de satélite.
El documento trata sobre el tema de Big Data y Ciencia de Datos. Explica algunas definiciones clave como volumen, velocidad y variedad de datos. También describe herramientas como Hadoop, MapReduce, Spark y técnicas como machine learning que se usan para procesar grandes cantidades de datos crudos y extraer información y conocimiento de ellos. Finalmente, menciona algunas tecnologías como Cassandra, MongoDB, HBase y Neo4j que se usan comúnmente como almacenes de datos no estructurados en entornos de Big Data.
Este documento presenta una introducción al tema de Big Data y Ciencia de Datos. Explica brevemente qué es Big Data según Gartner y describe algunas herramientas y tecnologías clave como Hadoop, Spark y RDD. También discute el uso de datos masivos en oficinas de estadística oficiales y propone el análisis de Twitter como un primer proyecto piloto para medir el sentimiento de los tuiteros mexicanos.
Este documento explora el uso de GPUs (tarjetas gráficas) para procesar grandes cantidades de datos (Big Data) y realizar ciencia de datos. Explica cómo las GPUs permiten analizar millones de registros de manzanas (unidades geográficas) 8 veces más rápido que métodos tradicionales. También presenta varias tecnologías y proyectos relacionados con Big Data, ciencia de datos y aprendizaje automático que aprovechan la capacidad de procesamiento paralelo de las GPUs.
Este documento presenta una introducción a Big Data, incluyendo definiciones de Big Data, historia y tecnologías clave como Hadoop. Explica roles como científico de datos y oportunidades financieras en el campo. También describe ejemplos prácticos de análisis de Big Data como el monitoreo del sentimiento público en México usando Twitter y la combinación de datos geoespaciales y de redes sociales.
El documento discute el tema de Big Data y Ciencia de Datos. Explica conceptos clave como qué es Big Data, fuentes de datos emergentes, y los procesos involucrados en Ciencia de Datos. También describe proyectos del INEGI que utilizan Big Data, incluyendo un estratificador basado en Big Data y análisis de sentimiento en Twitter.
El documento presenta una introducción a los conceptos básicos de los datos geográficos, incluyendo representaciones vectoriales y ráster, sistemas de coordenadas y proyecciones. Luego describe cómo usar herramientas de Python, R y Apache Spark para analizar y procesar datos geográficos abiertos como los del Censo de Población y Vivienda de México 2020, con el objetivo de identificar patrones como las áreas con mayor concentración de gamers.
Este documento resume los proyectos de ciencia de datos y big data del INEGI entre 2011 y 2017, incluyendo el desarrollo inicial de herramientas de análisis de datos masivos, la recolección y clasificación de tweets para medir el sentimiento público, y planes futuros para analizar movilidad y clasificar imágenes de satélite.
El documento trata sobre el tema de Big Data y Ciencia de Datos. Explica algunas definiciones clave como volumen, velocidad y variedad de datos. También describe herramientas como Hadoop, MapReduce, Spark y técnicas como machine learning que se usan para procesar grandes cantidades de datos crudos y extraer información y conocimiento de ellos. Finalmente, menciona algunas tecnologías como Cassandra, MongoDB, HBase y Neo4j que se usan comúnmente como almacenes de datos no estructurados en entornos de Big Data.
Este documento presenta una introducción al tema de Big Data y Ciencia de Datos. Explica brevemente qué es Big Data según Gartner y describe algunas herramientas y tecnologías clave como Hadoop, Spark y RDD. También discute el uso de datos masivos en oficinas de estadística oficiales y propone el análisis de Twitter como un primer proyecto piloto para medir el sentimiento de los tuiteros mexicanos.
Este documento explora el uso de GPUs (tarjetas gráficas) para procesar grandes cantidades de datos (Big Data) y realizar ciencia de datos. Explica cómo las GPUs permiten analizar millones de registros de manzanas (unidades geográficas) 8 veces más rápido que métodos tradicionales. También presenta varias tecnologías y proyectos relacionados con Big Data, ciencia de datos y aprendizaje automático que aprovechan la capacidad de procesamiento paralelo de las GPUs.
Este documento presenta una introducción a Big Data, incluyendo definiciones de Big Data, historia y tecnologías clave como Hadoop. Explica roles como científico de datos y oportunidades financieras en el campo. También describe ejemplos prácticos de análisis de Big Data como el monitoreo del sentimiento público en México usando Twitter y la combinación de datos geoespaciales y de redes sociales.
El documento discute el tema de Big Data y Ciencia de Datos. Explica conceptos clave como qué es Big Data, fuentes de datos emergentes, y los procesos involucrados en Ciencia de Datos. También describe proyectos del INEGI que utilizan Big Data, incluyendo un estratificador basado en Big Data y análisis de sentimiento en Twitter.
Big data se refiere a datos de alto volumen, velocidad y variedad que requieren formas innovadoras y rentables de procesamiento de información para obtener conocimientos y apoyar la toma de decisiones. El documento describe cómo las oficinas nacionales de estadística están explorando el uso de big data a través de proyectos piloto, y la necesidad de nuevas habilidades como el procesamiento de grandes cantidades de datos y el análisis visual para aprovechar completamente big data.
El documento presenta una introducción a los conceptos de Data Science. Explica que los datos son fundamentales para el análisis y la toma de decisiones, y que la cantidad de datos generados diariamente es enorme y está creciendo rápidamente. Define brevemente el rol de un Data Scientist y las habilidades requeridas, que incluyen álgebra lineal, análisis estadístico, procesamiento de datos y machine learning. Finalmente, menciona algunos casos de uso comunes de machine learning como el reconocimiento de imágenes y voz, y su aplicación en diferentes
El término “Data Science” se ha vuelto muy popular recientemente con el aumento de popularidad de las redes sociales, análisis predictivos y el análisis de datos no estructurados como parte del crecimiento del “Big Data”. En esta sesión estaremos viendo que es “Data Science”, que necesitamos saber o aprender para poder convertirnos en un científico de datos y estaremos viendo algunos ejemplos de usos muy comunes usando lenguajes como Python, R y el cómo podemos integrar estos en SQL Server y Azure . Al final de esta charla tendrás un entendimiento más amplio de las técnicas de manejos de datos, modelamiento, visualización y los lenguajes y productos para poner tus proyectos en marcha.
Atlas de Ciencias Sociales y Humanidades Digitales (#AtlasCSHD) en un nuevo proyecto que pretende dar visibilidad a la comunidad de académicos digitales en español y portugués. El #AtlasCSHD es un proyecto, alojado por GrinUGR, que surge de la colaboración entre GrinUGR y MapaHD avanzando en los trabajos ya realizados de forma autónoma.
Machine learning usando Weka, en un entorno de cómputo distribuidoSoftware Guru
En esta sesión mostraremos lo sencillo que es implementar algoritmos de machine learning en un entorno de cómputo distribuido por medio de Weka. Weka es una herramienta de software libre para data mining y machine learning, la cual fue desarrollada por la Universidad de Waikato en Nueva Zelanda.
Por Alexandra Lemus (VinkOS)
La potencia de la analítica y la visualización de datosNeo4j
En esta webinar, nuestros destacados partners GraphEverywhere y Linkurious presentarán la base de datos Neo4j y la visualización de grafos de Linkurious junto con la perfecta integración de ambos. Además, también mostrarán casos de uso junto con una demo que integra a Neo4j con Linkurious.
En resúmen, lo que aprenderás es:
- Cómo los grafos pueden transformar/impactar tu negocio
- Casos de uso
- Beneficios de la implantación conjunta de las tecnologías de grafos y de visualización de grafos
Taller Big Data, ciencia de datos y R - IEEE SB UMH y Geeky TheoryMario Pérez Esteso
Este documento presenta un análisis de reglas de asociación de los datos del Titanic para predecir qué pasajeros sobrevivieron. Se describen las fases de la ciencia de datos, incluida la recolección de datos del Titanic que incluyen clase, sexo, edad y supervivencia. Luego, se crean reglas de asociación con R y se inspeccionan para encontrar patrones como que las mujeres y niños de primera y segunda clase tenían más probabilidades de sobrevivir. Finalmente, se proporcionan visualizaciones como scatter plots y histogramas para expl
El documento resume las conclusiones de un hackathon de datos abiertos donde varios participantes analizaron datos de tráfico de la DGT a través de técnicas como scrapping de PDFs, el estudio de APIs de tráfico y el conocimiento de datos Bluetooth. Agradece a los participantes y los invita a seguir el proyecto PETRA en las redes sociales.
Datlas HackMTY - Choques y siniestros Agosto 2020Datlas
En esta presentación compartimos el contenido del workshop que facilitamos en el contexto del HACKMTY de Agosto 2020 donde fuimos patrocinadores y postuladores de un reto
R es un lenguaje y entorno de programación para análisis estadístico y gráfico usado principalmente por científicos que trabajen con datos. Shiny es un framework de aplicaciones web de R que permite crear aplicaciones interactivas sin necesidad de conocimientos de HTML, CSS o JavaScript. El documento proporciona un ejemplo básico de cómo crear una aplicación Shiny que genera histogramas interactivos.
Azure Synapse Analytics es una plataforma de análisis moderna que combina datos, análisis y servicios de inteligencia. Permite almacenar datos de forma distribuida en 60 bases de datos y distribuirlos mediante hash, round-robin o replicación. Los recursos de CPU, memoria e IOPS se asignan mediante Data Warehouse Units, lo que determina la capacidad de consultas simultáneas y procesos en paralelo de la instancia.
El documento habla sobre el Big Data, definido como la gestión de grandes cantidades de datos provenientes de múltiples fuentes. Describe las características del Big Data como la captura, transformación y almacenamiento de datos, así como técnicas de análisis y visualización. Finalmente, explica cómo el Big Data se puede aplicar en ámbitos como la democracia, empresas, deportes e investigación.
En esta sesión analizaremos los principales retos que enfrentan las organizaciones para aumentar su agilidad, y veremos cómo se pueden superar por medio de una combinación de personas, procesos y tecnología.
Esta es una actualización de el proyecto de Big Data que ha llegado a un primer resultado, El mapa de emotividad basada en Twitter, por cada entidad de México. El siguiente paso será hacer esto en tiempo real.
El constante uso de las tecnologías ha traído consigo un crecimiento explosivo en la cantidad de datos. El gran contenido de valor que genera este tipo de información está permitiendo a las organizaciones una mejora en la toma de sus decisiones, lo que conlleva a la obtención de ventajas competitivas en los diferentes campos de acción. En este artículo se describe el estado del arte, las oportunidades, retos y tendencias que existen sobre “Big Data Analytics”, con un enfoque hacia el Software.
Material de la sesión técnica “BIG DATA: Qué significa realmente y ejemplos de utilización”, realizada el jueves 27 de febrero, y que fue conducida por Oscar Marín, fundador de Outliers y consultor experto en Big Data especializado en el análisis y visualización de datos, redes sociales, datos urbanos y aportación del valor a los datos.
Este documento habla sobre Big Data, definiéndolo como conjuntos de datos tan grandes y complejos que son difíciles de procesar con herramientas tradicionales. Explica brevemente la historia del Big Data y las 3 V's (volumen, velocidad y variedad). También discute el valor del Big Data para sectores como marketing, análisis de clientes y salud, y las herramientas como Hadoop, MapReduce y NoSQL para procesar grandes cantidades de datos. Finalmente, menciona algunos riesgos como confundir Big Data con datos
Este documento presenta información sobre el análisis de grandes datos (Big Data) obtenidos de redes sociales como Twitter. Explica conceptos clave de Big Data como volumen, velocidad y variedad de datos, y describe herramientas como ElasticSearch y Hadoop que permiten recolectar y analizar grandes cantidades de datos de Twitter. También muestra ejemplos de análisis realizados con los datos de Twitter como estudios de movilidad y detección de sentimientos en los tuits.
Que mejor ejemplo de Big Data que la corriente masiva de datos que generan las redes sociales, en la conferencia se mostraran herramientas y técnicas que se están aplicado para explorar los secretos de twitter en México.
Acompañame en un recorrido práctico en el uso de herramientas OpenSource para el análisis de datos masivos que están al alcance de todos.
Semblanza del conferencista:
Abel Coronado es Científico de datos, Analista de Big data y Arquitecto de plataformas BigData, así como Desarrollador de Software en múltiples lenguajes y paradigmas. Twitter: @abxda
Big data se refiere a datos de alto volumen, velocidad y variedad que requieren formas innovadoras y rentables de procesamiento de información para obtener conocimientos y apoyar la toma de decisiones. El documento describe cómo las oficinas nacionales de estadística están explorando el uso de big data a través de proyectos piloto, y la necesidad de nuevas habilidades como el procesamiento de grandes cantidades de datos y el análisis visual para aprovechar completamente big data.
El documento presenta una introducción a los conceptos de Data Science. Explica que los datos son fundamentales para el análisis y la toma de decisiones, y que la cantidad de datos generados diariamente es enorme y está creciendo rápidamente. Define brevemente el rol de un Data Scientist y las habilidades requeridas, que incluyen álgebra lineal, análisis estadístico, procesamiento de datos y machine learning. Finalmente, menciona algunos casos de uso comunes de machine learning como el reconocimiento de imágenes y voz, y su aplicación en diferentes
El término “Data Science” se ha vuelto muy popular recientemente con el aumento de popularidad de las redes sociales, análisis predictivos y el análisis de datos no estructurados como parte del crecimiento del “Big Data”. En esta sesión estaremos viendo que es “Data Science”, que necesitamos saber o aprender para poder convertirnos en un científico de datos y estaremos viendo algunos ejemplos de usos muy comunes usando lenguajes como Python, R y el cómo podemos integrar estos en SQL Server y Azure . Al final de esta charla tendrás un entendimiento más amplio de las técnicas de manejos de datos, modelamiento, visualización y los lenguajes y productos para poner tus proyectos en marcha.
Atlas de Ciencias Sociales y Humanidades Digitales (#AtlasCSHD) en un nuevo proyecto que pretende dar visibilidad a la comunidad de académicos digitales en español y portugués. El #AtlasCSHD es un proyecto, alojado por GrinUGR, que surge de la colaboración entre GrinUGR y MapaHD avanzando en los trabajos ya realizados de forma autónoma.
Machine learning usando Weka, en un entorno de cómputo distribuidoSoftware Guru
En esta sesión mostraremos lo sencillo que es implementar algoritmos de machine learning en un entorno de cómputo distribuido por medio de Weka. Weka es una herramienta de software libre para data mining y machine learning, la cual fue desarrollada por la Universidad de Waikato en Nueva Zelanda.
Por Alexandra Lemus (VinkOS)
La potencia de la analítica y la visualización de datosNeo4j
En esta webinar, nuestros destacados partners GraphEverywhere y Linkurious presentarán la base de datos Neo4j y la visualización de grafos de Linkurious junto con la perfecta integración de ambos. Además, también mostrarán casos de uso junto con una demo que integra a Neo4j con Linkurious.
En resúmen, lo que aprenderás es:
- Cómo los grafos pueden transformar/impactar tu negocio
- Casos de uso
- Beneficios de la implantación conjunta de las tecnologías de grafos y de visualización de grafos
Taller Big Data, ciencia de datos y R - IEEE SB UMH y Geeky TheoryMario Pérez Esteso
Este documento presenta un análisis de reglas de asociación de los datos del Titanic para predecir qué pasajeros sobrevivieron. Se describen las fases de la ciencia de datos, incluida la recolección de datos del Titanic que incluyen clase, sexo, edad y supervivencia. Luego, se crean reglas de asociación con R y se inspeccionan para encontrar patrones como que las mujeres y niños de primera y segunda clase tenían más probabilidades de sobrevivir. Finalmente, se proporcionan visualizaciones como scatter plots y histogramas para expl
El documento resume las conclusiones de un hackathon de datos abiertos donde varios participantes analizaron datos de tráfico de la DGT a través de técnicas como scrapping de PDFs, el estudio de APIs de tráfico y el conocimiento de datos Bluetooth. Agradece a los participantes y los invita a seguir el proyecto PETRA en las redes sociales.
Datlas HackMTY - Choques y siniestros Agosto 2020Datlas
En esta presentación compartimos el contenido del workshop que facilitamos en el contexto del HACKMTY de Agosto 2020 donde fuimos patrocinadores y postuladores de un reto
R es un lenguaje y entorno de programación para análisis estadístico y gráfico usado principalmente por científicos que trabajen con datos. Shiny es un framework de aplicaciones web de R que permite crear aplicaciones interactivas sin necesidad de conocimientos de HTML, CSS o JavaScript. El documento proporciona un ejemplo básico de cómo crear una aplicación Shiny que genera histogramas interactivos.
Azure Synapse Analytics es una plataforma de análisis moderna que combina datos, análisis y servicios de inteligencia. Permite almacenar datos de forma distribuida en 60 bases de datos y distribuirlos mediante hash, round-robin o replicación. Los recursos de CPU, memoria e IOPS se asignan mediante Data Warehouse Units, lo que determina la capacidad de consultas simultáneas y procesos en paralelo de la instancia.
El documento habla sobre el Big Data, definido como la gestión de grandes cantidades de datos provenientes de múltiples fuentes. Describe las características del Big Data como la captura, transformación y almacenamiento de datos, así como técnicas de análisis y visualización. Finalmente, explica cómo el Big Data se puede aplicar en ámbitos como la democracia, empresas, deportes e investigación.
En esta sesión analizaremos los principales retos que enfrentan las organizaciones para aumentar su agilidad, y veremos cómo se pueden superar por medio de una combinación de personas, procesos y tecnología.
Esta es una actualización de el proyecto de Big Data que ha llegado a un primer resultado, El mapa de emotividad basada en Twitter, por cada entidad de México. El siguiente paso será hacer esto en tiempo real.
El constante uso de las tecnologías ha traído consigo un crecimiento explosivo en la cantidad de datos. El gran contenido de valor que genera este tipo de información está permitiendo a las organizaciones una mejora en la toma de sus decisiones, lo que conlleva a la obtención de ventajas competitivas en los diferentes campos de acción. En este artículo se describe el estado del arte, las oportunidades, retos y tendencias que existen sobre “Big Data Analytics”, con un enfoque hacia el Software.
Material de la sesión técnica “BIG DATA: Qué significa realmente y ejemplos de utilización”, realizada el jueves 27 de febrero, y que fue conducida por Oscar Marín, fundador de Outliers y consultor experto en Big Data especializado en el análisis y visualización de datos, redes sociales, datos urbanos y aportación del valor a los datos.
Este documento habla sobre Big Data, definiéndolo como conjuntos de datos tan grandes y complejos que son difíciles de procesar con herramientas tradicionales. Explica brevemente la historia del Big Data y las 3 V's (volumen, velocidad y variedad). También discute el valor del Big Data para sectores como marketing, análisis de clientes y salud, y las herramientas como Hadoop, MapReduce y NoSQL para procesar grandes cantidades de datos. Finalmente, menciona algunos riesgos como confundir Big Data con datos
Este documento presenta información sobre el análisis de grandes datos (Big Data) obtenidos de redes sociales como Twitter. Explica conceptos clave de Big Data como volumen, velocidad y variedad de datos, y describe herramientas como ElasticSearch y Hadoop que permiten recolectar y analizar grandes cantidades de datos de Twitter. También muestra ejemplos de análisis realizados con los datos de Twitter como estudios de movilidad y detección de sentimientos en los tuits.
Que mejor ejemplo de Big Data que la corriente masiva de datos que generan las redes sociales, en la conferencia se mostraran herramientas y técnicas que se están aplicado para explorar los secretos de twitter en México.
Acompañame en un recorrido práctico en el uso de herramientas OpenSource para el análisis de datos masivos que están al alcance de todos.
Semblanza del conferencista:
Abel Coronado es Científico de datos, Analista de Big data y Arquitecto de plataformas BigData, así como Desarrollador de Software en múltiples lenguajes y paradigmas. Twitter: @abxda
Este documento describe cómo es posible hacer periodismo de datos sin muchos recursos. Explica que se pueden obtener y analizar datos a través de la búsqueda en Google, bases de datos abiertas del gobierno, y herramientas gratuitas como Excel. También recomienda técnicas como la extracción de datos y visualización básica con gráficos para identificar patrones en los datos y comunicar hallazgos de manera efectiva.
Este documento introduce el tema del Big Data en educación. Explica que el Big Data se refiere a grandes volúmenes de datos producidos a gran velocidad de múltiples fuentes. Estos datos tienen 7 características clave: volumen, velocidad, variedad, veracidad, valor, variabilidad y visualización. El documento también describe cómo el Big Data puede usarse en educación para mejorar el aprendizaje, personalizar la educación y predecir y minimizar el fracaso escolar.
Big data: Valor y Mercado: Escola Universitària Salesians de Sarrià - UABOutliers Collective
Este documento habla sobre el Big Data, definiéndolo como conjuntos de datos tan grandes y complejos que son difíciles de procesar con herramientas tradicionales. Explora las 3V del Big Data (volumen, velocidad y variedad), herramientas como Hadoop y MongoDB, y los valores y aplicaciones del análisis de Big Data en áreas como marketing, salud y ciencias sociales.
El documento habla sobre el Big Data y cómo los grandes volúmenes de datos que se generan a diario pueden usarse para obtener nuevos conocimientos. Explica que el Big Data se refiere al aumento exponencial de datos disponibles y menciona algunas aplicaciones como el estudio del genoma humano y la física de partículas. También describe herramientas como Hadoop, MapReduce, Pig y Cassandra que permiten almacenar y procesar grandes cantidades de datos de forma distribuida.
"Educación y datos masivos (Big Data)" - Fernando SantamariaNivel 7
En esta conferencia haremos un repaso de las características de los datos masivos, de sus conceptos emergentes que surgen alrededor, de sus ventajas y desventajas, de los efectos y consecuencias que tendrá sobre los sistemas educativos y de los peligros vistos desde nuestra estructura mental y social que es de pre-datos masivos.
Los datos masivos (Big Data) están cambiando la forma de acceder, comprender, planificar y también la forma de vivir. Este nuevo paradigma están entrando de lleno en todos los ámbitos sociales. El mundo académico y de aprendizaje no va ser menos. La analítica del aprendizaje y académico está focalizado en la educación. En esta presentación (en beta) presentamos en MoodleMoot 2014 Colombia para dar a conocer todo este ecosistema del dato.
"Educación y datos masivos (Big Data)" - Fernando SantamariaNivel 7
En esta conferencia haremos un repaso de las características de los datos masivos, de sus conceptos emergentes que surgen alrededor, de sus ventajas y desventajas, de los efectos y consecuencias que tendrá sobre los sistemas educativos y de los peligros vistos desde nuestra estructura mental y social que es de pre-datos masivos.
El documento presenta información sobre datos abiertos y cómo publicar datos de forma abierta y reutilizable. Explica brevemente qué son los datos abiertos, sus beneficios y ejemplos de uso. Luego entra en detalles técnicos sobre aspectos como la arquitectura, interoperabilidad y URIs HTTP para publicar datos. Finalmente, cubre formatos como CSV, microdatos y JSON-LD para publicar datos de manera que sean comprensibles tanto para humanos como máquinas.
Este documento introduce el análisis de datos masivos (Big Data), definiendo qué es, las tecnologías involucradas como Hadoop y MapReduce, e infraestructura como visualización de datos. Explica los conceptos de volumen, velocidad, variedad y veracidad de los datos, y cómo el análisis puede identificar estrategias educativas efectivas.
Qué vigilan las redes de sensores y cómo gestionar la informaciónSocialBiblio
Charla ofrecida por Ivan Arakistain el 22 de junio de 2016 en SocialBiblio con el título Qué vigilan las redes de sensores y cómo gestionar la información.
Este documento presenta una introducción a los conceptos y aplicaciones de Big Data utilizando Twitter como fuente de datos. Explica cómo recolectar y almacenar datos de Twitter usando Elasticsearch e Hadoop/Spark, y cómo analizar los datos recolectados para identificar tendencias temporales, hashtags populares, y patrones de actividad de usuarios. También muestra ejemplos de correlacionar datos de Twitter con otros conjuntos de datos como la red nacional de caminos.
El documento presenta varias fuentes que definen y explican el concepto de Big Data, incluyendo artículos que describen las oportunidades que ofrece Big Data para las empresas y cómo darle forma al futuro.
El documento presenta una recopilación de seis fuentes que definen y explican el concepto de Big Data, incluyendo artículos de 2015 de Quees.com, El Economista, Forbes México y el sitio bigdatalandscape.com, así como contenido de 2012 de IBM y de 2015 de AndrésRaya.com.
This presentation provides an introduction to the basics of managing mobility data. It covers fundamental concepts and ideas related to data processing, and aims to provide the audience with a better understanding of how to manage mobility data more effectively. The content of the presentation is based on practical examples and real-world scenarios.
El documento describe el Cubo de Datos Geoespaciales de México creado por el INEGI. El cubo contiene más de 90 terabytes de imágenes Landsat de 37 años que han sido procesadas y están disponibles para análisis. El INEGI usa estas imágenes satelitales, junto con machine learning, para monitorear cambios en el uso del suelo a nivel nacional y producir productos como la Geomediana que muestran tendencias a lo largo del tiempo.
Sharing the experience and results of using georeferenced 2010 Census data in Mexico and EO to train algorithms in order to detect urban growth and generate useful information for estimating population for non-census years.
We use the Georeferenced results of the 2010 Census in Mexico to train machine learning algorithms to detect growth in cities and contribute new information to estimate the total population.
El documento describe el Cubo de Datos Geoespaciales de México creado por el INEGI. El cubo utiliza imágenes satelitales gratuitas y de código abierto como Landsat y Sentinel para realizar análisis de series temporales a nivel de píxel y monitorear el cambio en el uso del suelo a lo largo del tiempo. El cubo permite procesar y analizar masivamente grandes volúmenes de datos satelitales para generar productos nacionales que apoyen el seguimiento de los Objetivos de Desarrol
Este documento habla sobre los tipos de datos NOSQL, incluyendo datos estructurados, semi-estructurados y no estructurados. También menciona big data, data lake y la diferencia entre un data lake y un data warehouse. Finalmente, nombra algunas bases de datos NOSQL dignas de mención y proporciona un enlace a un ranking de bases de datos.
En esta presentación se describen las características de las imágenes de satélite y se muestra el valor del Open Data Cube. Tambien se describe el potencial de esta fuente de datos para el monitoreo de fenómenos ambientales, socioeconomicos y demográficos .
Actualización de los avances en la implantación del proyecto de análisis de Twitter en México para la generación de una estadística del Sentimiento de los Tuiteros Mexicanos.
This document discusses INEGI's use of Twitter as a source of big data. It outlines INEGI's process for collecting over 260 million geo-tagged tweets from Twitter's API and analyzing them using Apache Spark. The tweets are analyzed to extract sentiment indicators and examine mobility patterns. INEGI has also integrated tweets with other data sources and is exploring various applications of the Twitter data like tracking tourism, migration, and subjective wellbeing.
Este documento presenta una introducción a Scala. Explica los conceptos básicos de valores, variables, tipos de datos, inferencia de tipos, expresiones y condicionales. Define la diferencia entre valores y variables, y cómo Scala puede determinar automáticamente el tipo de datos basado en la inicialización de un valor. También cubre expresiones simples y compuestas, y el uso de if/else para crear expresiones condicionales.
El documento resume los avances realizados entre julio de 2013 y diciembre de 2014 en ciencia de datos utilizando Twitter como fuente de datos masivos. Se recolectaron más de 95 millones de tweets durante este periodo los cuales fueron procesados utilizando herramientas como Apache Spark y Elasticsearch para extraer información sobre temas, ubicaciones y patrones temporales. El análisis reveló eventos importantes como el mundial de fútbol de 2014 y permitió generar visualizaciones que muestran la movilidad de usuarios de Twitter en México.
Este documento presenta información sobre el análisis de grandes datos (Big Data) obtenidos de redes sociales como Twitter. Explica conceptos clave de Big Data como volumen, velocidad y variedad de datos. Describe herramientas para recolectar y analizar tweets como ElasticSearch e incluye ejemplos de análisis realizados como mapeo de hashtags, detección de eventos y movilidad entre estados basados en datos georreferenciados de Twitter. El objetivo final es explorar el desarrollo de metodologías para medir la mov
Este documento presenta una introducción a los conceptos de Big Data y Ciencia de Datos. Explica que Big Data se refiere a grandes volúmenes de datos que provienen de múltiples fuentes y que requieren análisis avanzados. Describe cómo Twitter puede ser una fuente rica de datos y cómo se pueden recolectar y analizar millones de tweets para generar información valiosa. Finalmente, muestra ejemplos de análisis realizados sobre datos de Twitter de México para comprender temas populares, ubicaciones y cómo se conectan los usu
El documento contiene información sobre Big Data, incluyendo definiciones, herramientas como Hadoop y Spark, y ejemplos de análisis de datos masivos. Se discuten conceptos como MapReduce, procesamiento paralelo de datos, y el uso de tecnologías como Scala y R para extraer información de grandes volúmenes de datos.
Reporte homicidio doloso descripción
Reporte que contiene información de las víctimas de homicidio doloso registradas en el municipio de Irapuato Guanajuato durante el periodo señalado, comprende información cualitativa y cuantitativa que hace referencia a las características principales de cada uno de los homicidios.
La información proviene tanto de medios de comunicación digitales e impresos como de los boletines que la propia Fiscalía del Estado de Guanajuato emite de manera diaria a los medios de comunicación quienes publican estas incidencias en sus distintos canales.
Podemos observar cantidad de personas fallecidas, lugar donde se registraron los eventos, colonia y calle así como un comparativo con el mismo periodo pero del año anterior.
Edades y género de las víctimas es parte de la información que incluye el reporte.
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIOAaronPleitez
linea de tiempo del antiguo testamento donde se detalla la cronología de todos los eventos, personas, sucesos, etc. Además se incluye una parte del periodo intertestamentario en orden cronológico donde se detalla todo lo que sucede en los 400 años del periodo del silencio. Basicamente es un resumen de todos los sucesos desde Abraham hasta Cristo
Minería de Datos e IA Conceptos, Fundamentos y Aplicaciones.pdfMedTechBiz
Este libro ofrece una introducción completa y accesible a los campos de la minería de datos y la inteligencia artificial. Cubre todo, desde conceptos básicos hasta estudios de casos avanzados, con énfasis en la aplicación práctica utilizando herramientas como Python y R.
También aborda cuestiones críticas de ética y responsabilidad en el uso de estas tecnologías, discutiendo temas como la privacidad, el sesgo algorítmico y transparencia.
El objetivo es permitir al lector aplicar técnicas de minería de datos e inteligencia artificial a problemas reales, contribuyendo a la innovación y el progreso en su área de especialización.
Este documento ha sido elaborado por el Observatorio Ciudadano de Seguridad Justicia y Legalidad de Irapuato siendo nuestro propósito conocer datos sociodemográficos en conjunto con información de incidencia delictiva de las 10 colonias y/o comunidades que del año 2020 a la fecha han tenido mayor incidencia.
Existen muchas más colonias que presentan cifras y datos en materia de seguridad, sin embargo, en este primer acercamiento lo que se prevées darle al lector una idea de como se encuentran las colonias analizadas, tomando como referencia los datos del INEGI 2020, datos del Secretariado Ejecutivo del Sistema Nacional de Seguridad Pública del 2020 al 2023 y las bases de datos propias que desde el 2017 el Observatorio Ciudadano ha recopilado de manera puntual con datos de las vıć timas de homicidio doloso, accidentes de tránsito, personas lesionadas por arma de fuego, entre otros indicadores.
14. ¿Qué es Big Data?
http://datascience.berkeley.edu/what-is-big-data/
15. ¿Qué es Big Data?
http://datascience.berkeley.edu/what-is-big-data/
16. ¿Qué es Big Data?
http://datascience.berkeley.edu/what-is-big-data/
17. ¿Qué es Big Data?
http://datascience.berkeley.edu/what-is-big-data/
18. (Gartner, 2012) Big data son activos de
información de gran volumen, alta velocidad y / o
gran variedad que exigen formas rentables e
innovadoras de procesamiento que permitan una
mejor comprensión, toma de decisiones y
automatización de procesos.
¿Qué es Big Data?
https://www.gartner.com/en/information-technology/glossary/big-data
21. http://www1.unece.org/stat/platform/download/attachments/58492100/Big+Data+HLG+Final.docx
Big Data en las Oficinas Nacionales de
Estadística (ONE)
• It is clear that during the next two years there is a need
to identify a few pilot projects that will serve as proof of
concept.
• Statistical organisations are, therefore, encouraged to
address formally Big data issues in their annual and
multi-annual work programmes by undertaking
research and pilot projects in selected areas and by
allocating appropriate resources for that purpose.
22. http://www1.unece.org/stat/platform/download/attachments/58492100/Big+Data+HLG+Final.docx
Big Data en las Oficinas Nacionales de
Estadística (ONE)
• 'new' exploration and analysis methods are required:
Visualization methods, Text mining, and High Performance
Computing.
• To use Big data, statisticians are needed with a different
mind-set and new skills. The processing of more and
more data for official statistics requires statistically aware
people with an analytical mind-set, an affinity for IT (e.g.
programming skills)
25. Hilary Mason, Chief Data Scientist at bitly
http://www.forbes.com/sites/danwoods/2012/03/08/hilary-mason-what-is-a-data-scientist
Científico de Datos
28. Valor
Análisis de Datos
Estadística
Machine Learning
Estadística
Descriptiva
Procesamiento de
Lenguaje Natural
Muestreo
Mucho más…
Análisis de
Redes (Grafos)
Visualización
Análisis de
Series de Tiempo
http://www.datascienceassn.org/
http://en.wikipedia.org/wiki/DIKW_Pyramid
https://im.ft-static.com/content/images/e91a32d0-2bac-11e3-bfe2-00144feab7de.pdf
Inspirado en:
Gramática de visualización
https://vega.github.io/vega/
Componentes de Big Data y Ciencia de Datos
29. Ciclo de vida de Ciencia de Datos
https://docs.microsoft.com/en-us/archive/blogs/machinelearning/introducing-the-team-data-science-process-from-microsoft
37. Estado de Animo de los Tuiteros (2018)
~8 Redhat Servers (8 Gb Ram, 4 Cores)
~500 Milliones of Geo-Tweets
~200 Milliones dentro de México
> 4 Years ~ 24/7
41. Cubo de Datos Geoespaciales de México
Machine Learning (2019)
Entrenamiento
Censo 2010
Muestra Aleatoria
Geomediana libre de
nubes
30 metros
Machine Learning
Supervisado
Clasificación de
Densidad Urbana
Años no-censales
2019
Imágenes 2010
43. Lago de Datos 2020 - …
Mathis, C. (2017). Data Lakes. Datenbank-Spektrum, 17(3), 289–293.
https://doi.org/10.1007/s13222-017-0272-7
44. • Se requiere involucramiento y liderazgo de expertos del negocio.
• Es fundamental colaborar con la academia.
• No se requiere gran inversión en hardware, se pueden hacer los proyectos
piloto con los recursos que ya se cuentan.
• En proyectos de clasificación supervisada lo mas valioso es construir y
mantener actualizada una base de entrenamiento.
• Los proyectos de Big Data / Ciencia de Datos son proyectos de
investigación, NO HAY GARANTIAS DE ÉXITO.
Algunas lecciones aprendidas
Academia, Supercomputadoras, Ciencias Naturales, Aquí se proponen 2 ideas fundamentales de Big Data: que los algoritmos de procesamiento sean los que viajen (Computo Distribuido) y dividir los conjuntos masivos en pedazos mas pequeños (Sistemas de Archivos Distribuidos). Que las maquinas que tienen los datos los procesen en lugar de transferir los datos para procesarlos en otro lugar, Data Locality.