Definir de manera concreta y concisa Big Data como fenómeno. Justificar la Estadística Multivariante aplicada a Big Data. Clasificar y calificar las técnicas multivariantes clásicas que se pueden aplicar.Presentar la GISciencia como el vehículo curricular adecuado para el tratamiento académico, conceptual y de desarrollo analítico final del Big Data.
La inteligencia de negocios ayuda a las organizaciones a tomar mejores decisiones más rápidas mediante el análisis de datos, la conversión de datos en información y el uso de aplicaciones. Se compone de cuatro etapas: análisis, reflexión, acción y medición. Herramientas comunes incluyen minería de datos, OLAP, almacenes de datos y martes de datos e informes.
Este documento describe la necesidad de realizar análisis de datos para tomar mejores decisiones de negocios. Explica que la inteligencia de negocios permite recopilar, analizar y presentar datos para generar información útil que sustente las decisiones estratégicas. Proporciona beneficios como mejor acceso a la información y apoyo en la planificación.
La inteligencia de negocios es el proceso de analizar datos de una empresa para extraer conocimiento e información útil para la toma de decisiones. Incluye metodologías, técnicas y herramientas que permiten a las organizaciones acceder y analizar datos para tomar decisiones basadas en evidencia. La inteligencia de negocios comenzó en la década de 1980 para facilitar el acceso de los ejecutivos a la información y ha evolucionado para incluir componentes como almacenes de datos, minería de datos y análisis multidimensional.
Fundamentos de los_sistemas_de_informacióndnoriega0409
El documento describe los sistemas de información desde diferentes perspectivas. Explica que un sistema de información es una solución organizacional y administrativa basada en tecnología de información para enfrentar desafíos del entorno. También describe los componentes de un sistema de información, los diferentes niveles y enfoques para analizarlos.
Inteligencia de negocios - Business Intelligence
ingluye ETL, Data Mining, Data Warehouse, OLAP
Explicación breve para clase de Ingeniería en Gestión Empresarial IGE
El documento describe los estándares COBIT y el informe COSO para sistemas de información. COBIT proporciona un marco de referencia para la gestión y auditoría de TI que incluye cuatro dominios (planificación y organización, adquisición e implementación, soporte y servicios, y monitoreo). El informe COSO establece directrices para un sistema de control interno que incluye cinco componentes (ambiente de control, evaluación de riesgos, actividades de control, información y comunicación, y supervisión).
Un sistema de información es un conjunto de elementos orientados al tratamiento y administración de datos e información. Un SI contiene datos sobre una organización y su entorno, y tres actividades básicas (entrada, procesamiento y salida) producen la información necesaria. Para usar los SI con efectividad, se debe comprender la organización, administración y tecnología de la información que dan forma a los sistemas.
La inteligencia de negocios ayuda a las organizaciones a tomar mejores decisiones más rápidas mediante el análisis de datos, la conversión de datos en información y el uso de aplicaciones. Se compone de cuatro etapas: análisis, reflexión, acción y medición. Herramientas comunes incluyen minería de datos, OLAP, almacenes de datos y martes de datos e informes.
Este documento describe la necesidad de realizar análisis de datos para tomar mejores decisiones de negocios. Explica que la inteligencia de negocios permite recopilar, analizar y presentar datos para generar información útil que sustente las decisiones estratégicas. Proporciona beneficios como mejor acceso a la información y apoyo en la planificación.
La inteligencia de negocios es el proceso de analizar datos de una empresa para extraer conocimiento e información útil para la toma de decisiones. Incluye metodologías, técnicas y herramientas que permiten a las organizaciones acceder y analizar datos para tomar decisiones basadas en evidencia. La inteligencia de negocios comenzó en la década de 1980 para facilitar el acceso de los ejecutivos a la información y ha evolucionado para incluir componentes como almacenes de datos, minería de datos y análisis multidimensional.
Fundamentos de los_sistemas_de_informacióndnoriega0409
El documento describe los sistemas de información desde diferentes perspectivas. Explica que un sistema de información es una solución organizacional y administrativa basada en tecnología de información para enfrentar desafíos del entorno. También describe los componentes de un sistema de información, los diferentes niveles y enfoques para analizarlos.
Inteligencia de negocios - Business Intelligence
ingluye ETL, Data Mining, Data Warehouse, OLAP
Explicación breve para clase de Ingeniería en Gestión Empresarial IGE
El documento describe los estándares COBIT y el informe COSO para sistemas de información. COBIT proporciona un marco de referencia para la gestión y auditoría de TI que incluye cuatro dominios (planificación y organización, adquisición e implementación, soporte y servicios, y monitoreo). El informe COSO establece directrices para un sistema de control interno que incluye cinco componentes (ambiente de control, evaluación de riesgos, actividades de control, información y comunicación, y supervisión).
Un sistema de información es un conjunto de elementos orientados al tratamiento y administración de datos e información. Un SI contiene datos sobre una organización y su entorno, y tres actividades básicas (entrada, procesamiento y salida) producen la información necesaria. Para usar los SI con efectividad, se debe comprender la organización, administración y tecnología de la información que dan forma a los sistemas.
El documento proporciona una introducción a la auditoría informática. Explica que la auditoría informática evalúa si un sistema de información protege los activos de una empresa, mantiene la integridad de los datos y utiliza los recursos de manera eficiente. También identifica factores como leyes gubernamentales y costos de errores que conducen a las auditorías informáticas. Los objetivos generales de una auditoría incluyen asegurar la integridad, confidencialidad y confiabilidad de la información de una empresa.
tendencias de los sistemas de informacionYesenia Gomez
El documento resume cuatro unidades sobre sistemas de información y tecnologías de la información. La primera unidad cubre diferentes sistemas de información organizacionales. La segunda trata sobre tendencias en comercio electrónico, bases de datos y telecomunicaciones. La tercera analiza outsourcing, leasing y evaluación de proyectos. La cuarta describe estrategias metodológicas, actividades y evaluación de la asignatura.
Este documento describe los sistemas de información en los negocios contemporáneos. Define un sistema de información como un conjunto de componentes relacionados que recopilan, procesan, almacenan y distribuyen información para apoyar la toma de decisiones y el control en una organización. Explica que los sistemas de información brindan acceso rápido a la información, mejoran la productividad, permiten la automatización de procesos y proporcionan información para la toma de decisiones, logrando así ventajas competitivas.
Este documento describe el estándar COBIT y la norma ISO/IEC 38500:2008 relacionada con el buen gobierno de TI. COBIT es un marco de referencia para el gobierno y gestión de TI que consta de 36 procesos agrupados en 5 dominios. La norma ISO/IEC 38500:2008 establece principios para el buen gobierno corporativo de TI basado en la evaluación, dirección y seguimiento del uso de TI por parte de la alta dirección. La implementación de ambos frameworks puede generar beneficios como la alineación
Este documento presenta información sobre los sistemas de información administrativa (SIA). Explica que un SIA surge cuando una empresa crece y necesita sistemas para planear, dirigir, coordinar, analizar y controlar sus diferentes actividades de manera más efectiva. También describe los componentes básicos de un SIA, incluyendo la entrada, procesamiento y salida de datos, y cómo un SIA puede ayudar a los gerentes en la toma de decisiones administrativas. Finalmente, discute algunos objetivos y beneficios clave de implementar un sistema de información
Este documento proporciona una introducción a Cloud Computing y MapReduce. Explica que Cloud Computing permite alquilar recursos computacionales y de almacenamiento de grandes compañías a través de Internet. Describe las ventajas de Cloud Computing como escalabilidad, bajo coste y facilidad de uso. También introduce MapReduce como un modelo para procesar grandes cantidades de datos de forma distribuida en múltiples nodos.
Big Data no es una moda ni algo que esté por venir. Gran parte de las organizaciones ya cuentan con bases de datos tan grandes que requieren usar herramientas especiales. Ésta presentación nos ayuda a dar el primer paso, a conocer que en realidad qué es y como funciona, así como a adentrarnos en este maravilloso mundo de los datos al por mayor.
La importancia-de-la-cadena-de-suministroMaria Alarcon
Este documento describe la importancia de la cadena de suministro y su administración efectiva. Explica que la cadena de suministro involucra a proveedores, transporte, empresas, clientes y comunicación trabajando juntos. También destaca que la administración de la cadena de suministro busca satisfacer las necesidades de los clientes de manera eficiente a través del flujo oportuno de materiales, servicios e información. Una administración efectiva de la cadena de suministro puede conducir a lealtad de clientes, entrada a nuevos mercados y lideraz
Este documento presenta un libro sobre minería de datos escrito por Alfredo Daza Vergaray. El libro contiene una introducción a conceptos básicos de minería de datos, técnicas y aplicaciones comunes. También incluye instrucciones sobre la instalación y uso del software SPSS Clementine para realizar diferentes análisis de minería de datos a través de varios casos prácticos.
Este documento presenta una investigación sobre Big Data. Introduce el tema y define Big Data como conjuntos de datos de gran volumen, alta velocidad y variedad que requieren nuevas formas de procesamiento para extraer valor e información. Explica las diferentes clasificaciones de datos, incluyendo estructurados, semi-estructurados y no estructurados. También compara Business Intelligence tradicional con Big Data y describe algunas herramientas comunes para implementar soluciones de Big Data como Hadoop, MapReduce y Apache Spark.
Características de un sistema de información administrativoJacquelina Simosa
El documento describe las características de un sistema de información administrativo efectivo y los diferentes tipos de sistemas de información. Un sistema de información administrativo exitoso debe ser comprensible, confiable, relevante, íntegro, conciso, oportuno y de alta calidad. Los sistemas de información ayudan a procesar datos, mantener archivos y producir informes y salidas. Los sistemas de administración específicamente apoyan la toma de decisiones de los gerentes al proporcionar datos estructurados.
La inteligencia de negocios (BI) es el proceso de analizar datos de una empresa para extraer conocimiento e información. Con herramientas tecnológicas, la BI permite generar informes, pronósticos, análisis multidimensionales y compartir información entre departamentos para mejorar la toma de decisiones. Una solución de BI completa incluye datos almacenados, minería de datos, agentes y aplicaciones de soporte de decisiones.
Características Del Tomador De DecisionesJavier Mejia
Este documento describe las características de un tomador de decisiones efectivo. Explica que un tomador de decisiones debe basar sus decisiones en la objetividad y tomar decisiones acertadas. También discute varios modelos para la toma de decisiones que pueden ayudar a los gerentes. Finalmente, concluye que un tomador de decisiones en el siglo 21 necesita poseer habilidades como la capacidad de manejar cambios, comunicarse efectivamente y estar bien preparado académicamente para tener éxito en entornos empresariales modernos.
Big Data se refiere a enormes cantidades de datos estructurados, no estructurados y semiestructurados que sería muy costoso procesar con bases de datos tradicionales. El documento explica que Big Data proviene de fuentes como redes sociales, dispositivos conectados, registros transaccionales y datos biométricos y humanos. También describe componentes clave de plataformas Big Data como Hadoop, HDFS, MapReduce, y ejemplos de cómo investigadores usan Big Data para proyectos científicos.
El documento describe las aplicaciones, tecnologías y mejores prácticas de Big Data. Explica que Big Data involucra grandes volúmenes de datos estructurados y no estructurados de diversas fuentes que pueden analizarse para obtener información valiosa. Describe aplicaciones de Big Data en varias industrias y tecnologías clave como Hadoop, bases de datos no relacionales y columnares. También cubre mejores prácticas como partir de hipótesis, construir infraestructura flexible y permitir que empleados de distintas á
El documento describe las 7 etapas del ciclo de vida de la inteligencia de negocios: 1) Requisitos de negocio, 2) Modelado dimensional, 3) Diseño y desarrollo ETL, 4) Diseño y construcción de cubos, 5) Implementación de interfaz de usuario, 6) Plan de mantenimiento, 7) Pruebas e implementación. El proceso involucra especificar los requisitos de los usuarios, modelar la información dimensionalmente, extraer, transformar y cargar datos, construir cubos OLAP, implementar herramientas de visualiz
Este documento presenta un resumen de la auditoría informática realizada al complejo educativo Profesor Carlos Lobato. Se describen los objetivos, alcances y antecedentes de la institución. Adicionalmente, se incluye información sobre la planeación de la auditoría e inventario del equipo del centro de cómputo, el cual consiste en 42 CPU y 42 monitores. El documento proporciona datos generales sobre la visión, misión y objetivos de la institución educativa.
El documento presenta la biografía y experiencia de Juan Alvarado como experto en datos y plataformas. Explica conceptos clave de la transformación digital como la movilidad, centrarse en los clientes y los datos, ecosistemas, internet de las cosas y algoritmos. Finalmente, describe algunas aplicaciones de la inteligencia artificial como el reconocimiento de voz, imágenes y procesamiento de lenguaje natural.
Este documento proporciona una introducción a Big Data y MapReduce. Explica conceptos clave como las 5 V del Big Data, fuentes comunes de datos masivos, y los retos tecnológicos asociados con el procesamiento de grandes cantidades de datos. También describe el modelo de programación MapReduce, incluyendo ejemplos como WordCount y Grep distribuido.
Big data retos y oportunidades para el turismoLia Arce
Este documento describe los retos y oportunidades que presenta el Big Data para la industria del turismo. Explica que el Big Data involucra grandes conjuntos de datos y tecnologías para extraer información de ellos. Luego detalla algunas características y técnicas de análisis de datos que pueden usarse, como aprendizaje automático y minería de datos. Finalmente, señala que el turista deja una huella digital que, si se gestiona de manera inteligente, puede usarse para la toma de decisiones estratégicas
Big Data se refiere a grandes conjuntos de datos que son difíciles de manejar debido a su velocidad de generación, múltiples fuentes y formatos. El tamaño, velocidad y variedad de los datos crean complejidad a la hora de recopilarlos, almacenarlos, buscarlos, compartirlos, analizarlos y procesarlos. Nuevas tecnologías como MapReduce, bases de datos NoSQL y algoritmos genéticos ayudan a abordar estos desafíos.
El documento proporciona una introducción a la auditoría informática. Explica que la auditoría informática evalúa si un sistema de información protege los activos de una empresa, mantiene la integridad de los datos y utiliza los recursos de manera eficiente. También identifica factores como leyes gubernamentales y costos de errores que conducen a las auditorías informáticas. Los objetivos generales de una auditoría incluyen asegurar la integridad, confidencialidad y confiabilidad de la información de una empresa.
tendencias de los sistemas de informacionYesenia Gomez
El documento resume cuatro unidades sobre sistemas de información y tecnologías de la información. La primera unidad cubre diferentes sistemas de información organizacionales. La segunda trata sobre tendencias en comercio electrónico, bases de datos y telecomunicaciones. La tercera analiza outsourcing, leasing y evaluación de proyectos. La cuarta describe estrategias metodológicas, actividades y evaluación de la asignatura.
Este documento describe los sistemas de información en los negocios contemporáneos. Define un sistema de información como un conjunto de componentes relacionados que recopilan, procesan, almacenan y distribuyen información para apoyar la toma de decisiones y el control en una organización. Explica que los sistemas de información brindan acceso rápido a la información, mejoran la productividad, permiten la automatización de procesos y proporcionan información para la toma de decisiones, logrando así ventajas competitivas.
Este documento describe el estándar COBIT y la norma ISO/IEC 38500:2008 relacionada con el buen gobierno de TI. COBIT es un marco de referencia para el gobierno y gestión de TI que consta de 36 procesos agrupados en 5 dominios. La norma ISO/IEC 38500:2008 establece principios para el buen gobierno corporativo de TI basado en la evaluación, dirección y seguimiento del uso de TI por parte de la alta dirección. La implementación de ambos frameworks puede generar beneficios como la alineación
Este documento presenta información sobre los sistemas de información administrativa (SIA). Explica que un SIA surge cuando una empresa crece y necesita sistemas para planear, dirigir, coordinar, analizar y controlar sus diferentes actividades de manera más efectiva. También describe los componentes básicos de un SIA, incluyendo la entrada, procesamiento y salida de datos, y cómo un SIA puede ayudar a los gerentes en la toma de decisiones administrativas. Finalmente, discute algunos objetivos y beneficios clave de implementar un sistema de información
Este documento proporciona una introducción a Cloud Computing y MapReduce. Explica que Cloud Computing permite alquilar recursos computacionales y de almacenamiento de grandes compañías a través de Internet. Describe las ventajas de Cloud Computing como escalabilidad, bajo coste y facilidad de uso. También introduce MapReduce como un modelo para procesar grandes cantidades de datos de forma distribuida en múltiples nodos.
Big Data no es una moda ni algo que esté por venir. Gran parte de las organizaciones ya cuentan con bases de datos tan grandes que requieren usar herramientas especiales. Ésta presentación nos ayuda a dar el primer paso, a conocer que en realidad qué es y como funciona, así como a adentrarnos en este maravilloso mundo de los datos al por mayor.
La importancia-de-la-cadena-de-suministroMaria Alarcon
Este documento describe la importancia de la cadena de suministro y su administración efectiva. Explica que la cadena de suministro involucra a proveedores, transporte, empresas, clientes y comunicación trabajando juntos. También destaca que la administración de la cadena de suministro busca satisfacer las necesidades de los clientes de manera eficiente a través del flujo oportuno de materiales, servicios e información. Una administración efectiva de la cadena de suministro puede conducir a lealtad de clientes, entrada a nuevos mercados y lideraz
Este documento presenta un libro sobre minería de datos escrito por Alfredo Daza Vergaray. El libro contiene una introducción a conceptos básicos de minería de datos, técnicas y aplicaciones comunes. También incluye instrucciones sobre la instalación y uso del software SPSS Clementine para realizar diferentes análisis de minería de datos a través de varios casos prácticos.
Este documento presenta una investigación sobre Big Data. Introduce el tema y define Big Data como conjuntos de datos de gran volumen, alta velocidad y variedad que requieren nuevas formas de procesamiento para extraer valor e información. Explica las diferentes clasificaciones de datos, incluyendo estructurados, semi-estructurados y no estructurados. También compara Business Intelligence tradicional con Big Data y describe algunas herramientas comunes para implementar soluciones de Big Data como Hadoop, MapReduce y Apache Spark.
Características de un sistema de información administrativoJacquelina Simosa
El documento describe las características de un sistema de información administrativo efectivo y los diferentes tipos de sistemas de información. Un sistema de información administrativo exitoso debe ser comprensible, confiable, relevante, íntegro, conciso, oportuno y de alta calidad. Los sistemas de información ayudan a procesar datos, mantener archivos y producir informes y salidas. Los sistemas de administración específicamente apoyan la toma de decisiones de los gerentes al proporcionar datos estructurados.
La inteligencia de negocios (BI) es el proceso de analizar datos de una empresa para extraer conocimiento e información. Con herramientas tecnológicas, la BI permite generar informes, pronósticos, análisis multidimensionales y compartir información entre departamentos para mejorar la toma de decisiones. Una solución de BI completa incluye datos almacenados, minería de datos, agentes y aplicaciones de soporte de decisiones.
Características Del Tomador De DecisionesJavier Mejia
Este documento describe las características de un tomador de decisiones efectivo. Explica que un tomador de decisiones debe basar sus decisiones en la objetividad y tomar decisiones acertadas. También discute varios modelos para la toma de decisiones que pueden ayudar a los gerentes. Finalmente, concluye que un tomador de decisiones en el siglo 21 necesita poseer habilidades como la capacidad de manejar cambios, comunicarse efectivamente y estar bien preparado académicamente para tener éxito en entornos empresariales modernos.
Big Data se refiere a enormes cantidades de datos estructurados, no estructurados y semiestructurados que sería muy costoso procesar con bases de datos tradicionales. El documento explica que Big Data proviene de fuentes como redes sociales, dispositivos conectados, registros transaccionales y datos biométricos y humanos. También describe componentes clave de plataformas Big Data como Hadoop, HDFS, MapReduce, y ejemplos de cómo investigadores usan Big Data para proyectos científicos.
El documento describe las aplicaciones, tecnologías y mejores prácticas de Big Data. Explica que Big Data involucra grandes volúmenes de datos estructurados y no estructurados de diversas fuentes que pueden analizarse para obtener información valiosa. Describe aplicaciones de Big Data en varias industrias y tecnologías clave como Hadoop, bases de datos no relacionales y columnares. También cubre mejores prácticas como partir de hipótesis, construir infraestructura flexible y permitir que empleados de distintas á
El documento describe las 7 etapas del ciclo de vida de la inteligencia de negocios: 1) Requisitos de negocio, 2) Modelado dimensional, 3) Diseño y desarrollo ETL, 4) Diseño y construcción de cubos, 5) Implementación de interfaz de usuario, 6) Plan de mantenimiento, 7) Pruebas e implementación. El proceso involucra especificar los requisitos de los usuarios, modelar la información dimensionalmente, extraer, transformar y cargar datos, construir cubos OLAP, implementar herramientas de visualiz
Este documento presenta un resumen de la auditoría informática realizada al complejo educativo Profesor Carlos Lobato. Se describen los objetivos, alcances y antecedentes de la institución. Adicionalmente, se incluye información sobre la planeación de la auditoría e inventario del equipo del centro de cómputo, el cual consiste en 42 CPU y 42 monitores. El documento proporciona datos generales sobre la visión, misión y objetivos de la institución educativa.
El documento presenta la biografía y experiencia de Juan Alvarado como experto en datos y plataformas. Explica conceptos clave de la transformación digital como la movilidad, centrarse en los clientes y los datos, ecosistemas, internet de las cosas y algoritmos. Finalmente, describe algunas aplicaciones de la inteligencia artificial como el reconocimiento de voz, imágenes y procesamiento de lenguaje natural.
Este documento proporciona una introducción a Big Data y MapReduce. Explica conceptos clave como las 5 V del Big Data, fuentes comunes de datos masivos, y los retos tecnológicos asociados con el procesamiento de grandes cantidades de datos. También describe el modelo de programación MapReduce, incluyendo ejemplos como WordCount y Grep distribuido.
Big data retos y oportunidades para el turismoLia Arce
Este documento describe los retos y oportunidades que presenta el Big Data para la industria del turismo. Explica que el Big Data involucra grandes conjuntos de datos y tecnologías para extraer información de ellos. Luego detalla algunas características y técnicas de análisis de datos que pueden usarse, como aprendizaje automático y minería de datos. Finalmente, señala que el turista deja una huella digital que, si se gestiona de manera inteligente, puede usarse para la toma de decisiones estratégicas
Big Data se refiere a grandes conjuntos de datos que son difíciles de manejar debido a su velocidad de generación, múltiples fuentes y formatos. El tamaño, velocidad y variedad de los datos crean complejidad a la hora de recopilarlos, almacenarlos, buscarlos, compartirlos, analizarlos y procesarlos. Nuevas tecnologías como MapReduce, bases de datos NoSQL y algoritmos genéticos ayudan a abordar estos desafíos.
El documento explica qué es Big Data, incluyendo su definición, características y ejemplos. Big Data se refiere a los grandes volúmenes de datos que las empresas recopilan y analizan para obtener información valiosa y tomar mejores decisiones de negocio. Las características clave de Big Data son el volumen, la velocidad y la variedad de los datos.
Las Islas de Felicidad No Son Suficiente (Conferencia Agile-Spain 2.013)Deiser
El documento discute varios modelos de gestión y liderazgo, incluyendo la Teoría X y Teoría Y de Douglas McGregor, el modelo de Toyota, y los enfoques de Steve Denning, Jurgen Appelo y Niels Pflaeging. Argumenta que los modelos tradicionales de gestión son inadecuados y propone en su lugar sistemas más horizontales, centrados en los equipos y la autonomía de los trabajadores.
Este documento describe el análisis de grandes volúmenes de datos (Big Data). Explica que Big Data se refiere a grandes cantidades de datos de diversas fuentes que pueden usarse para descubrir patrones u obtener información útil. Detalla que Big Data incluye volumen, velocidad y variedad de datos y que su objetivo es ayudar a las empresas a tomar mejores decisiones de negocios. Finalmente, discute algunas ventajas y usos del análisis de Big Data.
Manuel Machado - Big data, de la investigación científica a la gestión empres...Fundación Ramón Areces
Este documento describe cómo el Big Data puede aplicarse en el sector financiero. En primer lugar, explica la evolución de la gestión de datos hacia el análisis avanzado y las principales necesidades y fuentes de datos en el sector financiero. Luego, presenta varios casos de uso del Big Data en riesgo, fraude, cumplimiento y otros ámbitos, como mejorar los modelos de scoring crediticio y detectar patrones fraudulentos. Por último, analiza cómo esta tecnología permite cumplir mejor los requisitos regulatorios en materia de prevención de blanqueo de
Este documento presenta una introducción al concepto de "gamificación" a través de tres fases. La Fase 1 define la gamificación y explora conceptos como los tipos de diversión, jugadores y recompensas. La Fase 2 describe marcos de diseño como MDA y modelos como puntos, medallas y clasificaciones. La Fase 3 propone un taller práctico gamificado para que los participantes diseñen bucles de actividad para lograr objetivos definidos.
Presentación que utilizó José Luis Gómez en la Sesión de trabajo "Business Intelligence y Big Data: Negocio, Tecnología, Personas" que tuvo lugar el 13 de febrero de 2014 en la Sede de la UOC en Madrid
El documento habla sobre diferentes tipos de bases de datos y arquitecturas para almacenar y procesar datos a gran escala. Explica las diferencias entre datos estructurados, semi-estructurados y no estructurados y describe varios enfoques como bases de datos orientadas a documentos, grafos, columnas, en memoria, distribuidas y su aplicación en sistemas como MongoDB, Neo4j, Cassandra y Hypertable. Finalmente, compara el rendimiento de Hypertable frente a HBase para diferentes tipos de operaciones.
BIG DATA en CLOUD PaaS para Internet de las Cosas (IoT)pmluque
Proyecto fin de carrera que nos introduce en el paradigma de Big Data y de las tecnologías que como Hadoop y sus ecosistema permiten la recolección y procesamiento masivo de datos. Incluye un caso práctico de movimiento, transformación y presentación de métricas e indicadores aplicado al sector de las máquinas expendedoras (vendings).
Este documento presenta una introducción al tema de Big Data y Ciencia de Datos. Explica brevemente qué es Big Data según Gartner y describe algunas herramientas y tecnologías clave como Hadoop, Spark y RDD. También discute el uso de datos masivos en oficinas de estadística oficiales y propone el análisis de Twitter como un primer proyecto piloto para medir el sentimiento de los tuiteros mexicanos.
Este documento proporciona una introducción al concepto de Big Data. Explica que Big Data se refiere a grandes conjuntos de datos que son difíciles de procesar con herramientas de bases de datos convencionales. Describe las tres características clave de Big Data: volumen, velocidad y variedad. Además, introduce algunas tecnologías clave como MapReduce y bases de datos NoSQL. Finalmente, explica brevemente el procesamiento de lenguaje natural como una aplicación de Big Data.
Presentación sobre la sesión "Big Data: the Management Revolution", dentro del Programa Ejecutivo de Big Data y Business Intelligence celebrado en Madrid en Febrero de 2016, en nuestra sede de la Universidad de Deusto.
Introducción al concepto Big Data en español, con ejemplos de aplicaciones y caso de estudio. El seminario tiene una duración aproximada de 3 horas a lo largo de las cuales se repasan los siguientes puntos:
Contexto
Definición
Utilidades (Casos de aplicación)
Arquitectura y software
-->Ejemplo de aplicación: Metamail
-->Cuadrante mágico de aplicaciones
Caso de estudio: Obama 2012
Análisis con Big Data
Cuándo y cómo empezar?
Gobierno de datos
Espero que os guste!
installed manager seeking to develop an IS
strategy would ask:
Which process can we follow to develop an IS
strategy?
How can we ensure that the IS strategy supports the
business strategy?
What analysis tools are available to assess current
use of IS within the organisation and its environment
and formulate IS strategy?
Where should we locate the IS function and to what
extent should some services be outsourced?
An unprecedented amount of data is being created and is accessible. This presentation will instruct on using the new NoSQL technologies to make sense of all this data.
Este documento describe Big Data y sus características. Define Big Data como grandes conjuntos de datos estructurados y no estructurados que son difíciles de manejar con bases de datos convencionales. Explica que Big Data puede usarse para optimizar cadenas de suministro y que ofrece ventajas a las empresas al permitirles mejorar divisiones con malos resultados sin intervención directa.
Este documento presenta conceptos generales sobre Big Data e impacto en los negocios. Explica que Big Data se refiere a conjuntos de datos muy grandes o complejos que requieren nuevas formas de procesamiento. Describe características como tamaño, diversidad y velocidad de los datos, así como ejemplos de casos de negocio como mejorar la eficiencia operacional y la experiencia del cliente. Finalmente, discute riesgos como privacidad y seguridad, y tendencias futuras como análisis distribuido y computación cognitiva.
Este documento presenta una investigación sobre Big Data. El objetivo principal fue estudiar y analizar exhaustivamente el estado del arte de Big Data, así como analizar sus características, herramientas, tecnologías, modelos y estándares. Adicionalmente, buscó identificar las características más relevantes en la gestión de Big Data. La metodología incluyó revisar el estado del arte, conocer las tecnologías de Big Data y presentar bases de datos NoSQL y modelos de datos. El diseño metodológico fue no experimental y exploratorio.
El documento describe la evolución de las bases de datos a través de los años, comenzando con las tarjetas perforadas y cintas magnéticas en las décadas de 1960 y 1970, el desarrollo del modelo relacional en la década de 1970, y el crecimiento de las bases de datos relacionales y SQL en las décadas posteriores. También discute conceptos más recientes como big data, analytics, web crawling, y problemas asociados con grandes conjuntos de datos.
Este documento introduce el tema del Big Data en educación. Explica que el Big Data se refiere a grandes volúmenes de datos producidos a gran velocidad de múltiples fuentes. Estos datos tienen 7 características clave: volumen, velocidad, variedad, veracidad, valor, variabilidad y visualización. El documento también describe cómo el Big Data puede usarse en educación para mejorar el aprendizaje, personalizar la educación y predecir y minimizar el fracaso escolar.
Conociendo el bigdata por Camargo y Joyanesjacristancho
Este documento presenta una introducción al tema de Big Data. Explica que Big Data se refiere a grandes volúmenes de datos que son difíciles de procesar con herramientas tradicionales debido a su velocidad, variedad y volumen. Luego resume el estado actual del arte de Big Data y describe las tres dimensiones clave de Big Data: volumen, velocidad y variedad. Finalmente, discute los beneficios y desafíos del análisis de Big Data.
Congreso Latina de Comunicación Social. La Laguna,
Tenerife. 5 de diciembre de 2013. Mesa de debate
“Ciencias sociales y humanidades digitales (…)”. *Aportación enmarcada en Proyecto de Investigación “Ciencias Sociales y Humanidades Digitales: casos, gestión y modelos de negocio” (Campus de Excelencia Internacional BioTic Granada, convocatoria 2013).
*Próximamente disponible en monográfico CAC.
El documento presenta una introducción a conceptos fundamentales en ciencia de datos como estadística, minería de datos, big data, ingeniería de datos y herramientas utilizadas. Explica la evolución del concepto de ciencia de datos a través del tiempo y define términos clave como estadística, minería de datos y big data. También describe características de big data como volumen, velocidad y variedad, y herramientas populares como Hadoop.
El constante uso de las tecnologías ha traído consigo un crecimiento explosivo en la cantidad de datos. El gran contenido de valor que genera este tipo de información está permitiendo a las organizaciones una mejora en la toma de sus decisiones, lo que conlleva a la obtención de ventajas competitivas en los diferentes campos de acción. En este artículo se describe el estado del arte, las oportunidades, retos y tendencias que existen sobre “Big Data Analytics”, con un enfoque hacia el Software.
Big data, NoSQL y tendencias en Bases de Datos 2018.Roman Herrera
El documento describe el fenómeno del Big Data y las tendencias en sistemas de bases de datos. Explica que el Big Data se refiere a la gran generación de datos de diferentes fuentes y formatos. También describe los sistemas NoSQL, que son alternativas a las bases de datos relacionales tradicionales para almacenar y procesar grandes cantidades de datos. Finalmente, analiza las tendencias en popularidad de sistemas de bases de datos y las opiniones de desarrolladores sobre el futuro de las bases de datos.
Este documento describe el Big Data, incluyendo su definición, el gran volumen de datos digitales disponibles, y los desafíos y oportunidades que presenta. Explica que el Big Data no se trata solo de la cantidad de datos, sino de lo que las organizaciones hacen con ellos para obtener conocimiento e información valiosa. También discute brevemente el impacto del Big Data en áreas como la salud, las redes sociales, la industria y la economía.
Este documento resume las aplicaciones de Business Intelligence y Big Data en la ciudad. Puede usarse para mejorar la transparencia, participación ciudadana e innovación. También puede aumentar la eficiencia de los servicios públicos y la planificación urbana. Sin embargo, existen barreras como la resistencia al cambio y la falta de talento analítico. Se necesitan estrategias que combinen iniciativas gubernamentales con espacios para la innovación ciudadana y privada.
"Educación y datos masivos (Big Data)" - Fernando SantamariaNivel 7
En esta conferencia haremos un repaso de las características de los datos masivos, de sus conceptos emergentes que surgen alrededor, de sus ventajas y desventajas, de los efectos y consecuencias que tendrá sobre los sistemas educativos y de los peligros vistos desde nuestra estructura mental y social que es de pre-datos masivos.
Los datos masivos (Big Data) están cambiando la forma de acceder, comprender, planificar y también la forma de vivir. Este nuevo paradigma están entrando de lleno en todos los ámbitos sociales. El mundo académico y de aprendizaje no va ser menos. La analítica del aprendizaje y académico está focalizado en la educación. En esta presentación (en beta) presentamos en MoodleMoot 2014 Colombia para dar a conocer todo este ecosistema del dato.
"Educación y datos masivos (Big Data)" - Fernando SantamariaNivel 7
En esta conferencia haremos un repaso de las características de los datos masivos, de sus conceptos emergentes que surgen alrededor, de sus ventajas y desventajas, de los efectos y consecuencias que tendrá sobre los sistemas educativos y de los peligros vistos desde nuestra estructura mental y social que es de pre-datos masivos.
Este documento habla sobre Big Data. Explica que Big Data se refiere a datos que no pueden ser procesados usando herramientas tradicionales debido a su gran volumen, y que provienen de fuentes como redes sociales, dispositivos conectados y transacciones. También describe los componentes clave de una plataforma Hadoop, como HDFS y MapReduce, que permiten analizar grandes cantidades de datos distribuidos.
Este documento describe Big Data y sus componentes. Define Big Data como información que no puede ser procesada usando herramientas tradicionales, y explica sus unidades de medida como petabytes y exabytes. Luego describe las fuentes de Big Data como redes sociales, datos de máquinas, transacciones y datos biométricos y humanos. Finalmente, resume que Hadoop es una plataforma popular para analizar grandes cantidades de datos mediante la distribución en clústeres y el uso de MapReduce.
Este documento habla sobre Big Data. Explica que Big Data se refiere a datos que no pueden ser procesados usando herramientas tradicionales debido a su gran volumen. Luego describe algunas unidades de medida para el tamaño de los datos y las principales fuentes de datos a gran escala, como redes sociales, dispositivos conectados y registros de transacciones. Finalmente, resume que Hadoop es una popular plataforma de código abierto usada para analizar grandes cantidades de datos distribuidos a través de su arquitectura HDFS y Map
El documento habla sobre el uso de big data en la campaña de reelección de Barack Obama en 2012. La campaña utilizó un equipo de 100 personas para recopilar y analizar datos sobre votantes, con el objetivo de registrar a votantes convencidos, persuadir a indecisos y asegurar que los partidarios votaran. También describe cómo la NFL usa datos para ayudar a los equipos a tomar decisiones durante los partidos.
Este documento describe los conceptos fundamentales de los datos masivos (Big Data), incluyendo su definición, orígenes, tipos, herramientas de análisis y aplicaciones. Explica que el Big Data se refiere a la capacidad de producir correlaciones a partir de grandes cantidades de datos de diversos orígenes que se producen y procesan rápidamente. También describe brevemente los conceptos de minería de datos, inteligencia artificial y análisis de datos aplicados al Big Data.
Similar a La geografía y la estadística. dos necesidades para entender big data (20)
Es en el Paleozoico cuando comienza a aparecer la vida más antigua. En Venezuela, el Paleozoico puede considerarse concentrado en tres regiones positivas distintas:
Región Norte del Escudo Guayanés.
Cordillera de los Andes venezolanos.
Sierra de Perijá.
Esta exposición tiene como objetivo educar y concienciar al público sobre la dualidad del oxígeno en la biología humana. A través de una mezcla de ciencia, historia y tecnología, se busca inspirar a los visitantes a apreciar la complejidad del oxígeno y a adoptar estilos de vida que promuevan un equilibrio saludable entre sus beneficios y sus potenciales riesgos.
¡Únete a nosotros para descubrir cómo el oxígeno puede ser tanto un salvador como un destructor, y qué podemos hacer para maximizar sus beneficios y minimizar sus daños!
Priones, definiciones y la enfermedad de las vacas locasalexandrajunchaya3
Durante este trabajo de la doctora Mar junto con la coordinadora Hidalgo, se presenta un didáctico documento en donde repasaremos la definición de este misterio de la biología y medicina. Proteinas que al tener una estructura incorrecta, pueden esparcir esta estructura no adecuada, generando huecos en el cerebro, de esta manera creando el tejido espongiforme.
Una unidad de medida es una cantidad de una determinada magnitud física, definida y adoptada por convención o por ley. Cualquier valor de una cantidad física puede expresarse como un múltiplo de la unidad de medida. Para entender mejor las mismas, hay que saber como se pueden convertir en otras unidades de medida.
Las heridas son lesiones en el cuerpo que dañan la piel, tejidos u órganos. Pueden ser causadas por cortes, rasguños, punciones, laceraciones, contusiones y quemaduras. Se clasifican en:
Heridas abiertas: la piel se rompe y los tejidos quedan expuestos (ej. cortes, laceraciones).
Heridas cerradas: la piel no se rompe, pero hay daño en los tejidos subyacentes (ej. contusiones).
El tratamiento incluye limpieza, aplicación de antisépticos y vendajes, y en algunos casos, suturas. Es crucial vigilar las heridas para prevenir infecciones y asegurar una curación adecuada.
Reacciones Químicas en el cuerpo humano.pptxPamelaKim10
Este documento analiza las diversas reacciones químicas que ocurren dentro del cuerpo humano, las cuales son esenciales para mantener la vida y la salud.
El documento publicado por el Dr. Gabriel Toro aborda los priones y las enfermedades relacionadas con estos agentes infecciosos. Los priones son proteínas mal plegadas que pueden inducir el plegamiento incorrecto de otras proteínas normales en el cerebro, llevando a enfermedades neurodegenerativas mortales. El Dr. Toro examina tanto la estructura y función de los priones como su capacidad para propagarse y causar enfermedades devastadoras como la enfermedad de Creutzfeldt-Jakob, la encefalopatía espongiforme bovina (conocida como "enfermedad de las vacas locas"), y el síndrome de Gerstmann-Sträussler-Scheinker. En el documento, se exploran los mecanismos moleculares detrás de la replicación de los priones, así como las implicaciones para la salud pública y la investigación en tratamientos potenciales. Además, el Dr. Toro analiza los desafíos y avances en el diagnóstico y manejo de estas enfermedades priónicas, destacando la necesidad de una mayor comprensión y desarrollo de terapias eficaces.
La geografía y la estadística. dos necesidades para entender big data
1. LA GEOGRAFÍA Y LA ESTADÍSTICA.
DOS NECESIDADES PARA ENTENDER BIG DATA.
PEDRO JUANES NOTARIO
Máster AADM 2013-2014
2. Objetivos
Específicos
• Definir de manera concreta y concisa Big Data como fenómeno.
• Justificar la Estadística Multivariante aplicada a Big Data.
• Clasificar y calificar las técnicas multivariantes clásicas que se
pueden aplicar.
• Presentar la GISciencia como el vehículo curricular adecuado para
el tratamiento académico, conceptual y de desarrollo analítico
final del Big Data.
General
La definición del estado actual del Big Data a través de una profunda
revisión bibliográfica de las dos disciplinas que han de interaccionar
para su correcto análisis: la Geografía Cuantitativa y la Estadística
Multivariante.
3. Es el producto de la última fase de desarrollo de las TIC y del Open Data.
Consecuencia de las mejoras exponenciales que han sufrido el hardware y el
software desde finales de los 60, complementada por un cambio de mentalidad en
la tenencia de los datos.
Big Data
Desarrollo
TIC
Open
Data
¿Pero qué es Big Data? (I)
4. ¿Pero qué es Big Data? (y II)
¿Un problema?
Define una situación en la que el conjunto de datos existente ha llegado a tener un tamaño
tan grande, una heterogeneidad tan diversa y un crecimiento tan exponencial que las TIC
convencionales no pueden manejarlo de manera efectiva y aún resulta más difícil generar
información a partir del mismo.
¿Una solución?
Conjunto de herramientas, procesos y aptitudes que van a permitir la gestión de enormes
cantidades de datos para mejorar los resultados.
5. Características de Big Data
Registros
Transacciones
Peta-Terabytes
Procesos
Tiempo Real
Streaming
Datos
Estructurados
Desestructurados
Origen
Autenticidad
Confiabilidad
Conocimiento
Hipótesis
Correlaciones
5 Vs
6. Un ejemplo de la dimensión de Big Data
• Volumen: equivalente a 70 veces el contenido de la librería del Congreso de los EEUU.
• Variedad: mensajes de texto, fotos, videos, plataformas sociales, etc.
• Velocidad: en tiempo real.
El primer día en la vida de un niño
8. Justificando la Estadística Multivariante en Big Data
• Volumen y Velocidad Procesamiento de datos complejos en streaming.
• La ‘nube’.
• ‘Machine Learning’.
• Veracidad y Variedad Desarrollo de métodos estadísticos más robustos.
• Análisis de diversas fuentes de datos (internas, externas, estructuradas o
no).
• Análisis de diversos formatos de datos (textos, imágenes, videos, etc.)
• Importancia de los ’outliers’.
• Valor Generando Conocimiento.
• Desarrollo de técnicas analíticas que transformen los datos brutos en
información útil.
• Mejora en las técnicas de visualización.
9. Clasificando las técnicas multivariantes clásicas en Big Data
• Técnicas de Reducción de la Dimensión: Simplificar los datos resumiendo la
información de los mismos a través de un número pequeño de componentes
que presenten la información más relevante.
• ‘Análisis de Componentes Principales ‘.*
• ‘Análisis Factorial’.
• ‘Análisis de Coordenadas Principales’.
• ‘Multidimensional Scaling’. **
• ‘Análisis de Correspondencias’.
• Técnicas de Clasificación: Agrupar y clasificar los datos mediante la división
adecuada de éstos y la aplicación de estas normas a nuevos conjuntos de
registros.
• ‘Análisis de Cluster’. *
• ‘Análisis Discriminante’. **
• ‘Análisis de Correlación Canónica’.
10. Calificando las técnicas multivariantes clásicas en Big Data
NECESIDAD DE ADAPTACION DE LAS TÉCNICAS A NUEVOS REQUERIMIENTOS:
• Aplicamos estadística ‘one-shot’ cuando necesitamos combinar muchas
técnicas estadísticas para un mismo problema.
• Se requieren modelos complejos y heterogéneos.
• Cómo reducir la dimensión eficazmente.
• Cómo encontrar relaciones y patrones: clasificar.
• ‘Statistical Learning’ clave para el futuro.
• Conocer y trabajar en ‘Cloud Computing’.
CAMPOS DE APLICACIÓN:
• Computación.
• Genómica.
• Marketing.
• Y un Big Etcétera.
11. GISciencia‘IoT’ ‘IoE’
La
‘nube’
• La ‘nube’ es un espacio antrópico.
• Internet of Things (‘IoT’) crea registros espaciales. La ‘Computación
Ubicua’ define la integración masiva de la informática en nuestro entorno.
• Internet of Everything (‘IoE’) causa la necesidad al crear Big Data
Cómo se genera espacio y los fenómenos espaciales en Internet
12. • Cuando se trabaja con datos espaciales es imprescindible conocer la posición
donde se producen los fenómenos: Georreferenciación.
• Un GIS gestiona cada una de las partes de la realidad a través de capas que
contienen los datos de un aspecto de ésta, lo que permite relacionar varias capas
entre sí para mostrar aspectos que la complejidad de la realidad impide percibir
directamente.
• La GISciencia constituye un fundamento conceptual y teórico más profundo que
los GIS, resultado de su evolución como campo unificado que estudia estos
Sistemas de Información y la Estadística Espacial.
• Es el vehículo curricular adecuado para el tratamiento académico, conceptual y
de desarrollo analítico final del Big Data en el ámbito de las Ciencias Sociales.
La GISciencia
13. DATO
Recolección.
Validación.
OBSERVACIÓN
Del dato al conocimiento en Big Data
MUNDO REAL ÁMBITO CIENTÍFICO
ACCIÓN
INFORMACIÓN
Análisis.
Investigación.
CONOCIMIENTO
Comprensión.
Decisión.
Volumen
Velocidad
Variedad
3Vs
Veracidad
4Vs
5Vs
14. Conclusiones (I)
1. Big Data es un fenómeno que surge en los tres últimos años como producto de
la última fase de desarrollo de las ‘TIC’ y del impulso al ‘Open Data’,
conformando una realidad y una revolución que en la actualidad afecta a todos
los ámbitos de nuestra sociedad.
2. Cinco características lo definen y la ciencia Estadística ha de dar respuesta a
cada una estas dimensiones:
• ‘Veracidad’: implantando soluciones que extraigan del conjunto de datos
aquellos registros que verdaderamente aporten valor. Importancia de los
‘outliers’.
• ‘Velocidad’: desarrollando algoritmos que permitan el procesamiento en
‘streaming’.
• ‘Volumen’: mediante técnicas que permitan reducir la dimensión original de
los datos y conseguir su clasificación.
• ‘Variedad’: adoptando métodos que sean capaces de tratar con registros de
diversa naturaleza.
• ‘Valor’: utilizando desarrollos que posibiliten predecir comportamientos y
tomar decisiones sobre los datos.
15. Conclusiones (II)
3. Es evidente que la Estadística Univariante no puede hacer frente a las
necesidades del Big Data y que además, tal y como hemos comprobado en la
bibliografía consultada, las técnicas multivariantes clásicas son utilizadas pero
con importantes limitaciones.
4. Confusión en la bibliografía científica entre Big Data y grandes matrices de
datos.
5. Las soluciones se están aportando mayormente desde el ámbito empresarial
donde ya existen desarrollos para gestionar, almacenar y procesar los registros
de Big Data. La clave es ‘cómo analizamos la misma’ y la necesidad de una
profunda alianza entre el ámbito académico y el empresarial (incremento
exponencial en I+D+i).
16. 6. Big Data está provocando una revolución en el ámbito científico (Big Ciencia).
La explosión de datos es una realidad y para dar respuesta a los fenómenos
que analizan están adoptando herramientas antes auxiliares (Informática y
Estadística), que se han transformado en su principal factor de evolución hacia
disciplinas científicas ‘más maduras’.
7. Un ejemplo claro se da en la Geografía. Además de lo antes señalado, la
localización como atributo para los registros en Big Data (IoT), provoca la
aparición de nuevas oportunidades y la necesidad de determinar nuevos
objetivos que requieren el desarrollo de un nuevo cuerpo disciplinar: la
GISciencia.
Conclusiones (III)
17. 8. La dispersión al acometer el estudio de Big Data desde cada de las disciplinas
científicas supone un gran error. Es necesario avanzar en el estudio de las
interrelaciones resultantes de la investigación estadística dentro del ámbito
científico general con el objeto de crear teorías, herramientas y métodos que
sean útiles en múltiples dominios de la investigación.
9. Big Data requiere desarrollar herramientas y habilidades analíticas para
convertir sus datos en conocimiento. Las organizaciones (independientemente
de su naturaleza) y los individuos (independientemente de su formación) están
‘obligados’ a desarrollar este conocimiento.
Conclusiones (y IV)
18. ¡¡¡Big Data es el ACONTECIMIENTO del siglo XXI
y está ‘reservado’ a los Estadísticos!!!
PERO CUIDADO
Notas del editor
Presentación personal:
Nombre.
Licenciado en Geografía y Doctorado en Estadística.
Título: “La Geografía y la Estadística. Dos necesidades para entender Big Data”.
Motivación de la realización del trabajo: Integrar las dos áreas de conocimiento para el estudio del Big Data.
Para saber si la Estadística y la Geografía pueden ‘ayudarnos’ en ese análisis, nos planteamos unas preguntas que se convirtieron en los objetivos del TFM. Dentro de los cuales podemos distinguir:
1 Objetivo General:
La definición del estado actual del Big Data en el ámbito científico a través de una profunda revisión bibliográfica de las dos disciplinas que han de interaccionar para su correcto análisis (siempre) dentro el ámbito de las Ciencias Sociales: la Geografía Cuantitativa y la Estadística Multivariante (desde un punto de vista amplio).
4 Objetivos Específicos:
Definir de manera concreta y concisa Big Data como fenómeno.
Justificar la Estadística Multivariante aplicada a Big Data.
Clasificar y calificar las técnicas multivariantes clásicas que se pueden aplicar para estos volúmenes de información.
Presentar la GISciencia como el vehículo curricular adecuado para el tratamiento académico, conceptual y de desarrollo analítico final del Big Data en el ámbito de las Ciencias Sociales.
¿Pero qué es Big Data? (I)
Todo el mundo habla de este fenómeno (las noticias son continuas), Big Data es el producto de la última fase de desarrollo de las TIC (Tecnologías de la Información y la Comunicación) y del Open Data. Es decir, es la consecuencia de las mejoras exponenciales que han sufrido tanto el hardware como el software desde finales de los años 60, y (muy importante) complementada por un cambio de mentalidad consistente en la apertura en la tenencia de los datos.
(DESPUÉS DE MOSTRAR EL GRÁFICO) Pero este fenómeno no sería posible, ni se podría entender sin la existencia de Internet, que es el espacio virtual en el cual ‘reside’ y en el cual se ‘desarrolla’, constituyendo (de manera conjunta) un auténtico ecosistema. Es evidente que Internet ha revolucionado la informática y las comunicaciones, pero aún es más cierto que ha cambiado nuestra concepción del mundo social: su acceso ‘libre’ y ‘abierto’ ha transformado radicalmente la forma en la cual las personas las empresas y los gobiernos nos comunicamos y colaboramos (en definitiva interactuamos).
Y nos volvemos a preguntar ¿Pero qué es Big Data? (y II)
¿Un problema? (para muchos lo es)“Define una situación en la que el conjunto de datos existente ha llegado a tener un tamaño tan grande, una heterogeneidad tan diversa y un crecimiento tan exponencial que las TIC convencionales no pueden manejarlo de manera efectiva y aún resulta más difícil generar información a partir del mismo.
¿Una solución? (a veces) es definido como un conjunto de herramientas, procesos y aptitudes que van a permitir la gestión de enormes cantidades de información para mejorar los resultados.
CHISTE: “¿Esto cuenta como Big Data?” Para el niño es un problema y a la vez es una solución (será buen analista de datos).
Características del Big Data
Algunos de los autores consultados llegan a caracterizar, en principio, 3 dimensiones en Big Data (’las 3Vs’): ‘Volumen’, ‘Variedad’ y ‘Velocidad’, para en los últimos artículos y documentación consultada, algunos añadan una 4ª y hasta una 5ª V: la ‘Veracidad’ y el ‘Valor’. Estos dos últimos atributos se han incorporado cuando Big Data ha trascendido a otras áreas distintas a la informática (en contraste con los ‘3Vs’ originales, no están referidas a sus características intrínsecas y ahora lo explicaremos). En definitiva, la convergencia de todas estas dimensiones (se habla de ‘las 5Vs’) ayuda tanto a definir, como a diferenciar, esta realidad:
Volumen: Existencia de cantidades masivas de datos, pero lo que es más importante es que sea lo que se considere, en este preciso momento, como un ‘volumen grande’, mañana lo será más. Es la característica que se asocia con mayor frecuencia a este Big Data.
Variedad: Se refiere a los distintos tipos y las diversas fuentes de los datos. La cuestión es: cómo se han de integrar, gestionar y analizar datos estructurados, semiestructurados y no estructurados. Y es que con la irrupción de sensores, dispositivos inteligentes y tecnologías de colaboración social, los registros que se generan presentan innumerables formas: archivos de texto, Bases de Datos, geolocalizaciones, URL´s, tuits, registros de sensores, audios, vídeos, secuencias de clic del ratón, archivos de registro y un largo etcétera cuya variedad sigue aumentando cada día.
Velocidad: Hace referencia a cómo de rápido se crean y se procesan los datos. Esta velocidad está aumentando continuamente, lo que hace que los sistemas tradicionales no sean eficaces en su captación, almacenamiento y análisis. Para los procesos en los que el tiempo resulta fundamental, ciertos tipos de datos deben analizarse en tiempo real (‘streaming’) para que resulten útiles para el objetivo.
Veracidad: la incertidumbre de los datos. La calidad que es necesaria para hacerlo útil en su aplicación práctica Esforzarse por conseguir inicialmente unos datos de alta calidad es un requisito importante y un reto fundamental. No puede haber datos que cumplan los 3 criterios originales, pero sean inaplicables en la práctica debido a su mala calidad o a una baja credibilidad de sus fuentes. Pero, al mismo tiempo (lo interesante), es que las 3 primeras Vs hacen que esta 4ª (la ‘Veracidad’) sea más fácil de lograr ya que cuando hay gran un número de mediciones independientes los errores de medición ordinarios se convierten en un problema menor, ya que éstos tienden a estabilizarse y podemos gestionar su correcto tratamiento utilizando para ello técnicas estadísticas que aumenten la robustez de los datos. Por lo tanto, la clave para lograr la veracidad en Big Data no conlleva garantizar la medición perfecta, sino, más bien, requiere evitar los errores sistemáticos y controlar la confiabilidad de sus fuentes y aquí la Estadística Multivariante juega un papel fundamental.
Valor: Representa el resultado económico y social del desarrollo y la implantación de Big Data. Es decir ¿Qué es lo que obtenemos después de procesar Big Data?
Un ejemplo de la dimensión de Big Data
El primer día en la vida de un niño: (Aquí vemos a toda la familia y amigos… haciendo fotos, enviando mensajes, escribiendo en el Facebook, en el Twiter, etc.)
Veamos esas 3 Vs originales en el ejemplo:
Volumen: Equivalente a 70 veces el contenido de la librería del Congreso de los EEUU.
Variedad: (como decíamos antes: Mensajes de texto, fotos, videos, plataformas sociales, etc.
Velocidad: todo ‘en tiempo real’.
“HEMOS TENIDO UN BIG BABY”
¿Cómo podemos transformar un problema en solución? Del ‘Big Problem’ al ‘Big Value’. Un problema es, por definición, algo susceptible de ser resuelto.
¿Cómo? Conociendo cada una de las características de ese problema (que ya analizábamos en la transparencia anterior) y planteando métodos lógicos que gestionen adecuadamente cada una de ellas.
(MOSTRAR GRÁFICO Y EXPLICAR BREVEMENTE)
¿Qué métodos podemos utilizar? La Estadística.
Justificando la Estadística Multivariante en Big Data
Volumen y Velocidad: Procesamiento de datos complejos en streaming (en tiempo real): Además de los (obvios) problemas de procesamiento y almacenamiento, deben resolverse los involucrados al manejo de cantidades masivas de datos en tiempo real (decidir qué calcular y qué almacenar en cada momento). Dos frentes abiertos:
La ‘nube’ puede ser la respuesta ya que los servidores virtuales permiten escalar tanto los recursos como los costes disponibles, lo que resulta esencial para poder procesar grandes volúmenes de datos con rapidez a través de distintas máquinas clusters.
‘ML’: Desarrollo de sistemas que permitan automatizar la toma de decisiones basadas directamente en los datos.
Veracidad y Variedad: Desarrollo de métodos estadísticos más robustos. Técnicas más tolerantes al estado y ‘confiabilidad’ de los datos y también los ‘outliers’. De esta manera:
Análisis de las diversas fuentes de datos: la mayoría de las Bases de Datos de acceso público más interesantes (internas, externas, estructuradas o no), se encuentran mal organizadas, ‘cargadas de ruido’ y son normalmente de difícil acceso a través de los estándares actuales de programación.
La importancia de los ’outliers’: en marketing, por ejemplo, (una de las disciplinas con más necesidad de implantar soluciones para Big Data) por ejemplo, no se deben descartar estos registros, ya que coinciden, a menudo, con las cuentas/clientes de mayor (o menor) valor de toda la población.
Análisis de diversos formatos de datos: textos, imágenes, videos, etc.
El desarrollo del ‘Natural Language Processing’ (‘NLP’): un objetivo muy importante es transformar los contenidos textuales generados por los usuarios en información valiosa a través de procesos estadísticos computacionalmente sencillos.
Valor: Generando Conocimiento. No hay beneficio en la recogida y almacenamiento de toda la información si las herramientas que utilizamos no son capaces de encontrar patrones y conocimiento útil en los datos .
Desarrollo de técnicas analíticas que transformen directamente los datos brutos en información útil. Utilizando desarrollos que posibiliten predecir comportamientos y tomar decisiones sobre los datos (obtención de conocimiento).
Mejora en las técnicas de visualización: La representación gráfica facilita la comunicación y el entendimiento de los datos, transformándolos directamente en información.
Clasificando las técnicas multivariantes clásicas en Big Data
En relación a las necesidades planteadas por los analistas de Big Data podemos realizar la división de las técnicas multivariantes clásicas en dos grandes grupos:
Técnicas de Reducción de la Dimensión: cuyo objetivo es simplificar los datos resumiendo la información de los mismos a través de un número pequeño de componentes que presenten la información más relevante. El más relevante el ‘Análisis de Componentes Principales ‘ seguido del ‘Multidimensional Scaling’.
Técnicas de Clasificación: cuya finalidad es agrupar y clasificar los datos mediante la división adecuada de éstos y la aplicación de estas normas a nuevos conjuntos de registros. El más relevante el ‘Análisis de Cluster‘ seguido del ‘Análisis Discriminante’.
Las sucesivas búsquedas bibliográficas realizadas con el objetivo de conocer qué técnicas estadísticas se utilizan en Big Data nos han permitido concluir los siguientes dos aspectos:
ADAPTACION DE LAS TÉCNICAS CLASICAS A LOS NUEVOS REQUERIMIENTOS: Son muchas las aportaciones científicas que implantan soluciones multivariantes en Big Data (y que parecen las más lógicas para su análisis), pero para casi todas ellas parten de la premisa de la necesidad de adaptarlas a la nueva realidad y las necesidades que impone este fenómeno.
Por lo general, aplicamos estadística ‘one-shot’ cuando vamos a tener que combinar muchas herramientas estadísticas para un mismo problema.
Se requieren modelos complejos y heterogéneos (dinámicos, multivariantes, no paramétricos).
Cómo reducir la dimensión eficazmente (disminuir el volumen).
Cómo encontrar relaciones y patrones, clasificar (es clave hacer grupos de observaciones).
‘Statistical Learning’ clave para el futuro. Elementos: Data Mining, Inferencia y Predicción.
Conocer y trabajar en ‘Cloud Computing’ (aspectos tecnológicos): Y es que las características propias del fenómeno Big Data necesitan la adecuada infraestructura tecnológica para la gestión total y efectiva de los datos contenidos.
CAMPOS DE APLICACIÓN:
Computación.
Genómica.
Marketing.
Y un Big Etcétera.
Cómo se genera espacio y fenómenos espaciales en Internet:
La ‘nube’ es un espacio antrópico.
Internet of Things (‘IoT’) crea registros espaciales. el mundo físico se está convirtiendo en un verdadero sistema de información gracias a su desarrollo. La ‘Computación Ubicua’ define la integración masiva de la informática (hardware y software), en nuestro entorno desapareciendo de la vista y formando parte integral de nuestra vida diaria. multitud de objetos cotidianos estarán dotados de sensores que harán las veces de nuestros sentidos y les permitirán generar continuamente información tanto del medio que les rodea y supone que el futuro-presente de Internet está definido por su inevitable encuentro con el mundo físico y real. Esta enorme cantidad de nueva información formará una piel digital que cubrirá el mundo físico. La información que se obtenga de manera continua a partir del IoT estará georreferenciada desde su origen (se estima que en más de un 80%) y será necesario desarrollar métodos específicos de análisis estadístico implementados en tecnología propia de la GISciencia para atender a las necesidades propias de este fenómeno y su evolución.
Internet of Everything (‘IoE’) genera la necesidad al crear Big Data. Pero como estamos señalando a lo largo de todo el TFM, los datos en bruto no son suficientes para ello, todos esos bits deben ser ‘tamizados’ para encontrar información útil y luego ser transformados en conocimiento, para finalmente traducirlos a sabiduría ¿Cómo? A través de la GISciencia.
Comprender el mundo a través de los datos masivos antrópicamente generados: no hay nada más geográfico que esta cuestión.
La GISciencia:
Cuando se trabaja con datos espaciales es imprescindible conocer la posición donde se producen los fenómenos: Georreferenciación.
Un GIS gestiona cada una de las partes de la realidad georreferenciada a través de capas que contienen los datos de un aspecto de ésta, Esta idea es básica para la solución analítica de Big Data: permite relacionar varias capas entre sí para mostrar aspectos que la complejidad de la realidad impide percibir directamente.
La GISciencia constituye un fundamento conceptual y teórico más profundo que los GIS, resultado de su evolución como campo unificado que estudia estos Sistemas de Información y la Estadística Espacial.
Y constituye el vehículo curricular adecuado para el tratamiento académico, conceptual y de desarrollo analítico final del Big Data en el ámbito de las Ciencias Sociales.
Del dato al conocimiento en Big Data
Observamos un fenómeno del ‘Mundo Real’: ‘3Vs’ del Big Data (‘Volumen’, ‘Velocidad’ y ‘Variedad’).
Entramos en el ‘Ámbito Científico’:
De la ‘OBSERVACIÓN’ recogemos ‘Datos’, los cuales deben ser validados para generar la ‘4V’: la ‘Veracidad’.
Del ‘Dato’ cierto conseguido a través del análisis y la investigación, obtenemos ‘Información’.
De la ‘Información’ mediante la interpretación y la comprensión, estamos en disposición de ‘tomar decisiones’. Aparece el ‘Conocimiento’. Ya tenemos las ‘5Vs’ (aparece el ‘Valor’).
Volvemos al ‘Mundo Real’: y el ‘Conocimiento’ nos permite ‘ACTUAR’ sobre ese fenómeno con rigor científico.
Para finalizar la exposición paso a describir las conclusiones a las que hemos llegado durante el desarrollo del Trabajo de Fin de Máster:
CONCLUSIONES (I)
Big Data es un fenómeno que surge en los tres últimos años como producto de la última fase de desarrollo de las ‘TIC’ y del impulso al ‘Open Data’, conformando una realidad y una revolución que en la actualidad afecta a todos los ámbitos de nuestra sociedad.
Cinco características lo definen y la ciencia Estadística ha de dar respuesta a cada una estas dimensiones:
‘Veracidad’: implantando soluciones que extraigan del conjunto de datos aquellos registros que verdaderamente aporten valor. Importancia de los ‘outliers’.
‘Velocidad’: desarrollando algoritmos que permitan el procesamiento en ‘streaming’.
‘Volumen’: mediante técnicas que permitan reducir la dimensión original de los datos y conseguir su clasificación.
‘Variedad’: adoptando métodos que sean capaces de tratar con registros de diversa naturaleza.
‘Valor’: utilizando desarrollos que posibiliten predecir comportamientos y tomar decisiones sobre los datos (conocimiento).
CONCLUSIONES (II)
Es evidente que la Estadística Univariante no puede hacer frente a las necesidades del Big Data y que además, tal y como hemos comprobado en la bibliografía consultada, las técnicas multivariantes clásicas son utilizadas pero con importantes limitaciones.
Confusión en la bibliografía científica entre Big Data y grandes matrices de datos (los denominados ‘Large Data Sheet’).
Las soluciones se están aportando mayormente desde el ámbito empresarial donde ya existen desarrollos que se encargan de gestionar, almacenar y procesar los registros de Big Data. La clave es ‘cómo analizamos la misma’ (aquí aparece la interesante dicotomía correlación-causalidad que exponemos en el TFM) y para ello la necesidad de una profunda alianza entre el ámbito académico y el empresarial (que va a generar un incremento exponencial en I+D+i Investigación + desarrollo`+ innovación).
Conclusiones (III)
Big Data está provocando una revolución en el ámbito científico (la denominada ‘Big Ciencia’ empieza a trascender a muchos ámbitos científicos). La explosión de datos que manejan es una realidad y para dar respuesta a los fenómenos que analizan, están adoptando como suyas herramientas antes auxiliares (Informática y Estadística), que comienzan a integrarse como parte fundamental de su núcleo teorético (estudio del conocimiento, que se dirige al conocimiento, no a la acción ni a la práctica), postulándose como su principal factor de evolución a disciplinas científicas ‘más maduras’.
Un ejemplo claro es la Geografía. La localización como atributo para los registros en Big Data (‘IoT’), provoca la aparición de nuevas oportunidades y la necesidad de determinar nuevos objetivos para esta ciencia que requieren el desarrollo de un cuerpo disciplinar capaz de amoldarse al Big Data: la GISciencia.
Conclusiones (y IV)
Resulta necesario crear un cuerpo académico que dé respuesta a esta realidad. La dispersión al acometer el estudio de Big Data desde cada de las disciplinas científicas supone un gran error (y es lo que se está haciendo). Es necesario avanzar en el estudio de las interrelaciones resultantes de la investigación estadística dentro del ámbito científico general con el objeto de crear teorías, herramientas y métodos que sean útiles en múltiples dominios de la investigación.
Big Data requiere desarrollar herramientas y habilidades analíticas para convertir sus datos en conocimiento. Las organizaciones (independientemente de su naturaleza) y los individuos (independientemente de su formación) están obligados a desarrollar este conocimiento.
Si yo fuera estadístico, estaría dando saltos de alegría: Big Data cambiará la concepción perceptual del propio mundo.
Pero cuidado! (chiste): La necesaria adopción y adecuación de una realidad denominada Big Data dentro del estudio geográfico y del análisis científico en general, presupone cambiar radicalmente la manera de hacer ciencia, asumiendo su desarrollo dentro de un proceso abductivo donde la correlación entre los datos señala la causa y el efecto. Así, manejando de manera correcta esta gran cantidad de datos, con un objetivo concreto, permitirá concluir a los analistas y científicos que cuando un fenómeno se produce se da otro hecho o conjunto de hechos, pero el riesgo aparece porque podemos comenzar a ignorar la causa (cómo se produce). Saber tanto, por lo tanto, puede cobrarse su precio: ignorar cómo lo sabemos o cómo se produce exactamente el fenómeno descubierto, sencillamente lo sabemos, y se diluye el vínculo causal en pro del correlacional (pautas y correlaciones por encima de causalidades). Y es que hasta ahora, las investigaciones científicas que perseguían la causalidad eran complejas y costosas, por lo tanto la gran alternativa a esta metodología son los datos masivos pero sin olvidar el análisis del porqué y su modelización: de ahí lo necesario de la GISciencia.