Este documento presenta una introducción a Big Data, Hadoop y HDInsight. Explica conceptos clave como el volumen, variedad y velocidad de los datos de Big Data, y componentes de Hadoop como HDFS y MapReduce. También describe características de HDInsight y PowerPivot para modelar y analizar grandes conjuntos de datos.
Este documento proporciona una introducción a Big Data y SQL Server 2014. Explica conceptos clave como lo que es un petabyte de datos, las características de volumen, velocidad y variedad de Big Data, y componentes clave de Hadoop como HDFS y MapReduce. También describe casos comunes de uso de Big Data en diferentes industrias y la arquitectura de hardware y software subyacente.
Este documento presenta conceptos generales sobre Big Data e impacto en los negocios. Explica que Big Data se refiere a conjuntos de datos muy grandes o complejos que requieren nuevas formas de procesamiento. Describe características como tamaño, diversidad y velocidad de los datos, así como ejemplos de casos de negocio como mejorar la eficiencia operacional y la experiencia del cliente. Finalmente, discute riesgos como privacidad y seguridad, y tendencias futuras como análisis distribuido y computación cognitiva.
Este documento presenta una introducción al Big Data, incluyendo los desafíos actuales como la escalabilidad y los diferentes tipos de bases de datos como Hadoop, HBase y Hive. Explica las herramientas clave de Big Data de código abierto como Hadoop y MapReduce y cómo se pueden usar para analizar grandes cantidades de datos.
Big Data, casos, tecnologias y aplicaciones realesStratebi
Este documento describe varias aplicaciones y casos de éxito de Big Data. Inicialmente presenta definiciones y conceptos clave de Big Data. Luego describe casos prácticos exitosos de empresas como Amazon, UPS, DHL y campañas políticas. También presenta casos implementados por StrateBI para empresas como Boeing, una empresa de retail y Telefónica Educación. Finalmente, discute aplicaciones comunes como Data Lakes, telemetría y análisis de logs.
Big Data - Desarrollando soluciones efectivasJoseph Lopez
Este documento presenta una introducción a los conceptos de Big Data y análisis de datos. Define Big Data como la capacidad de extraer información de múltiples fuentes de datos dentro y fuera de una empresa para tomar mejores decisiones de negocios. Explica que la mayoría de los datos se generan fuera de las bases de datos estructuradas tradicionales y que es necesario integrar y analizar diferentes tipos y cantidades de datos. También introduce conceptos como Hadoop, datos en tiempo real, almacenes de datos modernos y la diferencia entre procesamiento paralelo mas
HD Insight Integracion con SQL Server Power-Pivot ExcelEduardo Castro
Este documento presenta una sesión sobre Big Data e Inteligencia de Negocios (BI) utilizando HDInsight y Excel 2013. Explica brevemente qué es Big Data, introduce HDInsight y las herramientas de BI de Excel como PowerPivot y Power View. Luego describe cómo modelar datos de Big Data en PowerPivot para crear soluciones de BI dentro de Excel que permitan análisis de grandes conjuntos de datos. Finalmente, incluye demostraciones de estas capacidades.
Big Data, Big Customer Value, Big ResultsMundo Contact
Este documento presenta los conceptos clave de Big Data y cómo las empresas pueden obtener valor de los grandes volúmenes de datos. Define Big Data, discute los desafíos como la calidad y consistencia de los datos, y describe siete pasos para el análisis de Big Data que incluyen la recolección, procesamiento, almacenamiento y consumo de datos. El objetivo final es que las empresas puedan tomar mejores decisiones comerciales y ofrecer una experiencia más personalizada para los clientes basada en los datos.
Este documento proporciona una introducción a Big Data y SQL Server 2014. Explica conceptos clave como lo que es un petabyte de datos, las características de volumen, velocidad y variedad de Big Data, y componentes clave de Hadoop como HDFS y MapReduce. También describe casos comunes de uso de Big Data en diferentes industrias y la arquitectura de hardware y software subyacente.
Este documento presenta conceptos generales sobre Big Data e impacto en los negocios. Explica que Big Data se refiere a conjuntos de datos muy grandes o complejos que requieren nuevas formas de procesamiento. Describe características como tamaño, diversidad y velocidad de los datos, así como ejemplos de casos de negocio como mejorar la eficiencia operacional y la experiencia del cliente. Finalmente, discute riesgos como privacidad y seguridad, y tendencias futuras como análisis distribuido y computación cognitiva.
Este documento presenta una introducción al Big Data, incluyendo los desafíos actuales como la escalabilidad y los diferentes tipos de bases de datos como Hadoop, HBase y Hive. Explica las herramientas clave de Big Data de código abierto como Hadoop y MapReduce y cómo se pueden usar para analizar grandes cantidades de datos.
Big Data, casos, tecnologias y aplicaciones realesStratebi
Este documento describe varias aplicaciones y casos de éxito de Big Data. Inicialmente presenta definiciones y conceptos clave de Big Data. Luego describe casos prácticos exitosos de empresas como Amazon, UPS, DHL y campañas políticas. También presenta casos implementados por StrateBI para empresas como Boeing, una empresa de retail y Telefónica Educación. Finalmente, discute aplicaciones comunes como Data Lakes, telemetría y análisis de logs.
Big Data - Desarrollando soluciones efectivasJoseph Lopez
Este documento presenta una introducción a los conceptos de Big Data y análisis de datos. Define Big Data como la capacidad de extraer información de múltiples fuentes de datos dentro y fuera de una empresa para tomar mejores decisiones de negocios. Explica que la mayoría de los datos se generan fuera de las bases de datos estructuradas tradicionales y que es necesario integrar y analizar diferentes tipos y cantidades de datos. También introduce conceptos como Hadoop, datos en tiempo real, almacenes de datos modernos y la diferencia entre procesamiento paralelo mas
HD Insight Integracion con SQL Server Power-Pivot ExcelEduardo Castro
Este documento presenta una sesión sobre Big Data e Inteligencia de Negocios (BI) utilizando HDInsight y Excel 2013. Explica brevemente qué es Big Data, introduce HDInsight y las herramientas de BI de Excel como PowerPivot y Power View. Luego describe cómo modelar datos de Big Data en PowerPivot para crear soluciones de BI dentro de Excel que permitan análisis de grandes conjuntos de datos. Finalmente, incluye demostraciones de estas capacidades.
Big Data, Big Customer Value, Big ResultsMundo Contact
Este documento presenta los conceptos clave de Big Data y cómo las empresas pueden obtener valor de los grandes volúmenes de datos. Define Big Data, discute los desafíos como la calidad y consistencia de los datos, y describe siete pasos para el análisis de Big Data que incluyen la recolección, procesamiento, almacenamiento y consumo de datos. El objetivo final es que las empresas puedan tomar mejores decisiones comerciales y ofrecer una experiencia más personalizada para los clientes basada en los datos.
En el último año, Big Data se ha transformado en uno de los pilares más importantes de la estrategia de negocio de los Bancos de Chile y el mundo. En un entorno cada vez más competitivo y con altos niveles de regulación, las organizaciones deben comenzar a tomar decisiones en función de los datos y no de la intuición. Para tomar dichas decisiones, se vuelve necesario procesar grandes volúmenes de información de manera eficiente, incorporando nuevas fuentes de datos y automatizando las decisiones a través de algoritmos analíticos avanzados. Durante esta presentación, analizaremos qué deben hacer los Bancos para transformar su arquitectura de datos tradicional, en una arquitectura de datos moderna con soporte para big data y así estar preparados para abordar los nuevos desafíos que plantea la transformación digital del negocio financiero.
Este documento proporciona una introducción al concepto de Big Data. Explica que Big Data se refiere a grandes conjuntos de datos que son difíciles de procesar con herramientas de bases de datos convencionales. Describe las tres características clave de Big Data: volumen, velocidad y variedad. Además, introduce algunas tecnologías clave como MapReduce y bases de datos NoSQL. Finalmente, explica brevemente el procesamiento de lenguaje natural como una aplicación de Big Data.
En esta presentación se introducen los conceptos de Big Data, así como las soliciones de Horton Works sobre Windows y el Microsoft Analytics Platform System (PDW Paralled Data Warehouse)
Saludos,
Eduardo Castro, PhD
SQL Server MVP
Comunidad Windows Costa Rica
Presentación semana académica unam big data abril 2015Peter Kroll
Este documento compara Business Intelligence y Big Data. Business Intelligence ayuda a encontrar respuestas a preguntas conocidas mediante el análisis de datos estructurados, mientras que Big Data ayuda a descubrir nuevas preguntas a través del análisis de grandes volúmenes de datos estructurados y no estructurados procedentes de múltiples fuentes. El documento también describe los componentes clave de un sistema de Business Intelligence y proporciona ejemplos de cómo diferentes industrias están aprovechando los datos para mejorar sus operaciones y toma de decisiones.
Este documento describe el concepto de Big Data y sus aplicaciones en recursos humanos. Explica que el Big Data se basa en el procesamiento de grandes volúmenes y variedades de datos a alta velocidad para extraer valor e inteligencia. A continuación, detalla cómo el Big Data se usa en recursos humanos para mejorar la identificación de talento, la gestión del rendimiento, la retención de empleados y la compensación. Finalmente, enfatiza la importancia de considerar el impacto del Big Data en la cultura organizacional antes de su implementación.
Esta es una actualización de el proyecto de Big Data que ha llegado a un primer resultado, El mapa de emotividad basada en Twitter, por cada entidad de México. El siguiente paso será hacer esto en tiempo real.
En es presentación vemos las herramientas con las cuales cuenta un científico de datos con tecnología Microsoft y también con tecnología OpenSource es se puede integrar con Plataformas Microsoft en la nube con Azure o con Servidores OnPremises.
Saludos,
Ing. Eduardo Castro, PhD
Microsoft SQL Server MVP
Costa Rica
Cada vez más observamos la creciente necesidad de tomar decisiones en tiempo real. Nuestro negocio esta vivo y el tomar decisiones cuanto antes nos puede suponer una ventaja competitiva respecto al resto.
Durante la siguiente sesión vamos a explorar todas las mejoras que trae SQL Server 2014 y que podemos aprovechar para dar un empujón de velocidad a nuestro sistema de BI.
Este documento describe tres cursos de formación sobre Big Data y Machine Learning ofrecidos por StrateBI:
1) Curso de Introducción a Big Data (3 días) que introduce los conceptos y tecnologías básicas de Big Data.
2) Curso de especialista técnico en Data Science (5 días) para formar expertos en tecnologías Big Data.
3) Curso de Introducción a Machine Learning (3 días) sobre los conceptos y aplicaciones de aprendizaje automático.
Presentación de Big Data Architecture & Integration con Pentaho, realizada por Datalytics con motivo del desayuno de trabajo realizado el 18 de Diciembre 2012.
Introducción a Big Data. HDInsight - Webcast Technet SolidQSolidQ
Este documento presenta una introducción a Big Data, incluyendo las tendencias de la industria, definiciones de Big Data, ejemplos de datos masivos, y utilidades de Big Data. También describe escenarios de análisis empresarial utilizando herramientas como Hadoop, Hive y HDInsight, y cómo Microsoft Excel puede usarse para explotar y analizar grandes conjuntos de datos.
Big Data para analizar las redes socialesDatKnoSys
El principal objetivo es mostrar el análisis de cantidades elevadas de información que nos proporcionan las redes sociales gracias a sistemas Big Data. Haciendo frente a la complejidad de la variedad de orígenes, el gran volumen de las mismas y la velocidad de procesamiento que se necesita.
Se incidirá principalmente en los siguientes puntos clave: la recogida de datos, su procesamiento (con ejemplo de text mining para conseguir descifrar el sentimiento) y en la visualización final.
¿Sabías que cada minuto se mandan 13 millones de mensajes se suben 48 horas de vídeo a YouTube y se crean 571 nuevas páginas web? Internet es un generador de grandes cantidades de información y este contenido lo generan los usuarios, nuestros clientes, por eso hay que saber adaptarse a este nuevo socio económico y aprovechar el valor de la información que nos ofrece. Es importante implantar sistemas de Big Data que nos ayuden a almacenar, buscar, compartir, analizar y visualizar estas grandes cantidades de datos y con ello conseguir valor. No hay que olvidar que tan importante como es instalar un sistema big data, es definirlo conforme a nuestras necesidades.
Este documento describe la evolución del procesamiento de grandes volúmenes de datos, desde los primeros esfuerzos de Google para procesar grandes matrices hasta el desarrollo de frameworks como MapReduce y Hadoop. También analiza cómo herramientas de Business Intelligence y minería de datos se han actualizado para aprovechar estas nuevas tecnologías de Big Data, permitiendo nuevos modelos de negocio y demandas laborales.
Este documento describe Big Data y sus características. Define Big Data como grandes conjuntos de datos estructurados y no estructurados que son difíciles de manejar con bases de datos convencionales. Explica que Big Data puede usarse para optimizar cadenas de suministro y que ofrece ventajas a las empresas al permitirles mejorar divisiones con malos resultados sin intervención directa.
Este documento presenta una investigación sobre Big Data. Introduce el tema y define Big Data como conjuntos de datos de gran volumen, alta velocidad y variedad que requieren nuevas formas de procesamiento para extraer valor e información. Explica las diferentes clasificaciones de datos, incluyendo estructurados, semi-estructurados y no estructurados. También compara Business Intelligence tradicional con Big Data y describe algunas herramientas comunes para implementar soluciones de Big Data como Hadoop, MapReduce y Apache Spark.
El documento describe Big Data y las herramientas para su análisis. Big Data se refiere a grandes conjuntos de datos que crecen rápidamente y son difíciles de procesar con herramientas de bases de datos tradicionales. Hadoop es una plataforma popular de código abierto para almacenar y procesar grandes cantidades de datos de forma distribuida. El documento también discute otras herramientas como Pig, Hive, HDFS e Impala que se usan con Hadoop para extraer información de los datos.
La integración de información en las herramientas de Business IntelligenceJesús Tramullas
Este documento describe los conceptos clave de Business Intelligence (BI) e Integración de Información Empresarial (EII), incluyendo el análisis de datos, minería de datos, almacenes de datos, integración de aplicaciones y datos, y herramientas y estrategias para la integración de información. El objetivo final es proporcionar información unificada y en tiempo real a los usuarios para apoyar la toma de decisiones estratégicas.
Aplicación Puertos y Aeropuertos Analytics (spanish)Stratebi
El documento describe el Sistema de Información de Puertos y Aeropuertos (SIPORT), el cual permite controlar y analizar toda la información estadística relacionada con el tráfico de mercancías y pasajeros en puertos y aeropuertos. SIPORT ofrece indicadores clave, visualizaciones con cuadros de mando, y herramientas de análisis que permiten tomar mejores decisiones de forma autónoma y económica. El sistema utiliza datos abiertos para proporcionar una solución más barata que las opciones
En el último año, Big Data se ha transformado en uno de los pilares más importantes de la estrategia de negocio de los Bancos de Chile y el mundo. En un entorno cada vez más competitivo y con altos niveles de regulación, las organizaciones deben comenzar a tomar decisiones en función de los datos y no de la intuición. Para tomar dichas decisiones, se vuelve necesario procesar grandes volúmenes de información de manera eficiente, incorporando nuevas fuentes de datos y automatizando las decisiones a través de algoritmos analíticos avanzados. Durante esta presentación, analizaremos qué deben hacer los Bancos para transformar su arquitectura de datos tradicional, en una arquitectura de datos moderna con soporte para big data y así estar preparados para abordar los nuevos desafíos que plantea la transformación digital del negocio financiero.
Este documento proporciona una introducción al concepto de Big Data. Explica que Big Data se refiere a grandes conjuntos de datos que son difíciles de procesar con herramientas de bases de datos convencionales. Describe las tres características clave de Big Data: volumen, velocidad y variedad. Además, introduce algunas tecnologías clave como MapReduce y bases de datos NoSQL. Finalmente, explica brevemente el procesamiento de lenguaje natural como una aplicación de Big Data.
En esta presentación se introducen los conceptos de Big Data, así como las soliciones de Horton Works sobre Windows y el Microsoft Analytics Platform System (PDW Paralled Data Warehouse)
Saludos,
Eduardo Castro, PhD
SQL Server MVP
Comunidad Windows Costa Rica
Presentación semana académica unam big data abril 2015Peter Kroll
Este documento compara Business Intelligence y Big Data. Business Intelligence ayuda a encontrar respuestas a preguntas conocidas mediante el análisis de datos estructurados, mientras que Big Data ayuda a descubrir nuevas preguntas a través del análisis de grandes volúmenes de datos estructurados y no estructurados procedentes de múltiples fuentes. El documento también describe los componentes clave de un sistema de Business Intelligence y proporciona ejemplos de cómo diferentes industrias están aprovechando los datos para mejorar sus operaciones y toma de decisiones.
Este documento describe el concepto de Big Data y sus aplicaciones en recursos humanos. Explica que el Big Data se basa en el procesamiento de grandes volúmenes y variedades de datos a alta velocidad para extraer valor e inteligencia. A continuación, detalla cómo el Big Data se usa en recursos humanos para mejorar la identificación de talento, la gestión del rendimiento, la retención de empleados y la compensación. Finalmente, enfatiza la importancia de considerar el impacto del Big Data en la cultura organizacional antes de su implementación.
Esta es una actualización de el proyecto de Big Data que ha llegado a un primer resultado, El mapa de emotividad basada en Twitter, por cada entidad de México. El siguiente paso será hacer esto en tiempo real.
En es presentación vemos las herramientas con las cuales cuenta un científico de datos con tecnología Microsoft y también con tecnología OpenSource es se puede integrar con Plataformas Microsoft en la nube con Azure o con Servidores OnPremises.
Saludos,
Ing. Eduardo Castro, PhD
Microsoft SQL Server MVP
Costa Rica
Cada vez más observamos la creciente necesidad de tomar decisiones en tiempo real. Nuestro negocio esta vivo y el tomar decisiones cuanto antes nos puede suponer una ventaja competitiva respecto al resto.
Durante la siguiente sesión vamos a explorar todas las mejoras que trae SQL Server 2014 y que podemos aprovechar para dar un empujón de velocidad a nuestro sistema de BI.
Este documento describe tres cursos de formación sobre Big Data y Machine Learning ofrecidos por StrateBI:
1) Curso de Introducción a Big Data (3 días) que introduce los conceptos y tecnologías básicas de Big Data.
2) Curso de especialista técnico en Data Science (5 días) para formar expertos en tecnologías Big Data.
3) Curso de Introducción a Machine Learning (3 días) sobre los conceptos y aplicaciones de aprendizaje automático.
Presentación de Big Data Architecture & Integration con Pentaho, realizada por Datalytics con motivo del desayuno de trabajo realizado el 18 de Diciembre 2012.
Introducción a Big Data. HDInsight - Webcast Technet SolidQSolidQ
Este documento presenta una introducción a Big Data, incluyendo las tendencias de la industria, definiciones de Big Data, ejemplos de datos masivos, y utilidades de Big Data. También describe escenarios de análisis empresarial utilizando herramientas como Hadoop, Hive y HDInsight, y cómo Microsoft Excel puede usarse para explotar y analizar grandes conjuntos de datos.
Big Data para analizar las redes socialesDatKnoSys
El principal objetivo es mostrar el análisis de cantidades elevadas de información que nos proporcionan las redes sociales gracias a sistemas Big Data. Haciendo frente a la complejidad de la variedad de orígenes, el gran volumen de las mismas y la velocidad de procesamiento que se necesita.
Se incidirá principalmente en los siguientes puntos clave: la recogida de datos, su procesamiento (con ejemplo de text mining para conseguir descifrar el sentimiento) y en la visualización final.
¿Sabías que cada minuto se mandan 13 millones de mensajes se suben 48 horas de vídeo a YouTube y se crean 571 nuevas páginas web? Internet es un generador de grandes cantidades de información y este contenido lo generan los usuarios, nuestros clientes, por eso hay que saber adaptarse a este nuevo socio económico y aprovechar el valor de la información que nos ofrece. Es importante implantar sistemas de Big Data que nos ayuden a almacenar, buscar, compartir, analizar y visualizar estas grandes cantidades de datos y con ello conseguir valor. No hay que olvidar que tan importante como es instalar un sistema big data, es definirlo conforme a nuestras necesidades.
Este documento describe la evolución del procesamiento de grandes volúmenes de datos, desde los primeros esfuerzos de Google para procesar grandes matrices hasta el desarrollo de frameworks como MapReduce y Hadoop. También analiza cómo herramientas de Business Intelligence y minería de datos se han actualizado para aprovechar estas nuevas tecnologías de Big Data, permitiendo nuevos modelos de negocio y demandas laborales.
Este documento describe Big Data y sus características. Define Big Data como grandes conjuntos de datos estructurados y no estructurados que son difíciles de manejar con bases de datos convencionales. Explica que Big Data puede usarse para optimizar cadenas de suministro y que ofrece ventajas a las empresas al permitirles mejorar divisiones con malos resultados sin intervención directa.
Este documento presenta una investigación sobre Big Data. Introduce el tema y define Big Data como conjuntos de datos de gran volumen, alta velocidad y variedad que requieren nuevas formas de procesamiento para extraer valor e información. Explica las diferentes clasificaciones de datos, incluyendo estructurados, semi-estructurados y no estructurados. También compara Business Intelligence tradicional con Big Data y describe algunas herramientas comunes para implementar soluciones de Big Data como Hadoop, MapReduce y Apache Spark.
El documento describe Big Data y las herramientas para su análisis. Big Data se refiere a grandes conjuntos de datos que crecen rápidamente y son difíciles de procesar con herramientas de bases de datos tradicionales. Hadoop es una plataforma popular de código abierto para almacenar y procesar grandes cantidades de datos de forma distribuida. El documento también discute otras herramientas como Pig, Hive, HDFS e Impala que se usan con Hadoop para extraer información de los datos.
La integración de información en las herramientas de Business IntelligenceJesús Tramullas
Este documento describe los conceptos clave de Business Intelligence (BI) e Integración de Información Empresarial (EII), incluyendo el análisis de datos, minería de datos, almacenes de datos, integración de aplicaciones y datos, y herramientas y estrategias para la integración de información. El objetivo final es proporcionar información unificada y en tiempo real a los usuarios para apoyar la toma de decisiones estratégicas.
Aplicación Puertos y Aeropuertos Analytics (spanish)Stratebi
El documento describe el Sistema de Información de Puertos y Aeropuertos (SIPORT), el cual permite controlar y analizar toda la información estadística relacionada con el tráfico de mercancías y pasajeros en puertos y aeropuertos. SIPORT ofrece indicadores clave, visualizaciones con cuadros de mando, y herramientas de análisis que permiten tomar mejores decisiones de forma autónoma y económica. El sistema utiliza datos abiertos para proporcionar una solución más barata que las opciones
El documento analiza diferentes herramientas de Business Intelligence y gestión empresarial como Microsoft Dynamics NAV y CRM, Oracle Business Intelligence y Ultimus. Estas herramientas permiten a las empresas acceder a información en tiempo real para tomar mejores decisiones, integrar procesos empresariales para mejorar la eficiencia, y gestionar procesos de negocio de forma flexible.
Que son las herramientas de inteligencia de negocios, sus características y algunos ejemplos de estas herramientas en software privativo y software libre.
El documento presenta información sobre soluciones de Business Intelligence (BI) de la compañía Stratebi, incluyendo sus servicios de desarrollo de proyectos BI, acompañamiento tecnológico, colaboraciones de especialistas y talleres de formación. También describe algunas de sus soluciones verticales y de negocio, así como ejemplos de cuadros de mando y demostraciones.
Este documento describe los modelos de propensión y su uso en el análisis de datos. Explica que los modelos de propensión estiman la probabilidad de que un cliente realice una acción como comprar un producto, abandonar el servicio o incurrir en impago. Luego discute algunas técnicas como árboles de decisión, redes neuronales y regresión logística que se pueden usar para crear estos modelos predictivos. Finalmente, presenta algunos casos de aplicación como la detección de fuga de clientes y la sensibilidad al precio
Modelos Predictivos, Big Data Retos y Generación de nuevas solucionesBig-Data-Summit
This document discusses predictive modeling and big data solutions from Timi Americas. It begins by introducing Timi as focused on faster predictions and better decisions through predictive models. It then discusses challenges with traditional predictive modeling approaches like time requirements and scalability issues. The document promotes Timi's approach of using distributed, efficient code to build predictive models in days rather than months. It also demonstrates Timi's ability to handle large datasets on a single laptop through its compressed data format and optimized algorithms.
El Observatorio de Redes Sociales analiza anualmente la evolución de las comunidades y redes sociales entre los internautas españoles y los hábitos y actitudes hacia las mismas.
Este año el estudio ha contando con el patrocinio de BBVA.
Este documento presenta una introducción a los conceptos fundamentales de Big Data e incluye las siguientes secciones:
1. Define Big Data y explica por qué se ha vuelto tan importante.
2. Describe las diferentes olas o fases de administración de datos, incluyendo la creación de estructuras manejables, la gestión de contenido web y la gestión de grandes cantidades de datos.
3. Explica conceptos clave como bases de datos NoSQL, bases de datos relacionales, Hadoop y cómo las grandes empresas analizan Big Data.
El documento presenta una introducción a Business Intelligence. Describe brevemente su historia, definición, características, niveles de realización, elementos, ventajas, software y arquitectura de soporte para la toma de decisiones.
Manuel Torres Gil
mtorres@ual.es
Departamento de Lenguajes y Computación
Universidad de Almería
Documento original:
http://indalog.ual.es/mtorres/cursodw/DisDimensional.pdf
Big Data no es una moda ni algo que esté por venir. Gran parte de las organizaciones ya cuentan con bases de datos tan grandes que requieren usar herramientas especiales. Ésta presentación nos ayuda a dar el primer paso, a conocer que en realidad qué es y como funciona, así como a adentrarnos en este maravilloso mundo de los datos al por mayor.
Este documento presenta un evento de lanzamiento de Qlik Sense que tendrá lugar en el Yacht Club Puerto Madero el 11 de marzo de 2015. Habrá oradores de Data IQ que introducirán las características y capacidades de Qlik Sense, incluyendo su motor de indexación asociativa QIX, experiencia de visualización self-service, colaboración, movilidad y gobierno. Qlik Sense ofrece valor para individuos, grupos y organizaciones a través de la visualización y descubrimiento autónomos, el compartir conocimiento y hallazgos,
El documento define Big Data como conjuntos de datos de gran volumen, velocidad y variedad procedentes de nuevas fuentes. Explica que Big Data requiere nuevas tecnologías para su procesamiento debido a su tamaño masivo. También describe las tres etapas clave para trabajar con Big Data: integración de datos de múltiples fuentes, gestión del almacenamiento en la nube u on-premises, y análisis de los datos para obtener nuevos conocimientos.
Este documento presenta una introducción general sobre Big Data y sus aplicaciones a los negocios. Explica las 3 V del Big Data (Volumen, Variedad y Velocidad), así como las 7 V. Detalla las fases de un proyecto de Big Data y marcos como Hadoop. Incluye ejemplos de cómo empresas como Amazon, Netflix y Starbucks han aplicado con éxito Big Data. Concluye que las soluciones de Big Data involucran tecnologías como la inteligencia de negocios y el machine learning para extraer valor de grandes volúmenes y variedades de datos que cre
El documento explica qué es Big Data, incluyendo su definición, características y ejemplos. Big Data se refiere a los grandes volúmenes de datos que las empresas recopilan y analizan para obtener información valiosa y tomar mejores decisiones de negocio. Las características clave de Big Data son el volumen, la velocidad y la variedad de los datos.
1. El documento introduce conceptos básicos de analítica de datos como Big Data, Smart Data y Web Scraping. 2. Explica las 3 V y 7 V del Big Data, así como fases de proyectos de analítica. 3. Incluye secciones sobre ecosistemas, aplicaciones, casos reales y conclusiones sobre la importancia de volumen, velocidad y variedad de datos.
Este documento presenta una introducción a Big Data, definiendo sus características principales y tecnologías clave. Explica que Big Data involucra grandes cantidades de datos estructurados y no estructurados que requieren nuevas formas de procesamiento. También describe herramientas como Hadoop, bases de datos NoSQL e in-memory que permiten el análisis de grandes datos. Concluye que Big Data cambia la forma en que las empresas toman decisiones y recomienda crear repositorios centralizados de metadatos para aprovechar al máximo los
El documento describe Big Data, que se refiere a enormes cantidades de datos estructurados, semiestructurados y no estructurados que son difíciles de procesar con métodos tradicionales. Big Data proviene de fuentes como dispositivos móviles, redes sociales y sensores, y se caracteriza por su volumen, variedad, velocidad, veracidad y valor. Big Data puede ayudar a las empresas a tomar mejores decisiones mediante el análisis de grandes conjuntos de datos.
El Big Data
Esta presentación nos ayudara a comprender porque es tan importante tomar decisiones con herramientas de analítica y el avance que esto tendrá en nuestras empresas.
El documento define Big Data y describe sus características clave como volumen, variedad, velocidad y veracidad. Explica que Big Data involucra cantidades masivas de datos estructurados y no estructurados de diversas fuentes como redes sociales, dispositivos móviles y sensores. Describe el proceso general de recopilación, almacenamiento, procesamiento y visualización de datos a gran escala y ofrece un ejemplo de cómo se ejecutan consultas en paralelo y de forma distribuida en un sistema de Big Data.
El documento describe la computación en red (grid computing) y cómo los recursos de múltiples computadoras pueden usarse cooperativamente para resolver problemas grandes en áreas como la salud, astronomía e investigación. También explica que la computación en la nube ofrece recursos de cómputo y almacenamiento bajo demanda a través de Internet y cubre conceptos como SaaS, PaaS e IaaS. Finalmente, discute tipos de nubes como públicas, privadas e híbridas.
La computación en la nube permite integrar sistemas de registro y compromiso a gran escala y velocidad, generando conocimiento empresarial valioso. Los sistemas de información aprovechan este conocimiento para desarrollar aplicaciones como los sistemas de información, que analizan grandes volúmenes de datos para brindar información relevante a las empresas. Proyectos como el Proyecto Genoma Humano y el Atlas del Cerebro Humano utilizan técnicas de grandes datos en biología computacional para comprender mejor la biología.
Ponencia B2C Antonio Alonso. Big Data. Nuevas oportunidades de empleoCICE
BIG DATA. Nuevos perfiles y oportunidades de empleo.
Conviértete en un experto en la gestión de grandes volúmenes de datos y en la inteligencia de negocio.
www.cice.es
Novedades tecnológicas de la información y las comunicaciones, avances, descubrimientos, opiniones, comentarios, ofertas de productos, servicios y mucho más.
Big Data se refiere a grandes volúmenes de datos estructurados y no estructurados que las empresas reciben diariamente. Estos datos pueden analizarse para obtener información que conduzca a mejores decisiones empresariales y movimientos estratégicos. Big Data incluye conjuntos de datos cuyo tamaño, complejidad y velocidad de crecimiento dificultan su análisis mediante tecnologías convencionales. Su importancia radica en que proporciona respuestas a preguntas que las empresas ni siquiera sab
Big Data es la profesión de moda y empresas de todos los sectores buscan especialistas. La consultora McKinsey prevé una brecha en torno al 50% entre la demanda y la oferta de puestos de trabajo relacionados con Big Data para 2017-2018
Pero ¿qué hay detrás de este nuevo paradigma? La transformación digital en las empresas implica una inflación de datos que las organizaciones no saben cómo usar y gestionar. Es un campo muy amplio y se necesitan perfiles muy variados desconocidos hasta ahora en nuestra sociedad.
Ante esta demanda de profesionales especializados en las tecnologías de big data y business intelligence, la gran baza para muchos ingenieros que quieran lograr un trabajo interesante y bien remunerado es formarse en estas especialidades
Dentro del rompecabezas de Big Data podemos diferenciar entre las habilidades técnicas en torno a Hadoop, MapReduce y frameworks comerciales y las competencias relacionadas con la Ciencia de los Datos (Data Science), que son las más demandadas y difíciles de encontrar. Por tanto, estamos ante un periodo para decidir sobre qué tipo de cursos deberían ser diseñados con el objetivo de producir talento cualificado para alimentar la industria de Big Data. En este sentido CICE ofrece una carrera profesional con varias especializaciones y masteres que abarca una alta variedad de conceptos y herramientas tecnologícas que se ajustan al mercado laboral.
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...CICE
Big Data es la profesión de moda y empresas de todos los sectores buscan especialistas. La consultora McKinsey prevé una brecha en torno al 50% entre la demanda y la oferta de puestos de trabajo relacionados con Big Data para 2017-2018
Pero ¿qué hay detrás de este nuevo paradigma? La transformación digital en las empresas implica una inflación de datos que las organizaciones no saben cómo usar y gestionar. Es un campo muy amplio y se necesitan perfiles muy variados desconocidos hasta ahora en nuestra sociedad.
Ante esta demanda de profesionales especializados en las tecnologías de big data y business intelligence, la gran baza para muchos ingenieros que quieran lograr un trabajo interesante y bien remunerado es formarse en estas especialidades
Dentro del rompecabezas de Big Data podemos diferenciar entre las habilidades técnicas en torno a Hadoop, MapReduce y frameworks comerciales y las competencias relacionadas con la Ciencia de los Datos (Data Science), que son las más demandadas y difíciles de encontrar. Por tanto, estamos ante un periodo para decidir sobre qué tipo de cursos deberían ser diseñados con el objetivo de producir talento cualificado para alimentar la industria de Big Data. En este sentido CICE ofrece una carrera profesional con varias especializaciones y masteres que abarca una alta variedad de conceptos y herramientas tecnológicas que se ajustan al mercado laboral.
J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...COIICV
Este documento describe el concepto de Big Data y su importancia como la nueva frontera de la revolución digital. Explica que la gran cantidad de datos generados por las personas, dispositivos y organizaciones crea nuevas oportunidades, pero también retos relacionados con la captura, almacenamiento, análisis y visualización de datos. Asimismo, presenta las nuevas tecnologías y arquitecturas necesarias para aprovechar el potencial del Big Data, y resalta la importancia de contar con el apoyo de empresas como IPM para iniciar con éxito
Similar a SQL Saturday Bogota - Big Data HDInsight Server (20)
Este documento describe la evolución de los grandes datos y la analítica, incluyendo el aumento de fuentes de datos, la comprensión de su valor, y la disminución de costos de hardware. También resume los componentes clave de Hadoop como HDFS, MapReduce, Hive y otros para el procesamiento y análisis de grandes cantidades de datos.
Creando tu primer ambiente de AI en Azure ML y SQL ServerEduardo Castro
Este documento proporciona una introducción a cómo crear el primer entorno de inteligencia artificial en Azure. Explica brevemente los beneficios de la inteligencia artificial y el aprendizaje automático para los negocios. Luego describe algunos de los servicios principales de Azure que pueden usarse para analizar datos, desarrollar modelos de aprendizaje automático y implementar soluciones de IA, como Azure Machine Learning, Databricks y HDInsight.
El documento describe las diferentes características y capacidades de seguridad disponibles en Azure SQL Database y Azure SQL Data Warehouse. Incluye gráficos que muestran el número de vulnerabilidades abordadas desde 2010 hasta 2018 y describe opciones como cifrado de datos en tránsito y en reposo, autenticación multifactor, firewalls, detección de amenazas, auditoría y más. El objetivo es ayudar a los clientes a proteger y auditar sus datos de manera segura en la nube.
Este documento describe cómo integrar Azure Synapse con MLflow para habilitar el seguimiento de experimentos de aprendizaje automático y el registro y despliegue de modelos en Azure Machine Learning. Explica cómo configurar los cuadernos de Azure Synapse para usar MLflow conectado a un área de trabajo de Azure Machine Learning, registrar modelos entrenados en Synapse en el registro de modelos de Azure ML y desplegarlos para su uso.
SQL Server can be installed on Windows Server 2022. Eduardo Castro provides a demonstration of how to install SQL Server on the latest Windows server operating system. His demonstration is available at a GitHub link that tracks an issue regarding documentation on installing SQL Server with Windows Server 2022.
El documento describe las nuevas características de SQL Server 2022, incluyendo la integración bidireccional con Azure SQL para replicación de datos, Azure Synapse Link para transferencia automática de cambios a Synapse Analytics, integración con Azure Purview para detección y clasificación de datos, mejoras en rendimiento a través de Query Store y optimización de planes, y mejoras en seguridad, disponibilidad y resolución de conflictos de réplicas.
SQL Server 2022 está habilitado para Azure para recuperación ante desastres, análisis y seguridad. Ofrece nuevas innovaciones como inteligencia de consultas integrada para mejorar el rendimiento, compatibilidad con almacenamiento de objetos y funciones extendidas de T-SQL para nuevos escenarios.
Machine Learning con Azure Managed InstanceEduardo Castro
En esta presentación mostramos las opciones para implementar Machine Learning dentro de Azure, así como las formas de configurar y utilizar Python dentro de Azure Managed Instance
El documento describe las nuevas características de SQL Server 2022, incluyendo la integración bidireccional con Azure SQL para replicación de datos, Azure Synapse Link para transferencia automática de cambios a Synapse Analytics, integración con Azure Purview para detección y clasificación de datos, mejoras en rendimiento a través de Query Store y optimización de planes, nuevas funciones de seguridad como ledger inmutable, y automatización de conflictos de réplicas en entornos de múltiples escrituras.
SQL Server can be installed on Windows Server 2022. Eduardo Castro provides a demonstration of how to install SQL Server on the latest Windows server operating system. His demonstration is available at a GitHub link that tracks an issue regarding documentation on installing SQL Server with Windows Server 2022.
Este documento presenta una introducción a Apache Spark y Azure Databricks. Explica que Spark es un motor de procesamiento de datos a gran escala de código abierto que incluye características como Spark SQL, aprendizaje automático, procesamiento de flujos y grafos. Luego describe cómo Azure Databricks es una plataforma unificada para análisis que utiliza Spark y ofrece mejor rendimiento, procesamiento de grandes volúmenes de datos y arquitectura de clústeres. Finalmente, incluye una demostración de las capacidades de
Este documento proporciona una introducción a los pronósticos con SQL Server 2019, discutiendo métodos como promedios móviles, suavizado exponencial, proyección de tendencias y regresión lineal. También describe cómo SQL Server 2019 permite a los científicos de datos y desarrolladores interactuar directamente con los datos y realizar análisis avanzados dentro de la base de datos, lo que puede aplicarse a soluciones como detección de fraude, pronósticos de ventas y mantenimiento predictivo.
Data warehouse con azure synapse analyticsEduardo Castro
Azure Synapse is the evolution of Azure SQL Data Warehouse, combining big data, data storage and data integration into a single service for end-to-end cloud scale analytics. It provides unlimited analytics with unparalleled speed to gain insights. Azure Synapse brings together enterprise data warehousing and big data analytics to give a unified experience with the advantages of both worlds.
Que hay de nuevo en el Azure Data Lake Storage Gen2Eduardo Castro
Este documento proporciona una actualización sobre las novedades de Azure Data Lake Storage. Incluye mejoras en el rendimiento, escalabilidad de costos, seguridad, soporte para almacenamiento de blobs y sistemas de archivos jerárquicos, y una vista previa de las integraciones con Azure Event Grid y Azure Synapse Analytics.
Azure Synapse Analytics es un servicio de análisis que combina big data, almacenamiento de datos e integración de datos en un solo servicio con escalabilidad en la nube. Ofrece análisis de datos end-to-end con tiempos de respuesta en segundos utilizando SQL, Python, R y otros lenguajes. Incluye características como ingesta de datos, almacenamiento de datos, análisis SQL, machine learning integrado y más.
Este documento presenta los Servicios Cognitivos de Microsoft, que proporcionan APIs de visión, habla, lenguaje y análisis de datos para permitir que las aplicaciones tengan capacidades como reconocimiento facial, detección de emociones, extracción de frases clave y comprensión del lenguaje natural. Los servicios cognitivos se pueden integrar fácilmente en aplicaciones y ayudan a los equipos de datos a resolver problemas en áreas como la atención médica, la seguridad y el comercio minorista.
Script de paso a paso de configuración de Secure EnclavesEduardo Castro
El documento proporciona instrucciones para configurar un equipo HGS como host protegido y otro equipo con SQL Server para usar enclaves seguros con Always Encrypted. Se explica cómo instalar el servicio de protección de host en HGS, configurar el dominio HGS, configurar la atestación de claves y obtener la dirección IP de HGS. Luego, se indica cómo configurar el equipo SQL Server como host protegido, generar y registrar su clave de host, e indicarle dónde debe realizar la atestación. Finalmente, se habilitan los en
Introducción a conceptos de SQL Server Secure EnclavesEduardo Castro
Este documento describe varias técnicas de cifrado de datos, incluido el cifrado de datos en reposo, en uso y en tránsito. Se centra en particular en Always Encrypted, una solución que permite cifrar datos sensibles en las columnas de una base de datos de forma que se mantengan las consultas enriquecidas. Explica cómo los datos cifrados se almacenan de forma segura utilizando claves maestras de columna almacenadas externamente, y cómo las aplicaciones pueden recuperar datos desencriptados de forma segura mediante el uso de encl
2. Ing. Eduardo Castro, PhD
Microsoft SQL Server MVP
ecastro@simsasys.com
http://www.youtube.com/eduardocastrom
Comunidad Windows Costa Rica
Big Data HDInsight
Explorando con Excel 2013
5. Objetivos de la sesión
Qué es Big data
Introducción a HDInsight
Autoservicio de Inteligencia de Negocios (BI):
Excel 2013 PowerPivot
Excel 2013 Power View
Características de BI de Excel 2013
Creación de un solución de BI con Big Data BI dentro de Excel
2013
6. Esquema
Introducción:
Big Data y Hadoop
HDInsight
PowerPivot en Excel 2013
Power View en Excel 2013
Modelaje de “Big Data” con PowerPivot:
Beneficios
Consideraciones
Demostraciones
7. Introducción a Big Data y Hadoop
Big data es una colección de conjuntos de datos tan grande y complejo que se vuelve difícil para trabajar con el uso
de herramientas de gestión de base de datos tradicionales. Las dificultades incluyen la captura, almacenamiento,
búsqueda, intercambio, análisis y visualización
8. Qué es Big Data?
Megabytes
Gigabytes
Terabytes
Petabytes
Purchase detail
Purchase record
Payment record
ERP
CRM
WEB
BIG DATA
Offer details
Support Contacts
Customer Touches
Segmentation
Web logs
Offer history
A/B testing
Dynamic Pricing
Affiliate Networks
Search Marketing
Behavioral Targeting
Dynamic Funnels
User Generated Content
Mobile Web
SMS/MMSSentiment
External Demographics
HD Video, Audio, Images
Speech to Text
Product/Service Logs
Social Interactions & Feeds
Business Data Feeds
User Click Stream
Sensors / RFID / Devices
Spatial & GPS Coordinates
Incremento de variedad y cantidad de datos
Transacciones +
Interacciones +
Observaciones
= BIG DATA
10. La naturaleza cambiante del Big Data
Big Data tiene importantes cualidades distintivas que lo
diferencian de los datos corporativos "tradicionales".
Los datos no son centralizadas, muy estructurados y de fácil
manejo, ahora más que nunca los datos están muy
dispersos, poco estructurados (o no tiene estructura en
absoluto), y cada vez más con volúmenes más grandes
11. La naturaleza cambiante del Big Data
Volumen - La cantidad de datos que han creado las
empresas a través de
La web
Dispositivos móviles
Infraestructura de TI
y otras fuentes está creciendo exponencialmente cada año.
12. La naturaleza cambiante del Big Data
Tipo - La variedad de tipos de datos es cada vez mayor,
No estructurados de datos basados en texto
Datos semi-estructurados como los datos de los medios sociales
Los datos basados en la localización
Datos de logs, ejemplo servidores Web
13. La naturaleza cambiante del Big Data
Velocidad
La velocidad a la que se está creando nuevos datos
La necesidad de análisis en tiempo real para obtener valor de
negocio de ella - es cada vez mayor gracias a la digitalización de las
transacciones, la informática móvil y el gran número de usuarios de
dispositivos de Internet y el móvil.
14. Principales fuentes de datos
Redes sociales y medios de comunicación
700 millones de usuarios de Facebook, 250 millones de usuarios
de Twitter y 156 millones de blogs públicos
Dispositivos móviles
Más de 5 mil millones de teléfonos móviles en uso en todo el mundo
Transacciones en Internet
miles de millones de compras en línea, operaciones de bolsa y otras
transacciones ocurren todos los días
Dispositivos de red y sensores
16. Casos en los cuales se utiliza Big Data
Parte de lo que hace Hadoop y otras tecnologías y enfoques
Big Data es encontrar respuestas a preguntas que ni siquiera
saben que preguntar.
Dar lugar a ideas que conducen a nuevas ideas de productos
o ayudar a identificar formas de mejorar la eficiencia
operativa.
Casos de uso ya identificadas para Big Data, tanto para los
gigantes de internet como Google, Facebook y LinkedIn, y
para la empresa más tradicional
17. Casos en los cuales se utiliza Big Data
Sentiment Analysis
Utilizado junto con Hadoop, herramientas avanzadas de análisis de
texto analizan el texto no estructurado de las redes sociales y
mensajes de redes sociales
Incluyendo los Tweets y mensajes de Facebook, para determinar la
confianza del usuario en relación con determinadas empresas,
marcas o productos.
El análisis puede centrarse en el sentimiento a nivel macro hasta el
sentimiento usuario individual.
18. Casos en los cuales se utiliza Big Data
Modelado de riesgo
Las empresas financieras, bancos y otros utilizan Hadoop y Next
Generation Data Warehouse para analizar grandes volúmenes de
datos transaccionales para determinar el riesgo y la exposición de
los activos financieros
Para preparar la posible "qué pasaría si" los escenarios basados en
el comportamiento del mercado simulado, y para puntuación de
clientes potenciales por el riesgo.
19. Casos en los cuales se utiliza Big Data
Motor de recomendación
Los minoristas en línea utilizan Hadoop para igualar y recomendar a
los usuarios entre sí o con los productos y servicios basados en el
análisis del perfil de usuario y los datos de comportamiento.
LinkedIn utiliza este enfoque para potenciar su función de "la gente
puede saber", mientras que Amazon utiliza para sugerir productos a
la venta a los consumidores en línea.
20. Casos en los cuales se utiliza Big Data
Detección de Fraude
Utilizar técnicas de Big Data para combinar el
comportamiento del cliente, históricos y datos de
transacciones para detectar la actividad fraudulenta.
Las compañías de tarjetas de crédito, por ejemplo, utilizan
tecnologías de Big Data para identificar el comportamiento
transaccional que indica una alta probabilidad de una tarjeta
robada.
21. Casos en los cuales se utiliza Big Data
Análisis de la campaña de marketing
Los departamentos de marketing a través de industrias han
utilizado durante mucho tiempo la tecnología para monitorear
y determinar la efectividad de las campañas de marketing.
Big Data permite a los equipos de marketing para incorporar
mayores volúmenes de datos cada vez más granulares,
como los datos de click-stream y registros detallados de
llamadas, para aumentar la precisión de los análisis.
22. Casos en los cuales se utiliza Big Data
Análisis Social Graph
Junto con Hadoop los datos de redes sociales se extraen
para determinar qué clientes representan la mayor influencia
sobre los demás dentro de las redes sociales.
Esto ayuda a determinar las empresas que son sus clientes
"más importantes", que no siempre son los que compran la
mayoría de los productos o de los que más gastan, pero los
que tienden a influir en el comportamiento de compra de la
mayoría de los demás.
23. Casos en los cuales se utiliza Big Data
Customer Experience Analytics
Empresas orientadas al consumidor utilizan Hadoop y
tecnologías relacionadas con Big Data para integrar los datos
de antes silos canales de interacción con clientes
Tales como centros de llamadas, chat en línea, Twitter, etc,
para obtener una visión completa de la experiencia del
cliente.
24. Next Generation Data Warehouse
Características de los almacenes de datos de próxima
generación
25. Next Generation Data Warehouse
Procesamiento paralelo masivo, o MPP
Emplean el procesamiento paralelo masivo, o MPP, que permite
la carga, el procesamiento y la consulta de datos en varias
máquinas simultáneamente.
Resultado es un rendimiento significativamente más rápido que
los almacenes de datos tradicionales que se ejecutan en una sola
caja, grande y están limitados por un solo punto de
procesamiento
http://blog.treasure-data.com/post/30398632865/five-criteria-of-next-generation-data-warehouse
26. Next Generation Data Warehouse
Arquitecturas compartido-nada
Una arquitectura de no compartición asegura que no hay un único
punto de fallo en la generación de entornos de almacenamiento
de datos siguientes.
Cada nodo funciona de manera independiente de los otros por lo
que si una máquina falla, los otros siguen funcionando
Aprovechamos Hadoop MapReduce se ejecuta en HDInsight para
procesar los trabajos de nuestros clientes
27. Next Generation Data Warehouse
Arquitecturas columnares
En lugar de almacenamiento y procesamiento de datos en filas,
como es típico con bases de datos relacionales más, la mayoría
de los almacenes de datos Next Generation emplean
arquitecturas columnares
Esto también significa que los datos no tienen que ser
estructurados en tablas ordenadas como las bases de datos
relacionales tradicionales
28. Next Generation Data Warehouse
Avanzadas funciones de compresión de datos
Las capacidades de compresión de datos avanzadas permiten
ingerir y almacenar grandes volúmenes de datos que de otra
manera posible y lo hacen con muchos menos recursos de
hardware que las bases de datos tradicionales
Un almacén con 10-a-1 capacidades de compresión, por ejemplo,
puede comprimir 10 terabytes de datos hacia abajo a 1 terabyte
29. Next Generation Data Warehouse
Hardware de productos básicos
Basados en Clústers de Hadoop, la mayoría de los
almacenes de datos Next Generation se ejecutan en
hardware comercial off-the-shelf para que puedan escalar de
salida en un costo manera eficaz
30. Nuevos Enfoques para el procesamiento y análisis de datos
grandes
Hay varios métodos para procesar y analizar grandes
volúmenes de datos, pero la mayoría tienen algunas
características comunes
Hadoop
NoSQL
Bases de datos analíticos masivamente paralelo
32. Introducción a Big Data y Hadoop
Big data se enfrenta a complejidades de alto volumen, la velocidad y la variedad de
los datos
Apache Hadoop, es un conjunto de proyectos de código abierto que transforman el
hardware tradicional en un servicio que puede:
Almacenar petabytes de información
Permite procedamiento distribuido
Principales atributos:
Redundante y confiable (no se pierden datos)
Centrado en el análisis por lotes
Facilidad de crear aplicaciones y procesamiento distribuido
Ejecuta en cualquier hardware
33. Componentes de Hadoop
Hadoop Distributed File System (HDFS): La capa de almacenamiento por defecto en
cualquier clúster Hadoop dado;
Nombre de nodo: El nodo de un clúster Hadoop que proporciona la información del cliente
en lugar del grupo de datos en particular se almacenan y si los nodos fallan;
Nodo secundario: Una copia de seguridad con el nombre de nodo, se replica periódicamente
y almacena los datos del nombre de nodo debe fallar;
Job Tracker: El nodo de un clúster Hadoop que inicia y coordina trabajos MapReduce, o el
tratamiento de los datos.
Los nodos esclavos: Los gruñidos de cualquier Hadoop clúster, los nodos esclavos
almacenan datos y tomar la dirección de procesarlo desde el gestor de trabajo.
39. Windows HADOOP
2 Versiones
Cloud
Azure Service
On Permise
Integración con el Hadoop File System with Active Directory
Integración con BI
Herramientas de integración
Sqoop
Integración con SQL Server
40. Introducción a HDInsight
HDInsight es una implementación de Microsoft 100% compatible
con la distribución de Apache Hadoop
Disponible tanto para Windows Server y como un servicio
Windows Azure
Permite que las empresas analicen datos no estructurados con
herramientas bien conocidas tales como Excel
44. HDP para Windows
Hortonworks
Data Platform (HDP) For
Windows
100% Open Source Enterprise Hadoop
HORTONWORKS
DATA PLATFORM (HDP)
For Windows
PLATFORM SERVICES
HADOOP CORE Distributed
Storage & Processing
DATA
SERVICES
Store,
Process and
Access Data
OPERATIONAL
SERVICES
Manage &
Operate at
Scale
Manage &
Operate at
Scale
Store,
Process and
Access Data
Distributed
Storage & Processing
Enterprise Readiness
48. Interoperatibilidad
Integración con las
herramientas de
Análisis de Microsoft
APPLICATIONSDATASYSTEMS
Aplicaciones Microsoft
HORTONWORKS
DATA PLATFORM
For Windows
DATASOURCES
MOBILE
DATA
OLTP,
POS
SYSTEMS
Fuentes tradicionales
(RDBMS, OLTP, OLAP)
Nuevas Fuentes
(web logs, email, sensor data, social media)
49.
50. Introducción a PowerPivot
PowerPivot permite que los usuarios creen modelos de
datos de autoservicio con Excel
Se logra mediante una versión del lado del cliente de of SQL Server
Analysis Services conocido como xVelocity In-Memory Analytics
Engine
Puede almacenar de forma eficiente volúmenes de datos más
grandes que las hojas típicas de Excel
51. Introducción a PowerPivot
Una ventana se puede utilizar para cargar, explorar,
relacionar y enriquecer datos con cálculos personalizados
Puede importar y relacionar datos de la empresa, datos
locales, o distintos almacenes de datos
En el Excel 2013 Professional Plus edition, PowerPivot está
instalado pero no habilitado
52. Introducción a Power View
Power View una experiencia de exploración de datos,
visualización y presentación
Experiencia centrada en la interacción
Interacción con metadatos
Permite que los usuarios creen reportes ad-hoc
Los reportes pueden estár basado en modelos de datos
tabulares, incluyen modelos de PowerPivot
54. Modelando “Big Data” con PowerPivot
Big data puede ser integrado con otras fuentes de datos
Potencial de Autoservicio de BI:
PowerPivot puede cargar Big Data mediante el Table Import Wizard
ODBC para HDInsight
OLE DB para SQL Server con enlace a HDInsight
PowerPivot puede ser fuente para:
Reporte locales en Excel con PivotTables, PivotCharts, CUBE y Power View
Otras herramientas de análisis (una vez publicado en SharePoint)
55. Consideraciones de modelar “Big Data” con PowerPivot
Los resultados de Big Data pueden ser muy grandes para
almacenamiento en memoria
Workaround: minizar la cantidad de datos consultados
Recuperar un periodo de tiempo más pequeño
Reducir las dimensiones o ser más granular
Una vez que está cargado el modelo puede ser manipulado con
rapidez
58. Cargar datos al blog storage de Windows Azure
Para prototipos y ejemplos: #put
Para producción utilizer el blob storage APIs.
AzCopy Command Line
CopyBlob REST API
59. Cómo consumir Resultados de HDInsight
Destino Herramienta / Biblioteca Requiere Active HDInsight
Cluster
SQL Server,
Azure SQL DB
Sqoop (Hadoop ecosystem project) Yes
Excel Codename “Data Explorer” No
Otra Blob Storage
Account
Azure Blob Storage REST APIs (Copy Blob,
etc)
No
SQL Server Analysis
Services
Hive ODBC Driver Yes
BI Apps Existentes Hive ODBC Driver (assumes app supports
ODBC connections to data sources)
Yes
62. With SQL Server-Hadoop Connector, you can:
Sqoop-based connector
Import
tables in SQL Server to delimited text files on HDFS
tables in SQL Server to SequenceFiles files on HDFS
tables in SQL Server to tables in Hive
Result of queries executed on SQL Server to delimited text files on HDFS
Result of queries executed on SQL Server to SequenceFiles files on HDFS
Result of queries executed on SQL Server to tables in Hive
Export
Delimited text files on HDFS to SQL Server
DequenceFiles on HDFS to SQL Server
Hive Tables to tables in SQL Server
63. Recursos Adicionales
http://www.microsoft.com/bigdata
https://www.hadooponazure.com
Includes an excellent set of BI specific resources in the section named “Using HDInsight with
Other BI Technologies”
http://social.technet.microsoft.com/wiki/contents/articles/6204.hadoop-based-services-for-
windows-en-us.aspx
http://blogs.msdn.com/b/microsoft_business_intelligence1/archive/2012/02/24/big-data-for-
everyone-using-microsoft-s-familiar-bi-tools-with-hadoop.aspx