Este documento presenta Polybase en SQL Server 2016. Polybase permite consultar y combinar datos estructurados y no estructurados almacenados en SQL Server y Hadoop. Se describen los escenarios de uso como combinar datos de diferentes orígenes, permitir que científicos de datos lean grandes volúmenes de datos, y almacenar datos de forma barata. Finalmente, se explican los pasos para instalar y configurar Polybase, como habilitarlo, enlazarlo con un clúster Hadoop y crear tablas externas.
Otras Novedades (Always Encrypted, Row-Level Security, Mejoras AG)SolidQ
http://summit.solidq.com
En esta sesión verá otras novedades de SQL Server 2016, no tan publicitadas en su lanzamiento. Trataremos las novedades en cuestiones de seguridad y Grupos de Disponibilidad.
http://summit.solidq.com
Aprovecha las novedades en el motor SQL Server 2016 para analizar información operacional. ¿Y si no tengo 2016? ¿Qué estrategias puedo llevar a cabo?
Copias de seguridad y recuperación de desastresSolidQ
http://summit.solidq.com
Explicacion de modelos de copias y recuperación; hincapié en copias de FG, y archivos y cómo recuperarlos (combinar con volumenes de sólo lectura); finalizar con intro a log shipping para DR en servidor remoto
MS SQL Server 2014 - In-Memory ColumnStore Index - Haciendo un almacén de datosJoseph Lopez
Las características "In Memory" es la tendencia más de perspectiva en el área de alto rendimiento. Los Índices de ColumnStore es uno de las tales características, y aún con sus limitaciones, pueden aceleran a veces sus consultas! ¿Cómo obtener más de esta característica? ¿En qué situaciones debemos usarlos? ¿Qué mecanismos internos ayudan a lograr eso? Usted puede obtener respuestas a estas y otras preguntas que se haya generado en algún momento en esta sesión.
Este documento resume las mejoras en SQL Server 2016 para tablas InMemory OLTP. Algunas de las principales mejoras incluyen permitir tamaños de tabla más grandes hasta 2 TB, soporte para planes de consulta paralelos, y compatibilidad con más características de T-SQL como JOINs externos y subconsultas. SQL Server 2016 también agrega soporte para cifrado transparente de datos y modificaciones de esquema como ALTER TABLE, mejorando la seguridad y capacidades de desarrollo.
Introduccion a SQL Server 2016 Stretch DatabasesEduardo Castro
En esta presentacion vemos los aspectos de arquitectura, configuración y uso de Stretch Databases en SQL Server 2016.
Ing. Eduardo Castro, PhD
Microsoft Data Platform MVP
SQL Server
Este documento describe las características de varias bases de datos populares, incluyendo SQL, Oracle, MongoDB, Oracle NoSQL, y Cassandra. Explica que las bases de datos SQL y NoSQL difieren en su estructura y propósito, con bases de datos SQL diseñadas para datos relacionales y bases de datos NoSQL diseñadas para escalabilidad en grandes volúmenes de datos. Resalta las ventajas de cada base de datos como rendimiento, flexibilidad, tolerancia a fallos y escalabilidad horizontal.
Este documento presenta Polybase en SQL Server 2016. Polybase permite consultar y combinar datos estructurados y no estructurados almacenados en SQL Server y Hadoop. Se describen los escenarios de uso como combinar datos de diferentes orígenes, permitir que científicos de datos lean grandes volúmenes de datos, y almacenar datos de forma barata. Finalmente, se explican los pasos para instalar y configurar Polybase, como habilitarlo, enlazarlo con un clúster Hadoop y crear tablas externas.
Otras Novedades (Always Encrypted, Row-Level Security, Mejoras AG)SolidQ
http://summit.solidq.com
En esta sesión verá otras novedades de SQL Server 2016, no tan publicitadas en su lanzamiento. Trataremos las novedades en cuestiones de seguridad y Grupos de Disponibilidad.
http://summit.solidq.com
Aprovecha las novedades en el motor SQL Server 2016 para analizar información operacional. ¿Y si no tengo 2016? ¿Qué estrategias puedo llevar a cabo?
Copias de seguridad y recuperación de desastresSolidQ
http://summit.solidq.com
Explicacion de modelos de copias y recuperación; hincapié en copias de FG, y archivos y cómo recuperarlos (combinar con volumenes de sólo lectura); finalizar con intro a log shipping para DR en servidor remoto
MS SQL Server 2014 - In-Memory ColumnStore Index - Haciendo un almacén de datosJoseph Lopez
Las características "In Memory" es la tendencia más de perspectiva en el área de alto rendimiento. Los Índices de ColumnStore es uno de las tales características, y aún con sus limitaciones, pueden aceleran a veces sus consultas! ¿Cómo obtener más de esta característica? ¿En qué situaciones debemos usarlos? ¿Qué mecanismos internos ayudan a lograr eso? Usted puede obtener respuestas a estas y otras preguntas que se haya generado en algún momento en esta sesión.
Este documento resume las mejoras en SQL Server 2016 para tablas InMemory OLTP. Algunas de las principales mejoras incluyen permitir tamaños de tabla más grandes hasta 2 TB, soporte para planes de consulta paralelos, y compatibilidad con más características de T-SQL como JOINs externos y subconsultas. SQL Server 2016 también agrega soporte para cifrado transparente de datos y modificaciones de esquema como ALTER TABLE, mejorando la seguridad y capacidades de desarrollo.
Introduccion a SQL Server 2016 Stretch DatabasesEduardo Castro
En esta presentacion vemos los aspectos de arquitectura, configuración y uso de Stretch Databases en SQL Server 2016.
Ing. Eduardo Castro, PhD
Microsoft Data Platform MVP
SQL Server
Este documento describe las características de varias bases de datos populares, incluyendo SQL, Oracle, MongoDB, Oracle NoSQL, y Cassandra. Explica que las bases de datos SQL y NoSQL difieren en su estructura y propósito, con bases de datos SQL diseñadas para datos relacionales y bases de datos NoSQL diseñadas para escalabilidad en grandes volúmenes de datos. Resalta las ventajas de cada base de datos como rendimiento, flexibilidad, tolerancia a fallos y escalabilidad horizontal.
El documento describe Oracle GoldenGate, una solución de replicación de datos en tiempo real que permite la integración y consolidación de datos entre sistemas heterogéneos. Se explican los beneficios de GoldenGate como su rendimiento, latencia inferior a un segundo, soporte multiplataforma y fiabilidad. También se detallan algunos escenarios como query offloading, reporting en entornos operativos y business intelligence en tiempo real.
Aplicando SQL Server 2016 en Microsoft Azure Virtual MachineJoseph Lopez
En la presente exposición mostrare las diversas caracteristicas que Microsoft Azure Virtual Machine nos ofrece a la hora de implementar una solución virtualizada bajo esta tecnología.
Mejores prácticas para SQL Server en ambientes virtualizadosSpanishPASSVC
Este documento presenta las mejores prácticas para SQL Server en ambientes virtualizados. Comienza con una biografía del orador Carlos Rojas Vargas, quien es un experto en SQL Server. Luego discute opciones de consolidación para SQL Server, incluidas instancias únicas, múltiples instancias y máquinas virtuales. También cubre consideraciones de virtualización, alta disponibilidad y rendimiento. Finalmente, proporciona recomendaciones generales para la virtualización de SQL Server.
Cómo nos va a ayudar la tecnología de in memory en sql server 2014 para desem...SpanishPASSVC
Esta es una sesión en donde se detalla como esta tecnología nos puede ayudar a que el desempeño de bases de datos y de aplicaciones puede mejorar con la adopción y utilización de la misma. La sesión es “intensiva en demos” para reflejar lo dramático de los incrementos en desempeño al usar In-Memory.
El documento describe las nuevas características de SQL Server 2014. SQL Server 2014 introduce In-Memory OLTP incorporado para mejorar el rendimiento de las aplicaciones OLTP hasta 10 veces. También mejora la alta disponibilidad con AlwaysOn SLA y soporte para aplicaciones críticas. Otras características nuevas incluyen reconstrucción en línea de índices para particiones individuales y extensión del buffer pool a unidades SSD.
La plataforma de datos tradicional ha muerto, ha nacido una nueva plataforma de datos ubicua. Virtualizacion de datos, plataformas hibridas donde el dato no existe en una única fuente y escala sin limites. Estamos en la epoca donde realmente existe una plataforma de datos moderna. En esta sesión hablaremos del estado actual de la plataforma de datos en Microsoft
Consideraciones de memoria sql server hardwareEduardo Castro
Este documento proporciona recomendaciones sobre el hardware para SQL Server, incluyendo el uso de servidores físicos o virtuales y la cantidad de memoria necesaria. Recomienda utilizar un servidor con al menos 2 sockets de CPU y habilitar hyper-threading. También indica que para In-Memory OLTP se necesita suficiente memoria física tanto para las tablas como para soportar la carga de trabajo, siendo un punto de partida tener el doble de memoria que el tamaño de los datos.
Recuperación ante desastres y continuidad del negocio con Azure SQL DatabaseJoseph Lopez
La continuidad de un negocio implica el diseño, la implementación y la ejecución de todas las aplicaciones que hoy en día sirven de operabilidad en las compañías bajo cualquier escenario de negocio, de manera que las mismas sean resistentes a los eventos de interrupción, planeados o no planeados, que provocan la pérdida permanente o temporal de la capacidad de cualquiera aplicación para realizar efectivamente su función empresarial. Entre los eventos no planeados se incluyen desde los errores humanos hasta las interrupciones permanentes o temporales, pasando por los desastres regionales que pueden provocar la pérdida a gran escala de la instalación en una determinada región de Azure. Los eventos planificados incluyen la reimplementación de la aplicación en una región diferente, la aplicación de actualizaciones de aplicaciones, etc. El objetivo de la continuidad del negocio es que su aplicación siga funcionando durante estos eventos con un impacto mínimo en la función empresarial que desempeña. En la presente sesión, estaré impartiendole de forma sencilla cuáles deberían ser las herramientas y sus respectivos tips para mantener en perfecto estado de ejecución, las bases de datos SQL Database en Azure de cualquier escalabilidad ante cualquier escenario de desastre.
Mejores prácticas de Data Warehouse con SQL ServerSpanishPASSVC
Este documento presenta varias mejores prácticas para el diseño y administración de data warehouses con SQL Server. Incluye estudios de caso de empresas como Microsoft AdCenter y Xbox Live que utilizan particionamiento, SSD y balanceo de carga para lograr escalabilidad. También recomienda usar un modelo de datos optimizado para consultas, limpiar datos durante ETL y adoptar un enfoque de "una sola verdad" de datos.
SQL Server 2014 y La Plataforma de DatosJoseph Lopez
Un análisis objetivo y amplio (Vista rápida) sobre las nuevas características en la versión 2014, aplicadas al desempeño y ejecución de escenarios empresariales de alto desempeño como lo es In-Memory for OLTP, Update Capable Column Store Index, Alta Disponibilidad y Misión Critica sobre altos volúmenes de transaccionalidad de datos.
VMs de alto rendimiento para SQL Server en AWS y AzureSpanishPASSVC
Este documento presenta una introducción a las opciones de máquinas virtuales y almacenamiento para construir servidores SQL de alto rendimiento en AWS y Azure. Cubre los principales modelos de VM como T2, M4, C4 y R3 en AWS, y A, D, G, DS y GS en Azure. También explica las opciones de almacenamiento como EBS general, Provisioned IOPS y almacenamiento local en AWS, y Page Blob, SSD local y Premium Storage en Azure. El documento concluye recomendando modelos y configuraciones óptimas para lograr alto
encapsula la lógica de consulta y actualización de
datos.
et, put, delete, getAll, etc.
G
erializadores para claves y valores.
S
Propuesta capa intermedia de
acceso a datos
La propuesta consiste en crear una capa intermedia que encapsule el API cliente de Voldemort y exponga una interfaz más amigable para el desarrollo de aplicaciones.
Esta capa tendría las siguientes características:
- Abstracción de la configuración del cliente (ip, puerto, etc).
Este documento resume una presentación sobre Azure Data Factory. La presentación explorará las principales características de Azure Data Factory para la migración de datos entre la nube y localmente, así como la creación de tareas ELT. El orador, Raúl Martín Saráchaga Díaz, es un consultor de inteligencia de negocios y plataforma de datos con experiencia en integración, modelado, análisis y visualización de datos.
En esta sesión trataremos las novedades de SQL Server 2014 en el área de motor relacional. Trataremos en profunidad las siguientes tecnologías: Buffer Pool Extension, mejoras en Resource Governor 2.0, novedades en índices columnares indexes, mejoras en particionado, estadísticas e indexación
Este documento proporciona información sobre los índices de Column Store en SQL Server 2016. SQL Server 2016 presenta mejoras en el rendimiento de los índices de Column Store, incluida la capacidad de actualizar índices no agrupados de Column Store y usar índices de Column Store en réplicas secundarias legibles de AlwaysOn. Los índices de Column Store proporcionan altas tasas de compresión y mejor rendimiento para consultas analíticas que escanean grandes cantidades de datos.
Desarrollar para la nube no es tan transparente como creemos. Conocer correctamente este nuevo entorno, así como sus limitaciones nos ayudarán a evitar problemas de escalabilidad. En esta sesión veremos cómo desarrollar correctamente soluciones para la nube de Microsoft que sean escalables. Veremos ejemplos de lo que no es escalable y también veremos cómo podemos solucionarlo y evitarlo. Hablaremos de patrones de arquitectura, Unity, Entity Framework, capas de acceso a datos, worker roles, web roles,… escalabilidad!
En esta sesión se presentarán ejemplos de cómo realizar análisis de big data con Power View integrado con HDInsight y HortonWorks. Se mostrarán las mejores prácticas para visualizar grandes cantidades de datos con herramientas de Excel como PowerPivot y Power View accediendo a datos almacenados en HDInsight.
El documento describe Oracle GoldenGate, una solución de replicación de datos en tiempo real que permite la integración y consolidación de datos entre sistemas heterogéneos. Se explican los beneficios de GoldenGate como su rendimiento, latencia inferior a un segundo, soporte multiplataforma y fiabilidad. También se detallan algunos escenarios como query offloading, reporting en entornos operativos y business intelligence en tiempo real.
Aplicando SQL Server 2016 en Microsoft Azure Virtual MachineJoseph Lopez
En la presente exposición mostrare las diversas caracteristicas que Microsoft Azure Virtual Machine nos ofrece a la hora de implementar una solución virtualizada bajo esta tecnología.
Mejores prácticas para SQL Server en ambientes virtualizadosSpanishPASSVC
Este documento presenta las mejores prácticas para SQL Server en ambientes virtualizados. Comienza con una biografía del orador Carlos Rojas Vargas, quien es un experto en SQL Server. Luego discute opciones de consolidación para SQL Server, incluidas instancias únicas, múltiples instancias y máquinas virtuales. También cubre consideraciones de virtualización, alta disponibilidad y rendimiento. Finalmente, proporciona recomendaciones generales para la virtualización de SQL Server.
Cómo nos va a ayudar la tecnología de in memory en sql server 2014 para desem...SpanishPASSVC
Esta es una sesión en donde se detalla como esta tecnología nos puede ayudar a que el desempeño de bases de datos y de aplicaciones puede mejorar con la adopción y utilización de la misma. La sesión es “intensiva en demos” para reflejar lo dramático de los incrementos en desempeño al usar In-Memory.
El documento describe las nuevas características de SQL Server 2014. SQL Server 2014 introduce In-Memory OLTP incorporado para mejorar el rendimiento de las aplicaciones OLTP hasta 10 veces. También mejora la alta disponibilidad con AlwaysOn SLA y soporte para aplicaciones críticas. Otras características nuevas incluyen reconstrucción en línea de índices para particiones individuales y extensión del buffer pool a unidades SSD.
La plataforma de datos tradicional ha muerto, ha nacido una nueva plataforma de datos ubicua. Virtualizacion de datos, plataformas hibridas donde el dato no existe en una única fuente y escala sin limites. Estamos en la epoca donde realmente existe una plataforma de datos moderna. En esta sesión hablaremos del estado actual de la plataforma de datos en Microsoft
Consideraciones de memoria sql server hardwareEduardo Castro
Este documento proporciona recomendaciones sobre el hardware para SQL Server, incluyendo el uso de servidores físicos o virtuales y la cantidad de memoria necesaria. Recomienda utilizar un servidor con al menos 2 sockets de CPU y habilitar hyper-threading. También indica que para In-Memory OLTP se necesita suficiente memoria física tanto para las tablas como para soportar la carga de trabajo, siendo un punto de partida tener el doble de memoria que el tamaño de los datos.
Recuperación ante desastres y continuidad del negocio con Azure SQL DatabaseJoseph Lopez
La continuidad de un negocio implica el diseño, la implementación y la ejecución de todas las aplicaciones que hoy en día sirven de operabilidad en las compañías bajo cualquier escenario de negocio, de manera que las mismas sean resistentes a los eventos de interrupción, planeados o no planeados, que provocan la pérdida permanente o temporal de la capacidad de cualquiera aplicación para realizar efectivamente su función empresarial. Entre los eventos no planeados se incluyen desde los errores humanos hasta las interrupciones permanentes o temporales, pasando por los desastres regionales que pueden provocar la pérdida a gran escala de la instalación en una determinada región de Azure. Los eventos planificados incluyen la reimplementación de la aplicación en una región diferente, la aplicación de actualizaciones de aplicaciones, etc. El objetivo de la continuidad del negocio es que su aplicación siga funcionando durante estos eventos con un impacto mínimo en la función empresarial que desempeña. En la presente sesión, estaré impartiendole de forma sencilla cuáles deberían ser las herramientas y sus respectivos tips para mantener en perfecto estado de ejecución, las bases de datos SQL Database en Azure de cualquier escalabilidad ante cualquier escenario de desastre.
Mejores prácticas de Data Warehouse con SQL ServerSpanishPASSVC
Este documento presenta varias mejores prácticas para el diseño y administración de data warehouses con SQL Server. Incluye estudios de caso de empresas como Microsoft AdCenter y Xbox Live que utilizan particionamiento, SSD y balanceo de carga para lograr escalabilidad. También recomienda usar un modelo de datos optimizado para consultas, limpiar datos durante ETL y adoptar un enfoque de "una sola verdad" de datos.
SQL Server 2014 y La Plataforma de DatosJoseph Lopez
Un análisis objetivo y amplio (Vista rápida) sobre las nuevas características en la versión 2014, aplicadas al desempeño y ejecución de escenarios empresariales de alto desempeño como lo es In-Memory for OLTP, Update Capable Column Store Index, Alta Disponibilidad y Misión Critica sobre altos volúmenes de transaccionalidad de datos.
VMs de alto rendimiento para SQL Server en AWS y AzureSpanishPASSVC
Este documento presenta una introducción a las opciones de máquinas virtuales y almacenamiento para construir servidores SQL de alto rendimiento en AWS y Azure. Cubre los principales modelos de VM como T2, M4, C4 y R3 en AWS, y A, D, G, DS y GS en Azure. También explica las opciones de almacenamiento como EBS general, Provisioned IOPS y almacenamiento local en AWS, y Page Blob, SSD local y Premium Storage en Azure. El documento concluye recomendando modelos y configuraciones óptimas para lograr alto
encapsula la lógica de consulta y actualización de
datos.
et, put, delete, getAll, etc.
G
erializadores para claves y valores.
S
Propuesta capa intermedia de
acceso a datos
La propuesta consiste en crear una capa intermedia que encapsule el API cliente de Voldemort y exponga una interfaz más amigable para el desarrollo de aplicaciones.
Esta capa tendría las siguientes características:
- Abstracción de la configuración del cliente (ip, puerto, etc).
Este documento resume una presentación sobre Azure Data Factory. La presentación explorará las principales características de Azure Data Factory para la migración de datos entre la nube y localmente, así como la creación de tareas ELT. El orador, Raúl Martín Saráchaga Díaz, es un consultor de inteligencia de negocios y plataforma de datos con experiencia en integración, modelado, análisis y visualización de datos.
En esta sesión trataremos las novedades de SQL Server 2014 en el área de motor relacional. Trataremos en profunidad las siguientes tecnologías: Buffer Pool Extension, mejoras en Resource Governor 2.0, novedades en índices columnares indexes, mejoras en particionado, estadísticas e indexación
Este documento proporciona información sobre los índices de Column Store en SQL Server 2016. SQL Server 2016 presenta mejoras en el rendimiento de los índices de Column Store, incluida la capacidad de actualizar índices no agrupados de Column Store y usar índices de Column Store en réplicas secundarias legibles de AlwaysOn. Los índices de Column Store proporcionan altas tasas de compresión y mejor rendimiento para consultas analíticas que escanean grandes cantidades de datos.
Desarrollar para la nube no es tan transparente como creemos. Conocer correctamente este nuevo entorno, así como sus limitaciones nos ayudarán a evitar problemas de escalabilidad. En esta sesión veremos cómo desarrollar correctamente soluciones para la nube de Microsoft que sean escalables. Veremos ejemplos de lo que no es escalable y también veremos cómo podemos solucionarlo y evitarlo. Hablaremos de patrones de arquitectura, Unity, Entity Framework, capas de acceso a datos, worker roles, web roles,… escalabilidad!
En esta sesión se presentarán ejemplos de cómo realizar análisis de big data con Power View integrado con HDInsight y HortonWorks. Se mostrarán las mejores prácticas para visualizar grandes cantidades de datos con herramientas de Excel como PowerPivot y Power View accediendo a datos almacenados en HDInsight.
Este documento describe las capacidades y ventajas de SQL Server, incluyendo su rendimiento líder en la industria, seguridad mejorada, capacidades de inteligencia artificial y aprendizaje automático, y soporte para una variedad de cargas de trabajo y escenarios en la nube y localmente. SQL Server ofrece acceso unificado a todos los datos, administración simplificada y herramientas para crear aplicaciones inteligentes.
El documento presenta una investigación sobre los Sistemas Manejadores de Base de Datos. Describe varios SMBD de código abierto como PostgreSQL, MySQL y Firebird, así como SMBD propietarios como Oracle, Visual FoxPro, Microsoft SQL Server e Interbase. Explica brevemente las características y usos de cada uno. También menciona SMBD en la web y sitios que ofrecen versiones gratuitas.
El documento proporciona información sobre diferentes sistemas manejadores de bases de datos (SMBD), incluyendo SMBD de código abierto como PostgreSQL, MySQL, Firebird y SQLite, así como SMBD propietarios como Oracle, Visual FoxPro, Microsoft SQL Server e Interbase. Describe las características y especificaciones técnicas de cada uno.
Este documento describe la evolución de los grandes datos y la analítica, incluyendo el aumento de fuentes de datos, la comprensión de su valor, y la disminución de costos de hardware. También resume los componentes clave de Hadoop como HDFS, MapReduce, Hive y otros para el procesamiento y análisis de grandes cantidades de datos.
Cómo mejorar la eficiencia de sus Bases de Datos migrando Oracle a una solución profesional sobre PostgreSQL, aunando las ventajas del software libre y del comercial.
24 HOP edición Español - Patrones de escalalidad en microsoft azure sql datab...SpanishPASSVC
Este documento resume los patrones de escalabilidad en Microsoft Azure SQL Database. Ofrece varias opciones para escalar el rendimiento de forma vertical u horizontal. La escalabilidad vertical se logra cambiando entre los diferentes niveles de servicio (Básico, Estándar y Premium), mientras que la horizontal se logra agregando o eliminando bases de datos. También describe las opciones de sharding para escalar hasta miles de bases de datos y el uso de consultas multi-shard para procesar consultas a través de múltiples shards.
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Joseph Lopez
Breve sinopsis sobre como comprender todo el escenario en la manipulación de datos procedentes del Big Data, de los Almacenes de Datos Empresariales con motor de datos SQL Azure bajo Plataforma BI
Mejores Prácticas de SQL Server para implementar SharePoint ServerSpanishPASSVC
En esta sesión tendremos la oportunidad de conocer las mejores prácticas para una implementación de SQL Server para la plataforma de SharePoint Server.
Pablo Doval | Plain Concepts | Open DataSmash Tech
Big Data es el cambio de paradigma que representa la búsqueda de soluciones para almacenar y procesar datos estructurados y no estructurados de un modo económico y escalable. Hadoop es un framework de código abierto que permite procesar grandes cantidades de datos de forma distribuida a través de HDFS y MapReduce. Hive y Pig son herramientas que simplifican el análisis de datos almacenados en Hadoop mediante lenguajes como HiveQL y Pig Latin respectivamente.
Este documento presenta varias herramientas para la visualización de datos. En primer lugar, describe cinco herramientas populares: Google Fusion Tables, CartoDB, Tableau Public, iCharts y Smart Data Report. Luego, proporciona más detalles sobre cada una de estas herramientas, incluidas sus características y usos comunes. El objetivo general es ayudar a los lectores a sacar el máximo provecho de sus datos mediante la visualización eficaz de la información.
http://www.sqlserversi.com - Visión general de los proyectos de Business Intelligence, basados en Microsoft SQL Server 2000, DTS y Analysis Services 2000.
Sql server 2014 y la plataforma de datosSpanishPASSVC
Un análisis objetivo y amplio (Vista rápida) sobre las nuevas características en la versión 2014, aplicadas al desempeño y ejecución de escenarios empresariales de alto desempeño como lo es In-Memory for OLTP, Update Capable Column Store Index, Alta Disponibilidad y Misión Critica sobre altos volúmenes de transaccionalidad de datos.
El documento describe varios sistemas gestores de bases de datos, incluyendo MySQL, Microsoft SQL Server, PostgreSQL, Firebird, Oracle, DB2, Classora, Access y Sybase. Cada uno se caracteriza por sus funcionalidades, orígenes, licencias y plataformas compatibles. El documento también presenta CouchDB, una base de datos de código abierto que facilita la replicación de datos.
Introducción a la plataforma sql azureJoseph Lopez
SQL Azure es un servicio de bases de datos relacionales basado en la nube que ofrece escalabilidad, disponibilidad y seguridad. Utiliza la tecnología de SQL Server para permitir el acceso a datos relacionales mediante T-SQL y proporciona opciones de bases de datos compartidas o dedicadas. La presentación introduce SQL Azure y su arquitectura, y demuestra cómo replicar y monitorear bases de datos en la plataforma.
Documento que explica como realizar la integración entre SAP (BW- HANA) y PowerBI para maximizar el potencial de análisis de los datos económicos y financieros de las compañías
Este documento compara las versiones 2005 y 2008 de Microsoft SQL Server. SQL Server 2008 ofrece nuevas características como soporte mejorado para business intelligence, virtualización de servidores y desarrollo de aplicaciones. Los requisitos de hardware son similares para ambas versiones. El documento concluye que SQL Server 2008 es una opción viable para la mayoría de usuarios debido a sus mejoras y requisitos similares a SQL Server 2005.
Similar a Polybase y su uso en la integración de almacenes de datos (20)
Creación de un modelo de análisis predictivo en la nubeSpanishPASSVC
Microsoft Azure ofrece una solución de análisis predictivo 100% Cloud, donde es posible realizar el proceso analítico de búsqueda de patrones en los datos, y a la vez la explotación de estos modelos en un ambiente de producción altamente disponible y escalable como lo es Microsoft Azure.
Analizando la performance del subsistema de IOSpanishPASSVC
Analizaremos el subsistema de I/O para detectar los posibles cuellos de botella. Para llevar a cabo esto utilizaremos distintas técnicas y herramientas
Este documento resume una presentación sobre lecciones aprendidas en la implementación de AlwaysOn. Cubre conceptos básicos de alta disponibilidad y recuperación de desastres como RTO, RPO y diferentes estrategias. También explica los componentes clave de AlwaysOn como grupos de disponibilidad y consideraciones al implementarlo en entornos con múltiples nodos.
Mejoras de Rendimiento para Replicación TransaccionalSpanishPASSVC
Este documento resume una presentación sobre mejoras de rendimiento para la replicación transaccional en SQL Server. La presentación cubrirá problemas comunes relacionados con el rendimiento de la replicación, cómo identificarlos y posibles soluciones. Se explicarán conceptos como tipos de publicación, monitoreo de latencia e informes, errores comunes y formas de mejorar el rendimiento mediante perfiles y streams de replicación.
Todo el mundo que trabaja con base de datos siempre se ha preguntado alguna vez qué son los planes de ejecución y como se leen. Saber leer un plan de ejecución nos va a dar información valiosísima de cara a mejorar el rendimiento de una consulta. En esta sesión vamos a centrarnos en aprender a leer T-SQL para interpretar lo que está haciendo SQL Server para devolvernos la información.
En esta charla estaremos demostrando Tecnicas avanzadas de Monitoreo tales como
- Analizando la actividad de SQL Server
- Utilizando Extended events para realizar monitoreo en SQL Server
- monitoreo proactivo
- Auditoria Utilizando Service Broker
Principios de diseño para procesos de ETLSpanishPASSVC
Aun cuando SSIS es una tecnología robusta para ETL, los procesos de integración de datos son las causa más frecuente por los que los proyectos fracasan. En muchos casos esto se debe a la falta de planeamiento y el uso de cuestionables técnicas de diseño. En esta charla vamos a evaluar los procesos de ETL de una manera general para luego identificar áreas claves que muchas veces son dejadas al azar, y que en un momento determinado pudiesen comprometer la estabilidad del sistema e incrementar su costo de operación.
Planeando e implementando servicios de datos con Microsoft AzureSpanishPASSVC
Analizaremos las diferencias entre bases de datos SQL Server on premise y Azure SQL Database. Como implementar SQL Azure Database, como migrar, monitorear y mantener la continuidad operativa con Self Service Restore y Geo Replicación.
La receta de la abuela para mejores cargas de datosSpanishPASSVC
En esta sesión veremos mejores prácticas para cargas de datos a ser utilizados en ETLs de alto volumen, veremos técnicas de carga y configuración de la base de datos, uso de particiones, compresión, indexes columnstore y más. Esta receta estará cargada de buenas demos, todas aprobadas por la abuela desde épocas que datan antes del windows 3.1!
El Aprendizaje Automático (AA), conocido en inglés como Machine Learning, es una rama de la Inteligencia Artificial en la cual su principal objetivo es desarrollar técnicas que permitan a las computadoras aprender, es decir, se considera como un proceso de inducción del conocimiento. Dentro de las aplicaciones de aprendizaje automático están diversas aplicaciones de negocio como motores de búsqueda, diagnósticos médicos, detección de fraude en el uso de tarjetas de crédito, análisis del mercado de valores, clasificación de secuencias de ADN, reconocimiento del habla entre otros. En esta sesión presentaremos alguno de los conceptos fundamentales del AA y mostraremos cómo crear este tipo de soluciones usando Azure Machine Learning, el nuevo servicio de Azure completamente administrado en la nube y que puede ser integrado en nuestras aplicaciones tradicionales de negocio.
Cuadros de mando el todo es más que la suma de las partesSpanishPASSVC
Este documento presenta una introducción a los cuadros de mando. Explica que los cuadros de mando proporcionan información clave de alto nivel en una sola interfaz de manera clara y útil. También describe los pasos para diseñar un cuadro de mando efectivo, incluida la definición de objetivos, métricas clave, dimensiones y el desarrollo iterativo.
Automatizando la generación de Datawarehouses a través de metadatosSpanishPASSVC
Nos enfrentamos cada vez a retos mas difíciles y complejos en la creación de Datawarehouses con SQL Server. Esto nos hace pensar en como quitarnos el trabajo superfluo, el que no aporta valor de negocio para centrar nuestras energías en resolver las cuestiones propias del negocio. La charla explorará alguna de las posibilidades de automatización de creación de procesos ETL. Para ello hablaremos de BIML, SSIS, JSON y metadatos.
Descubriendo el corazón de la optimización “Estadísticas más que un concepto”SpanishPASSVC
El documento habla sobre las estadísticas en las bases de datos y su importancia para la optimización de consultas. Explica que las estadísticas representan la distribución de datos en columnas y ayudan al optimizador a determinar la selectividad, cardinalidad y densidad de los datos. También cubre cómo crear estadísticas de forma automática o manual, leer estadísticas existentes y mantenerlas de forma automática u manual para que reflejen los cambios en los datos.
Power BI es un servicio en la nube para el manejo de datos y una moderna solución de reportes accesible en todas las plataformas, pero ¿realmente cómo funciona? No importa cuán simple sea su gestión de datos, para tomar ventaja de este servicio deberá diseñar y administrar algunos de sus componentes. En esta sesión aprenderemos de las diferencias entre versiones, seguridad, colaboración y estrategias para refrescar la data tanto en escenarios de uso personal como empresariales.
Vista 360 grados de DataZen - Juan AlvaradoSpanishPASSVC
En esta charla se vera un vistazo general a DataZen, sus componentes a nivel servidor y cliente, tambien se vera la forma en que se desarrolla en proyectos de inteligencia de negocios con datazen.
Este documento presenta una introducción al soporte de JSON en SQL Server 2016. Explica brevemente qué es JSON y resume las principales características de soporte de JSON en SQL Server 2016, incluidas las cláusulas FOR JSON y OPENJSON y las funciones integradas para JSON. También incluye enlaces a recursos adicionales y un próximo evento sobre DataZen.
Este documento presenta una charla sobre Row Level Security (RLS) en SQL Server 2016. Se explica brevemente qué es RLS, cómo funciona permitiendo filtrar datos a nivel de registro, sus ventajas como simplificar el mantenimiento de la aplicación, y cómo implementarlo de forma nativa en SQL Server 2016 a través de la creación de una función, política de seguridad y campo de identificación.
Prácticas recomendadas para SQL Server en Microsoft AzureSpanishPASSVC
El documento presenta las prácticas recomendadas para SQL Server en Microsoft Azure, incluyendo consideraciones sobre tamaños de instancias y límites, el uso de Azure Blob Storage, y configuraciones para lograr un desempeño óptimo como monitorear el desempeño, administrar discos, y establecer líneas base. También anuncia el próximo evento sobre row level security en SQL Server 2016.
Infografia TCP/IP (Transmission Control Protocol/Internet Protocol)codesiret
Los protocolos son conjuntos de
normas para formatos de mensaje y
procedimientos que permiten a las
máquinas y los programas de aplicación
intercambiar información.
Todo sobre la tarjeta de video (Bienvenidos a mi blog personal)AbrahamCastillo42
Power point, diseñado por estudiantes de ciclo 1 arquitectura de plataformas, esta con la finalidad de dar a conocer el componente hardware llamado tarjeta de video..
La inteligencia artificial sigue evolucionando rápidamente, prometiendo transformar múltiples aspectos de la sociedad mientras plantea importantes cuestiones que requieren una cuidadosa consideración y regulación.
El uso de las TIC en la vida cotidiana.pptxjgvanessa23
En esta presentación, he compartido información sobre las Tecnologías de la Información y la Comunicación (TIC) y su aplicación en diversos ámbitos de la vida cotidiana, como el hogar, la educación y el trabajo.
He explicado qué son las TIC, las diferentes categorías y sus respectivos ejemplos, así como los beneficios y aplicaciones en cada uno de estos ámbitos.
Espero que esta información sea útil para quienes la lean y les ayude a comprender mejor las TIC y su impacto en nuestra vida cotidiana.
Polybase y su uso en la integración de almacenes de datos
1. Polybase y su uso en la integración de almacenes de
datos
22 de Abril 2015 (12 pm GMT -5)
Eduardo Castro
Resumen:
En esta sesión veremos cómo utilizar Polybase
para integrar escenarios dentro un ambiente de
Data Warehouse y fuentes heterogéneas de
datos
Está por comenzar:
Próximos Eventos
Moderador: José L. Rivera
Usando PowerBI para ver la data
de Microsoft Dynamics AX
29 de Abril
Juan M Rafael
SQLCLR .NET en el core de SQL
Server
6 de Mayo
Enrique Cátala
Preguntando a Sql Server con
DMV
13 de Mayo
Ahias Portillo
2. Manténgase conectado a nosotros!
Visítenos en http://globalspanish.sqlpass.org
/SpanishPASSVC
lnkd.in/dtYBzev
/user/SpanishPASSVC
/SpanishPASSVC
4. 4
Oportunidades de Voluntariado
PASS no pudiera existir sin personas apasionadas y
dedicadas de todas partes del mundo que dan de su
tiempo como voluntarios.
Se un voluntario ahora!!
Para identificar oportunidades locales visita
volunteer.sqlpass.org
Recuerda actualizar tu perfil en las secciones de
“MyVolunteering” y MyPASS para mas detalles.
6. Polybase y su uso en la integración de
almacenes de datos
22 de Abril de 2015
Eduardo Castro, PhD.
SQL Server MVP
PASS Regional Mentor LATAM
Comunidad Windows – Costa Rica
Moderador: José L. Rivera
7. Fundamentos Polybase
Escenarios Polybase
• Hadoop para Staging
• Exportación Dimensiones a Hadoop
• Hadoop como Almacenamiento de Datos
• Fuentes consultadas TechEd North America
2014
Agenda
8. ... Almacenamiento de datos ha
alcanzado el punto de inflexión
más importante desde su
creación. La gestión de datos en
TI está cambiando.
Fuentes de datos
El Datawarehouse de datos tradicional
- Gartner, "El Estado de Data
Warehousing en 2012
10.
Fuentes de datos Datos no relacionales
El Datawarehouse de datos moderno
11. Presentación de la Plataforma del sistema
Microsoft Analytics
El moderno dispositivo de almacenamiento de datos llave en mano
Lista para la empresa Big
Data
Rendimiento de próxima
generación a gran escala
Diseñado para
valor óptimo
Datos relacionales y no
relacionales en un solo dispositivo
Hadoop listo para la empresa
Consulta integrada a través de
Hadoop y PDW usando T-SQL
Integración directa con las
herramientas de BI de Microsoft,
como Microsoft Excel
Rendimiento en tiempo real con In-
Memory de columnas
Capacidad de escalar para ajustarse a
crecimiento de datos
La eliminación de los cuellos de botella
de almacenamiento de datos con SQL
Server MPP
Valor a través de una única
solución de Appliance
Opciones de hardware flexibles
utilizando hardware comercial
12. Hardware y software de ingeniería juntos
La facilidad de un Appliance
Hardware incorporado Pre + dispositivo de
software
• Co-diseñado con Dell, HP, y Quanta
• Hardware en la pre-construido
• Software preinstalado
Plug and play Mejores
prácticas
incorporadas
Ahorro de
tiempo
Construido Big
Data
Analytics Platform System
SQL Server
Parallel Data
Warehouse
Microsoft
HDInsight
Polybase
13. Alto rendimiento y
sintonizado en el
Appliance
Autenticación del
usuario final con
Active Directory
Conocimientos
accesibles para
todas las personas
con las herramientas
de BI de Microsoft
Manejar y controlar
el uso de System
Center
100 por ciento de
Hadoop
SQL Server
Parallel Data
Datawarehous
e
Microsoft
HDInsight
Polybase
APS entrega lista para la empresa Hadoop con
HDInsight
14. Parallel Data Warehouse
carga de trabajo
HDInsight carga de trabajo
Fabric
Hardware
Appliance
Una región es un contenedor lógico dentro de
un Appliance
Cada carga de trabajo contiene los siguientes
límites:
Seguridad
Medida
Mantenimiento
Resumen Appliance APS
15. HDInsight Información general
HDI se ejecuta en un Appliance en una carga de
trabajo
HDInsight es de marca Hortonworks para Microsoft distro (HDP1.3)
Para AU1
Un dispositivo integrado para el funcionamiento de región y la región PDW HDI
PDW se ofrece como una carga de trabajo autónomo en el Appliance
HDI se ofrece sólo como un add-on para PDW
Sólo soportado en hardware V2
H / A para el nodo principal en conmutación por error
Nodo de Datos H / A es HDFS
17. Topología Hardware
Utiliza PDW HW y topología
No hay nuevos SKUs para la región HDI
2 servidores adicionales en el
RACK1 de HDI Head Node
1 activa / 1 de conmutación por error
PDW Nodo de Control
HDI Head Node
HDI de datos Nodos
(1 unidad de la escala)
PDW nodos de computación
(1 unidad de la escala)
PDW
PDW failover / repuesto
Hadoop
Failover Hadoop / repuesto
Unidad de la escala pasiva para PDW
U42
U41
U40
U39
U38
U37
U36
U35
U34
u33
u32
u31
u30
u29
u28
u27
u26
u25
u24
u23
u22
u21
u20
u19
u18
u17
u16
u15
u14
u13
u12
u11
u10
U9
u8
u7
u6
U5
u4
u3
u2
u1
DL360G8 servidor 670769-B21
DL360G8 servidor 670769-B21
DL360G8 servidor 670769-B21
DL360G8 servidor 670769-B21
Interruptor del IB 670769-B21
Interruptor del IB 670769-B21
Conmutador Ethernet JE068A
Conmutador Ethernet JE068A
DL360G8 servidor 654081-B21
JBOD D6000
DL360G8 servidor 670769-B21
DL360G8 servidor 670769-B21
JBOD D6000
DL360G8 servidor 654081-B21
18. Proporciona un único modelo de consulta
T-SQL para PDW y Hadoop con
características de T-SQL, incluyendo
unión sin ETL
Utiliza el poder del MPP para mejorar el
rendimiento de ejecución de consultas
Soporta Windows Azure HDInsight para
permitir que los nuevos escenarios de
nube híbrida
Ofrece la posibilidad de consulta de
Microsoft no distribuciones de Hadoop,
como Hortonworks y Cloudera
SQL Server
Parallel Data
Datawarehous
e
Microsoft Azure
HDInsight
Polybase
Microsoft
HDInsight
Hortonworks para
Windows y Linux
Cloudera
Conexión de islas de datos con Polybase
Trayendo soluciones puntuales Hadoop y el Datawarehouse
Result Set
Seleccione
...
19. Polybase
APS AU1
Las nuevas versiones de Hadoop
Nuevos tipos de archivo
Múltiples Conexiones Hadoop
Predicado Pushdown
20. Cómo consultar cualquier dato, en cualquier
lugar, en cualquier formato?
Tablas
Externas
Fuentes de
datos
externas
Formato de
Archivo
Externo
22. Microsoft APS
Polybase
El control APS
nodos de datos
Social
Sensor
Y RFID
MóvilWeb
Polybase - El motor de consulta PDW
Los científicos de datos,
Usuarios de BI, DB
Admins
LOB PowerBI
Polybase/ APS
motor de consulta
Tabla externa
Datos
externos
fuente
Formato de
Archivo
Externo
Aplicaciones
23. Fuentes de datos externos
CREATE EXTERNAL DATA SOURCE datasource_name
{WITH (TYPE = <data_source>,
LOCATION =‘<location>’,
[JOB_TRACKER_LOCATION = ‘<jb_location>’]
}
[;]
Lugar de origen de datos externo
Tipo de fuente de datos externa
La activación o desactivación de la
generación de empleo MapReduce
1
2
3
Representación interna o una
fuente de datos externa
Soporte de Hadoop como fuente
de datos y Windows Azure Blob
de almacenamiento (WASB, antes
conocido como ASV)
Activación y desactivación de
procesamiento query
processing split-based
Generación de trabajos
MapReduce on-the-fly
[totalmente transparente para el
usuario final]
Alterar los datos externa
permiso fuente necesaria
25. Formato de archivo externo
CREATE EXTERNAL FILE FORMAT fileformat_name
{WITH ( FORMAT_TYPE = <type>,
[SERDE_METHOD = ‘<sede_method>’]
[DATA_COMPRESSION = ‘<compr_method>’]
[FORMAT_OPTIONS (<format_options>)]
}
[;]
(De) método de serialización [Hive
RCFile]
Tipo de fuente de datos externa
Método de compresión
Opciones (Opcional) Formato [Archivos
de texto]
1
2
3
Representación interna de
un formato de archivo
externo
Soporte de archivos de texto
delimitados
y Colmena de ficheros de
recursos
Activación y desactivación de
procesamiento query
processing split-based
Generación de empleos
MapReduce on-the-fly
Alterar cualquier archivo
externo
permiso formato requerido
4
26. Las tablas externas
CREATE EXTERNAL TABLE table_name ({<column_definition>}[,..n ])
{WITH (DATA_SOURCE = <data_source>,
FILE_FORMAT = <file_format>,
LOCATION =‘<file_path>’,
[REJECT_VALUE = <value>],
…}
[;]
Hacer referencia a formato de
archivo externo
Hacer referencia a la fuente de datos
externa
Ruta del archivo / carpeta Hadoop
(Opcional) Rechazar parámetros
1
2
3
Representación interna
de los datos que residen
fuera del Appliance
La introducción de la
sintaxis (en
comparación con
Polybasev1)
Actualización de tablas externas
v1 existentes
Permisos de SQL
necesarios para crear
tablas externas
ADMINISTER BULK OPERATIONS, CREATE
TABLE, and ALTER ON SCHEMA permission
ALTER ANY EXTERNAL DATA SOURCE and
FILE FORMAT permission
4
27. Soporte de formatos de archivo adicionales HDFS Hive RCFiles
CREATE EXTERNAL FILE FORMAT MyRCFile WITH (
FORMAT_TYPE = ‘RCFile’,
[SERDE_METHOD =‘LazyBinarySerDe’]
)
Usuarios Hadoop /
Hive prefieren RCFile
debido a mejores
beneficios de
compresión y
rendimiento
Archivo columnas
Record que consiste
en pares binarios
clave / valor
El usuario tiene que
especificar el
método de
serialización /
deserialización
(SERDE_METHOD)
RCFile almacena
columnas de una
tabla en una forma
de registro columnar
Algunas observaciones de rendimiento
• LazyBinaryColumnarSerDe significativamente más rápido y más eficiente que ColumnarSerDe
• La compresión de datos no es muy beneficiosa en el caso de la conectividad entre IB Hadoop y PDW (Si se utiliza redes de baja velocidad,
se espera que la compresión para ayudar)
28. Opciones de formato para archivos de texto delimitados
<Format Options> :: = [,FIELD_TERMINATOR= ‘Value’],
[,STRING_DELIMITER = ‘Value’], [,DATE_FORMAT = ‘Value’],
[USE_TYPE_DEFAULT = ‘Value’]
Field_terminator STRING_DELIMITER USE_TYPE_DEFAULTFORMATO DE FECHA
Para indicar un
delimitador de columna
Para especificar el
delimitador de
campos de tipo de
datos de cadena
Para especificar un
formato de fecha en
particular
Para especificar
cómo faltan
entradas en archivos
de texto son
tratados
29. (HDFS) Bridge
Resultad
os
Acceso directo HDFS y paralelizado
Mejoras en el servicio de movimiento de datos (DMS) de APS para permitir la
comunicación directa entre los nodos de datos HDFS y nodos de computación PDW
Los datos no relacionales
Social
aplicaciones
Sensor
y RFID
Móvil
aplicaciones
Web
aplicaciones
Hadoop
Datos relacionales
PDWHDFS Brigde
Mejorado motor
de consulta PDW
La tabla externa
Los datos
externos
fuente
Archivo
externo
formato
Regular
T-SQL
Aplicaciones de almacenamiento
de datos basado en esquemas
tradicionales
31. Predicado Pushdown
Reducir el movimiento de datos
Reducir el número de filas movido
Reducir el número de columnas movido
Subconjunto de expresiones y
operadores
32. Consulta los datos de Hadoop través de T-SQL
Datos de consulta en HDFS y mostrar los resultados en forma de tabla (vía
tablas externas) Úne datos de HDFS con APS relacional / datos PDW
Ejemplo Running - Creación de tabla externa 'ClickStream':
CREATE TABLE EXTERNO ClickStream(url varchar(50), fecha del evento fecha de, user_ip
varchar(50)), JUNTO CON (UBICACIÓN= "//Hadoop_files/clickstream.tbl', FUENTE DE DATOS=
MY_HDP2.0,FORMATO DE ARCHIVO=MyDelimitedText)
Fuente de datos externa y formato
de archivo
Polybase ejemplos de
consulta
SELECT top 10 (url) FROM ClickStream where user_IP =
‘192.168.0.1’
Consulta de filtro contra datos en
HDFS
SELECT url.description FROM ClickStream cs, Url_Descr* url
WHERE cs.url = url.name and cs.url=’www.cars.com’;
Union de datos de varios archivos en
HDFS
(*Url_Descr es un segundo archivo de texto)
SELECT user_name FROM ClickStream cs, User* u WHERE
cs.user_IP = u.user_IP and cs.url=’www.microsoft.com’;
Union de datos de HDFS con datos en
PDW
(* El usuario es una tabla PDW distribuida)
1
2
3
33. Ejecución de la consulta basada en Split de Polybase
(HDFS / WASB) Puente de componentes
Conexión y recuperación / escritura de datos
desde / al sistema de archivos distribuido de
Hadoop o almacenamiento de Azure (recipientes)
Job Submitter Component
Map/reduce jobs on-the-fly for in-situ processing
Transparente para el usuario final - no hay necesidad de
aprender map / reduce
Trabajos M / R ejecutados por Job Tracker de Hadoop
Costo basado decisión cuando push computation vs direct
import (basado en las estadísticas)
(HDFS / WASB)
Puente
M-R Trabajo
Peticionario
EPA /Polybase
Query Engine
Tabla externa
Datos externos
fuente
Formato de
Archivo
Externo
PowerBI
App
Capa de almacenamiento optimizado
PPAX - almacenamiento columnar fila híbrido
Todos los formatos de archivo HDFS transformados
en PPAX optimizado
PolybaseCapa de
almacenamiento (PPAX)
1
2
3
34. SQL Server
en el nodo de
control
Aprovechando SQL Server como ayuda compilación
de la consulta
El usuario puede crear estadísticas sobre tabla
externa
Análisis completo vs. muestreo
Decisión basada en el costo de empujar hacia abajo
EPA /Polybase Engine de consultas utiliza
estadísticas para determinar el volumen de datos
a transferir
Los factores de costo> IO y datos de costos de
transferencia
Suponiendo red de alta velocidad (> 10G
Ethernet)
Tabla externa
Datos externos
fuente
Formato de
Archivo
Externo
PowerBI
Su
App
(HDFS / WASB)
Puente
M-R Trabajo
Peticionario
EPA /Polybase
Query Engine
PolybaseCapa de
almacenamiento (PPAX)
Repartido
plan de
consulta
CREATE STATISTICS UserIP_Stats ON
ClickStream(user_IP) WITH FULLSCAN
Polybase- ejemplo create statistics
Basada en el costo Decisión I (Para la ejecución de
consultas basadas en split)
35. Principal factor de decisión es la reducción del volumen de
datos
Tiempo Spin-up time para Map Reduce es de alrededor de
20-30 segundos
Spin-up varía dependiendo de la distribución de
Hadoop y OS subyacente
Cardinalidad de predicado es importante
creación de estadísticas crucial para la calidad de
planes de consulta Polybase
No push down para escenarios donde APS puede
ejecutar bajo 20-30 segundos sin push down
"Regla empírica" -
'No considere pushdown para las entradas que se
traduce en menos de 1 GB por * distribución PDW *'
Ejemplo: Para 2 nodos de cálculo, archivo de
tamaño> 16 GB
Tabla externa
Datos externos
fuente
Formato de
Archivo
Externo
PowerBI
Su
App
(HDFS / WASB)
Puente
M-R Trabajo
Peticionario
EPA /Polybase
Query Engine
PolybaseCapa de
almacenamiento (PPAX)
Decisión basada en el costo II (Para la ejecución de
consultas basadas en split)
36. • Las consultas pueden tener push-able & non
push-able expressions
– Los Pusb-able serán evaluados en el lado
Hadoop (si es posible)
– El procesamiento de non-push se hará en el
lado PDW
• Los Joins en general será siempre ejecutado
en APS
– Los predicados puede ser push-downed (si es
posible)
• Las agregaciones (parciales o totales) se
llevarán a cabo en PDW
– Agregación parcial en Hadoop previsto para
las futuras versiones de APS
Tabla externa
Datos externos
fuente
Formato de
Archivo
Externo
PowerBI
Su
App
(HDFS / WASB)
Bridge
M-R Job Sumitter
EPA /Polybase
Query Engine
Polybase Capa de
almacenamiento (PPAX)
Basada en el costo Decisión III (Para la ejecución de
consultas basadas en split)
37. Configuraciones compatibles para AU1
HDInsight en Analytics System Plataforma
Almacenamiento blob de HDInsight Windows Azure (WASB [S])
Hortonworks en Windows Server (HDP 1.3, 2.0)
Hortonworks en Linux (HDP 1.3, 2.0)
Cloudera en Linux (CDH 4.3)
49. CTAS – Create Table AS Select
CREATE TABLE myTable
WITH
(
CLUSTERED COLUMNSTORE INDEX,
DISTRIBUTION = HASH (CustomerKey)
)
AS SELECT * FROM ClickStream;
50. El uso de sus datos
conformados para
enriquecer el análisis
Hadoop
53. Hadoop como un Archivo de Datos
Procesamie
nto de ETL
Polybase
54. CETAS – Create External Table AS Select
CREATE EXTERNAL TABLE hdfsFactAllDataArchive
WITH (
LOCATION = 'hdfs://10.192.63.147:5000/files/AllData,
FORMAT_OPTIONS ( FIELD_TERMINATOR = '|')
) AS SELECT * FROM FactAllData WHERE transaction_Year < 2000;
55. Join PDW & External Tables
No Different from any other join you do today
SELECT c.Name
, d.Year
, sum(sales)
FROM FactSales s
JOIN dimCustomer c
ON c.CustomerID = s.CustomerID
JOIN dimDate d
ON s.DateID = d.DateID
WHERE d.Year = 2008
AND c.Name = ‘Albertson & Brothers’
External Table
Internal Table
Internal Table
56. Polybase y su uso en la integración de almacenes de
datos
29 de Abril (12 pm GMT -5)
Juan M Rafael
Resúmen:
En esta sesión veremos cómo utilizar Polybase para
integrar escenarios dentro un ambiente de Data
Warehouse y fuentes heterogéneas de datos
Próximo Evento