El nuevo Microsoft Azure SQL Data Warehouse (SQL DW) es un versátil servicio de almacén de datos que provee una solución Massively Parallel Processing (MPP) para "Big data" con verdaderas características de alta infraestructura empresarial. El servicio SQL DW está construido para la carga de datos en ejecución de unos cien gigabytes hasta petabytes de datos con características únicas como cálculo desagregado, permitiendo así que los clientes sean capaces de utilizar el servicio para satisfacer sus necesidades de almacenamiento. En la presente exposición les mostrare una mirada en profundidad de este nuevo servicio de Azure como la implementación, el escalamiento elástico (Grow, Shrink, y Pause), y las nubes de datos híbrida con integración de Hadoop a través Polybase permitiendo una verdadera experiencia de SQL a través de datos estructurados y no estructurados.
Product-thinking is making a big impact in the data world with the rise of Data Products, Data Product Managers, data mesh, and treating “Data as a Product.” But Honest, No-BS: What is a Data Product? And what key questions should we ask ourselves while developing them? Tim Gasper (VP of Product, data.world), will walk through the Data Product ABCs as a way to make treating data as a product way simpler: Accountability, Boundaries, Contracts and Expectations, Downstream Consumers, and Explicit Knowledge.
It is a fascinating, explosive time for enterprise analytics.
It is from the position of analytics leadership that the mission will be executed and company leadership will emerge. The data professional is absolutely sitting on the performance of the company in this information economy and has an obligation to demonstrate the possibilities and originate the architecture, data, and projects that will deliver analytics. After all, no matter what business you’re in, you’re in the business of analytics.
The coming years will be full of big changes in enterprise analytics and Data Architecture. William will kick off the fourth year of the Advanced Analytics series with a discussion of the trends winning organizations should build into their plans, expectations, vision, and awareness now.
AI Data Acquisition and Governance: Considerations for SuccessDatabricks
data pipeline, governance, and for growth and updating models regularly needs to be part of the AI strategy from the outset.
This session will cover:
Defining AI governance: What this means and how definitions of subjects like ethics and effectiveness can differ between organizations.
Data governance: Companies must rely on an AI governance program to ensure only high-quality, unbiased and consistent data are used in training.
AI is a growing necessity for enterprises / businesses; it provides an avenue for scaling quickly and efficiently.
Best practices / implementation: how to implement AI that meets the requirements of the organization’s defined sets of governances.
Planning the data pipeline and growing/updating the models: AI is not static in the real world; models must be frequently updated to maintain relevance and accuracy.
3 key takeaways or attendee benefits of the session:
Understand how to assess your organization’s need for AI; how to identify the opportune areas for transforming processes, interactions, scaling, cost.
How to start the implementation process. Defining data and AI governance and how to build the training data pipeline within that framework.
Best practices for maintaining AI; how to use data to evaluate models and continuously iterate on them to reflect the real world.
Agile & Data Modeling – How Can They Work Together?DATAVERSITY
A tenet of the Agile Manifesto is ‘Working software over comprehensive documentation’, and many have interpreted that to mean that data models are not necessary in the agile development environment. Others have seen the value of data models for achieving the other core tenets of ‘Customer Collaboration’ and ‘Responding to Change’.
This webinar will discuss how data models are being effectively used in today’s Agile development environment and the benefits that are being achieved from this approach.
Data Build Tool (DBT) is an open source technology to set up your data lake using best practices from software engineering. This SQL first technology is a great marriage between Databricks and Delta. This allows you to maintain high quality data and documentation during the entire datalake life-cycle. In this talk I’ll do an introduction into DBT, and show how we can leverage Databricks to do the actual heavy lifting. Next, I’ll present how DBT supports Delta to enable upserting using SQL. Finally, we show how we integrate DBT+Databricks into the Azure cloud. Finally we show how we emit the pipeline metrics to Azure monitor to make sure that you have observability over your pipeline.
Product-thinking is making a big impact in the data world with the rise of Data Products, Data Product Managers, data mesh, and treating “Data as a Product.” But Honest, No-BS: What is a Data Product? And what key questions should we ask ourselves while developing them? Tim Gasper (VP of Product, data.world), will walk through the Data Product ABCs as a way to make treating data as a product way simpler: Accountability, Boundaries, Contracts and Expectations, Downstream Consumers, and Explicit Knowledge.
It is a fascinating, explosive time for enterprise analytics.
It is from the position of analytics leadership that the mission will be executed and company leadership will emerge. The data professional is absolutely sitting on the performance of the company in this information economy and has an obligation to demonstrate the possibilities and originate the architecture, data, and projects that will deliver analytics. After all, no matter what business you’re in, you’re in the business of analytics.
The coming years will be full of big changes in enterprise analytics and Data Architecture. William will kick off the fourth year of the Advanced Analytics series with a discussion of the trends winning organizations should build into their plans, expectations, vision, and awareness now.
AI Data Acquisition and Governance: Considerations for SuccessDatabricks
data pipeline, governance, and for growth and updating models regularly needs to be part of the AI strategy from the outset.
This session will cover:
Defining AI governance: What this means and how definitions of subjects like ethics and effectiveness can differ between organizations.
Data governance: Companies must rely on an AI governance program to ensure only high-quality, unbiased and consistent data are used in training.
AI is a growing necessity for enterprises / businesses; it provides an avenue for scaling quickly and efficiently.
Best practices / implementation: how to implement AI that meets the requirements of the organization’s defined sets of governances.
Planning the data pipeline and growing/updating the models: AI is not static in the real world; models must be frequently updated to maintain relevance and accuracy.
3 key takeaways or attendee benefits of the session:
Understand how to assess your organization’s need for AI; how to identify the opportune areas for transforming processes, interactions, scaling, cost.
How to start the implementation process. Defining data and AI governance and how to build the training data pipeline within that framework.
Best practices for maintaining AI; how to use data to evaluate models and continuously iterate on them to reflect the real world.
Agile & Data Modeling – How Can They Work Together?DATAVERSITY
A tenet of the Agile Manifesto is ‘Working software over comprehensive documentation’, and many have interpreted that to mean that data models are not necessary in the agile development environment. Others have seen the value of data models for achieving the other core tenets of ‘Customer Collaboration’ and ‘Responding to Change’.
This webinar will discuss how data models are being effectively used in today’s Agile development environment and the benefits that are being achieved from this approach.
Data Build Tool (DBT) is an open source technology to set up your data lake using best practices from software engineering. This SQL first technology is a great marriage between Databricks and Delta. This allows you to maintain high quality data and documentation during the entire datalake life-cycle. In this talk I’ll do an introduction into DBT, and show how we can leverage Databricks to do the actual heavy lifting. Next, I’ll present how DBT supports Delta to enable upserting using SQL. Finally, we show how we integrate DBT+Databricks into the Azure cloud. Finally we show how we emit the pipeline metrics to Azure monitor to make sure that you have observability over your pipeline.
This is Part 4 of the GoldenGate series on Data Mesh - a series of webinars helping customers understand how to move off of old-fashioned monolithic data integration architecture and get ready for more agile, cost-effective, event-driven solutions. The Data Mesh is a kind of Data Fabric that emphasizes business-led data products running on event-driven streaming architectures, serverless, and microservices based platforms. These emerging solutions are essential for enterprises that run data-driven services on multi-cloud, multi-vendor ecosystems.
Join this session to get a fresh look at Data Mesh; we'll start with core architecture principles (vendor agnostic) and transition into detailed examples of how Oracle's GoldenGate platform is providing capabilities today. We will discuss essential technical characteristics of a Data Mesh solution, and the benefits that business owners can expect by moving IT in this direction. For more background on Data Mesh, Part 1, 2, and 3 are on the GoldenGate YouTube channel: https://www.youtube.com/playlist?list=PLbqmhpwYrlZJ-583p3KQGDAd6038i1ywe
Webinar Speaker: Jeff Pollock, VP Product (https://www.linkedin.com/in/jtpollock/)
Mr. Pollock is an expert technology leader for data platforms, big data, data integration and governance. Jeff has been CTO at California startups and a senior exec at Fortune 100 tech vendors. He is currently Oracle VP of Products and Cloud Services for Data Replication, Streaming Data and Database Migrations. While at IBM, he was head of all Information Integration, Replication and Governance products, and previously Jeff was an independent architect for US Defense Department, VP of Technology at Cerebra and CTO of Modulant – he has been engineering artificial intelligence based data platforms since 2001. As a business consultant, Mr. Pollock was a Head Architect at Ernst & Young’s Center for Technology Enablement. Jeff is also the author of “Semantic Web for Dummies” and "Adaptive Information,” a frequent keynote at industry conferences, author for books and industry journals, formerly a contributing member of W3C and OASIS, and an engineering instructor with UC Berkeley’s Extension for object-oriented systems, software development process and enterprise architecture.
The Modern Data Team for the Modern Data Stack: dbt and the Role of the Analy...Databricks
A traditional data team has roles including data engineer, data scientist, and data analyst. However, many organizations are finding success by integrating a new role – the analytics engineer. The analytics engineer develops a code-based data infrastructure that can serve both analytics and data science teams. He or she develops re-usable data models using the software engineering practices of version control and unit testing, and provides the critical domain expertise that ensures that data products are relevant and insightful. In this talk we’ll talk about the role and skill set of the analytics engineer, and discuss how dbt, an open source programming environment, empowers anyone with a SQL skillset to fulfill this new role on the data team. We’ll demonstrate how to use dbt to build version-controlled data models on top of Delta Lake, test both the code and our assumptions about the underlying data, and orchestrate complete data pipelines on Apache Spark™.
This is the presentation for the talk I gave at JavaDay Kiev 2015. This is about an evolution of data processing systems from simple ones with single DWH to the complex approaches like Data Lake, Lambda Architecture and Pipeline architecture
Making Data Timelier and More Reliable with Lakehouse TechnologyMatei Zaharia
Enterprise data architectures usually contain many systems—data lakes, message queues, and data warehouses—that data must pass through before it can be analyzed. Each transfer step between systems adds a delay and a potential source of errors. What if we could remove all these steps? In recent years, cloud storage and new open source systems have enabled a radically new architecture: the lakehouse, an ACID transactional layer over cloud storage that can provide streaming, management features, indexing, and high-performance access similar to a data warehouse. Thousands of organizations including the largest Internet companies are now using lakehouses to replace separate data lake, warehouse and streaming systems and deliver high-quality data faster internally. I’ll discuss the key trends and recent advances in this area based on Delta Lake, the most widely used open source lakehouse platform, which was developed at Databricks.
Data Governance Roles as the Backbone of Your ProgramDATAVERSITY
The method you follow to form your Data Governance roles and responsibilities will impact the success of your program. There are industry-standard roles that require adjustment to fit the culture of your organization when getting started, gaining acceptance, and demonstrating sustained value. Roles are the backbone of a productive Data Governance program.
Bob Seiner will share his updated operating model of roles and responsibilities in this topical RWDG webinar. The model Bob uses is meant to overlay your present organizational structure rather than requiring you to try and plug your organization into someone else’s model. This webinar will provide everything you need to know about Data Governance roles.
Bob will address the following in this webinar:
• An operating model of Data Governance roles and responsibilities
• How to customize the model to mimic your existing structure
• The meaning behind the oft-used “roles pyramid”
• Detailed responsibilities at each level of the organization
• Using the model to influence Data Governance acceptance
Real-World Data Governance Webinar: Data Governance Framework ComponentsDATAVERSITY
There are several basic components that go into delivering a successful and sustainable data governance program. Many of these framework items can be developed using tools you already own and without going to great expense. Organizations swear by the items that will be discussed in this webinar.
Join Bob Seiner for this month’s installment of the Real-World Data Governance series to learn about how to build and deliver immediate and future value from your Data Governance program through the delivery of items that will formalize accountability for the management of data and information assets.
Bob will discuss these core components:
Gaining Leadership’s backing and understanding
Best Practice Analysis leading to Recommended Actions
Operating Model of Roles & Responsibilities
Communications Plan to improve awareness
Action Plan / Roadmap to success
Balancing data democratization with comprehensive information governance: bui...DataWorks Summit
If information is the new oil, then governance is its “safety data sheet.” As demand for data as the raw material for competitive differentiation continues to rise in enterprises, enterprises are having bigger challenges identifying and valuing data and ensuring its appropriate use to extract the right information. In order for organizations to make effective business decisions, organizations need to have trust in their data so that they can impute the right value and use it for the right purposes while satisfying any organizational or regulatory mandates. A number of analytics and data science initiatives fail to reach their potential due to lack of an information governance framework in place. Robust information governance capabilities can help organizations develop trust in their data and empower them to make decisions confidently.
In this session Sanjeev Mohan, Research Analyst at Gartner, and Srikanth Venkat, Sr. Director of Product Management at Hortonworks, will walk you through an end-to-end architectural blueprint for information governance and best practices for helping organizations understand, secure, and govern diverse types of data in enterprise data lakes.
Speaker
Sanjeev Mohan, Gartner, Research Analyst
Srikanth Venkat, Hortonworks, Senior Director, Product Management
In this session Sanjeev Mohan, Research Analyst at Gartner, and Srikanth Venkat, Sr. Director of Product Management at Hortonworks, will walk you through an end-to-end architectural blueprint for information governance and best practices for helping organizations understand, secure, and govern diverse types of data in enterprise data lakes.
Presentation on Data Mesh: The paradigm shift is a new type of eco-system architecture, which is a shift left towards a modern distributed architecture in which it allows domain-specific data and views “data-as-a-product,” enabling each domain to handle its own data pipelines.
Every business today wants to leverage data to drive strategic initiatives with machine learning, data science and analytics — but runs into challenges from siloed teams, proprietary technologies and unreliable data.
That’s why enterprises are turning to the lakehouse because it offers a single platform to unify all your data, analytics and AI workloads.
Join our How to Build a Lakehouse technical training, where we’ll explore how to use Apache SparkTM, Delta Lake, and other open source technologies to build a better lakehouse. This virtual session will include concepts, architectures and demos.
Here’s what you’ll learn in this 2-hour session:
How Delta Lake combines the best of data warehouses and data lakes for improved data reliability, performance and security
How to use Apache Spark and Delta Lake to perform ETL processing, manage late-arriving data, and repair corrupted data directly on your lakehouse
Data Privatisation, Data Anonymisation, Data Pseudonymisation and Differentia...Alan McSweeney
This paper describes how technologies such as data pseudonymisation and differential privacy technology enables access to sensitive data and unlocks data opportunities and value while ensuring compliance with data privacy legislation and regulations.
The role of enterprise architecture in digital transformationDanny Greefhorst
Enterprise architecture and digital transformation are a great combination. Enterprise architecture provides a structured way to support your digital transformation. It enables you to translate your value proposition to the capabilities and enablers to support it. In provides integration of all relevant aspects; people, process, information and technology. It provides insight, supports planning and shows what is really important.
This is Part 4 of the GoldenGate series on Data Mesh - a series of webinars helping customers understand how to move off of old-fashioned monolithic data integration architecture and get ready for more agile, cost-effective, event-driven solutions. The Data Mesh is a kind of Data Fabric that emphasizes business-led data products running on event-driven streaming architectures, serverless, and microservices based platforms. These emerging solutions are essential for enterprises that run data-driven services on multi-cloud, multi-vendor ecosystems.
Join this session to get a fresh look at Data Mesh; we'll start with core architecture principles (vendor agnostic) and transition into detailed examples of how Oracle's GoldenGate platform is providing capabilities today. We will discuss essential technical characteristics of a Data Mesh solution, and the benefits that business owners can expect by moving IT in this direction. For more background on Data Mesh, Part 1, 2, and 3 are on the GoldenGate YouTube channel: https://www.youtube.com/playlist?list=PLbqmhpwYrlZJ-583p3KQGDAd6038i1ywe
Webinar Speaker: Jeff Pollock, VP Product (https://www.linkedin.com/in/jtpollock/)
Mr. Pollock is an expert technology leader for data platforms, big data, data integration and governance. Jeff has been CTO at California startups and a senior exec at Fortune 100 tech vendors. He is currently Oracle VP of Products and Cloud Services for Data Replication, Streaming Data and Database Migrations. While at IBM, he was head of all Information Integration, Replication and Governance products, and previously Jeff was an independent architect for US Defense Department, VP of Technology at Cerebra and CTO of Modulant – he has been engineering artificial intelligence based data platforms since 2001. As a business consultant, Mr. Pollock was a Head Architect at Ernst & Young’s Center for Technology Enablement. Jeff is also the author of “Semantic Web for Dummies” and "Adaptive Information,” a frequent keynote at industry conferences, author for books and industry journals, formerly a contributing member of W3C and OASIS, and an engineering instructor with UC Berkeley’s Extension for object-oriented systems, software development process and enterprise architecture.
The Modern Data Team for the Modern Data Stack: dbt and the Role of the Analy...Databricks
A traditional data team has roles including data engineer, data scientist, and data analyst. However, many organizations are finding success by integrating a new role – the analytics engineer. The analytics engineer develops a code-based data infrastructure that can serve both analytics and data science teams. He or she develops re-usable data models using the software engineering practices of version control and unit testing, and provides the critical domain expertise that ensures that data products are relevant and insightful. In this talk we’ll talk about the role and skill set of the analytics engineer, and discuss how dbt, an open source programming environment, empowers anyone with a SQL skillset to fulfill this new role on the data team. We’ll demonstrate how to use dbt to build version-controlled data models on top of Delta Lake, test both the code and our assumptions about the underlying data, and orchestrate complete data pipelines on Apache Spark™.
This is the presentation for the talk I gave at JavaDay Kiev 2015. This is about an evolution of data processing systems from simple ones with single DWH to the complex approaches like Data Lake, Lambda Architecture and Pipeline architecture
Making Data Timelier and More Reliable with Lakehouse TechnologyMatei Zaharia
Enterprise data architectures usually contain many systems—data lakes, message queues, and data warehouses—that data must pass through before it can be analyzed. Each transfer step between systems adds a delay and a potential source of errors. What if we could remove all these steps? In recent years, cloud storage and new open source systems have enabled a radically new architecture: the lakehouse, an ACID transactional layer over cloud storage that can provide streaming, management features, indexing, and high-performance access similar to a data warehouse. Thousands of organizations including the largest Internet companies are now using lakehouses to replace separate data lake, warehouse and streaming systems and deliver high-quality data faster internally. I’ll discuss the key trends and recent advances in this area based on Delta Lake, the most widely used open source lakehouse platform, which was developed at Databricks.
Data Governance Roles as the Backbone of Your ProgramDATAVERSITY
The method you follow to form your Data Governance roles and responsibilities will impact the success of your program. There are industry-standard roles that require adjustment to fit the culture of your organization when getting started, gaining acceptance, and demonstrating sustained value. Roles are the backbone of a productive Data Governance program.
Bob Seiner will share his updated operating model of roles and responsibilities in this topical RWDG webinar. The model Bob uses is meant to overlay your present organizational structure rather than requiring you to try and plug your organization into someone else’s model. This webinar will provide everything you need to know about Data Governance roles.
Bob will address the following in this webinar:
• An operating model of Data Governance roles and responsibilities
• How to customize the model to mimic your existing structure
• The meaning behind the oft-used “roles pyramid”
• Detailed responsibilities at each level of the organization
• Using the model to influence Data Governance acceptance
Real-World Data Governance Webinar: Data Governance Framework ComponentsDATAVERSITY
There are several basic components that go into delivering a successful and sustainable data governance program. Many of these framework items can be developed using tools you already own and without going to great expense. Organizations swear by the items that will be discussed in this webinar.
Join Bob Seiner for this month’s installment of the Real-World Data Governance series to learn about how to build and deliver immediate and future value from your Data Governance program through the delivery of items that will formalize accountability for the management of data and information assets.
Bob will discuss these core components:
Gaining Leadership’s backing and understanding
Best Practice Analysis leading to Recommended Actions
Operating Model of Roles & Responsibilities
Communications Plan to improve awareness
Action Plan / Roadmap to success
Balancing data democratization with comprehensive information governance: bui...DataWorks Summit
If information is the new oil, then governance is its “safety data sheet.” As demand for data as the raw material for competitive differentiation continues to rise in enterprises, enterprises are having bigger challenges identifying and valuing data and ensuring its appropriate use to extract the right information. In order for organizations to make effective business decisions, organizations need to have trust in their data so that they can impute the right value and use it for the right purposes while satisfying any organizational or regulatory mandates. A number of analytics and data science initiatives fail to reach their potential due to lack of an information governance framework in place. Robust information governance capabilities can help organizations develop trust in their data and empower them to make decisions confidently.
In this session Sanjeev Mohan, Research Analyst at Gartner, and Srikanth Venkat, Sr. Director of Product Management at Hortonworks, will walk you through an end-to-end architectural blueprint for information governance and best practices for helping organizations understand, secure, and govern diverse types of data in enterprise data lakes.
Speaker
Sanjeev Mohan, Gartner, Research Analyst
Srikanth Venkat, Hortonworks, Senior Director, Product Management
In this session Sanjeev Mohan, Research Analyst at Gartner, and Srikanth Venkat, Sr. Director of Product Management at Hortonworks, will walk you through an end-to-end architectural blueprint for information governance and best practices for helping organizations understand, secure, and govern diverse types of data in enterprise data lakes.
Presentation on Data Mesh: The paradigm shift is a new type of eco-system architecture, which is a shift left towards a modern distributed architecture in which it allows domain-specific data and views “data-as-a-product,” enabling each domain to handle its own data pipelines.
Every business today wants to leverage data to drive strategic initiatives with machine learning, data science and analytics — but runs into challenges from siloed teams, proprietary technologies and unreliable data.
That’s why enterprises are turning to the lakehouse because it offers a single platform to unify all your data, analytics and AI workloads.
Join our How to Build a Lakehouse technical training, where we’ll explore how to use Apache SparkTM, Delta Lake, and other open source technologies to build a better lakehouse. This virtual session will include concepts, architectures and demos.
Here’s what you’ll learn in this 2-hour session:
How Delta Lake combines the best of data warehouses and data lakes for improved data reliability, performance and security
How to use Apache Spark and Delta Lake to perform ETL processing, manage late-arriving data, and repair corrupted data directly on your lakehouse
Data Privatisation, Data Anonymisation, Data Pseudonymisation and Differentia...Alan McSweeney
This paper describes how technologies such as data pseudonymisation and differential privacy technology enables access to sensitive data and unlocks data opportunities and value while ensuring compliance with data privacy legislation and regulations.
The role of enterprise architecture in digital transformationDanny Greefhorst
Enterprise architecture and digital transformation are a great combination. Enterprise architecture provides a structured way to support your digital transformation. It enables you to translate your value proposition to the capabilities and enablers to support it. In provides integration of all relevant aspects; people, process, information and technology. It provides insight, supports planning and shows what is really important.
Generando Toma de Decisiones Inteligente con Microsoft Big DataJoseph Lopez
Big Data llama mucho la atención e interés de los tecnólogos así como a los usuarios de negocios por igual. Sin embargo pocas organizaciones pueden en realidad cosechar los beneficios de Big Data hoy porque las barreras para acceder a esta tecnología son todavía demasiado altas. Las herramientas de trabajo existentes (Microsoft Windows Server 2012 R2, Microsoft Azure, Microsoft SQL Server 2014, Microsoft Visual Studio 2014 - SQL Server Data Tools 2013 y Microsoft Office 2013) así como de terceros que son muy complejas y requieren a su vez, conocimientos profundos entre otros de Hadoop y Análisis de Datos que son en definitiva, la fuente de origen de todo. En esta sesión, les mostraré cómo Microsoft está democratizando Big Data para las masas. Microsoft permite administrar todos los datos de cualquier tipo o tamaño, enriquecer sus datos con los datos de todo el mundo y entregar conocimientos a todos los usuarios con herramientas conocidas como Excel.
Inteligencia de Negocio - Que Planeta es eso?Joseph Lopez
Qué es Inteligencia de Negocio? Qué conocimientos, habilidades y aptitudes se deberían conocer? Como comprender esta filosofía de Negocio? Cuales conocimientos se deberían tener a la hora de ejecutar un proyecto de esta índole? Qué habilidades y técnicas de comunicación deberíamos tener? Durante estaré guiándolos a comprender todas estas inquietudes.
Building The Modern Architecture of Hybrid Data for Big Data with Microsoft D...Joseph Lopez
The age of knowledge: Building the modern architecture of hybrid data for Big Data with Microsoft and Apache Hadoop Considering that knowledge is a value added for businesses today, in this exhibition show in a simple way as Microsoft and Hortonworks unite its efforts, in order to combine their data platforms ("Hortonworks Data Platform" and Microsoft: Windows, Office, SQL Server, Parallel Data Warehouse and Azure), to build with this, the modern architecture of data hybrid for Big Data.
Introducción a Power BI bajo escenarios empresariales híbridos con SQL Server...Joseph Lopez
Muchas de las empresas y corporaciones en la actualidad, se encuentran moviendo sus plataformas de datos a la nube a velocidades sin precedentes nunca antes vista, haciendo de esto para todos los que conformamos el ecosistema de IT Pro, DBA's y desarrolladores de soluciones empresariales, una fuente de investigación y estudio para desarrollar destrezas en el conocimiento de todas estas nuevas tecnologías a implementar en estos escenarios. En la presente conferencia les estaré a todos impartiendo los conceptos apropiados de como utilizar la Plataforma de Datos de Microsoft en estos contextos empresariales de manera simple y sencilla sin tanto tecnicismos ni vocabularios avanzados.
Big Data - Desarrollando soluciones efectivasJoseph Lopez
Como continuación a la presentación titulada "Introducción al mundo de las Bodegas de datos", esta presentación le explicará qué es Big Data y sus beneficios, incluyendo casos de uso. Así mismo, discutiremos cómo Hadoop, la nube y procesamiento masivamente paralelo (MPP) está cambiando la forma en los almacenes de datos se están construyendo. Hablaremos de arquitecturas híbridas que combinan datos in situ con datos en la nube, así como datos relacionales y no relacionales de datos (no estructurados). Veremos también los beneficios del MPP en SMP y cómo integrar datos desde dispositivos en la Internet (IoT). Aprenderemos también lo que debería verse como un almacén de datos moderno y cómo cuadra su papel de un mar de datos y Hadoop. Al finalizar esta exposición, tendremos una orientación sobre la mejor solución para el almacén de datos en el futuro.
Qué es Inteligencia de Negocios, Qué es Azure BI, Gestión de la Información, ETLs, Herramientas de Análisis, Visualización de la Información, BI Entrenamientos - iT Synergy
24 HOP edición Español - Patrones de escalalidad en microsoft azure sql datab...SpanishPASSVC
Esta es la charla que Eduardo Castro va a brindar el 4 de Diciembre en las 24 horas PASS en Español. Si no se ha registrado todavia esta a tiempo en el siguiente link: http://www.sqlpass.org/24hours/2014/spanish/Registro.aspx
AWS ofrece una gran variedad de servicios de base de datos que se adaptan a los requisitos de su aplicación. Los servicios de bases de datos están totalmente administrados y se pueden implementar en cuestión de minutos con tan solo unos clics.
https://aws.amazon.com/es/products/databases/
Una sencilla y simple exposición rápida de lo que es el servicio de las bases de datos NoSQL en Microsoft Azure "Azure DocumentDB" yéndonos desde las conceptualizaciones y cimientos conceptuales básicos hasta entender y validar como trabajar con modelo de datos JSON document para la creación de documentos repositorios así como de procedimientos almacenados en JavaScript como plataforma de servicio en Azure para con ellos, aplicarlos en las empresas de hoy. Estan tod@s cordialmente invitados a la misma.
Azure SQL Data Warehouse desde cada_anguloAdrian Miranda
Adjunto la presentación de la charla dada el 17 de mayo como parte del Capitulo Virtual de Pass en español. Pronto podrán ver el video en el canal de YouTube. También los invito a visitar el canal de BILATAM también en YouTube, donde pueden encontrar más videos sobre Azure, BI y bases de datos en general.
En lugar de aprovisionar grandes recursos para tu DW, Azure ofrece una versión especial de SQL Server como DataWarehouse. Si está familiarizado con el appliance APS, SQLDW en Azure viene a ser su versión como servicio. Usted crea su DW desde el portal de Azure y ya puede empezar a cargar datos y explotarlos. En esta sesión veremos cómo habilitar el servicio y cómo empezar a explotar SQLDW como tu DW en la nube.
Datawarehouse como servicio en Azure (sqldw)SolidQ
http://summit.solidq.com
En lugar de aprovisionar grandes recursos para tu DW, Azure ofrece una versión especial de SQL Server como DataWarehouse. Si está familiarizado con el appliance APS, SQLDW en Azure viene a ser su versión como servicio. Usted crea su DW desde el portal de Azure y ya puede empezar a cargar datos y explotarlos. En esta sesión veremos cómo habilitar el servicio y cómo empezar a explotar SQLDW como tu DW en la nube.
Presentación donde se habla sobre una implementación de DW on premises y en la nube, y también como Azure Data Factory nos ayuda en la integración de los datos.
Aplicando SQL Server 2016 en Microsoft Azure Virtual MachineJoseph Lopez
En la presente exposición mostrare las diversas caracteristicas que Microsoft Azure Virtual Machine nos ofrece a la hora de implementar una solución virtualizada bajo esta tecnología.
Conociendo Dynamic Data Masking en entornos de producción con SQL Server 2016...Joseph Lopez
Los datos siendo unos de los activos más importantes de la empresas de hoy, debemos tener el poder de mantenerlos seguros y disponibles en cualquier momento. Conocer los diferentes tipos de enmascaramientos asi como entender su funcionalidad y beneficios es una realidad absolutamente imprescindible para los que ejercen control de la seguridad de los datos. Durante la presente exposición, expondré desde las conceptualizaciones basicas de esta tecnología hasta las diferencias que existen entre los diversos metodos de aplicacion de enmascaramiento en escenarios reales tanto On-Premise asi como Cloud.
Conociendo los cambios de SQL Server a partir de 2012 a 2016Joseph Lopez
En la presente charla, les estare mostrando los cambios y mejoras mas relevantes que se generaron en el servidor de base de datos SQL Server de Microsoft a partir de la version 2012 hasta llegar a la version 2016 con faciles demostraciones para entender dichos cambios.
Aplicando Azure Search en Sistemas HibridosJoseph Lopez
Esta presentación es la introducción al mundo real de las búsquedas en Azure Search. Para comprender como construir un buen funcionamiento de búsqueda de un sitio web no es sencillo, ya que para lograr este objetivo se necesita planificación de índices de búsqueda, análisis de solución técnica y buen conocimiento sobre cómo los usuarios interactúan con la búsqueda. Azure Search es un servicio de búsqueda que permite buscar en los sitios web y otros sistemas independientemente donde se encuentre si en la misma plataforma Azure o en plataformas On-Premise, permitiendo consumir resultados de busquedas con el fin de ampliar el espectro de conocimiento de un escenario a tratar. Las demostraciones que mostrare como ejemplo se basan en un sencillo sitio web para husmear profundamente con Azure Search a la búsqueda de Azure y mostrar ampliamente cómo construir soluciones de búsqueda escalable y de gran alcance sobre el mismo.
Performance Tuning en Azure SQL DatabaseJoseph Lopez
Teniendo en cuenta que Azure SQL Database no es SQL Server primero que todo, podemos beneficiarnos de las distintivas diferencias que trae asi como de su funcionalidad para entornos de producción. En la presente exposición, les enseñare algunas de las nuevas herramientas y metodologías de trabajo disponibles, con el fin de que logremos ejecutar de manera óptima Azure SQL Database tan rápido como sea posible.
Tablas temporales en SQL Server 2016 y Azure SQL Database v12Joseph Lopez
En la presente exposición, les mostrare de forma sencilla a través de demostraciones reales sobre como debemos entender el concepto sobre tablas temporales, las también llamadas tablas versionadas por el sistema; como reciente caracteristica añadida al servidor SQL en su versión 2016 teniendo finalmente como resultado, el mantener automáticamente el historial de los datos en la tabla.
Recuperación ante desastres y continuidad del negocio con Azure SQL DatabaseJoseph Lopez
La continuidad de un negocio implica el diseño, la implementación y la ejecución de todas las aplicaciones que hoy en día sirven de operabilidad en las compañías bajo cualquier escenario de negocio, de manera que las mismas sean resistentes a los eventos de interrupción, planeados o no planeados, que provocan la pérdida permanente o temporal de la capacidad de cualquiera aplicación para realizar efectivamente su función empresarial. Entre los eventos no planeados se incluyen desde los errores humanos hasta las interrupciones permanentes o temporales, pasando por los desastres regionales que pueden provocar la pérdida a gran escala de la instalación en una determinada región de Azure. Los eventos planificados incluyen la reimplementación de la aplicación en una región diferente, la aplicación de actualizaciones de aplicaciones, etc. El objetivo de la continuidad del negocio es que su aplicación siga funcionando durante estos eventos con un impacto mínimo en la función empresarial que desempeña. En la presente sesión, estaré impartiendole de forma sencilla cuáles deberían ser las herramientas y sus respectivos tips para mantener en perfecto estado de ejecución, las bases de datos SQL Database en Azure de cualquier escalabilidad ante cualquier escenario de desastre.
En esta sesión, exploraremos las inversiones de todas las características referente a la tecnología In-Memory OLTP en Microsoft SQL Server tanto On-Premises así como en la nube, incluyendo el T-SQL Surface Area, Los Procedimientos Almacenados nativamente compilados, así como las mejoras en cuanto a escalabilidad entre muchas otras.
En la presente exposición, se estarán cubriendo todos los productos que bajo el producto Power BI, Microsoft no ofrece en la actualidad. La cual, resumiéndoles todos los productos involucrados mostraremos como funcionan en conjunto. Durante la presente sesión, les explicare y guiare a responder todas las interrogantes que se nos presenten en la vida real para con ellos, logran impartir a nuestros clientes un servicio mas efectivo a la hora de vender este productos en nuestros proyectos.
Sabes que es un almacén de datos? Por qué utilizarlo? Como crearlo? Que modelo utilizar, si normalizado o dimensional? Cual metodología, Kimball o Inmon? Que modelo de tablas? Almacén de datos o Data Mart. Infraestructura de Hardware. Big Data, la nueva moda empresarial. Durante esta sesión les explicare todas estas inquietudes.
Que es Microsoft Azure SQL Database? Que beneficio me impartirá el utilizarlo? Qué significa en la vida real PaaS? SQL Server en modelo PaaS! Cuales serían los pros y contras del modelo para aprovechar este ecosistema tecnológico. Durante esta les ayudare a responder todas estas inquietudes.
Configuring SharePoint Server 2013 environment for Business Intelligence Plat...Joseph Lopez
Configuring SharePoint 2013 for BI is not just clicking next in the configuration wizard but it needs some special attention with configuring service applications and of course we cannot forget about configuring Kerberos delegation.
We take a look at configuring PerformancePoint, PowerPivot, Reporting Services in SharePoint integrated mode and everything you need to know to successfully configure BI services.
Configurar su entorno SharePoint para Business IntelligenceJoseph Lopez
Las granjas de SharePoint tienen una gran variedad de formas y tamanhos, y dependen de multiples tecnologias de soporte, incluyendo SQL Server, Active Directory, Analysis Services y Reporting Services. Desafortunadamente, no todas las versiones de estas tecnologias, soportan las nuevas caracteristicas de inteligencia empresarial de SharePoint 2013 y Office 2013. En esta sesion, les expondre de forma simple los multiples escenarios de configuracion que podriamos disenhar para aprovechar al maximo TCO en BI ofrecidos en SharePoint y Office 2013. Utilizaremos tambien, a traves de demos, todo el contorno de servicios que son necesarios para utilizar el nuevo modelo tabular de datos y PowerView en Excel, as como cundo y donde se necesitaran PowerPivot y PowerPivot para SharePoint, y todo lo que deberan hacer en su granja para tomar ventaja de estas caracteristicas. Ademas, vamos a explorar algunos de las caracteristicas disponibles en PerformancePoint Services, y que configuraciones pueden ayudar a sacar lo mejor de este entorno. Finalmente, exploraremos algunas de las mejores practicas alrededor de configuracion de Reporting Services para SharePoint.
Instalando y configurando PowerPivot para SharePoint 2013 y SQL Server 2014Joseph Lopez
Debido a que la utilización de MS PowerPivot en los últimos años se ha incrementado significativamente, viendo así como más y más datos se agregan a SharePoint u otros sistemas de negocio, los usuarios de negocios están reconociendo el valor que tiene PowerPivot como una herramienta de análisis. MS SQL Server 2012 y MS SharePoint 2013 proporcionan una fantástica infraestructura para PowerPivot, pero la instalación y configuración de lo específicamente adaptados a su entorno pueden ser complicados, dependiendo de las necesidades de los usuarios empresariales. En esta presentación, primero vamos a recrear a través de una instalación de PowerPivot, una instancia de MS SQL Server Analysis Services 2012 en modo SharePoint, con lo cual mostraremos como segundo paso, cómo instalar y configurar PowerPivot en SharePoint incluyendo las opciones de configuración para la autenticación, la actualización de datos y los servicios de Excel (Excel Services).
Sinopsis avanzada sobre la tecnología de base de datos en memoria optimizado para mejorar el rendimiento de las cargas de trabajo OLTP. De manera general, introduciremos los tópicos sobre las tablas de memoria que se optimizan con el fin de accesar los datos eficientemente, libre de contención y procedimientos almacenados nativamente compilados para una ejecución eficaz de lógica de negocio.
MS SQL Server 2014 - In-Memory ColumnStore Index - Haciendo un almacén de datosJoseph Lopez
Las características "In Memory" es la tendencia más de perspectiva en el área de alto rendimiento. Los Índices de ColumnStore es uno de las tales características, y aún con sus limitaciones, pueden aceleran a veces sus consultas! ¿Cómo obtener más de esta característica? ¿En qué situaciones debemos usarlos? ¿Qué mecanismos internos ayudan a lograr eso? Usted puede obtener respuestas a estas y otras preguntas que se haya generado en algún momento en esta sesión.
Inteligencia Artificial y Ciberseguridad.pdfEmilio Casbas
Recopilación de los puntos más interesantes de diversas presentaciones, desde los visionarios conceptos de Alan Turing, pasando por la paradoja de Hans Moravec y la descripcion de Singularidad de Max Tegmark, hasta los innovadores avances de ChatGPT, y de cómo la IA está transformando la seguridad digital y protegiendo nuestras vidas.
Las lámparas de alta intensidad de descarga o lámparas de descarga de alta in...espinozaernesto427
Las lámparas de alta intensidad de descarga o lámparas de descarga de alta intensidad son un tipo de lámpara eléctrica de descarga de gas que produce luz por medio de un arco eléctrico entre electrodos de tungsteno alojados dentro de un tubo de alúmina o cuarzo moldeado translúcido o transparente.
lámparas más eficientes del mercado, debido a su menor consumo y por la cantidad de luz que emiten. Adquieren una vida útil de hasta 50.000 horas y no generan calor alguna. Si quieres cambiar la iluminación de tu hogar para hacerla mucho más eficiente, ¡esta es tu mejor opción!
Las nuevas lámparas de descarga de alta intensidad producen más luz visible por unidad de energía eléctrica consumida que las lámparas fluorescentes e incandescentes, ya que una mayor proporción de su radiación es luz visible, en contraste con la infrarroja. Sin embargo, la salida de lúmenes de la iluminación HID puede deteriorarse hasta en un 70% durante 10,000 horas de funcionamiento.
Muchos vehículos modernos usan bombillas HID para los principales sistemas de iluminación, aunque algunas aplicaciones ahora están pasando de bombillas HID a tecnología LED y láser.1 Modelos de lámparas van desde las típicas lámparas de 35 a 100 W de los autos, a las de más de 15 kW que se utilizan en los proyectores de cines IMAX.
Esta tecnología HID no es nueva y fue demostrada por primera vez por Francis Hauksbee en 1705. Lámpara de Nernst.
Lámpara incandescente.
Lámpara de descarga. Lámpara fluorescente. Lámpara fluorescente compacta. Lámpara de haluro metálico. Lámpara de vapor de sodio. Lámpara de vapor de mercurio. Lámpara de neón. Lámpara de deuterio. Lámpara xenón.
Lámpara LED.
Lámpara de plasma.
Flash (fotografía) Las lámparas de descarga de alta intensidad (HID) son un tipo de lámparas de descarga de gas muy utilizadas en la industria de la iluminación. Estas lámparas producen luz creando un arco eléctrico entre dos electrodos a través de un gas ionizado. Las lámparas HID son conocidas por su gran eficacia a la hora de convertir la electricidad en luz y por su larga vida útil.
A diferencia de las luces fluorescentes, que necesitan un recubrimiento de fósforo para emitir luz visible, las lámparas HID no necesitan ningún recubrimiento en el interior de sus tubos. El propio arco eléctrico emite luz visible. Sin embargo, algunas lámparas de halogenuros metálicos y muchas lámparas de vapor de mercurio tienen un recubrimiento de fósforo en el interior de la bombilla para mejorar el espectro luminoso y reproducción cromática. Las lámparas HID están disponibles en varias potencias, que van desde los 25 vatios de las lámparas de halogenuros metálicos autobalastradas y los 35 vatios de las lámparas de vapor de sodio de alta intensidad hasta los 1.000 vatios de las lámparas de vapor de mercurio y vapor de sodio de alta intensidad, e incluso hasta los 1.500 vatios de las lámparas de halogenuros metálicos.
Las lámparas HID requieren un equipo de control especial llamado balasto para funcionar
En este documento analizamos ciertos conceptos relacionados con la ficha 1 y 2. Y concluimos, dando el porque es importante desarrollar nuestras habilidades de pensamiento.
Sara Sofia Bedoya Montezuma.
9-1.
1. José Redondo
Microsoft SQL Server MVP | CEO EntornoDB | DPA SolidQ
redondoj@gmail.com | @redondoj | redondoj.wordpress.com
Introducción a
Microsoft Azure
SQL Data Warehouse
2. Expositor
• CEO de EntornoDB, USA
• Arquitecto de Datos – Especialista en Inteligencia de Negocio, Análisis de Datos y Big Data
• Desarrollador de aplicaciones de Escritorio, Web y Bases de Datos en .NET y Java
• Desarrollador y DBA en plataformas de datos Microsoft, SyBase, IBM y Oracle
• Conferencista en eventos tecnológicos de Microsoft y PASS en Latinoamérica y Estados Unidos
• SQL Server MCP - MSTS – MTA
• DPA SolidQ
• Contributing Technical Reviewer Packt Publishing
• Microsoft SQL Server MVP
4. • Análisis: La Tradicional "Bodega de datos" y La Moderna "Bodega de datos"
• Arquitectura: Microsoft APS (Analytics Platform System)
• Hadoop & PolyBase
• Performance y Escalabilidad
• Beneficios
• Resumen
• Preguntas y Respuestas
Agenda
6. Microsoft & Bodega de Datos
Parallel
Data Warehouse
v1
Data Allegro en Windows y SQL.
Primera aplicación de DW por
MSFT en colaboración con Dell
y HP
Microsoft Adquiere
Data Allegro
Empresas han consultado la
forma mas eficiente de llevar
MPP (Massively Parallel
Processing) al entorno de SQL
Server
Lanzamiento de
Fast Track
Data Warehouse
Arquitectura de referencia DW
basadas en las mejores
prácticas SMP DW (Symmetric
Multi-Processing Data
Warehousing) ofrecidas con los
principales socios de H/W
2008 2010 2011
7. Microsoft & Bodega de Datos
Azure SQL
Data Warehouse
Service
Introducción del servicio de
Azure SQL Data Warehouse
basado en las capacidades MPP
(Massively Parallel Processing)
de APS (Analytics Platform
System)
Parallel
Data Warehouse
v2
Producto rediseñado ofreciendo
nuevos factores de forma y una
mejor relación
Precio/Rendimiento.
Analytics Platform
System
(APS)
Introducción de Hadoop a la
región dentro de la aplicación y
nuevo nombramiento para
reflejar las más amplias
capacidades de Big Data
2013 2014 2015
8. APS y SQL DW: Estrategia Hibrida
APS (On-Premises)
14. Paralelismo
• Utiliza muchos CPU's separados en paralelo para ejecutar un solo programa
• Nada Compartido: Cada CPU tiene su propia memoria y disco (Scale-Out)
• Los Segmentos se comunican a través de la red de alta velocidad entre
Nodos
MPP -
Procesamiento en
Paralelo Masivo
• Múltiples CPU's solía completar distintos procesos simultáneamente
• Todas las CPU comparten la misma memoria, los discos y los controladores de
red (Scale-Up)
• Todas las implementaciones de SQL Server hasta ahora han sido SMP
• Sobre todo, la solución se encuentra en un SAN compartido
SMP -
Multiprocesamiento
Simétrico
16. Arquitectura lógica
Nodo “Control”
SQL
DMS
Nodo “Control” – La “Razón de Ser”
de SQL Data Warehouse
• También funciona con Azure SQL
Server DB
• Mantiene una copia del "Interprete
de comando o Shell" de cada base
de datos
• Metadatos, Estadísticas, etc.
• El "Rostro Público" de la Aplicación
17. Arquitectura lógica
Nodo “Compute”
Almacenamiento
BalanceadoSQL
DMS
Nodo “Compute”
Almacenamiento
BalanceadoSQL
DMS
Nodo “Compute”
Almacenamiento
BalanceadoSQL
DMS
Nodo “Compute”
Almacenamiento
BalanceadoSQL
DMS
Nodo de Computo - La "Abeja
Obrera" de SQL Data Warehouse
• Ejecuta Azure SQL Server DB
• Contiene una “Parte o Slice" de
cada base de datos
• CPU está saturado por el
almacenamiento
18. Arquitectura lógica
Data Movement Services (DMS)
• Parte del "Condimento secreto" de
SQL Data Warehouse
• Mueve los datos alrededor de su
contexto según sea necesario
• Permite operaciones paralelas entre
los nodos de cómputo (Consultas,
cargas, etc.)
Nodo “Compute”
Almacenamiento
BalanceadoSQL
Nodo “Compute”
Almacenamiento
BalanceadoSQL
Nodo “Compute”
Almacenamiento
BalanceadoSQL
DMS
Nodo “Compute”
Almacenamiento
BalanceadoSQL
DMS
DMS
DMS
20. Opciones de la capa de datos
Nodo “Compute”
Almacenamiento
BalanceadoSQL
Almacenamiento
Balanceado
Nodo “Compute”
SQL
Nodo “Compute”
SQL
Nodo “Compute”
SQL
DMS
DMS
DMS
DMS
Time Dim
Date Dim ID
Calendar Year
Calendar Qtr
Calendar Mo
Calendar Day
Store Dim
Store Dim ID
Store Name
Store Mgr
Store Size
Product Dim
Prod Dim ID
Prod Category
Prod Sub Cat
Prod Desc
Customer Dim
Cust Dim ID
Cust Name
Cust Addr
Cust Phone
Cust Email
Sales Fact
Date Dim ID
Store Dim ID
Prod Dim ID
Cust Dim ID
Qty Sold
Dollars Sold
T
D
P
D
S
D
C
D
T
D
S
D
T
D
P
D
S
D
C
D
T
D
S
D
SalesFact
Replicado
Tabla copiada a cada "Nodo Compute"
Distribuido
Publicación de la Tabla a través de los nodos de cómputo basado en el "Hash"
Esquema Estrella
Almacenamiento
Balanceado
Almacenamiento
Balanceado
P
D
C
D
P
D
C
D
21. Distribución de los datos
FactSales_
A
FactSales_
B
FactSales_
C
FactSales_
D
FactSales_
E
FactSales_
F
FactSales_
G
FactSales_
H
FactSales_
A
FactSales_
B
FactSales_
C
FactSales_
D
FactSales_
E
FactSales_
F
FactSales_
G
FactSales_
H
FactSales_
A
FactSales_
B
FactSales_
C
FactSales_
D
FactSales_
E
FactSales_
F
FactSales_
G
FactSales_
H
FactSales_
A
FactSales_
B
FactSales_
C
FactSales_
D
FactSales_
E
FactSales_
F
FactSales_
G
FactSales_
H
FactSales_
A
FactSales_
B
FactSales_
C
FactSales_
D
FactSales_
E
FactSales_
F
FactSales_
G
FactSales_
H
FactSales_
A
FactSales_
B
FactSales_
C
FactSales_
D
FactSales_
E
FactSales_
F
FactSales_
G
FactSales_
H
FactSales_
A
FactSales_
B
FactSales_
C
FactSales_
D
FactSales_
E
FactSales_
F
FactSales_
G
FactSales_
H
FactSales_
A
FactSales_
B
FactSales_
C
FactSales_
D
FactSales_
E
FactSales_
F
FactSales_
G
FactSales_
H
FactSales_
A
FactSales_
B
FactSales_
C
FactSales_
D
FactSales_
E
FactSales_
F
FactSales_
G
FactSales_
H
FactSales_
A
FactSales_
B
FactSales_
C
FactSales_
D
FactSales_
E
FactSales_
F
FactSales_
G
FactSales_
H
FactSales_
A
FactSales_
B
FactSales_
C
FactSales_
D
FactSales_
E
FactSales_
F
FactSales_
G
FactSales_
H
FactSales_
A
FactSales_
B
FactSales_
C
FactSales_
D
FactSales_
E
FactSales_
F
FactSales_
G
FactSales_
H
FactSales_
A
FactSales_
B
FactSales_
C
FactSales_
D
FactSales_
E
FactSales_
F
FactSales_
G
FactSales_
H
FactSales_
A
FactSales_
B
FactSales_
C
FactSales_
D
FactSales_
E
FactSales_
F
FactSales_
G
FactSales_
H
FactSales_
A
FactSales_
B
FactSales_
C
FactSales_
D
FactSales_
E
FactSales_
F
FactSales_
G
FactSales_
H
FactSales_
A
FactSales_
B
FactSales_
C
FactSales_
D
FactSales_
E
FactSales_
F
FactSales_
G
FactSales_
H
FactSales_
A
FactSales_
B
FactSales_
C
FactSales_
D
FactSales_
E
FactSales_
F
FactSales_
G
FactSales_
H
FactSales_
A
FactSales_
B
FactSales_
C
FactSales_
D
FactSales_
E
FactSales_
F
FactSales_
G
FactSales_
H
Nodo Control
…Nodo Compute 1 Nodo Compute 2 Nodo Compute X
Envia Create Table SQL a cada “Nodo Compute”
Create Table FactSales_A
Create Table FactSales_B
Create Table FactSales_C
……
Create Table FactSales_H
FactSalesA
FactSalesB
FactSalesC
FactSalesD
FactSalesE
FactSalesF
FactSalesG
FactSalesH
FactSalesA
FactSalesB
FactSalesC
FactSalesD
FactSalesE
FactSalesF
FactSalesG
FactSalesH
FactSalesA
FactSalesB
FactSalesC
FactSalesD
FactSalesE
FactSalesF
FactSalesG
FactSalesH
La metadata del Create
Table en el Nodo Control
CREATE TABLE FactSales
(
ProductKey INT NOT NULL ,
OrderDateKey INT NOT NULL ,
DueDateKey INT NOT NULL ,
ShipDateKey INT NOT NULL ,
ResellerKey INT NOT NULL ,
EmployeeKey INT NOT NULL ,
PromotionKey INT NOT NULL ,
CurrencyKey INT NOT NULL ,
SalesTerritoryKey INT NOT NULL ,
SalesOrderNumber VARCHAR(20) NOT NULL,
) WITH
(
DISTRIBUTION = HASH(ProductKey),
CLUSTERED INDEX(OrderDateKey) ,
PARTITION
(OrderDateKey RANGE RIGHT FOR VALUES
( 19950601,
19950901,
) ) );
22. APS
Balanceo equilibrado
de carga entre
servidores
Tablas mas grandes 600,000,000,000
Distribuidos aleatoriamente entre 40 nodos de cómputo (5 racks) 15,000,000,000
En cada servidor aleatoriamente distribuido en 8 tablas (Por consiguiente
hasta 320 tablas en total)
1,875,000,000
Cada partición = 2 años de datos particionados por semana (Beneficiando
todas las consultas por fecha)
18,028,846
23. APS
Balanceo equilibrado de carga entre servidores
Como un usuario final o un DBA que piensa en 1 tabla.
Ejemplo: LineItem.
“SELECT * FROM LineItem” está dividido en 320
consultas en paralelo contra 320 (1.875 billones de
registros) tablas.
“SELECT * FROM LineItem WHERE OrderDate =
‘1/1/2012’" son 320 consultas en 320 (18 millones de
registros) tablas.
Es totalmente irrelevante el saber que en realidad existan
320 tablas que representan 1 tabla lógica.
CCI (Clustered Columnstore Index) puede agregar mayor
rendimiento mediante la eliminación del segmento.
24. Introduciendo el Servicio Azure SQL DW
Un almacén de datos relacionales "as-a-service",
totalmente gestionado por Microsoft.
La primera empresa con servicios flexible de
almacenamiento de datos en la nube con
capacidades de nivel empresarial.
Soporte a su más pequeñas necesidades de
almacenamiento de datos más grandes durante la
gestión de consultas hasta 100 veces más rápido.
26. Desplegar rápidamente y obtener una visión
Ship Disks
Azure Storage
HDInsight
Herramientas
de migración
Todos los Tipos de
Datos Analíticos con
Power BI + ML
27. Flexibilidad en tiempo real
• Produzca alternativas de grandes cargas
de trabajo, generando períodos bajos de
actividad diaria.
• Obtenga tiempo de visualizar
requerimientos basado en lo que usted
necesita, cuando usted lo necesita.
• Elija el combo de cálculo y
almacenamiento de información que
satisfaga sus necesidades.
29. Cuando está en Pausa, Pague sólo por
Almacenamiento
Utilícelo sólo cuando lo necesite, sin recargar o
restaurar datos
Ahorre costos con paradas dinámicas y reinicios inmediatos
• Cuando está en pausa, el almacenamiento en la nube a
gran escala es de costo mínimo.
• Basado en políticas (Es decir, noches y fines de semana)
• Automatice mediante PowerShell & REST API
• Los datos permanecen en su lugar
30. SQL DW:
Desarrollado sobre SQL DB Foundation
Flexible
Escalabilidad a Petabytes
Optimizado para DW
99.99% de tiempo de actividad SLA*
Geo-Restauración
Cumplimiento de normas en Azure
(ISO, HIPAA, EU, etc.)
Verdadera Experiencia SQL Server
Magnificas herramientas de trabajo
SQL DW
SQL DB
Niveles de servicio
* Service Level Agreement - Acuerdo de nivel de servicio
31. Unidad de Almacenamiento de Datos (DWU)
Basta con adquirir el rendimiento que se necesitan en las consultas, no solo de
hardware
Cuantificados mediante objetivos de volumen de trabajo: cómo rápidamente las
filas de registros son escaneadas, cargadas, copiadas, etc.
Medidas de Poder
Transparencia
Primer servicio de DW para ofrecer potencia de cálculo bajo demanda,
independientemente de almacenamiento a requerir.
Bajo Demanda
32. Unidad de Almacenamiento de Datos (DWU)
*
100 DWU = 297 seg
400 DWU = 74 seg
800 DWU = 37 seg
1,600 DWU = 19 seg
*
Velocidad de Lectura 3.36M reg/seg
Tasa de Carga 130K reg/seg
Table Copy Rate 350K reg/seg
*
34. Qué es Hadoop?
34
Core Services
OPERATIONAL
SERVICES
DATA
SERVICES
HDFS
SQOOP
FLUME
NFS
LOAD &
EXTRACT
WebHDFS
OOZIE
AMBARI
YARN
MAP
REDUCE
HIVE &
HCATALOG
PIG
HBASEFALCON
Hadoop Cluster
compute
&
storage . . .
. . .
. .
compute
&
storage
.
.
Hadoop Clusters proporcionan
almacenamiento de
escalabilidad horizontal y
procesamiento de datos
distribuido en el hardware en
cada uno de los servicios
básicos
.
.
.
35. Qué es Hadoop?
Distribuido, Sistema Escalable en
componentes de Hardware
Compuesto de unas pocas partes:
HDFS – Sistema Distribuido de
Archivos
MapReduce – Modelo de
Programación
Otras herramientas: Hive, Pig, SQOOP,
HCatalog, HBase, Flume, Mahout,
YARN, Tez, Spark, Stinger, Oozie,
ZooKeeper, Flume, Storm
36. Qué es Hadoop?
Los principales actores son
Hortonworks, Cloudera, MapR
ADVERTENCIA: Hadoop es ideal
para el procesamiento de grandes
volúmenes de datos PERO es
insuficiente para el análisis de los
datos en tiempo real (Las
empresas hacen análisis de lotes
en su lugar)
37. Consulta de datos no estructurados mediante
Polybase/T-SQL
Instancia SQL DW
Escalabilidad de computo
Hadoop VMs /
Azure StoragePolyBase
38. Consulta de datos no estructurados mediante
Polybase/T-SQL
• Permite capacidades de consultar a través
de distribuciones de Hadoop comunes
(HDP y Cloudera) y formatos de archivo de
Hadoop en Azure Storage.
• Permite el aprovechamiento de las
habilidades de SQL existentes y
herramientas de BI
• Soporta múltiples formatos de archivo no
relacionales
• Mejora el ciclo de conocimiento y
conceptualización de ideas y generación
de ETL simplificado
Polybase para consultar y administrar datos no relacionales de Hadoop y datos relacionales
39. Consultar datos Hadoop con T-SQL
utilizando PolyBase
Reunir a todos los paradigmas de
almacenamiento o Big Data y a los
repositorios de datos en conjunto para
los usuarios finales e IT
Select… Result set
SQL DW
Cloudera CHD Linux 4.6
Hortonworks HDP 2.1
(Windows, Linux)
Windows Azure
HDInsight (HDP 2.1)
(HDFS)
PolyBase
SQL DW
Otros (SQL Server, DB2,
Oracle)?
Verdaderos motores de
consultas federadas
Windows Azure Storage-Blob
(WASB)
40. Consultar datos Hadoop con T-SQL utilizando
PolyBase
Reunir a todos los paradigmas de almacenamiento o Big Data y a los repositorios de datos
en conjunto para los usuarios finales e IT
• Proporciona un modelo único de consulta T-SQL
("Capa semántica") para APS y Hadoop con ricas
características de T-SQL, incluyendo uniones sin
ETL
• Utiliza el poder del MPP para mejorar el
rendimiento de ejecución de consultas
• Compatible con Windows Azure HDInsight para
habilitar nuevos escenarios de nube híbrida
• Proporciona la capacidad de consulta de las
distribuciones de Hadoop no Microsoft, como
Hortonworks y Cloudera
• Usar habilidades SQL existente, sin intervención
de personal IT
41. Use cases where PolyBase
simplifies using Hadoop data
Bringing islands of Hadoop data together
High performance queries against Hadoop data
(Predicate pushdown)
Archiving data warehouse data to Hadoop (move)
(Hadoop as cold storage)
42. Los casos de uso donde
PolyBase simplifica los datos
utilizando Hadoop
Recopilar todos los escollos de datos Hadoop
Exportación datos relacionales a Hadoop (Copia)
(Hadoop como Copia de seguridad,
Análisis, Uso On-Premise)
Importación de datos Hadoop dentro del data warehouse
(Copia)
(Hadoop como área Staging, Sandbox,
Data Lake)
43. Comprendiendo Big Data para cualquier
persona
Integración nativa de Microsoft BI para crear nuevos competencias con herramientas
conocidas
Herramientas
como Power BI
reduce al mínimo
la intervención
para descubrir
datos
T-SQL para DBA
y Usuarios para
unirse a datos
relacionales y
Hadoop
Herramientas
Hadoop como
Map-Reduce,
Hive y Pig para
Data Scientists
Aprovecha alta
adopción de
Excel, Power
View, Power Pivot
y SSSA
44. Usuarios Finales
Data Scientist
Todo el mundo utilizando
herramientas de Microsoft BI
Comprendiendo Big Data para cualquier
persona
Integración nativa de Microsoft BI para crear nuevos competencias con herramientas
conocidas
45. Tecnologías de escalabilidad en SQL Data Warehouse
Procesamiento Paralelo Masivo (MPP)
paraleliza las consultas (No basada en la
capacidad impulsada por velocidad)
Múltiples nodos con CPU dedicada,
memoria, almacenamiento "No
compartido"
Añade incrementalmente Hardware para
la escala casi lineal al multi-PB (No es
necesario eliminar los datos más
antiguos entre otros)
Maneja escalablemente la complejidad
de las consultas y las concurrencia a las
mismas
46. No "Forklift" del almacén antes
de aumentar la capacidad
Comenzar con unos almacenes
de tamaño de Terabyte
Soporte mixto para la carga de
trabajo: Consulta mientras se
carga (250GB/hora por nodo).
No hay necesidad de activar una
ventana de mantenimiento
Tecnologías de escalabilidad en SQL Data Warehouse
48. MPP y In-Memory Columnstore para un rendimiento de próxima generación
Representación del índice de Columnstore
C1 C3 C5C4C2 C6
Ejecución de consultas en paralelo
Query
Resultados
49. iento
MPP y In-Memory Columnstore para un
rendimiento de próxima generación
• Almacenar datos en formato de
columnas para la compresión masiva
• Cargar datos dentro o fuera de la
memoria para un rendimiento de
próxima generación
• Actualizable y agrupado para carga
lenta en tiempo real
• No hay índices secundarios requeridos
Consultas más rápidas
de hasta 100x
Columnstore agrupados actualizable vs. Tablas con indexación habitual
Hasta compresión
de mas de 15x
50. Resultados de los Servicios de Negocios de la
Empresa antes y después
SMP vs. APS
54x
de mejora
cargando datos
(48 horas vs. 53
minutos)
25x, 193x, de
mejora en la
ejecución de las
consultas (4 días
y 6 horas vs. 32
minutos)
51. 1.4 TB/hr tiempo
de carga (7
billones de
registros) (1.21TB
en 53:20)
Con las misma
herramientas de
trabaja de
Microsoft BI
conocidas
Resultados de los Servicios de Negocios de la
Empresa antes y después
SMP vs. APS
52. Las DWU serán
de doble
rendimiento
9.4x
compresión (7
billones de
registros) (De
1.7TB a 179GB)
Resultados de los Servicios de Negocios de la
Empresa antes y después
SMP vs. APS
53. Visión y Arquitectura general del flujo de datos
Stream Analytics
TransformaciónCapturar
Web logs
Presentación &
Toma de decisiones
IoT, Dispositivos
móviles, etc.
Social Data
Event Hubs HDInsight
Azure Data
Factory
Azure SQL DB
Azure Blob Storage
Azure Machine
Learning
(Detección de
Fraude, etc.)
Power BI
Web
dashboards
Dispositivos móviles
DW /
Almacenamiento a
Largo Plazo
Análisis Predictivo
Eventos &
Producción de
datos
Azure SQL DW
54. Llevar fácilmente tu DW a la nube
• Migración transparente de una
variedad de orígenes On-Premise y
Cloud
• Carga rápida, coherente y estable para
la migración
• Herramientas de migración integradas
con soporte para todos las cargas de
trabajo
56. Migración SQL Data Warehouse Services - Detalles
1. Acelerador de Migración
2. Importar/Exportar
3. ExpressRoute/Herramientas de Carga
57. Opciones de Carga de Datos
• Gran ecosistema de potentes herramientas
ETL
• Cargar directamente de una variedad de
fuentes de orígenes
• Cargas de forma transparente paralelizados
• Estabilidad y consistencia garantizada
58. Ecosistema de socios muy bien extensible de
SQL Server
+ Establecido con Azure ML, HDInsight,
PowerBI, ADF, y mas.
+ El Ecosistema más amplio de la industria de
los socios de Data Warehouse, incluyendo
Tableau, Informatica, Attunity, y SAP. Azure ML
Azure Event Hub
Azure Stream
Analytics
Azure
HDInsight
Power BI
Microsoft
59. Ecosistema de socios muy bien extensible de
SQL Server
Despliegue optimizado con el Portal de
Azure.
Integración profunda con las herramientas
de los principales socios incluyendo:
• Configuración con un solo clic
• Movimiento de datos optimizado
• Pushdown lógico
Azure SQL DW
60. Líder en el mercado Precio/Rendimiento
• La mejor oferta del mercado
Precio/Rendimiento
• Ventajas en elasticidad y pausa
para reducir costos al cliente
• Iniciando con pequeño SQL
DW, pudiendo crecer a PB
rápidamente sin inconveniente
alguno
• Pagar por el rendimiento
mediante la ampliación de
cómputo contra el
almacenamiento 100GB 1TB 2TB 1+PB
Performance
64. Ejemplo de Análisis
Descriptivo: ¿Cuántos de nuestros
clientes persisten en el último
mes? ¿Cuántos de estos clientes
son rentable?
Diagnostico: Por qué dejaron
estos clientes el ser rentables??
Predictivo: Cuántos clientes
rentables son propensos a dejar
el mes que viene?
Prescriptivo: Cómo podemos
reducir esta tasa de rotación de
clientes rentables?
65. Copia de seguridad automática y Geo-Restore
Recuperarse de eliminación de datos o la alteración o desastre
Geo-Replicado
Restauración desde
las copias de
seguridad
SQL Data Warehouse
Backups
sabcp01bl21
Azure Storage
sabcp01bl21
66. Copias de seguridad automática cada
4 horas, en el Azure Storage
("Recuperación de desastres") y Geo-
Replicado ("alta disponibilidad")
Copias de seguridad On-Demand en
Azure Storage donde el usuario final
puede habilitar la Geo-Replicación
REST API, PowerShell o El Portal de
Azure
Exportaciones programadas para la
retención a largo plazo
Copia de seguridad automática y Geo-Restore
Recuperarse de eliminación de datos o la alteración o desastre
67. Copia de Seguridad y Restauración en
línea basado en copias instantáneas de
almacenamiento
Política de retención de Copias de
Seguridad:
• Copia de Seguridad automáticas
hasta 35 días
• Copias de seguridad bajo demanda
retenidas indefinidamente
Copia de seguridad automática y Geo-Restore
Recuperarse de eliminación de datos o la alteración o desastre
69. Menos mantenimiento y monitoreo del DBA
• No hay creación de índice
• No hay datos eliminados o archivados
para ahorrar espacio
• Simplicidad de gestión (System Center,
Consola de Administración, DMVs)
• Sin bloqueo
• Sin registros de transacciones
• Sin sugerencias de consulta
• Sin estados de espera
• Sin tuning de IO
70. Menos mantenimiento y monitoreo del DBA
• No hay optimización de consulta /
Tuning
• No hay índice para reorganizarlos /
reconstruirlos
• No particiones
• No hay grupos de archivos que
gestionan
• No hay bases de datos para
contraer o expandir
• No hay gestión de servidores físicos
• No hay servidores y software de
parchado
RESULTADO: DBA invierten más de su
tiempo como arquitectos y no
perdedera de tiempo en tonterías!
71. Mejor juntos – SQL DW
con APS
SQL Server
Parallel Data
Warehouse
Microsoft
HDInsight
(Hadoop)
PolyBase
Azure ML
Azure Event Hub
Azure HDInsight
SQL DW Service
Analytics Platform System
72. Mejor juntos – SQL DW con APS
Utilizar el servicio de SQL DW o APS
como su solución de recuperación
ante desastres con carga Dual
Recuperación
de Desastres
Los Datos Históricos al Servicio de SQL
DW pero manteniendo completo el
poder de MPP en ejecución
Datos
Históricos
Restricciones y
políticas de las
Empresas
Pruebas /
Desarrollo o
Producción
Almacenar datos en APS que la política
de la empresa prohíbe estar en la nube
Poner a prueba nuevas ideas en el
servicio de SQL DW antes de salir a
producción en APS
73. Lo que esta por venir…
Verano 2015
Preview Publica
• Pausada y Reanudada Dinámica
• Integración con la Plataforma de Servicio de Azure
(CloudML, ADF, HDInsight, SQL-IP)
• Integración con todo el ecosistema de los Partners de
SQL Server
• Geo-Restauración
• Servicio o Aplicación híbrida
• PolyBase para la integración a Big Data
• T-SQL preparado para las empresas
• Primera ola de socio certificados en SQL
A finales 2015/ A comienzo
2016
Acuerdo a esperar
• Certificado ISO, PCI
• Clausula de Modelo HIPAA, BAA, &
EU
Acuerdo de Nivel de Servicio
• 99.99% SLA