En es presentación vemos las herramientas con las cuales cuenta un científico de datos con tecnología Microsoft y también con tecnología OpenSource es se puede integrar con Plataformas Microsoft en la nube con Azure o con Servidores OnPremises.
Saludos,
Ing. Eduardo Castro, PhD
Microsoft SQL Server MVP
Costa Rica
Sistemas de Informações - Aula 16: BI, BA e Big DataMarcus Araújo
Apresentação referente à 16ª aula da disciplina Sistemas de Informações do curso de graduação em Administração da Universidade Federal de Pernambuco, conduzida pelo Prof. MSc. Marcus Araújo.
En el último año, Big Data se ha transformado en uno de los pilares más importantes de la estrategia de negocio de los Bancos de Chile y el mundo. En un entorno cada vez más competitivo y con altos niveles de regulación, las organizaciones deben comenzar a tomar decisiones en función de los datos y no de la intuición. Para tomar dichas decisiones, se vuelve necesario procesar grandes volúmenes de información de manera eficiente, incorporando nuevas fuentes de datos y automatizando las decisiones a través de algoritmos analíticos avanzados. Durante esta presentación, analizaremos qué deben hacer los Bancos para transformar su arquitectura de datos tradicional, en una arquitectura de datos moderna con soporte para big data y así estar preparados para abordar los nuevos desafíos que plantea la transformación digital del negocio financiero.
The Future of Data Science and Machine Learning at Scale: A Look at MLflow, D...Databricks
Many had dubbed 2020 as the decade of data. This is indeed an era of data zeitgeist.
From code-centric software development 1.0, we are entering software development 2.0, a data-centric and data-driven approach, where data plays a central theme in our everyday lives.
As the volume and variety of data garnered from myriad data sources continue to grow at an astronomical scale and as cloud computing offers cheap computing and data storage resources at scale, the data platforms have to match in their abilities to process, analyze, and visualize at scale and speed and with ease — this involves data paradigm shifts in processing and storing and in providing programming frameworks to developers to access and work with these data platforms.
In this talk, we will survey some emerging technologies that address the challenges of data at scale, how these tools help data scientists and machine learning developers with their data tasks, why they scale, and how they facilitate the future data scientists to start quickly.
In particular, we will examine in detail two open-source tools MLflow (for machine learning life cycle development) and Delta Lake (for reliable storage for structured and unstructured data).
Other emerging tools such as Koalas help data scientists to do exploratory data analysis at scale in a language and framework they are familiar with as well as emerging data + AI trends in 2021.
You will understand the challenges of machine learning model development at scale, why you need reliable and scalable storage, and what other open source tools are at your disposal to do data science and machine learning at scale.
Every business today wants to leverage data to drive strategic initiatives with machine learning, data science and analytics — but runs into challenges from siloed teams, proprietary technologies and unreliable data.
That’s why enterprises are turning to the lakehouse because it offers a single platform to unify all your data, analytics and AI workloads.
Join our How to Build a Lakehouse technical training, where we’ll explore how to use Apache SparkTM, Delta Lake, and other open source technologies to build a better lakehouse. This virtual session will include concepts, architectures and demos.
Here’s what you’ll learn in this 2-hour session:
How Delta Lake combines the best of data warehouses and data lakes for improved data reliability, performance and security
How to use Apache Spark and Delta Lake to perform ETL processing, manage late-arriving data, and repair corrupted data directly on your lakehouse
Real-World DG Webinar: A Data Governance Framework for Success DATAVERSITY
A Data Governance Framework must include best practices, a practical set of roles & responsibilities for Data Governance built specifically for your organization, a plan for communicating with the entire organization and an action plan for applying governance in effective and measurable ways.
Join Bob Seiner for this Real-World Data Governance webinar as he discusses how to stay practical and work within the culture of your organization to develop and deliver a Data Governance Framework to meet your specifications and the business’ expectations.
This session will focus on:
Defining a Non-Invasive Operating Model of Roles & Responsibilities
Clearly Stating the Difference between Executive, Strategic, Tactical, Operational & Supporting Roles
Defining Data Stewards, Data Stewardship and How to Steward the Data
Recognizing & Identifying People into Roles Rather than Handing them to People as New Responsibilities
Leveraging the Framework to Implement a Successful Data Governance Program
My Talk at GCPUG-Taiwan on 2015/5/8.
You use BigQuery with SQL, but the internal work of BigQuery is very different from traditional Relational Database systems you may familiar with.
One of the way to understand how BigQuery works is to see it from the cost you pay for BigQuery. Knowing how to save money while using BigQuery is to know how BigQuery works to some extent.
In this session, let’s talk about practical knowledge (saving money) and exciting technology (how BigQuery works)!
Best Practices in DataOps: How to Create Agile, Automated Data PipelinesEric Kavanagh
Synthesis Webcast with Eric Kavanagh and Tamr
DataOps is an emerging set of practices, processes, and technologies for building and automating data pipelines to meet business needs quickly. As these pipelines become more complex and development teams grow in size, organizations need better collaboration and development processes to govern the flow of data and code from one step of the data lifecycle to the next – from data ingestion and transformation to analysis and reporting.
DataOps is not something that can be implemented all at once or in a short period of time. DataOps is a journey that requires a cultural shift. DataOps teams continuously search for new ways to cut waste, streamline steps, automate processes, increase output, and get it right the first time. The goal is to increase agility and cycle times, while reducing data defects, giving developers and business users greater confidence in data analytic output.
This webcast examines how organizations adopt DataOps practices in the field. It will review results of an Eckerson Group survey that sheds light on the rate and scope of DataOps adoption. It will also describe case studies of organizations that have successfully implemented DataOps practices, the challenges they have encountered and benefits they’ve received.
Tune into our webcast to learn:
- User perceptions of DataOps
- The rate of DataOps adoption by industry and other demographic variables
- DataOps adoption by technique and component (i.e., agile, test automation, orchestration, continuous development/continuous integration)
- Key challenges organizations face with DataOps
- Key benefits organizations experience with DataOps
- Best practices in doing DataOps
- Case studies and anecdotes of DataOps at companies
Sistemas de Informações - Aula 16: BI, BA e Big DataMarcus Araújo
Apresentação referente à 16ª aula da disciplina Sistemas de Informações do curso de graduação em Administração da Universidade Federal de Pernambuco, conduzida pelo Prof. MSc. Marcus Araújo.
En el último año, Big Data se ha transformado en uno de los pilares más importantes de la estrategia de negocio de los Bancos de Chile y el mundo. En un entorno cada vez más competitivo y con altos niveles de regulación, las organizaciones deben comenzar a tomar decisiones en función de los datos y no de la intuición. Para tomar dichas decisiones, se vuelve necesario procesar grandes volúmenes de información de manera eficiente, incorporando nuevas fuentes de datos y automatizando las decisiones a través de algoritmos analíticos avanzados. Durante esta presentación, analizaremos qué deben hacer los Bancos para transformar su arquitectura de datos tradicional, en una arquitectura de datos moderna con soporte para big data y así estar preparados para abordar los nuevos desafíos que plantea la transformación digital del negocio financiero.
The Future of Data Science and Machine Learning at Scale: A Look at MLflow, D...Databricks
Many had dubbed 2020 as the decade of data. This is indeed an era of data zeitgeist.
From code-centric software development 1.0, we are entering software development 2.0, a data-centric and data-driven approach, where data plays a central theme in our everyday lives.
As the volume and variety of data garnered from myriad data sources continue to grow at an astronomical scale and as cloud computing offers cheap computing and data storage resources at scale, the data platforms have to match in their abilities to process, analyze, and visualize at scale and speed and with ease — this involves data paradigm shifts in processing and storing and in providing programming frameworks to developers to access and work with these data platforms.
In this talk, we will survey some emerging technologies that address the challenges of data at scale, how these tools help data scientists and machine learning developers with their data tasks, why they scale, and how they facilitate the future data scientists to start quickly.
In particular, we will examine in detail two open-source tools MLflow (for machine learning life cycle development) and Delta Lake (for reliable storage for structured and unstructured data).
Other emerging tools such as Koalas help data scientists to do exploratory data analysis at scale in a language and framework they are familiar with as well as emerging data + AI trends in 2021.
You will understand the challenges of machine learning model development at scale, why you need reliable and scalable storage, and what other open source tools are at your disposal to do data science and machine learning at scale.
Every business today wants to leverage data to drive strategic initiatives with machine learning, data science and analytics — but runs into challenges from siloed teams, proprietary technologies and unreliable data.
That’s why enterprises are turning to the lakehouse because it offers a single platform to unify all your data, analytics and AI workloads.
Join our How to Build a Lakehouse technical training, where we’ll explore how to use Apache SparkTM, Delta Lake, and other open source technologies to build a better lakehouse. This virtual session will include concepts, architectures and demos.
Here’s what you’ll learn in this 2-hour session:
How Delta Lake combines the best of data warehouses and data lakes for improved data reliability, performance and security
How to use Apache Spark and Delta Lake to perform ETL processing, manage late-arriving data, and repair corrupted data directly on your lakehouse
Real-World DG Webinar: A Data Governance Framework for Success DATAVERSITY
A Data Governance Framework must include best practices, a practical set of roles & responsibilities for Data Governance built specifically for your organization, a plan for communicating with the entire organization and an action plan for applying governance in effective and measurable ways.
Join Bob Seiner for this Real-World Data Governance webinar as he discusses how to stay practical and work within the culture of your organization to develop and deliver a Data Governance Framework to meet your specifications and the business’ expectations.
This session will focus on:
Defining a Non-Invasive Operating Model of Roles & Responsibilities
Clearly Stating the Difference between Executive, Strategic, Tactical, Operational & Supporting Roles
Defining Data Stewards, Data Stewardship and How to Steward the Data
Recognizing & Identifying People into Roles Rather than Handing them to People as New Responsibilities
Leveraging the Framework to Implement a Successful Data Governance Program
My Talk at GCPUG-Taiwan on 2015/5/8.
You use BigQuery with SQL, but the internal work of BigQuery is very different from traditional Relational Database systems you may familiar with.
One of the way to understand how BigQuery works is to see it from the cost you pay for BigQuery. Knowing how to save money while using BigQuery is to know how BigQuery works to some extent.
In this session, let’s talk about practical knowledge (saving money) and exciting technology (how BigQuery works)!
Best Practices in DataOps: How to Create Agile, Automated Data PipelinesEric Kavanagh
Synthesis Webcast with Eric Kavanagh and Tamr
DataOps is an emerging set of practices, processes, and technologies for building and automating data pipelines to meet business needs quickly. As these pipelines become more complex and development teams grow in size, organizations need better collaboration and development processes to govern the flow of data and code from one step of the data lifecycle to the next – from data ingestion and transformation to analysis and reporting.
DataOps is not something that can be implemented all at once or in a short period of time. DataOps is a journey that requires a cultural shift. DataOps teams continuously search for new ways to cut waste, streamline steps, automate processes, increase output, and get it right the first time. The goal is to increase agility and cycle times, while reducing data defects, giving developers and business users greater confidence in data analytic output.
This webcast examines how organizations adopt DataOps practices in the field. It will review results of an Eckerson Group survey that sheds light on the rate and scope of DataOps adoption. It will also describe case studies of organizations that have successfully implemented DataOps practices, the challenges they have encountered and benefits they’ve received.
Tune into our webcast to learn:
- User perceptions of DataOps
- The rate of DataOps adoption by industry and other demographic variables
- DataOps adoption by technique and component (i.e., agile, test automation, orchestration, continuous development/continuous integration)
- Key challenges organizations face with DataOps
- Key benefits organizations experience with DataOps
- Best practices in doing DataOps
- Case studies and anecdotes of DataOps at companies
Implementing the Data Maturity Model (DMM)DATAVERSITY
The Data Management Maturity (DMM) model is a framework for the evaluation and assessment of an organization’s Data Management capabilities. This model—based on the Capability Maturity Model pioneered by the U.S. Department of Defense for improving software development processes—allows an organization to evaluate its current-state Data Management capabilities, discover gaps to remediate, and identify strengths to leverage. In doing so, this assessment method reveals organizational priorities, business needs, and a clear path for rapid process improvements.
In this webinar, we will:
Describe the DMM model, its purpose and evolution, and how it can be used as a roadmap for assessing and improving organizational Data Management and Data Management Maturity
Discuss how to get the most out of a DMM assessment, including its dependencies and requirements for use
Discuss foundational DMM concepts based on “The DAMA Guide to the Data Management Body of Knowledge” (DAMA DMBOK)
Planeación de Ventas y Operaciones / Sales & Operations Planning (S&OP)Israel Villarello
Sales & Operations Planning (S&OP) basic concepts, tips and experiences regarding its implementation in chemical company.
Planeación de Ventas y Operaciones (PVO) - conceptos básicos, recomendaciones y experiencias vividas durante su implementación en una compañía trasnacional de recubrimientos.
This is Part 4 of the GoldenGate series on Data Mesh - a series of webinars helping customers understand how to move off of old-fashioned monolithic data integration architecture and get ready for more agile, cost-effective, event-driven solutions. The Data Mesh is a kind of Data Fabric that emphasizes business-led data products running on event-driven streaming architectures, serverless, and microservices based platforms. These emerging solutions are essential for enterprises that run data-driven services on multi-cloud, multi-vendor ecosystems.
Join this session to get a fresh look at Data Mesh; we'll start with core architecture principles (vendor agnostic) and transition into detailed examples of how Oracle's GoldenGate platform is providing capabilities today. We will discuss essential technical characteristics of a Data Mesh solution, and the benefits that business owners can expect by moving IT in this direction. For more background on Data Mesh, Part 1, 2, and 3 are on the GoldenGate YouTube channel: https://www.youtube.com/playlist?list=PLbqmhpwYrlZJ-583p3KQGDAd6038i1ywe
Webinar Speaker: Jeff Pollock, VP Product (https://www.linkedin.com/in/jtpollock/)
Mr. Pollock is an expert technology leader for data platforms, big data, data integration and governance. Jeff has been CTO at California startups and a senior exec at Fortune 100 tech vendors. He is currently Oracle VP of Products and Cloud Services for Data Replication, Streaming Data and Database Migrations. While at IBM, he was head of all Information Integration, Replication and Governance products, and previously Jeff was an independent architect for US Defense Department, VP of Technology at Cerebra and CTO of Modulant – he has been engineering artificial intelligence based data platforms since 2001. As a business consultant, Mr. Pollock was a Head Architect at Ernst & Young’s Center for Technology Enablement. Jeff is also the author of “Semantic Web for Dummies” and "Adaptive Information,” a frequent keynote at industry conferences, author for books and industry journals, formerly a contributing member of W3C and OASIS, and an engineering instructor with UC Berkeley’s Extension for object-oriented systems, software development process and enterprise architecture.
In this session you will learn how Qlik’s Data Integration platform (formerly Attunity) reduces time to market and time to insights for modern data architectures through real-time automated pipelines for data warehouse and data lake initiatives. Hear how pipeline automation has impacted large financial services organizations ability to rapidly deliver value and see how to build an automated near real-time pipeline to efficiently load and transform data into a Snowflake data warehouse on AWS in under 10 minutes.
Empowering Real Time Patient Care Through Spark StreamingDatabricks
Takeda’s Plasma Derived Therapies (PDT) business unit has recently embarked on a project to use Spark Streaming on Databricks to empower how they deliver value to their Plasma Donation centers. As patients come in and interface without clinics, we store and track all of the patient interactions in real time and deliver outputs and results based on said interactions. The current problem with our existing architecture is that it is very expensive to maintain and has an unsustainable number of failure points. Spark Streaming is essential for allowing this use case because it allows for a more robust ETL pipeline. With Spark Streaming, we are able to replace our existing ETL processes (that are based on Lamdbas, step functions, triggered jobs, etc) into a purely stream driven architecture.
Data is brought into our s3 raw layer as a large set of CSV files through AWS DMS and Informatica IICS as these services bring data from on-prem systems into our cloud layer. We have a stream currently running which takes these raw files up and merges them into Delta tables established in the bronze/stage layer. We are using AWS Glue as the metadata provider for all of these operations. From the stage layer, we have another set of streams using the stage Delta tables as their source, which transform and conduct stream to stream lookups before writing the enriched records into RDS (silver/prod layer). Once the data has been merged into RDS we have a DMS task which lifts the data back into S3 as CSV files. We have a small intermediary stream which merge these CSV files into corresponding delta tables, from which we have our gold/analytic streams. The on-prem systems are able to speak to the silver layer and allow for the near real-time latency that our patient care centers require.
¿Qué es el gobierno de los datos?
¿Cómo implementar un gobierno de datos?
¿Cómo definir un modelo de gobierno?
¿Qué se entiende por calidad de datos?
Los algoritmos de inteligencia artificial están cambiando la forma como se administran las organizaciones públicas y las empresas privadas.
Vea el video de la diapositiva en
https://youtu.be/uqDAVvZ4qIg
The first step towards understanding data assets’ impact on your organization is understanding what those assets mean for each other. Metadata — literally, data about data — is a practice area required by good systems development, and yet is also perhaps the most mislabeled and misunderstood Data Management practice. Understanding metadata and its associated technologies as more than just straightforward technological tools can provide powerful insight into the efficiency of organizational practices, and enable you to combine practices into sophisticated techniques, supporting larger and more complex business initiatives. Program learning objectives include:
* Understanding how to leverage metadata practices in support of business strategy
* Discuss foundational metadata concepts
* Guiding principles for and lessons previously learned from metadata and its practical uses applied strategy
* Understanding how to leverage metadata practices in support of business strategy
* Metadata strategies, including:
* Metadata is a gerund so don’t try to treat it as a noun
* Metadata is the language of Data Governance
* Treat glossaries/repositories as capabilities, not technology
Most Common Data Governance Challenges in the Digital EconomyRobyn Bollhorst
Todays’ increasing emphasis on differentiation in the digital economy further complicates the data governance challenge. Learn about today’s common challenges and about the new adaptations that are required to support the digital era. Avoid the pitfalls and follow along on Johnson & Johnson’s journey to:
- Establish and scale a best in class enterprise data governance program
- Identify and focus on the most critical data and information to bolster incremental wins and garner executive support
- Ensure readiness for automation with SAP MDG on HANA
Qlik and Confluent Success Stories with Kafka - How Generali and Skechers Kee...HostedbyConfluent
Converting production databases into live data streams for Apache Kafka can be labor intensive and costly. As Kafka architectures grow, complexity also rises as data teams begin to configure clusters for redundancy, partitions for performance, as well as for consumer groups for correlated analytics processing. In this breakout session, you’ll hear data streaming success stories from Generali and Skechers that leverage Qlik Data Integration and Confluent. You’ll discover how Qlik’s data integration platform lets organizations automatically produce real-time transaction streams into Kafka, Confluent Platform, or Confluent Cloud, deliver faster business insights from data, enable streaming analytics, as well as streaming ingestion for modern analytics. Learn how these customer use Qlik and Confluent to: - Turn databases into live data feeds - Simplify and automate the real-time data streaming process - Accelerate data delivery to enable real-time analytics Learn how Skechers and Generali breathe new life into data in the cloud, stay ahead of changing demands, while lowering over-reliance on resources, production time and costs.
Slides: Success Stories for Data-to-CloudDATAVERSITY
Companies are finding accessing data from a variety of sources can be labor-intensive and costly. Oftentimes these companies are looking to cloud solutions, but are then finding the traditional architecture brittle when trying to move data to the cloud, which can drain organizations of time and resources.
Join this webinar to hear several company success stories, the data-to-cloud issues they were encountering, and the steps these companies took to bring their cloud architecture to a successful, real-time analytic solution unlocking massive amounts of fresh enterprise-wide on a continuous basis.
In addition, you will learn how to:
• Modernize the ETL process to one that’s fast, flexible, and scalable
• Supply users with up-to-date, accurate, trusted data
• Increase your time to value with data in the cloud
• Best practices on how to minimize resource overhead
Graph databases provide the ability to quickly discover and integrate key relationships between enterprise data sets. Business use cases such as recommendation engines, social networks, enterprise knowledge graphs, and more provide valuable ways to leverage graph databases in your organization. This webinar will provide an overview of graph database technologies, and how they can be used for practical applications to drive business value.
Ejemplo de Archimate. Depositario Central de Valores en MéxicoDavid Solis
La presentación contiene un ejemplo de un caso real desarrollado para ilustrar el uso de lenguaje de modelado ArchiMate® en el contexto del marco TOGAF®. El caso se refiere a Indeval, el Depositario Central de Valores en México. Muestra algunos de los viewpoints de la arquitectura empresarial realizada en 2006, sin embargo por el alcance y la complejidad de la entidad solo se presenta una muestra representativa de los elementos.
Business Intelligence (BI) and Data Management Basics amorshed
A one-day training course on the Concepts of Data Management and Business Intelligence (BI) in the DX age
A Basic Review of BI and DM
How to Implement BI
A review of BI Tools and 2022 Gartner Quadrant Magic
Basics of Data warehouse (DWH)
An introductions to Power BI
Components of Power BI
Steps for BI Implementation
Data Culture
Intro to ETL and ELT
OLAP files and Architecture
Digital transformation or DX review
A glance at DMBOK2.0 framework
BI Challenges
Data Governance
Data Integration
Data Security and Privacy in DMBOK2.0
Data-Driven Organization
Data and BI Maturity Model
Traditional BI
Self-service BI
who is DMP
who is BI developer
what is Metadata
what is Master data
Data Quality
Data Literacy
Benefits of BI
BI features
How does BI Works?
Modern BI
Data Analytics
BI Architecture
Data Types
Data Lake
Data Mart
Data Silo
Data Visualization
Power BI Architecture and components
SQL 2016 Mejoras en InMemory OLTP y Column Store IndexEduardo Castro
Vemos las mejoras que presenta SQL Server 2016 en los temas de InMemory OLTP y también los cambios en Column Store Index, y su importancia en la mejora de desempeño.
Saludos,
Ing. Eduardo Castro, PhD
Microsoft SQL Server MVP
Implementing the Data Maturity Model (DMM)DATAVERSITY
The Data Management Maturity (DMM) model is a framework for the evaluation and assessment of an organization’s Data Management capabilities. This model—based on the Capability Maturity Model pioneered by the U.S. Department of Defense for improving software development processes—allows an organization to evaluate its current-state Data Management capabilities, discover gaps to remediate, and identify strengths to leverage. In doing so, this assessment method reveals organizational priorities, business needs, and a clear path for rapid process improvements.
In this webinar, we will:
Describe the DMM model, its purpose and evolution, and how it can be used as a roadmap for assessing and improving organizational Data Management and Data Management Maturity
Discuss how to get the most out of a DMM assessment, including its dependencies and requirements for use
Discuss foundational DMM concepts based on “The DAMA Guide to the Data Management Body of Knowledge” (DAMA DMBOK)
Planeación de Ventas y Operaciones / Sales & Operations Planning (S&OP)Israel Villarello
Sales & Operations Planning (S&OP) basic concepts, tips and experiences regarding its implementation in chemical company.
Planeación de Ventas y Operaciones (PVO) - conceptos básicos, recomendaciones y experiencias vividas durante su implementación en una compañía trasnacional de recubrimientos.
This is Part 4 of the GoldenGate series on Data Mesh - a series of webinars helping customers understand how to move off of old-fashioned monolithic data integration architecture and get ready for more agile, cost-effective, event-driven solutions. The Data Mesh is a kind of Data Fabric that emphasizes business-led data products running on event-driven streaming architectures, serverless, and microservices based platforms. These emerging solutions are essential for enterprises that run data-driven services on multi-cloud, multi-vendor ecosystems.
Join this session to get a fresh look at Data Mesh; we'll start with core architecture principles (vendor agnostic) and transition into detailed examples of how Oracle's GoldenGate platform is providing capabilities today. We will discuss essential technical characteristics of a Data Mesh solution, and the benefits that business owners can expect by moving IT in this direction. For more background on Data Mesh, Part 1, 2, and 3 are on the GoldenGate YouTube channel: https://www.youtube.com/playlist?list=PLbqmhpwYrlZJ-583p3KQGDAd6038i1ywe
Webinar Speaker: Jeff Pollock, VP Product (https://www.linkedin.com/in/jtpollock/)
Mr. Pollock is an expert technology leader for data platforms, big data, data integration and governance. Jeff has been CTO at California startups and a senior exec at Fortune 100 tech vendors. He is currently Oracle VP of Products and Cloud Services for Data Replication, Streaming Data and Database Migrations. While at IBM, he was head of all Information Integration, Replication and Governance products, and previously Jeff was an independent architect for US Defense Department, VP of Technology at Cerebra and CTO of Modulant – he has been engineering artificial intelligence based data platforms since 2001. As a business consultant, Mr. Pollock was a Head Architect at Ernst & Young’s Center for Technology Enablement. Jeff is also the author of “Semantic Web for Dummies” and "Adaptive Information,” a frequent keynote at industry conferences, author for books and industry journals, formerly a contributing member of W3C and OASIS, and an engineering instructor with UC Berkeley’s Extension for object-oriented systems, software development process and enterprise architecture.
In this session you will learn how Qlik’s Data Integration platform (formerly Attunity) reduces time to market and time to insights for modern data architectures through real-time automated pipelines for data warehouse and data lake initiatives. Hear how pipeline automation has impacted large financial services organizations ability to rapidly deliver value and see how to build an automated near real-time pipeline to efficiently load and transform data into a Snowflake data warehouse on AWS in under 10 minutes.
Empowering Real Time Patient Care Through Spark StreamingDatabricks
Takeda’s Plasma Derived Therapies (PDT) business unit has recently embarked on a project to use Spark Streaming on Databricks to empower how they deliver value to their Plasma Donation centers. As patients come in and interface without clinics, we store and track all of the patient interactions in real time and deliver outputs and results based on said interactions. The current problem with our existing architecture is that it is very expensive to maintain and has an unsustainable number of failure points. Spark Streaming is essential for allowing this use case because it allows for a more robust ETL pipeline. With Spark Streaming, we are able to replace our existing ETL processes (that are based on Lamdbas, step functions, triggered jobs, etc) into a purely stream driven architecture.
Data is brought into our s3 raw layer as a large set of CSV files through AWS DMS and Informatica IICS as these services bring data from on-prem systems into our cloud layer. We have a stream currently running which takes these raw files up and merges them into Delta tables established in the bronze/stage layer. We are using AWS Glue as the metadata provider for all of these operations. From the stage layer, we have another set of streams using the stage Delta tables as their source, which transform and conduct stream to stream lookups before writing the enriched records into RDS (silver/prod layer). Once the data has been merged into RDS we have a DMS task which lifts the data back into S3 as CSV files. We have a small intermediary stream which merge these CSV files into corresponding delta tables, from which we have our gold/analytic streams. The on-prem systems are able to speak to the silver layer and allow for the near real-time latency that our patient care centers require.
¿Qué es el gobierno de los datos?
¿Cómo implementar un gobierno de datos?
¿Cómo definir un modelo de gobierno?
¿Qué se entiende por calidad de datos?
Los algoritmos de inteligencia artificial están cambiando la forma como se administran las organizaciones públicas y las empresas privadas.
Vea el video de la diapositiva en
https://youtu.be/uqDAVvZ4qIg
The first step towards understanding data assets’ impact on your organization is understanding what those assets mean for each other. Metadata — literally, data about data — is a practice area required by good systems development, and yet is also perhaps the most mislabeled and misunderstood Data Management practice. Understanding metadata and its associated technologies as more than just straightforward technological tools can provide powerful insight into the efficiency of organizational practices, and enable you to combine practices into sophisticated techniques, supporting larger and more complex business initiatives. Program learning objectives include:
* Understanding how to leverage metadata practices in support of business strategy
* Discuss foundational metadata concepts
* Guiding principles for and lessons previously learned from metadata and its practical uses applied strategy
* Understanding how to leverage metadata practices in support of business strategy
* Metadata strategies, including:
* Metadata is a gerund so don’t try to treat it as a noun
* Metadata is the language of Data Governance
* Treat glossaries/repositories as capabilities, not technology
Most Common Data Governance Challenges in the Digital EconomyRobyn Bollhorst
Todays’ increasing emphasis on differentiation in the digital economy further complicates the data governance challenge. Learn about today’s common challenges and about the new adaptations that are required to support the digital era. Avoid the pitfalls and follow along on Johnson & Johnson’s journey to:
- Establish and scale a best in class enterprise data governance program
- Identify and focus on the most critical data and information to bolster incremental wins and garner executive support
- Ensure readiness for automation with SAP MDG on HANA
Qlik and Confluent Success Stories with Kafka - How Generali and Skechers Kee...HostedbyConfluent
Converting production databases into live data streams for Apache Kafka can be labor intensive and costly. As Kafka architectures grow, complexity also rises as data teams begin to configure clusters for redundancy, partitions for performance, as well as for consumer groups for correlated analytics processing. In this breakout session, you’ll hear data streaming success stories from Generali and Skechers that leverage Qlik Data Integration and Confluent. You’ll discover how Qlik’s data integration platform lets organizations automatically produce real-time transaction streams into Kafka, Confluent Platform, or Confluent Cloud, deliver faster business insights from data, enable streaming analytics, as well as streaming ingestion for modern analytics. Learn how these customer use Qlik and Confluent to: - Turn databases into live data feeds - Simplify and automate the real-time data streaming process - Accelerate data delivery to enable real-time analytics Learn how Skechers and Generali breathe new life into data in the cloud, stay ahead of changing demands, while lowering over-reliance on resources, production time and costs.
Slides: Success Stories for Data-to-CloudDATAVERSITY
Companies are finding accessing data from a variety of sources can be labor-intensive and costly. Oftentimes these companies are looking to cloud solutions, but are then finding the traditional architecture brittle when trying to move data to the cloud, which can drain organizations of time and resources.
Join this webinar to hear several company success stories, the data-to-cloud issues they were encountering, and the steps these companies took to bring their cloud architecture to a successful, real-time analytic solution unlocking massive amounts of fresh enterprise-wide on a continuous basis.
In addition, you will learn how to:
• Modernize the ETL process to one that’s fast, flexible, and scalable
• Supply users with up-to-date, accurate, trusted data
• Increase your time to value with data in the cloud
• Best practices on how to minimize resource overhead
Graph databases provide the ability to quickly discover and integrate key relationships between enterprise data sets. Business use cases such as recommendation engines, social networks, enterprise knowledge graphs, and more provide valuable ways to leverage graph databases in your organization. This webinar will provide an overview of graph database technologies, and how they can be used for practical applications to drive business value.
Ejemplo de Archimate. Depositario Central de Valores en MéxicoDavid Solis
La presentación contiene un ejemplo de un caso real desarrollado para ilustrar el uso de lenguaje de modelado ArchiMate® en el contexto del marco TOGAF®. El caso se refiere a Indeval, el Depositario Central de Valores en México. Muestra algunos de los viewpoints de la arquitectura empresarial realizada en 2006, sin embargo por el alcance y la complejidad de la entidad solo se presenta una muestra representativa de los elementos.
Business Intelligence (BI) and Data Management Basics amorshed
A one-day training course on the Concepts of Data Management and Business Intelligence (BI) in the DX age
A Basic Review of BI and DM
How to Implement BI
A review of BI Tools and 2022 Gartner Quadrant Magic
Basics of Data warehouse (DWH)
An introductions to Power BI
Components of Power BI
Steps for BI Implementation
Data Culture
Intro to ETL and ELT
OLAP files and Architecture
Digital transformation or DX review
A glance at DMBOK2.0 framework
BI Challenges
Data Governance
Data Integration
Data Security and Privacy in DMBOK2.0
Data-Driven Organization
Data and BI Maturity Model
Traditional BI
Self-service BI
who is DMP
who is BI developer
what is Metadata
what is Master data
Data Quality
Data Literacy
Benefits of BI
BI features
How does BI Works?
Modern BI
Data Analytics
BI Architecture
Data Types
Data Lake
Data Mart
Data Silo
Data Visualization
Power BI Architecture and components
SQL 2016 Mejoras en InMemory OLTP y Column Store IndexEduardo Castro
Vemos las mejoras que presenta SQL Server 2016 en los temas de InMemory OLTP y también los cambios en Column Store Index, y su importancia en la mejora de desempeño.
Saludos,
Ing. Eduardo Castro, PhD
Microsoft SQL Server MVP
La problemática Big Data ha dejado de ser una nueva moda y se ha asentado como una nueva realidad en nuestro día a día, y la tecnolgía se ha adaptado a esta nueva realidad permitiendonos afortar problemas complejos de una manera sencilla y casi transaparete.
Pero, ¿y nosotros, hemos cambiado la forma de ver los proyectos y de atacar la solución?¿seguimos tratando de solucionar esta nueva problemática con la misma metodología?¿Seguimos creyendo que el Big Data nos va a solucionar todos nuestros problemas por arte de magia?
Esta charla versará sobre como, según la experiencia del ponente en distintos proyectos de distintas áreas de negocio, se han cambiado la forma de afrontar estos y de como se han solucionado los distintos problemas a la hora de afrontar un proyecto Big Data.
Introduccion a SQL Server 2016 Stretch DatabasesEduardo Castro
En esta presentacion vemos los aspectos de arquitectura, configuración y uso de Stretch Databases en SQL Server 2016.
Ing. Eduardo Castro, PhD
Microsoft Data Platform MVP
SQL Server
En esta presentación se introducen los conceptos de Big Data, así como las soliciones de Horton Works sobre Windows y el Microsoft Analytics Platform System (PDW Paralled Data Warehouse)
Saludos,
Eduardo Castro, PhD
SQL Server MVP
Comunidad Windows Costa Rica
En esta presentación vemos aspectos de introducción a Big Data.
Saludos,
Ing. Eduardo Castro, PhD
Microsoft SQL Server MVP
http://tinyurl.com/comunidadwindows
En esta presentación vemos un resumen delas nuevas caracterisitcas que tiene SQL Server 2016.
Saludos,
Ing. Eduardo Castro, PhD
Microsoft SQL Server MVP
Costa Rica
En esta presentación se introducen los servicios cognitivos de Microsoft Azure y cómo pueden integrarse con otras soluciones tales como PowerBI y R Studio
SQL Saturday Bogota - Big Data HDInsight ServerEduardo Castro
En esta presentación vemos los conceptos de Big Data y cómo podemos integrar las herramientas de BI de SQL Server 2012 con Hadoop y con HDInsigth Server y con PowerPivot.
Saludos
Ing. Eduardo Castro
Microsoft SQL Server MVP
Big Data es la profesión de moda y empresas de todos los sectores buscan especialistas. La consultora McKinsey prevé una brecha en torno al 50% entre la demanda y la oferta de puestos de trabajo relacionados con Big Data para 2017-2018
Pero ¿qué hay detrás de este nuevo paradigma? La transformación digital en las empresas implica una inflación de datos que las organizaciones no saben cómo usar y gestionar. Es un campo muy amplio y se necesitan perfiles muy variados desconocidos hasta ahora en nuestra sociedad.
Ante esta demanda de profesionales especializados en las tecnologías de big data y business intelligence, la gran baza para muchos ingenieros que quieran lograr un trabajo interesante y bien remunerado es formarse en estas especialidades
Dentro del rompecabezas de Big Data podemos diferenciar entre las habilidades técnicas en torno a Hadoop, MapReduce y frameworks comerciales y las competencias relacionadas con la Ciencia de los Datos (Data Science), que son las más demandadas y difíciles de encontrar. Por tanto, estamos ante un periodo para decidir sobre qué tipo de cursos deberían ser diseñados con el objetivo de producir talento cualificado para alimentar la industria de Big Data. En este sentido CICE ofrece una carrera profesional con varias especializaciones y masteres que abarca una alta variedad de conceptos y herramientas tecnologícas que se ajustan al mercado laboral.
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...CICE
Big Data es la profesión de moda y empresas de todos los sectores buscan especialistas. La consultora McKinsey prevé una brecha en torno al 50% entre la demanda y la oferta de puestos de trabajo relacionados con Big Data para 2017-2018
Pero ¿qué hay detrás de este nuevo paradigma? La transformación digital en las empresas implica una inflación de datos que las organizaciones no saben cómo usar y gestionar. Es un campo muy amplio y se necesitan perfiles muy variados desconocidos hasta ahora en nuestra sociedad.
Ante esta demanda de profesionales especializados en las tecnologías de big data y business intelligence, la gran baza para muchos ingenieros que quieran lograr un trabajo interesante y bien remunerado es formarse en estas especialidades
Dentro del rompecabezas de Big Data podemos diferenciar entre las habilidades técnicas en torno a Hadoop, MapReduce y frameworks comerciales y las competencias relacionadas con la Ciencia de los Datos (Data Science), que son las más demandadas y difíciles de encontrar. Por tanto, estamos ante un periodo para decidir sobre qué tipo de cursos deberían ser diseñados con el objetivo de producir talento cualificado para alimentar la industria de Big Data. En este sentido CICE ofrece una carrera profesional con varias especializaciones y masteres que abarca una alta variedad de conceptos y herramientas tecnológicas que se ajustan al mercado laboral.
Ponencia B2C Antonio Alonso. Big Data. Nuevas oportunidades de empleoCICE
BIG DATA. Nuevos perfiles y oportunidades de empleo.
Conviértete en un experto en la gestión de grandes volúmenes de datos y en la inteligencia de negocio.
www.cice.es
¿Qué pasa con el Big Data? Los datos plantean tantas preguntas como solucionan, para conocer más sobre ellos. Veremos los pasos que hemos de seguir para convertirnos en una empresa Data Smart y a dar contestación definitiva a preguntas como:
¿Son los datos inteligentes, o las empresas que trabajan con ellos?
El big data le permite recopilar datos de redes sociales, visitas a páginas web, registros de llamadas y otras fuentes para mejorar la experiencia de interacción, así como maximizar el valor ofrecido.
Breve presentación sobre los retos y oportunidades con las que se encuentra el sector turístico al enfrentarse a un mundo dominado por la tecnología y la globalización. Grandes herramientas tecnológicas como el "BIG DATA" surgen a raíz de los cambios en el estilo de vida de las personas, gustos y comportamientos, por eso es preciso hacer buen uso de las mismas.
Machine Learning con Azure Managed InstanceEduardo Castro
En esta presentación mostramos las opciones para implementar Machine Learning dentro de Azure, así como las formas de configurar y utilizar Python dentro de Azure Managed Instance
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informáticavazquezgarciajesusma
En este proyecto de investigación nos adentraremos en el fascinante mundo de la intersección entre el arte y los medios de comunicación en el campo de la informática.
La rápida evolución de la tecnología ha llevado a una fusión cada vez más estrecha entre el arte y los medios digitales, generando nuevas formas de expresión y comunicación.
Continuando con el desarrollo de nuestro proyecto haremos uso del método inductivo porque organizamos nuestra investigación a la particular a lo general. El diseño metodológico del trabajo es no experimental y transversal ya que no existe manipulación deliberada de las variables ni de la situación, si no que se observa los fundamental y como se dan en su contestó natural para después analizarlos.
El diseño es transversal porque los datos se recolectan en un solo momento y su propósito es describir variables y analizar su interrelación, solo se desea saber la incidencia y el valor de uno o más variables, el diseño será descriptivo porque se requiere establecer relación entre dos o más de estás.
Mediante una encuesta recopilamos la información de este proyecto los alumnos tengan conocimiento de la evolución del arte y los medios de comunicación en la información y su importancia para la institución.
Actualmente, y debido al desarrollo tecnológico de campos como la informática y la electrónica, la mayoría de las bases de datos están en formato digital, siendo este un componente electrónico, por tanto se ha desarrollado y se ofrece un amplio rango de soluciones al problema del almacenamiento de datos.
Es un diagrama para La asistencia técnica o apoyo técnico es brindada por las compañías para que sus clientes puedan hacer uso de sus productos o servicios de la manera en que fueron puestos a la venta.
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informáticavazquezgarciajesusma
En este proyecto de investigación nos adentraremos en el fascinante mundo de la intersección entre el arte y los medios de comunicación en el campo de la informática.
La rápida evolución de la tecnología ha llevado a una fusión cada vez más estrecha entre el arte y los medios digitales, generando nuevas formas de expresión y comunicación.
Continuando con el desarrollo de nuestro proyecto haremos uso del método inductivo porque organizamos nuestra investigación a la particular a lo general. El diseño metodológico del trabajo es no experimental y transversal ya que no existe manipulación deliberada de las variables ni de la situación, si no que se observa los fundamental y como se dan en su contestó natural para después analizarlos.
El diseño es transversal porque los datos se recolectan en un solo momento y su propósito es describir variables y analizar su interrelación, solo se desea saber la incidencia y el valor de uno o más variables, el diseño será descriptivo porque se requiere establecer relación entre dos o más de estás.
Mediante una encuesta recopilamos la información de este proyecto los alumnos tengan conocimiento de la evolución del arte y los medios de comunicación en la información y su importancia para la institución.
3Redu: Responsabilidad, Resiliencia y Respetocdraco
¡Hola! Somos 3Redu, conformados por Juan Camilo y Cristian. Entendemos las dificultades que enfrentan muchos estudiantes al tratar de comprender conceptos matemáticos. Nuestro objetivo es brindar una solución inclusiva y accesible para todos.
2. Ing. Eduardo Castro, PhD
MVP de Microsoft SQL Server
PASS Regional de Mentor
PASS Board of Directors
ecastro@simsasys.com
http://www.youtube.com/eduardocastrom
Microsoft Big Data Stack
3. Introducción a los Big Data
¿Qué es el Big Data?
¿Qué es Hadoop?
Introducción a Map / Reduce
Soluciones de Big Data de Microsoft
4. Qué es un Petabyte
Tomado de http://www.informatica-hoy.com.ar/aprender-informatica/Que-es-Petabyte.php
Un Terabyte son 1024 Gigabytes. 1 Gigabyte = 1024
Megabytes.
Un Petabyte es una unidad de almacenamiento de información
cuyo símbolo es PB, equivale a 1024 Terabytes =
1.125.899.906.842.624 de bytes.
5. Qué es un Petabyte
Tomado de http://www.informatica-hoy.com.ar/aprender-informatica/Que-es-Petabyte.php
1 Petabyte es suficiente para almacenar 13.3 años de video HD
1.5 Petabytes son necesarios para almacenar 10 Billones de
fotos de Facebook
Google procesa alrededor de 24 Petabytes de información por
día.
Avatar, la película de James Cameron del 2009, usó 1 Petabyte
de información para realizar los efectos especiales.
AT&T, el carrier del iPhone en Estados Unidos, transmite 19
Petabytes de datos por mes.
6. ¿Qué es el Big Data?
Datos que son demasiado grandes o complejos para el
análisis de bases de datos relacionales tradicionales
Caracterizado por las tres” V”
Volumen - Enormes cantidades de datos
Variedad - Una mezcla de datos estructurados y datos no
estructurados
Velocidad - Nuevos datos generados extremadamente rápido
7. Dominio Escenarios de grandes volúmenes datos
comunes
Servicios financieros Modelado riesgo verdadero
Análisis de las amenazas y detección de fraude
Vigilancia Comercio
El puntaje de crédito y análisis
Medios y Entretenimiento Los motores de recomendación
Focalización Ad
Buscar calidad
Los abusos y detección de fraude de clics
Venta al por menor Punto de análisis de las transacciones de
ventas
Análisis de la pérdida de clientes
El análisis de sentimientos (sentiment
analysis)
Telecomunicaciones Cliente prevención del churn
La optimización del rendimiento de la red
Detalles de llamadas (CDR) y su análisis
Predicción de fallos de red
Gobierno Seguridad Cibernética (botnets, fraudes)
La congestión del tráfico y re-enrutamiento
Monitoreo Ambiental
Monitoreo Antisocial través de medios sociales
Salud La investigación del genoma
La investigación del cáncer
Pandemias detección temprana
Monitoreo de la calidad del aire
8. Casos en los cuales se utiliza Big Data
Parte de lo que hace Hadoop y otras tecnologías y
enfoques Big Data es encontrar respuestas a preguntas
que ni siquiera saben que preguntar.
Dar lugar a ideas que conducen a nuevas ideas de
productos o ayudar a identificar formas de mejorar la
eficiencia operativa.
Casos de uso ya identificadas para Big Data, tanto para
los gigantes de internet como Google, Facebook y
LinkedIn, y para la empresa más tradicional
9. Casos en los cuales se utiliza Big Data
Sentiment Analysis
Utilizado junto con Hadoop, herramientas avanzadas de análisis
de texto analizan el texto no estructurado de las redes sociales y
mensajes de redes sociales
Incluyendo los Tweets y mensajes de Facebook, para determinar
la confianza del usuario en relación con determinadas empresas,
marcas o productos.
El análisis puede centrarse en el sentimiento a nivel macro hasta
el sentimiento usuario individual.
10. Casos en los cuales se utiliza Big Data
Modelado de riesgo
Las empresas financieras, bancos y otros utilizan Hadoop y Next
Generation Data Warehouse para analizar grandes volúmenes de
datos transaccionales para determinar el riesgo y la exposición de
los activos financieros
Para preparar la posible "qué pasaría si" los escenarios
basados en el comportamiento del mercado simulado, y para
puntuación de clientes potenciales por el riesgo.
11. Casos en los cuales se utiliza Big Data
Motor de recomendación
Los minoristas en línea utilizan Hadoop para igualar y recomendar
a los usuarios entre sí o con los productos y servicios basados en
el análisis del perfil de usuario y los datos de comportamiento.
LinkedIn utiliza este enfoque para potenciar su función de "la
gente puede saber", mientras que Amazon utiliza para sugerir
productos a la venta a los consumidores en línea.
12. Casos en los cuales se utiliza Big Data
Detección de Fraude
Utilizar técnicas de Big Data para combinar el
comportamiento del cliente, históricos y datos de
transacciones para detectar la actividad fraudulenta.
Las compañías de tarjetas de crédito, por ejemplo, utilizan
tecnologías de Big Data para identificar el comportamiento
transaccional que indica una alta probabilidad de una tarjeta
robada.
13. Casos en los cuales se utiliza Big Data
Análisis de la campaña de marketing
Los departamentos de marketing a través de industrias han
utilizado durante mucho tiempo la tecnología para monitorear
y determinar la efectividad de las campañas de marketing.
Big Data permite a los equipos de marketing para incorporar
mayores volúmenes de datos cada vez más granulares,
como los datos de click-stream y registros detallados de
llamadas, para aumentar la precisión de los análisis.
14. Casos en los cuales se utiliza Big Data
Análisis Social Graph
Junto con Hadoop los datos de redes sociales se extraen para
determinar qué clientes representan la mayor influencia sobre
los demás dentro de las redes sociales.
Esto ayuda a determinar las empresas que son sus clientes
"más importantes", que no siempre son los que compran la
mayoría de los productos o de los que más gastan, pero los
que tienden a influir en el comportamiento de compra de la
mayoría de los demás.
15. Casos en los cuales se utiliza Big Data
Customer Experience Analytics
Empresas orientadas al consumidor utilizan Hadoop y
tecnologías relacionadas con Big Data para integrar los
datos de antes silos canales de interacción con clientes
Tales como centros de llamadas, chat en línea, Twitter, etc,
para obtener una visión completa de la experiencia del
cliente.
16. Científico de datos
Ciencia de datos: un término utilizado indistintamente con
inteligencia de negocio o análitica empresarial
17. Qué es ciencia de datos?
Descubrir lo que nó sabemos de los datos
Obtener conocimiento de los datos, que permita hacer
predicciones y tomar acciones
Crear soluciones basadas en datos que tienen impacto en el
negocio
Relacionar los datos con el negocio
Crear confianza en la toma de decisiones que brindan valor
para el negocio
18. Científico de datos
Un científico de datos incorpora técnicas y teorías de muchos
campos, incluyendo las matemáticas, la estadística, la ingeniería de
datos, reconocimiento de patrones, aprendizaje avanzado ,
visualización, modelado de la incertidumbre, almacenamiento de
datos y la computación de alto rendimiento con el objetivo de
extraer el significado de datos.
19. Quién es un científico de datos?
Alguien mejor en las estadísticas que cualquier ingeniero
de software, y alguien mejor
en la ingeniería de software que cualquier estadístico
20. Qué es un Data Scientist?
Un científico de datos definitivamente tiene un mucho mayor
comprensión de la informática y se espera que él desarrolle
herramientas o que utilice algunas herramientas no estándar
para las necesidades de productos o las necesidades de la
empresa.
21. Qué es un Data Scientist?
Data Science London. 2013.
22. 10 Cosas que hacen los científicos de datos
Modelar datos, modelar algoritmos
Entender las relaciones de los datos
Decirle a la máquina cómo aprender de los datos
Crear soluciones de datos que entregar conocimiento para
tomar decisiones
Expresar los datos con conocimiento que es relevante para el
negocio
25. Aplicaciones de datos
intensivos
Activity Queue
Azure Storage
Google Analytics
Logs
Azure Storage
Email DBs
SQL Azure x 16
Username DBs
SQL Azure x 16
User Profiles
SQL Azure x 400
Activity Table
X 50 Partitions
Azure Storage
IIS Logs
Azure Storage
Data Analysis: Staging
Virtual Machine
Data
Warehouse
Reporting
Services
Activity Processors
Worker Roles x 2
Cache
Users and Friends Feed
Games and Leader Boards
Resources and References
Distributed Cache x 32
Cache Tasks
Worker Roles x 4
Back Office
Web Roles x 2
Background Tasks DB
Utility DB, Content
DB, Taxonomy DB
SQL Azure
Web Application
Web Roles x 180
Web Service/API
Web Roles x 2
Moderation
Service/Appliance
CRISP/3rd
Party
26.
27.
28.
29. Qué es Hadoop?
Hadoop es un proyecto de código abierto, supervisado por la
Apache Software Foundation
Originalmente basado en documentos publicados por Google
en 2003 y 2004
Hadoop es un ecosistema, no un solo producto
Hadoop trabaja en diversas organizaciones e incluye
Facebook, Yahoo!, Twitter, Cloudera, Hortonworks
29
30. Hadoop Timeline
• Iniciado por Doug Nutch en Yahoo! a principios del 2006
• Hadoop 2.x, lanzado en el 2012, es la base para todas las
distribuciones Hadoop actuales y estables
• Apache Hadoop 2.0.xx
CDH4.*
HDP2.*
30
31. ¿Qué es Hadoop?
• Clusters de Hadoop
• Varios servidores con un sistema de archivos compartido
denominado HDFS
• Las solicitudes de cliente son atendidos por el “Name Node”
• Varios nodos de datos procesan los datos mediante Map/Reduce
• Proyectos relacionados
• Hive
• HCatalog
• Pig
• Oozie
• Mahout
32. Hadoop - Inspiración
32
Google Equivalente de Hadoop
GFS HDFS
MapReduce Hadoop MapReduce
Sawzall Hive, Pig
BigTable HBase
Chubby ZooKeeper
Pregel Giraph
Google obtuvo una patente para “map reduce – un sistema de procesamiento de
datos de gran escala" en 2010, pero favorece a Apache Hadoop mediante la
concesión de una licencia.
33. Estrategia de datos tradicional
ETL Tools DW / Marts BI Analytics
comercial
Informatica Teradata Microstrategy SAS
Oracle Data Integrator Oracle OBIEE TIBCO Spotfire
IBM Datastage DB2, Netezza Cognos SPSS
Microsoft SSIS SQL server Microsoft SSRS
EMC Greenplum
Open source Talend mySQL Pentaho , Jaspersoft R, RapidMiner
34. Estrategia con Hadoop
34
Hadoop puede complementar el ambiente DW existente así como reemplazar
algunos de los componentes de una estrategia de datos tradicionales.
35. Componentes de Hadoop
• Almacenamiento
• HDFS – Es un Sistema de archivos NO una DBMS
• HBase - Almacenamiento columnar que sirve de baja latencia de lectura / escritura a petición
• Extraer - Cargar
• Fuente / Destino es RDBMS - Sqoop, hiho
• Stream processing - Flume, Scribe, Chukwa, S4, Storm
• Transformación
• Map-reduce (Java u otro lenguaje), Pig, Hive, Oozie etc.
• Talend e Informatica han construido productos para abstraer la complejidad de la map-reduce
35
36. Componentes de Hadoop
• Analytics
• RHadoop, Mahout
• BI – Todas las empresas actuales poseen conectores de Hadoop
36
39. Pig Latin
• Lenguaje orientado a flujo de datos
• Idioma de alto nivel para el enrutamiento de datos, permite la fácil integración de Java para
tareas complejas
• Tipos de datos incluyen conjuntos, matrices asociativas, tuplas
39
• Herramientas de cliente
• El Pig Interpreter convirte el pig-script a Java map-
reduce y los envía mediante el JobTracker
• No instala adicional necesario en el Hadoop Cluster
• Desempeño de Pig ~ 1.4x Java MapReduce, pero
necesitan menos líneas de código ~ 1/10th
• Desarrollado por Yahoo!
40. Hive
• Aplicación de datawarehouse basado en SQL
• Conjunto de características es similar a Pig pero se asimila a TSQL
• Soporta SELECT, JOIN, GROUP BY, etc.
• Utiliza la filosofía “Schema on Read”
• Características para el análisis de grandes conjuntos de datos
• Partition columns
• Sampling
• Buckets
• Requiere la instalación de metastore en cluster de Hadoop
• Desarrollado por Facebook
40
41. HBase
Distribuido, versionado, orientada a la columnas basado en HDFS
Objetivo: para almacenar las tablas con miles de millones de filas y millones columnas
Proporciona una opción de "baja latencia" (OLTP) Lee y escribe junto con el soporte para el
modelo de procesamiento por lotes de map-reduce
Cluster de HBase consiste en un único "maestro HBase" y varios "RegionServers“
Facebook utiliza HBase para impulsar su infraestructura de mensajería
Estadísticas - servicio de Chat soporta más 300 millones los usuarios que envían mensajes
más 120 billones por mes
Valores NULL no se almacena por diseño y parece tabla típica del almacenaje
41
Row-key Column-family Column Timestamp Value
1 CF Name Ts1 Vijay
1 CF Address Ts1 Mumbai
1 CF Address Ts2 Goa
42. Sqoop
RDBMS hacia Hadoop
Herramienta de línea de comandos para importar cualquier JDBC de base de datos hacia Hadoop
Y también exportar datos de Hadoop a cualquier base de datos
Genera trabajos de map-reduce para conectar a los registros de base de datos y
lectura/escritura
DB conectores específicos aportados por los proveedores –
Oraoop for Oracle by Quest software
Teradata connector from Teradata
Netezza connector from IBM
Desarrollado por Cloudera
Oracle ha llegado con "Oracle Loader para Hadoop" y afirman que
está optimizado para "Oracle Database 11g"
42
43. Flume
Flume es un servicio distribuido, fiable y disponible para mover eficientemente grandes
cantidades de datos a manera como se produce, casi en línea
Desarrollado en Cloudera
43
44. Machine Learning
• Apache Mahout
• Biblioteca de aprendizaje máquina escalable la mayoría de los algoritmos implementados sobre Apache
Hadoop utilizando map/reduce
• Algoritmos soportados –
• Recomendación minería - toma el comportamiento de los usuarios y encontrar artículos dijeron le
gustaría usuario especificado.
• Agrupamiento - toma por ejemplo, documentos de texto y grupos de ellos basados en temas
relacionados con documento.
• Clasificación- Aprende de los documentos existentes categorizados cómo documentos categoría
específica y es capaces de asignar documentos sin etiqueta a la categoría adecuada.
• Frequent item set mining - Toma un conjunto de elemento de grupos (e.g. términos en una sesión
de consulta, contenido del carrito de compras) e identifica, qué elementos individuales típicamente
aparece juntos.
• RHadoop (Revolution Analytics) y RHIPE (Purdue University) permiten ejecutar programas R en Apache
Hadoop
44
46. Soluciones Big Data Microsoft
SQL Server Parallel Data Warehouse
Appliance para data warehouse corporativo
Procesamiento paralelo masivo (MPP), arquitectura de Shared-
Noting
Windows Azure HDInsight
Implementación de Hadoop basada en la nube
Disponible como un servicio de Microsoft Azure
Polibase
Tecnología de integración de SQL Server Parallel Data Warehouse
y HDInsight
47. Integración con herramientas Microsoft
Integración con las
herramientas de
Análisis de Microsoft
APPLICATIONSDATASYSTEMS
Aplicaciones Microsoft
HORTONWORKS
DATA PLATFORM
For Windows
DATASOURCES
MOBILE
DATA
OLTP, POS
SYSTEMS
Fuentes tradicionales
(RDBMS, OLTP, OLAP)
Nuevas Fuentes
(web logs, email, sensor data, social media)
49. Hadoop y Kafka
Centro de datos en
directo
Centro de datos fuera
de línea
HadoopHadoopDev
Hadoop
InterfazInterfazLos
consumidoresre
s en tiempo real
KafkaKafkaKafka
KafkaKafkaKafka
HadoopHadoopPROD
Hadoop
50. ¿Apache Storm?
4
Fácil de programar
Una plataforma de
procesamiento en tiempo
real distribuido
Tolerante a fallos
Se espera que que falle y
esta preparado para
recuperarse
Rápido
Velocidad de 1M +
mensajes por segundo
por nodo
Escalable
Miles de workers por
grupo
Seguro
Entrega de mensajes
garantizada
Exactamente una vez
Análisis de
Streaming de
datos
52. Casos de uso de Storm
7
Entrada Operadores (Ejemplos) Lookup Salida
Lenguaje De
Programación
Automoviles
Conectados
Event hubs
Window based aggregation,
Join stream/split stream
HBase, ML DocumentDB C# hybrid, Java
ETL Event Hubs
Partitioning/
organize
N/A WASB Java
IoT Event Hubs Window based aggregation Hbase, ML
DocumentDB,
HBase
Java
Detección
Fraude
ServiceBus
Queue
Filter ML Hbase C# hybrid
Análisis Sociales Twitter Groupby/trending topics N/A
Realtime dashboard
(BI)
Trident
Supervisión de
la red
Kafka Split (on success/ failure) ML SQL C# hybrid
Búsqueda de
Log
Storage
Queue/ Event
Hub
Parsing & index N/A Elastic Search Java
Dispositivos
Moviles
Eventhub Count HBase SignalR C# hybrid
53. iter. 1 iter. 2 . . .
Entrada
Intercambio de Datos en
Spark
Repartido
memoria
Entrada
consulta 1
pregunta 2
consulta 3
. . .
una vez
tratamiento
10-100× más rápido que la red y el disco
55. La automatización de la automatización
Utilizar computadoras para programar computadoras
Escribir software es el cuello de botella
Deje que los datos hagan el trabajo!
Qué es el aprendizaje autómático o Machine Learning
60. Alto rendimiento y
optimizado en el
hardware
Autenticación del
usuario final con
Active Directory
Accesible para todo
el mundo con las
herramientas de
Microsoft BI
Administrado y
monitoreado
utilizando System
Center
100-por ciento
Apache Hadoop
SQL Server
Parallel Data
warehouse
Microsoft
HDInsight
Polibase
APS listo para la empresa Hadoop con HDInsight
Manejable, asegurado, y de alta disponibilidad Hadoop integrado dentro del aparato
61. (HDFS) Bridge
Resultado
s
Acceso directo y paralelo a HDFS
Data Movement Service (DMS) of APS APS para permitir la comunicación directa entre HDFS datos nodos y nodos de computación
PDW
Los datos no relacional
Aplicaciones
Social
Sensor
y RFID
Móvil
aplicaciones
Web
aplicaciones
Hadoop
Los datos relacionales
Basado esquema tradicional
almacén de datos
PDWPuente HDFS
Enhanced PDW
query engine
La tabla externa
Los datos
externos
Archivo
externo
Regular
T-SQL
73. Planea asistir al PASS Summit 2015? Comience a ahorrar hoy!
• El más grande evento del mundo que reúne a profesionales de SQL Server y BI
• Adquiera habilidades en SQL Server a un nivel superior al aprender de los mejores
expertos del mundo de SQL Server, en más de 190 sesiones técnicas
• Más de 5.000 registros, que representan a 2.000 empresas, de 52 países, listos para la
red y aprender
Ahorre $150 en este momento
pregunta por el código de
descuento
12/9/2015 | SQL Saturday #448 – Bogotá, Colombia9 |
74. Sea cual sea su pasión datos - hay un capítulo virtual para
usted!
12/9/2015 | SQL Saturday #448 – Bogotá, Colombia10 |
75. Septiembre 17 | 12:00 UTC
Sesiones previas del PASS Summit 2015, obtenga 24
Horas de formación de SQL Server y BI de forma
gratuita!
Regístrese hoy: 24hoursofpass.com
Parte de lo que hace Hadoop y otras tecnologías y enfoques Big Data tan convincente es que permiten a las empresas a encontrar respuestas a preguntas que ni siquiera saben que preguntar.
Esto puede dar lugar a ideas que conducen a nuevas ideas de productos o ayudar a identificar formas de mejorar la eficiencia operativa.
Sin embargo, hay una serie de casos de uso ya identificadas para Big Data, tanto para los gigantes de internet como Google, Facebook y LinkedIn, y para la empresa más tradicional.
Give some background on – basically generating business reports
Tracking data is crucial to measure user engagement – unique member visits per day, ad metrics CTR to ad publishers
Also data analytics – new models for PYMK
Collapse multple boxes into one. Show multiple Hadoop clusters
If you track some new data, it will automatically reach Hadoop in a few minutes.