SlideShare una empresa de Scribd logo
1 de 38
Wprowadzenie
do Cloud Analytics
Łukasz Grala
Architect Data Platform & Advanced Analytics & BI Solutions
Data Platform MVP
@Łukasz Grala – lukasz@tidk.pl
• Architekt rozwiązań Platformy Danych & Business Intelligence & Zaawansowanej Analityki w TIDK
• Certyfikowany trener Microsoft i wykładowca na wyższych uczelniach
• Autor zaawansowanych szkoleń i warsztatów, oraz licznych publikacji i webcastów
• Od 2010 roku wyróżniany nagrodą Microsoft Data Platform MVP
• Doktorant Politechnika Poznańska – Wydział Informatyki (obszar bazy danych, eksploracja danych,
uczenie maszynowe)
• Prelegent na licznych konferencjach w kraju i na świecie
• Posiada liczne certyfikaty (MCT, MCSE, MCSA, MCITP,…)
• Członek Polskiego Towarzystwa Informatycznego
• Członek i lider Polish SQL Server User Group (PLSSUG)
• Pasjonat analizy, przechowywania i przetwarzania danych, miłośnik Jazzu
Overview
lukasz@tidk.pl
Data (Big Data)
• 72 hours of video are uploaded per minute on YouTube (1 terabyte
every 4 minutes)
• 500 terabytes of new data per day are ingested in Facebook
databases
• Sensors from a Boeing jet engine create 20 terabytes
of data every hour
• The proposed Square Kilometer Array telescope will generate “a few
Exabytes of data per day” (single beam)
lukasz@tidk.pl
Internet of Things (IoT)
lukasz@tidk.pl
Type of Analytics
lukasz@tidk.pl
New BI Solutions
ETL Tool
(SSIS, etc) EDW
(SQL Server, Teradata, etc)
Extract
Original Data
Load
Transformed
Data
Transform
BI Tools
Ingest (EL)
Original Data
Scale-out
Storage &
Compute
(HDFS, Blob Storage,
etc)
Transform & Load
Data Marts
Data Lake(s)
Dashboards
Apps
Streaming data
lukasz@tidk.pl
Dashboard
lukasz@tidk.pl
Mobile
lukasz@tidk.pl
lukasz@tidk.pl
Azure Data Lake Storage & Analytics
lukasz@tidk.pl
Analytics
Storage
HDInsight
(“managed clusters”)
Azure Data Lake Analytics
Azure Data Lake Storage
Azure Data Lake
lukasz@tidk.pl
WebHDFS
YARN
U-SQL
Analytics Service HDInsight
(managed Hadoop Clusters)
Analytics
Store
Azure Data Lake
Built on Apache YARN
Scales dynamically with the turn of a dial
Pay by the query
Supports Azure AD for access control, roles,
and integration with on-prem identity systems
Built with U-SQL to unify the benefits of SQL
with the power of C#
Processes data across Azure
Azure Data Lake Analytics Services
13
Work across all cloud data
Azure Data Lake
Analytics
Azure SQL DW Azure SQL DB
Azure
Storage Blobs
Azure
Data Lake Store
SQL DB in an
Azure VM
lukasz@tidk.pl
Stream Analytics
lukasz@tidk.pl
Azure Stream Analytics
Point of
Service Devices
Self Checkout
Stations
Kiosks
Smart
Phones
Slates/
Tablets
PCs/
Laptops
Servers
Digital
Signs
Diagnostic
EquipmentRemote Medical
Monitors
Logic
Controllers
Specialized
DevicesThin
Clients
Handhelds
Security
POS
Terminals
Automation
Devices
Vending
Machines
Kinect
ATM
lukasz@tidk.pl
SELECT count(*), Topic FROM Tweets
GROUP BY Topic, TumblingWindow(second, 5)
Let’s count tweets by topic…
Stream Analytics Query Language
Built-in
Functions
Data Types
Query
Language
Elements
Time
Management
Group By - Windowing
TUMBLING WINDOW
HOPPING WINDOW
SLIDING WINDOW
Group By – Windowing - Tumbling
SELECT count(*), Topic FROM Tweets
GROUP BY Topic, TumblingWindow(second, 5)
TUMBLINGWINDOW ( timeunit , windowsize, [offsetsize] )
TUMBLINGWINDOW ( Duration( timeunit , windowsize ), [Offset(timeunit , offsetsize)] )
Group By – Windowing - Hoppingwindow
SELECT System.TimeStamp, Topic, COUNT(*)
FROM Tweets BY EntryTime
GROUP BY Topic, HoppingWindow(second, 10, 5)
HOPPINGWINDOW ( timeunit , windowsize , hopsize, [offsetsize] )
HOPPINGWINDOW ( Duration( timeunit , windowsize ) , Hop (timeunit , windowsize ), [Offset(timeunit , offsetsize)])
lukasz@tidk.pl
Canonical Event-driven Scenario
Big Data - HDInsight
• HDInsight is a Hadoop-based service that brings 100% Apache
Hadoop solution running on the Microsoft Azure platform
• Based on the Hortonworks Data Platform (HDP)
• Scalable, on-demand service
lukasz@tidk.pl
HDInsight
lukasz@tidk.pl
Zepelin
HDInsight & SQL Server 2016
Query relational
and non-relational
data, on-premises
and in Azure
Apps
T-SQL query
SQL Server Hadoop
lukasz@tidk.pl
Advanced Analytics - Language and Tools
• Language R and Python
• Microsoft R Open, Microsoft R Server, R Services, CARN R, Revolution
• Mahout
• SparkR
• MLLib
• Azure Machine Learning
lukasz@tidk.pl
lukasz@tidk.pl
Machine Learning
Key Concept – Machine Learning
Data
Model
Parameters
Learning Prediction
Decision Making
Utility Function
lukasz@tidk.pl
Class Learning Problems
• Classification: Assign a category to each item (Chinese | French
| Indian | Italian | Japanese restaurant).
• Regression: Predict a real value for each item
(stock/currency value, temperature).
• Ranking: Order items according to some criterion
(web search results relevant to a user query).
• Clustering: Partition items into homogeneous groups
(clustering twitter posts by topic).
• Dimensionality reduction: Transform an initial representation of items
into a lower-dimensional representation while preserving some
properties (preprocessing of digital images).
lukasz@tidk.pl
Steps to Build Machine Learning Solution
lukasz@tidk.pl
Azure Machine Learning
lukasz@tidk.pl
Azure Machine Learning
lukasz@tidk.pl
Summary
• PowerBI
• Azure Data Lake Storage & Analytics
• Azure Stream Analytics
• Azure Machine Learning
• Azure HDInsight (Hadoop, Spark, Hbase, Storm + MLLib, Mahout,
SparkR…)
lukasz@tidk.pl
lukasz@tidk.pl
Question?
lukasz@tidk.pl
• 16-18 maj 2016
• Wrocław Centrum Konferencyjne
• 3 dni, 6 warsztatów, 4 ścieżki, ponad 30 prelegentów, 50 sesji
• 600 uczestników + sponsorzy + prelegenci + organizatorzy
• Goście między innymi z USA, Anglii, Niemiec, Ukrainy, Bułgarii, Słoweni
• Premiera techniczna SQL Server 2016
sqlday.pl @sqlday
lukasz@tidk.pl
W tym warsztat Big Data Analytics – Łukasz Grala & Marcin Szeliga
Masterclass: Cloud Storage
23-25.05.2016, Warszawa
Azure SQL Server i Azure SQL Database, Skalowanie bazy relacyjnej w
chmurze, Hurtownia danych w chmurze PowerShell i bazy danych w
Azure, Azure BLOB Storage, Bazy dokumentowe, Big Data z
HDInsight, Hadoop, Apache Spark, Pozostałe komponenty HDInsight i
Hadoop, Wirtualne maszyny
Masterclass: Cloud Analytics
20-22.06.2016, Warszawa
Data Catalog, Data Factory, Data Lake, PowerBI i dane relacyjne w
chmurze, Hadoop, Apache Spark, Analiza danych strumieniowych,
Analiza z baz danych dokumentowych i grafowych, Uczenie
maszynowe, Polybase w SQL Server 2016
Łukasz Grala
Data Platform MVP,
MCT, MCSE, MCSA,
MCITP, MCSA,
MCP, MTA
Łukasz o szkoleniach:
„Danych produkowanych jest
więcej niż kiedykolwiek, pochodzą
z sieci Internet, z portali społecznościowych, z
urządzeń. Bardzo duży rozwój Internetu Rzeczy
(IoT) ilość tych danych jeszcze bardziej
zwiększa. Dlatego przygotowaliśmy dwa
specjalne kursy Cloud Storage i Cloud Analytics,
przedstawiające mechanizmy składowania,
przetwarzania i analizy danych z
wykorzystaniem chmury.”
Big Data, BI, Analityka, SQL
Standard -25% na hasło TechStolicawww.hexcode.pl

Más contenido relacionado

Destacado

03-Institutional and Political Aspects of the French regime
03-Institutional and Political Aspects of the French regime03-Institutional and Political Aspects of the French regime
03-Institutional and Political Aspects of the French regimecaronc
 
Rcreee regional renewable energy conference 2010 presentation of the policy a...
Rcreee regional renewable energy conference 2010 presentation of the policy a...Rcreee regional renewable energy conference 2010 presentation of the policy a...
Rcreee regional renewable energy conference 2010 presentation of the policy a...RCREEE
 
Prgramme of activities fundamentals
Prgramme of activities  fundamentalsPrgramme of activities  fundamentals
Prgramme of activities fundamentalsRCREEE
 
Partial List of Events Attended CC
Partial List of Events Attended CCPartial List of Events Attended CC
Partial List of Events Attended CCElizabeth Loudon
 
02-Canada in the World
02-Canada in the World02-Canada in the World
02-Canada in the Worldcaronc
 
Medición y análisis de pérdidas en las cadenas alimentarias en México
Medición y análisis de pérdidas en las cadenas alimentarias en MéxicoMedición y análisis de pérdidas en las cadenas alimentarias en México
Medición y análisis de pérdidas en las cadenas alimentarias en MéxicoFAO
 
DAD-IS project overview and future perspectives
DAD-IS project overview and future perspectives DAD-IS project overview and future perspectives
DAD-IS project overview and future perspectives FAO
 
Portafolio Electronico
Portafolio ElectronicoPortafolio Electronico
Portafolio Electronicopalacio97
 
Workshop on ee labels 2011 day 1 session 1 the need of ee labeling
Workshop on ee labels 2011 day 1 session 1 the need of ee labelingWorkshop on ee labels 2011 day 1 session 1 the need of ee labeling
Workshop on ee labels 2011 day 1 session 1 the need of ee labelingRCREEE
 
Resultados del proyecto sobre recuperación de praderas degradadas y sostenibi...
Resultados del proyecto sobre recuperación de praderas degradadas y sostenibi...Resultados del proyecto sobre recuperación de praderas degradadas y sostenibi...
Resultados del proyecto sobre recuperación de praderas degradadas y sostenibi...FAO
 
AnalyticsConf2016 - Zaawansowana analityka na platformie Azure HDInsight
AnalyticsConf2016 - Zaawansowana analityka na platformie Azure HDInsightAnalyticsConf2016 - Zaawansowana analityka na platformie Azure HDInsight
AnalyticsConf2016 - Zaawansowana analityka na platformie Azure HDInsightŁukasz Grala
 
Losses in Food Balance Sheets: Current Status, Imputation, and SDG 12.3
Losses in Food Balance Sheets: Current Status, Imputation, and SDG 12.3Losses in Food Balance Sheets: Current Status, Imputation, and SDG 12.3
Losses in Food Balance Sheets: Current Status, Imputation, and SDG 12.3FAO
 
Chuyen hoa va can bang toan kiem (ag)
Chuyen hoa va can bang toan kiem (ag)Chuyen hoa va can bang toan kiem (ag)
Chuyen hoa va can bang toan kiem (ag)Bác sĩ nhà quê
 
Session3 re situation_in_libya
Session3 re situation_in_libyaSession3 re situation_in_libya
Session3 re situation_in_libyaRCREEE
 
Endoscopy in Gastrointestinal Oncology - Slide 7 - I. Oda - Chromoscopy, mana...
Endoscopy in Gastrointestinal Oncology - Slide 7 - I. Oda - Chromoscopy, mana...Endoscopy in Gastrointestinal Oncology - Slide 7 - I. Oda - Chromoscopy, mana...
Endoscopy in Gastrointestinal Oncology - Slide 7 - I. Oda - Chromoscopy, mana...European School of Oncology
 
Doenças de comportamento alimentar
Doenças de comportamento alimentarDoenças de comportamento alimentar
Doenças de comportamento alimentare.ferreira
 
Inspector ,ElectroMechanical engineer resume rev.01
Inspector ,ElectroMechanical  engineer resume rev.01Inspector ,ElectroMechanical  engineer resume rev.01
Inspector ,ElectroMechanical engineer resume rev.01yousef amrou
 

Destacado (20)

03-Institutional and Political Aspects of the French regime
03-Institutional and Political Aspects of the French regime03-Institutional and Political Aspects of the French regime
03-Institutional and Political Aspects of the French regime
 
Maltratoinfantil
MaltratoinfantilMaltratoinfantil
Maltratoinfantil
 
Rcreee regional renewable energy conference 2010 presentation of the policy a...
Rcreee regional renewable energy conference 2010 presentation of the policy a...Rcreee regional renewable energy conference 2010 presentation of the policy a...
Rcreee regional renewable energy conference 2010 presentation of the policy a...
 
Prgramme of activities fundamentals
Prgramme of activities  fundamentalsPrgramme of activities  fundamentals
Prgramme of activities fundamentals
 
Partial List of Events Attended CC
Partial List of Events Attended CCPartial List of Events Attended CC
Partial List of Events Attended CC
 
02-Canada in the World
02-Canada in the World02-Canada in the World
02-Canada in the World
 
Medición y análisis de pérdidas en las cadenas alimentarias en México
Medición y análisis de pérdidas en las cadenas alimentarias en MéxicoMedición y análisis de pérdidas en las cadenas alimentarias en México
Medición y análisis de pérdidas en las cadenas alimentarias en México
 
EDI Certifcate
EDI CertifcateEDI Certifcate
EDI Certifcate
 
DAD-IS project overview and future perspectives
DAD-IS project overview and future perspectives DAD-IS project overview and future perspectives
DAD-IS project overview and future perspectives
 
Portafolio Electronico
Portafolio ElectronicoPortafolio Electronico
Portafolio Electronico
 
La contaminación ambiental
La contaminación ambientalLa contaminación ambiental
La contaminación ambiental
 
Workshop on ee labels 2011 day 1 session 1 the need of ee labeling
Workshop on ee labels 2011 day 1 session 1 the need of ee labelingWorkshop on ee labels 2011 day 1 session 1 the need of ee labeling
Workshop on ee labels 2011 day 1 session 1 the need of ee labeling
 
Resultados del proyecto sobre recuperación de praderas degradadas y sostenibi...
Resultados del proyecto sobre recuperación de praderas degradadas y sostenibi...Resultados del proyecto sobre recuperación de praderas degradadas y sostenibi...
Resultados del proyecto sobre recuperación de praderas degradadas y sostenibi...
 
AnalyticsConf2016 - Zaawansowana analityka na platformie Azure HDInsight
AnalyticsConf2016 - Zaawansowana analityka na platformie Azure HDInsightAnalyticsConf2016 - Zaawansowana analityka na platformie Azure HDInsight
AnalyticsConf2016 - Zaawansowana analityka na platformie Azure HDInsight
 
Losses in Food Balance Sheets: Current Status, Imputation, and SDG 12.3
Losses in Food Balance Sheets: Current Status, Imputation, and SDG 12.3Losses in Food Balance Sheets: Current Status, Imputation, and SDG 12.3
Losses in Food Balance Sheets: Current Status, Imputation, and SDG 12.3
 
Chuyen hoa va can bang toan kiem (ag)
Chuyen hoa va can bang toan kiem (ag)Chuyen hoa va can bang toan kiem (ag)
Chuyen hoa va can bang toan kiem (ag)
 
Session3 re situation_in_libya
Session3 re situation_in_libyaSession3 re situation_in_libya
Session3 re situation_in_libya
 
Endoscopy in Gastrointestinal Oncology - Slide 7 - I. Oda - Chromoscopy, mana...
Endoscopy in Gastrointestinal Oncology - Slide 7 - I. Oda - Chromoscopy, mana...Endoscopy in Gastrointestinal Oncology - Slide 7 - I. Oda - Chromoscopy, mana...
Endoscopy in Gastrointestinal Oncology - Slide 7 - I. Oda - Chromoscopy, mana...
 
Doenças de comportamento alimentar
Doenças de comportamento alimentarDoenças de comportamento alimentar
Doenças de comportamento alimentar
 
Inspector ,ElectroMechanical engineer resume rev.01
Inspector ,ElectroMechanical  engineer resume rev.01Inspector ,ElectroMechanical  engineer resume rev.01
Inspector ,ElectroMechanical engineer resume rev.01
 

Similar a 20160316 techstolica - cloudanalytics -tidk

Elitmind @ 113. Spotkanie Data Community, Warszawa - Business Intelligence w ...
Elitmind @ 113. Spotkanie Data Community, Warszawa - Business Intelligence w ...Elitmind @ 113. Spotkanie Data Community, Warszawa - Business Intelligence w ...
Elitmind @ 113. Spotkanie Data Community, Warszawa - Business Intelligence w ...Elitmind
 
Elitmind @ SQLDay2018: Stream Analytics i Machine Learning – czy to dobrze do...
Elitmind @ SQLDay2018: Stream Analytics i Machine Learning – czy to dobrze do...Elitmind @ SQLDay2018: Stream Analytics i Machine Learning – czy to dobrze do...
Elitmind @ SQLDay2018: Stream Analytics i Machine Learning – czy to dobrze do...Elitmind
 
Citrix NetScaler Gateway i Azure MFA
Citrix NetScaler Gateway i Azure MFACitrix NetScaler Gateway i Azure MFA
Citrix NetScaler Gateway i Azure MFAPawel Serwan
 
Optymalizacja hostingu
Optymalizacja hostinguOptymalizacja hostingu
Optymalizacja hostinguDivante
 
[#4] spark - IBM Integrated Analytics System
[#4] spark - IBM Integrated Analytics System[#4] spark - IBM Integrated Analytics System
[#4] spark - IBM Integrated Analytics SystemArtur Wronski
 
[PL] WDI22-Adrian Chodkowski - Azure SQL Skalowalna baza w świecie chmury.pptx
[PL] WDI22-Adrian Chodkowski - Azure SQL Skalowalna baza w świecie chmury.pptx[PL] WDI22-Adrian Chodkowski - Azure SQL Skalowalna baza w świecie chmury.pptx
[PL] WDI22-Adrian Chodkowski - Azure SQL Skalowalna baza w świecie chmury.pptxSeeQuality.net
 
Wprowadzenie do modelowania danych w PowerPivot
Wprowadzenie do modelowania danych w PowerPivotWprowadzenie do modelowania danych w PowerPivot
Wprowadzenie do modelowania danych w PowerPivotKamil Nowinski
 
1st Silesian Code Camp - Czy jesteśmy gotowi na SQL Azure?
1st Silesian Code Camp - Czy jesteśmy gotowi na SQL Azure?1st Silesian Code Camp - Czy jesteśmy gotowi na SQL Azure?
1st Silesian Code Camp - Czy jesteśmy gotowi na SQL Azure?Tobias Koprowski
 
Microsoft Business Intelligence w 2017 roku
Microsoft Business Intelligence w 2017 rokuMicrosoft Business Intelligence w 2017 roku
Microsoft Business Intelligence w 2017 rokuHighWheelSoftware
 
GET.NET - Osiołkowi w żłobie dano, czyli o tym jak hostować aplikacje na Mic...
GET.NET -  Osiołkowi w żłobie dano, czyli o tym jak hostować aplikacje na Mic...GET.NET -  Osiołkowi w żłobie dano, czyli o tym jak hostować aplikacje na Mic...
GET.NET - Osiołkowi w żłobie dano, czyli o tym jak hostować aplikacje na Mic...Michal Furmankiewicz
 
Olsztyński Dzień Informatyki - Chmura Azure dla specjalistów IT. Mamy się jej...
Olsztyński Dzień Informatyki - Chmura Azure dla specjalistów IT. Mamy się jej...Olsztyński Dzień Informatyki - Chmura Azure dla specjalistów IT. Mamy się jej...
Olsztyński Dzień Informatyki - Chmura Azure dla specjalistów IT. Mamy się jej...cieszak
 
Co z czym i do czego w Microsoft Azure - poznajemy usługi
Co z czym i do czego w Microsoft Azure - poznajemy usługiCo z czym i do czego w Microsoft Azure - poznajemy usługi
Co z czym i do czego w Microsoft Azure - poznajemy usługiEmil Wasilewski
 
Praca naukowa i projekty komercyjne w 9 Lives Data
Praca naukowa i projekty komercyjne w 9 Lives DataPraca naukowa i projekty komercyjne w 9 Lives Data
Praca naukowa i projekty komercyjne w 9 Lives Data9LivesData
 
Wysoka Dostępność Windows Server 2008 w kontekscie umów SLA
Wysoka Dostępność Windows Server 2008 w kontekscie umów SLAWysoka Dostępność Windows Server 2008 w kontekscie umów SLA
Wysoka Dostępność Windows Server 2008 w kontekscie umów SLATobias Koprowski
 
infraxstructure: Rafał Stańczak "Postępujący rozwój infrastruktury na potrze...
infraxstructure: Rafał Stańczak  "Postępujący rozwój infrastruktury na potrze...infraxstructure: Rafał Stańczak  "Postępujący rozwój infrastruktury na potrze...
infraxstructure: Rafał Stańczak "Postępujący rozwój infrastruktury na potrze...PROIDEA
 
PLNOG16: Nowe założenia dla zbieranie logów, statystyk i alertów, Maciej Kałk...
PLNOG16: Nowe założenia dla zbieranie logów, statystyk i alertów, Maciej Kałk...PLNOG16: Nowe założenia dla zbieranie logów, statystyk i alertów, Maciej Kałk...
PLNOG16: Nowe założenia dla zbieranie logów, statystyk i alertów, Maciej Kałk...PROIDEA
 
I Kongres eHandlu: Tomasz Wiśniewski - "Jak chmura Windows Azure może wspomóc...
I Kongres eHandlu: Tomasz Wiśniewski - "Jak chmura Windows Azure może wspomóc...I Kongres eHandlu: Tomasz Wiśniewski - "Jak chmura Windows Azure może wspomóc...
I Kongres eHandlu: Tomasz Wiśniewski - "Jak chmura Windows Azure może wspomóc...ecommerce poland expo
 
PLNOG 17 - Maciej Flak - Cisco Cloud Networking - czyli kompletna infrastrukt...
PLNOG 17 - Maciej Flak - Cisco Cloud Networking - czyli kompletna infrastrukt...PLNOG 17 - Maciej Flak - Cisco Cloud Networking - czyli kompletna infrastrukt...
PLNOG 17 - Maciej Flak - Cisco Cloud Networking - czyli kompletna infrastrukt...PROIDEA
 
SQL Day 2018 Building efficient and reliable Enterprise Reporting Platform wi...
SQL Day 2018 Building efficient and reliable Enterprise Reporting Platform wi...SQL Day 2018 Building efficient and reliable Enterprise Reporting Platform wi...
SQL Day 2018 Building efficient and reliable Enterprise Reporting Platform wi...radekle
 

Similar a 20160316 techstolica - cloudanalytics -tidk (20)

Elitmind @ 113. Spotkanie Data Community, Warszawa - Business Intelligence w ...
Elitmind @ 113. Spotkanie Data Community, Warszawa - Business Intelligence w ...Elitmind @ 113. Spotkanie Data Community, Warszawa - Business Intelligence w ...
Elitmind @ 113. Spotkanie Data Community, Warszawa - Business Intelligence w ...
 
Elitmind @ SQLDay2018: Stream Analytics i Machine Learning – czy to dobrze do...
Elitmind @ SQLDay2018: Stream Analytics i Machine Learning – czy to dobrze do...Elitmind @ SQLDay2018: Stream Analytics i Machine Learning – czy to dobrze do...
Elitmind @ SQLDay2018: Stream Analytics i Machine Learning – czy to dobrze do...
 
Citrix NetScaler Gateway i Azure MFA
Citrix NetScaler Gateway i Azure MFACitrix NetScaler Gateway i Azure MFA
Citrix NetScaler Gateway i Azure MFA
 
Optymalizacja hostingu
Optymalizacja hostinguOptymalizacja hostingu
Optymalizacja hostingu
 
[#4] spark - IBM Integrated Analytics System
[#4] spark - IBM Integrated Analytics System[#4] spark - IBM Integrated Analytics System
[#4] spark - IBM Integrated Analytics System
 
[PL] WDI22-Adrian Chodkowski - Azure SQL Skalowalna baza w świecie chmury.pptx
[PL] WDI22-Adrian Chodkowski - Azure SQL Skalowalna baza w świecie chmury.pptx[PL] WDI22-Adrian Chodkowski - Azure SQL Skalowalna baza w świecie chmury.pptx
[PL] WDI22-Adrian Chodkowski - Azure SQL Skalowalna baza w świecie chmury.pptx
 
Wprowadzenie do modelowania danych w PowerPivot
Wprowadzenie do modelowania danych w PowerPivotWprowadzenie do modelowania danych w PowerPivot
Wprowadzenie do modelowania danych w PowerPivot
 
1st Silesian Code Camp - Czy jesteśmy gotowi na SQL Azure?
1st Silesian Code Camp - Czy jesteśmy gotowi na SQL Azure?1st Silesian Code Camp - Czy jesteśmy gotowi na SQL Azure?
1st Silesian Code Camp - Czy jesteśmy gotowi na SQL Azure?
 
Microsoft Business Intelligence w 2017 roku
Microsoft Business Intelligence w 2017 rokuMicrosoft Business Intelligence w 2017 roku
Microsoft Business Intelligence w 2017 roku
 
GET.NET - Osiołkowi w żłobie dano, czyli o tym jak hostować aplikacje na Mic...
GET.NET -  Osiołkowi w żłobie dano, czyli o tym jak hostować aplikacje na Mic...GET.NET -  Osiołkowi w żłobie dano, czyli o tym jak hostować aplikacje na Mic...
GET.NET - Osiołkowi w żłobie dano, czyli o tym jak hostować aplikacje na Mic...
 
Olsztyński Dzień Informatyki - Chmura Azure dla specjalistów IT. Mamy się jej...
Olsztyński Dzień Informatyki - Chmura Azure dla specjalistów IT. Mamy się jej...Olsztyński Dzień Informatyki - Chmura Azure dla specjalistów IT. Mamy się jej...
Olsztyński Dzień Informatyki - Chmura Azure dla specjalistów IT. Mamy się jej...
 
Co z czym i do czego w Microsoft Azure - poznajemy usługi
Co z czym i do czego w Microsoft Azure - poznajemy usługiCo z czym i do czego w Microsoft Azure - poznajemy usługi
Co z czym i do czego w Microsoft Azure - poznajemy usługi
 
Praca naukowa i projekty komercyjne w 9 Lives Data
Praca naukowa i projekty komercyjne w 9 Lives DataPraca naukowa i projekty komercyjne w 9 Lives Data
Praca naukowa i projekty komercyjne w 9 Lives Data
 
Projektowanie i programowanie aplikacji nowej generacji
Projektowanie i programowanie aplikacji nowej generacjiProjektowanie i programowanie aplikacji nowej generacji
Projektowanie i programowanie aplikacji nowej generacji
 
Wysoka Dostępność Windows Server 2008 w kontekscie umów SLA
Wysoka Dostępność Windows Server 2008 w kontekscie umów SLAWysoka Dostępność Windows Server 2008 w kontekscie umów SLA
Wysoka Dostępność Windows Server 2008 w kontekscie umów SLA
 
infraxstructure: Rafał Stańczak "Postępujący rozwój infrastruktury na potrze...
infraxstructure: Rafał Stańczak  "Postępujący rozwój infrastruktury na potrze...infraxstructure: Rafał Stańczak  "Postępujący rozwój infrastruktury na potrze...
infraxstructure: Rafał Stańczak "Postępujący rozwój infrastruktury na potrze...
 
PLNOG16: Nowe założenia dla zbieranie logów, statystyk i alertów, Maciej Kałk...
PLNOG16: Nowe założenia dla zbieranie logów, statystyk i alertów, Maciej Kałk...PLNOG16: Nowe założenia dla zbieranie logów, statystyk i alertów, Maciej Kałk...
PLNOG16: Nowe założenia dla zbieranie logów, statystyk i alertów, Maciej Kałk...
 
I Kongres eHandlu: Tomasz Wiśniewski - "Jak chmura Windows Azure może wspomóc...
I Kongres eHandlu: Tomasz Wiśniewski - "Jak chmura Windows Azure może wspomóc...I Kongres eHandlu: Tomasz Wiśniewski - "Jak chmura Windows Azure może wspomóc...
I Kongres eHandlu: Tomasz Wiśniewski - "Jak chmura Windows Azure może wspomóc...
 
PLNOG 17 - Maciej Flak - Cisco Cloud Networking - czyli kompletna infrastrukt...
PLNOG 17 - Maciej Flak - Cisco Cloud Networking - czyli kompletna infrastrukt...PLNOG 17 - Maciej Flak - Cisco Cloud Networking - czyli kompletna infrastrukt...
PLNOG 17 - Maciej Flak - Cisco Cloud Networking - czyli kompletna infrastrukt...
 
SQL Day 2018 Building efficient and reliable Enterprise Reporting Platform wi...
SQL Day 2018 Building efficient and reliable Enterprise Reporting Platform wi...SQL Day 2018 Building efficient and reliable Enterprise Reporting Platform wi...
SQL Day 2018 Building efficient and reliable Enterprise Reporting Platform wi...
 

Más de Łukasz Grala

Cognitive Toolkit - Deep Learning framework from Microsoft
Cognitive Toolkit - Deep Learning framework from MicrosoftCognitive Toolkit - Deep Learning framework from Microsoft
Cognitive Toolkit - Deep Learning framework from MicrosoftŁukasz Grala
 
DataMass Summit - Machine Learning for Big Data in SQL Server
DataMass Summit - Machine Learning for Big Data  in SQL ServerDataMass Summit - Machine Learning for Big Data  in SQL Server
DataMass Summit - Machine Learning for Big Data in SQL ServerŁukasz Grala
 
WhyR? Analiza sentymentu
WhyR? Analiza sentymentuWhyR? Analiza sentymentu
WhyR? Analiza sentymentuŁukasz Grala
 
eRum2016 -RevoScaleR - Performance and Scalability R
eRum2016 -RevoScaleR - Performance and Scalability ReRum2016 -RevoScaleR - Performance and Scalability R
eRum2016 -RevoScaleR - Performance and Scalability RŁukasz Grala
 
AzureDay - Introduction Big Data Analytics.
AzureDay  - Introduction Big Data Analytics.AzureDay  - Introduction Big Data Analytics.
AzureDay - Introduction Big Data Analytics.Łukasz Grala
 
WyspaIT 2016 - Azure Stream Analytics i Azure Machine Learning w analizie str...
WyspaIT 2016 - Azure Stream Analytics i Azure Machine Learning w analizie str...WyspaIT 2016 - Azure Stream Analytics i Azure Machine Learning w analizie str...
WyspaIT 2016 - Azure Stream Analytics i Azure Machine Learning w analizie str...Łukasz Grala
 
3 CityNetConf - sql+c#=u-sql
3 CityNetConf - sql+c#=u-sql3 CityNetConf - sql+c#=u-sql
3 CityNetConf - sql+c#=u-sqlŁukasz Grala
 
20160317 - PAZUR - PowerBI & R
20160317  - PAZUR - PowerBI & R20160317  - PAZUR - PowerBI & R
20160317 - PAZUR - PowerBI & RŁukasz Grala
 
Prescriptive Analytics
Prescriptive AnalyticsPrescriptive Analytics
Prescriptive AnalyticsŁukasz Grala
 
DAC4B 2015 - Polybase
DAC4B 2015 - PolybaseDAC4B 2015 - Polybase
DAC4B 2015 - PolybaseŁukasz Grala
 
Expert summit SQL Server 2016
Expert summit   SQL Server 2016Expert summit   SQL Server 2016
Expert summit SQL Server 2016Łukasz Grala
 
Nowy SQL Server 2012 – DENALI rewolucją w silnikach baz danych - Microsoft te...
Nowy SQL Server 2012 – DENALI rewolucją w silnikach baz danych - Microsoft te...Nowy SQL Server 2012 – DENALI rewolucją w silnikach baz danych - Microsoft te...
Nowy SQL Server 2012 – DENALI rewolucją w silnikach baz danych - Microsoft te...Łukasz Grala
 
Pre mts Sharepoint 2010 i SQL Server 2012
Pre mts   Sharepoint 2010 i SQL Server 2012Pre mts   Sharepoint 2010 i SQL Server 2012
Pre mts Sharepoint 2010 i SQL Server 2012Łukasz Grala
 
SQL Day 2011 Modelowanie i zasilanie wymiarów hurtowni danych - łukasz grala
SQL Day 2011 Modelowanie i zasilanie wymiarów hurtowni danych  - łukasz gralaSQL Day 2011 Modelowanie i zasilanie wymiarów hurtowni danych  - łukasz grala
SQL Day 2011 Modelowanie i zasilanie wymiarów hurtowni danych - łukasz gralaŁukasz Grala
 
SQL Day 2011 - Modelowanie i zasilanie wymiarów hurtowni danych - łukasz grala
SQL Day 2011 - Modelowanie i zasilanie wymiarów hurtowni danych  - łukasz gralaSQL Day 2011 - Modelowanie i zasilanie wymiarów hurtowni danych  - łukasz grala
SQL Day 2011 - Modelowanie i zasilanie wymiarów hurtowni danych - łukasz gralaŁukasz Grala
 
"SharePoint 2010 a SQL Server" - Konferencja Time For SharePoint 2011- Łukas...
"SharePoint 2010 a SQL Server" - Konferencja Time For SharePoint 2011-  Łukas..."SharePoint 2010 a SQL Server" - Konferencja Time For SharePoint 2011-  Łukas...
"SharePoint 2010 a SQL Server" - Konferencja Time For SharePoint 2011- Łukas...Łukasz Grala
 
Reprezentacja hierarchii w SQL Server 2008/2008R2 - 2nd Silesian CodeCamp
Reprezentacja hierarchii w SQL Server 2008/2008R2 - 2nd Silesian CodeCampReprezentacja hierarchii w SQL Server 2008/2008R2 - 2nd Silesian CodeCamp
Reprezentacja hierarchii w SQL Server 2008/2008R2 - 2nd Silesian CodeCampŁukasz Grala
 
Łukasz Grala - WSKIZ 2009-04-07 It Academic - SQL Server 2008 - Nowości Adm...
Łukasz Grala - WSKIZ 2009-04-07 It Academic - SQL Server 2008 - Nowości   Adm...Łukasz Grala - WSKIZ 2009-04-07 It Academic - SQL Server 2008 - Nowości   Adm...
Łukasz Grala - WSKIZ 2009-04-07 It Academic - SQL Server 2008 - Nowości Adm...Łukasz Grala
 

Más de Łukasz Grala (18)

Cognitive Toolkit - Deep Learning framework from Microsoft
Cognitive Toolkit - Deep Learning framework from MicrosoftCognitive Toolkit - Deep Learning framework from Microsoft
Cognitive Toolkit - Deep Learning framework from Microsoft
 
DataMass Summit - Machine Learning for Big Data in SQL Server
DataMass Summit - Machine Learning for Big Data  in SQL ServerDataMass Summit - Machine Learning for Big Data  in SQL Server
DataMass Summit - Machine Learning for Big Data in SQL Server
 
WhyR? Analiza sentymentu
WhyR? Analiza sentymentuWhyR? Analiza sentymentu
WhyR? Analiza sentymentu
 
eRum2016 -RevoScaleR - Performance and Scalability R
eRum2016 -RevoScaleR - Performance and Scalability ReRum2016 -RevoScaleR - Performance and Scalability R
eRum2016 -RevoScaleR - Performance and Scalability R
 
AzureDay - Introduction Big Data Analytics.
AzureDay  - Introduction Big Data Analytics.AzureDay  - Introduction Big Data Analytics.
AzureDay - Introduction Big Data Analytics.
 
WyspaIT 2016 - Azure Stream Analytics i Azure Machine Learning w analizie str...
WyspaIT 2016 - Azure Stream Analytics i Azure Machine Learning w analizie str...WyspaIT 2016 - Azure Stream Analytics i Azure Machine Learning w analizie str...
WyspaIT 2016 - Azure Stream Analytics i Azure Machine Learning w analizie str...
 
3 CityNetConf - sql+c#=u-sql
3 CityNetConf - sql+c#=u-sql3 CityNetConf - sql+c#=u-sql
3 CityNetConf - sql+c#=u-sql
 
20160317 - PAZUR - PowerBI & R
20160317  - PAZUR - PowerBI & R20160317  - PAZUR - PowerBI & R
20160317 - PAZUR - PowerBI & R
 
Prescriptive Analytics
Prescriptive AnalyticsPrescriptive Analytics
Prescriptive Analytics
 
DAC4B 2015 - Polybase
DAC4B 2015 - PolybaseDAC4B 2015 - Polybase
DAC4B 2015 - Polybase
 
Expert summit SQL Server 2016
Expert summit   SQL Server 2016Expert summit   SQL Server 2016
Expert summit SQL Server 2016
 
Nowy SQL Server 2012 – DENALI rewolucją w silnikach baz danych - Microsoft te...
Nowy SQL Server 2012 – DENALI rewolucją w silnikach baz danych - Microsoft te...Nowy SQL Server 2012 – DENALI rewolucją w silnikach baz danych - Microsoft te...
Nowy SQL Server 2012 – DENALI rewolucją w silnikach baz danych - Microsoft te...
 
Pre mts Sharepoint 2010 i SQL Server 2012
Pre mts   Sharepoint 2010 i SQL Server 2012Pre mts   Sharepoint 2010 i SQL Server 2012
Pre mts Sharepoint 2010 i SQL Server 2012
 
SQL Day 2011 Modelowanie i zasilanie wymiarów hurtowni danych - łukasz grala
SQL Day 2011 Modelowanie i zasilanie wymiarów hurtowni danych  - łukasz gralaSQL Day 2011 Modelowanie i zasilanie wymiarów hurtowni danych  - łukasz grala
SQL Day 2011 Modelowanie i zasilanie wymiarów hurtowni danych - łukasz grala
 
SQL Day 2011 - Modelowanie i zasilanie wymiarów hurtowni danych - łukasz grala
SQL Day 2011 - Modelowanie i zasilanie wymiarów hurtowni danych  - łukasz gralaSQL Day 2011 - Modelowanie i zasilanie wymiarów hurtowni danych  - łukasz grala
SQL Day 2011 - Modelowanie i zasilanie wymiarów hurtowni danych - łukasz grala
 
"SharePoint 2010 a SQL Server" - Konferencja Time For SharePoint 2011- Łukas...
"SharePoint 2010 a SQL Server" - Konferencja Time For SharePoint 2011-  Łukas..."SharePoint 2010 a SQL Server" - Konferencja Time For SharePoint 2011-  Łukas...
"SharePoint 2010 a SQL Server" - Konferencja Time For SharePoint 2011- Łukas...
 
Reprezentacja hierarchii w SQL Server 2008/2008R2 - 2nd Silesian CodeCamp
Reprezentacja hierarchii w SQL Server 2008/2008R2 - 2nd Silesian CodeCampReprezentacja hierarchii w SQL Server 2008/2008R2 - 2nd Silesian CodeCamp
Reprezentacja hierarchii w SQL Server 2008/2008R2 - 2nd Silesian CodeCamp
 
Łukasz Grala - WSKIZ 2009-04-07 It Academic - SQL Server 2008 - Nowości Adm...
Łukasz Grala - WSKIZ 2009-04-07 It Academic - SQL Server 2008 - Nowości   Adm...Łukasz Grala - WSKIZ 2009-04-07 It Academic - SQL Server 2008 - Nowości   Adm...
Łukasz Grala - WSKIZ 2009-04-07 It Academic - SQL Server 2008 - Nowości Adm...
 

20160316 techstolica - cloudanalytics -tidk

  • 1. Wprowadzenie do Cloud Analytics Łukasz Grala Architect Data Platform & Advanced Analytics & BI Solutions Data Platform MVP
  • 2. @Łukasz Grala – lukasz@tidk.pl • Architekt rozwiązań Platformy Danych & Business Intelligence & Zaawansowanej Analityki w TIDK • Certyfikowany trener Microsoft i wykładowca na wyższych uczelniach • Autor zaawansowanych szkoleń i warsztatów, oraz licznych publikacji i webcastów • Od 2010 roku wyróżniany nagrodą Microsoft Data Platform MVP • Doktorant Politechnika Poznańska – Wydział Informatyki (obszar bazy danych, eksploracja danych, uczenie maszynowe) • Prelegent na licznych konferencjach w kraju i na świecie • Posiada liczne certyfikaty (MCT, MCSE, MCSA, MCITP,…) • Członek Polskiego Towarzystwa Informatycznego • Członek i lider Polish SQL Server User Group (PLSSUG) • Pasjonat analizy, przechowywania i przetwarzania danych, miłośnik Jazzu
  • 4. Data (Big Data) • 72 hours of video are uploaded per minute on YouTube (1 terabyte every 4 minutes) • 500 terabytes of new data per day are ingested in Facebook databases • Sensors from a Boeing jet engine create 20 terabytes of data every hour • The proposed Square Kilometer Array telescope will generate “a few Exabytes of data per day” (single beam) lukasz@tidk.pl
  • 5. Internet of Things (IoT) lukasz@tidk.pl
  • 7. New BI Solutions ETL Tool (SSIS, etc) EDW (SQL Server, Teradata, etc) Extract Original Data Load Transformed Data Transform BI Tools Ingest (EL) Original Data Scale-out Storage & Compute (HDFS, Blob Storage, etc) Transform & Load Data Marts Data Lake(s) Dashboards Apps Streaming data lukasz@tidk.pl
  • 10. lukasz@tidk.pl Azure Data Lake Storage & Analytics
  • 11. lukasz@tidk.pl Analytics Storage HDInsight (“managed clusters”) Azure Data Lake Analytics Azure Data Lake Storage Azure Data Lake
  • 12. lukasz@tidk.pl WebHDFS YARN U-SQL Analytics Service HDInsight (managed Hadoop Clusters) Analytics Store Azure Data Lake
  • 13. Built on Apache YARN Scales dynamically with the turn of a dial Pay by the query Supports Azure AD for access control, roles, and integration with on-prem identity systems Built with U-SQL to unify the benefits of SQL with the power of C# Processes data across Azure Azure Data Lake Analytics Services 13
  • 14. Work across all cloud data Azure Data Lake Analytics Azure SQL DW Azure SQL DB Azure Storage Blobs Azure Data Lake Store SQL DB in an Azure VM
  • 16. lukasz@tidk.pl Azure Stream Analytics Point of Service Devices Self Checkout Stations Kiosks Smart Phones Slates/ Tablets PCs/ Laptops Servers Digital Signs Diagnostic EquipmentRemote Medical Monitors Logic Controllers Specialized DevicesThin Clients Handhelds Security POS Terminals Automation Devices Vending Machines Kinect ATM
  • 17. lukasz@tidk.pl SELECT count(*), Topic FROM Tweets GROUP BY Topic, TumblingWindow(second, 5) Let’s count tweets by topic…
  • 18. Stream Analytics Query Language Built-in Functions Data Types Query Language Elements Time Management
  • 19. Group By - Windowing TUMBLING WINDOW HOPPING WINDOW SLIDING WINDOW
  • 20. Group By – Windowing - Tumbling SELECT count(*), Topic FROM Tweets GROUP BY Topic, TumblingWindow(second, 5) TUMBLINGWINDOW ( timeunit , windowsize, [offsetsize] ) TUMBLINGWINDOW ( Duration( timeunit , windowsize ), [Offset(timeunit , offsetsize)] )
  • 21. Group By – Windowing - Hoppingwindow SELECT System.TimeStamp, Topic, COUNT(*) FROM Tweets BY EntryTime GROUP BY Topic, HoppingWindow(second, 10, 5) HOPPINGWINDOW ( timeunit , windowsize , hopsize, [offsetsize] ) HOPPINGWINDOW ( Duration( timeunit , windowsize ) , Hop (timeunit , windowsize ), [Offset(timeunit , offsetsize)])
  • 23. Big Data - HDInsight • HDInsight is a Hadoop-based service that brings 100% Apache Hadoop solution running on the Microsoft Azure platform • Based on the Hortonworks Data Platform (HDP) • Scalable, on-demand service lukasz@tidk.pl
  • 26. HDInsight & SQL Server 2016 Query relational and non-relational data, on-premises and in Azure Apps T-SQL query SQL Server Hadoop lukasz@tidk.pl
  • 27. Advanced Analytics - Language and Tools • Language R and Python • Microsoft R Open, Microsoft R Server, R Services, CARN R, Revolution • Mahout • SparkR • MLLib • Azure Machine Learning lukasz@tidk.pl
  • 29. Key Concept – Machine Learning Data Model Parameters Learning Prediction Decision Making Utility Function lukasz@tidk.pl
  • 30. Class Learning Problems • Classification: Assign a category to each item (Chinese | French | Indian | Italian | Japanese restaurant). • Regression: Predict a real value for each item (stock/currency value, temperature). • Ranking: Order items according to some criterion (web search results relevant to a user query). • Clustering: Partition items into homogeneous groups (clustering twitter posts by topic). • Dimensionality reduction: Transform an initial representation of items into a lower-dimensional representation while preserving some properties (preprocessing of digital images). lukasz@tidk.pl
  • 31. Steps to Build Machine Learning Solution lukasz@tidk.pl
  • 34. Summary • PowerBI • Azure Data Lake Storage & Analytics • Azure Stream Analytics • Azure Machine Learning • Azure HDInsight (Hadoop, Spark, Hbase, Storm + MLLib, Mahout, SparkR…) lukasz@tidk.pl
  • 36. • 16-18 maj 2016 • Wrocław Centrum Konferencyjne • 3 dni, 6 warsztatów, 4 ścieżki, ponad 30 prelegentów, 50 sesji • 600 uczestników + sponsorzy + prelegenci + organizatorzy • Goście między innymi z USA, Anglii, Niemiec, Ukrainy, Bułgarii, Słoweni • Premiera techniczna SQL Server 2016 sqlday.pl @sqlday lukasz@tidk.pl W tym warsztat Big Data Analytics – Łukasz Grala & Marcin Szeliga
  • 37.
  • 38. Masterclass: Cloud Storage 23-25.05.2016, Warszawa Azure SQL Server i Azure SQL Database, Skalowanie bazy relacyjnej w chmurze, Hurtownia danych w chmurze PowerShell i bazy danych w Azure, Azure BLOB Storage, Bazy dokumentowe, Big Data z HDInsight, Hadoop, Apache Spark, Pozostałe komponenty HDInsight i Hadoop, Wirtualne maszyny Masterclass: Cloud Analytics 20-22.06.2016, Warszawa Data Catalog, Data Factory, Data Lake, PowerBI i dane relacyjne w chmurze, Hadoop, Apache Spark, Analiza danych strumieniowych, Analiza z baz danych dokumentowych i grafowych, Uczenie maszynowe, Polybase w SQL Server 2016 Łukasz Grala Data Platform MVP, MCT, MCSE, MCSA, MCITP, MCSA, MCP, MTA Łukasz o szkoleniach: „Danych produkowanych jest więcej niż kiedykolwiek, pochodzą z sieci Internet, z portali społecznościowych, z urządzeń. Bardzo duży rozwój Internetu Rzeczy (IoT) ilość tych danych jeszcze bardziej zwiększa. Dlatego przygotowaliśmy dwa specjalne kursy Cloud Storage i Cloud Analytics, przedstawiające mechanizmy składowania, przetwarzania i analizy danych z wykorzystaniem chmury.” Big Data, BI, Analityka, SQL Standard -25% na hasło TechStolicawww.hexcode.pl

Notas del editor

  1. A new distributed analytics service Built on Apache YARN Dynamically scales Handles jobs of any scale instantly by simply setting the dial for how much power you need. You only pay for the cost of the query Supports Azure Active Directory for Access Control, Roles, Integration with on-premises identity systems It also includes U-SQL, a language that unifies the benefits of SQL with the expressive power of C# U-SQL’s scalable runtime processes data across multiple Azure data sources
  2. ADLA allows you to compute on data anywhere and a join data from multiple cloud sources.