Wzrost ilości danych w postaci strumieni danych spowodował potrzebę analizy danych w czasie rzecyzwistych będących strumieniami. W czasie sesji pokazano połączenie:
- event hub/Iot hub
- Azure Stream Analytics
- Azure Machine Learning
WyspaIT 2016 - Azure Stream Analytics i Azure Machine Learning w analizie strumieni danych
1. Azure Stream Analytics i Azure Machine
Learning w analizie strumieni danych
Łukasz Grala
Architect Data Platform & Advanced Analytics & BI Solutions
Data Platform MVP
2. Łukasz Grala
• Senior architekt rozwiązań Platformy Danych & Business Intelligence &
Zaawansowanej Analityki w TIDK
• Certyfikowany trener Microsoft i wykładowca na wyższych uczelniach
• Autor zaawansowanych szkoleń i warsztatów, oraz licznych publikacji i
webcastów
• Od 2010 roku wyróżniany nagrodą Microsoft Data Platform MVP
• Doktorant Politechnika Poznańska – Wydział Informatyki (obszar bazy danych,
eksploracja danych, uczenie maszynowe)
• Prelegent na licznych konferencjach w kraju i na świecie
• Posiada liczne certyfikaty (MCT, MCSE, MCSA, MCITP,…)
• Członek Polskiego Towarzystwa Informatycznego
• Członek i lider Polish SQL Server User Group (PLSSUG)
• Pasjonat analizy, przechowywania i przetwarzania danych, miłośnik Jazzu
Data Scientist
asaService
lukasz@tidk.pl
3. Data (Big Data)
• 72 hours of video are uploaded per minute on YouTube (1 terabyte
every 4 minutes)
• 500 terabytes of new data per day are ingested in Facebook
databases
• Sensors from a Boeing jet engine create 20 terabytes
of data every hour
• The proposed Square Kilometer Array telescope will generate “a few
Exabytes of data per day” (single beam)
lukasz@tidk.pl
4. The Four V’ of Big Data http://www.ibmbigdatahub.com/infographic/four-vs-big-data
6. Example Automotive
Connected Car - Generator of Big Data:
http://www.slideshare.net/AditiTechnologies/how-internet-of-things-iot-is-reshaping-the-automotive-sector-infographic
8. New BI Solutions
ETL Tool
(SSIS, etc) EDW
(SQL Server, Teradata, etc)
Extract
Original Data
Load
Transformed
Data
Transform
BI Tools
Ingest (EL)
Original Data
Scale-out
Storage &
Compute
(HDFS, Blob Storage,
etc)
Transform & Load
Data Marts
Data Lake(s)
Dashboards
Apps
Streaming data
lukasz@tidk.pl
22. Key Concept – Machine Learning
Data
Model
Parameters
Learning Prediction
Decision Making
Utility Function
lukasz@tidk.pl
23. Class Learning Problems
• Classification: Assign a category to each item (Chinese | French
| Indian | Italian | Japanese restaurant).
• Regression: Predict a real value for each item
(stock/currency value, temperature).
• Ranking: Order items according to some criterion
(web search results relevant to a user query).
• Clustering: Partition items into homogeneous groups
(clustering twitter posts by topic).
• Dimensionality reduction: Transform an initial representation of items
into a lower-dimensional representation while preserving some
properties (preprocessing of digital images).
lukasz@tidk.pl
30. • Zapisz się na następne spotkanie
• http://www.meetup.com/PLSSUG/
• Przyjdź na najbliższą konferencję
• SQL Saturday Kraków – 1.10.2016
• Polub nas na FB
• https://www.facebook.com/PLSSUG
• https://www.facebook.com/SQLDay
• Wstąp w szeregi
• http://plssug.org.pl/
• Napisz lokalnym liderom, o czym będzie Twoja sesja
• Lublin@plssug.org.pl