• Présentation du service MPP dans le Cloud SQL Data Warehouse : DWU, Polybase, ...
• Présentation des nouveaux services Big Data dans Azure : Data Lake Store, Data Lake Analytics Service (U-SQL)
• Plein de démos :-)"
JSS2014 – Point sur les options de stockage dans Azure
[JSS2015] Azure SQL Data Warehouse - Azure Data Lake
1. #JSS2015
Les journées
SQL Server 2015
Un événement organisé par GUSS
Azure SQL Data Warehouse & Data Lake
@GUSS_FRANCE
Franck Mercier
Microsoft DX
Data Platform
Romain Casteres
Microsoft PFE
SQL Server, BI, Big Data
8. #JSS2015
SQL Data Warehouse Service
Un service de base de données, géré par Microsoft
Data Warehouse s’appuyant sur les fonctionnalités de SQL Server
Supporte tous les besoins en terme de taille se stockage
Saas
Azure
Public
Cloud
Office 365Office 365
AzureAzure
9. #JSS2015
Mise à l’échelle
Mise à l’echelle en quelques secondes
Facturation à l’usage
Séparation entre le moteur de calcul et le stockage
Office 365
10. #JSS2015
Pause
Les données restent en place. Pas de rechargement ni de restauration
En pause, le coût de stockage est réduit au minimum
Pilotable via PowerShell/REST API
$$$$
12. #JSS2015
• Requêtes sur des distributions Hadoop (HDP &
Cloudera) ou des fichiers Hadoop dans un stockage
Azure
• Permet de conserver les compétences SQL et BI
• Supporte de nombreux formats de fichiers
• Réduit le « Time to Insights »
• ETL simplifié
Polybase permet l’exécution de requêtes aussi bien sur
des données structurées que sur des données non
structurées (Hadoop)
SQL DW Instance
Scale out compute
Hadoop VMs /
Azure StoragePolyBase
Traitement de données non structurées avec
Polybase/T-SQL
13. #JSS2015
Polybase
Adresser des données relationnelle et non relationnelle dans la même requete T-SQL
T-SQL query
SQL Server Hadoop
Quote:
************************
**********************
*********************
**********************
***********************
$658.39
Jim Gray
Name
11/13/58
DOB
WA
State
Ann Smith 04/29/76 ME
14. #JSS2015
SQL Data Warehouse
Event Hub Stream Analytics
Data Factory
HDInsight Storage
Power BI
Machine Learning
SQL DW dans l’écosystem Azure
17. #JSS2015
Les briques de Cortana Analytics Suite
Business
apps
Custom
apps
Sensors
and devices
INTELLIGENCE
People
Automated
Systems
ACTION
18. #JSS2015
Azure Data Lake Store
LOB Applications
SocialDevices
Clickstream
Sensors
Video
Web
Relational
HDInsight
ADL Analytics
Machine Learning
Spark
R
ADL Store
19. #JSS2015
Azure Data Lake Store
Securisé (AAD) Native format
Faible latence
Multiple analytic
frameworks
Details
Haut débit
Fiable
Scalable All sources
Type de Jobs : Batch, Streaming, Machine Learning, Real Time
20. #JSS2015
ADLS : Alimentation
Server logs
Azure Event Hub
Apache
Flume
Azure Storage Blobs
Custom programs
.NET SDK
JavaScript CLI
Azure Portal
Azure PowerShell
Azure Data Factory
Apache Sqoop
Azure SQL DB
Azure SQL DW
Azure tables
Table Storage
On-premises databases
SQL
ADL Store
Built-in
copy service
22. #JSS2015
Azure Data Lake Store 1. Creation
2. Azure File Preview
3. Azure Active Directory
4. HDInsight
Demo
23. #JSS2015
Azure Data Lake Analytics
Azure Data Lake
Analytics
Azure SQL DW Azure SQL DB
Azure
Storage Blobs
Azure
Data Lake Store
SQL DB in an
Azure VM
24. #JSS2015
• Déployer votre projet Big Data rapidement
(Minutes)
• Aucun matériel à installer, ajuster,
configurer ou déployer
• Aucune infrastructure ou un logiciel a
gérer
• Elasticité du nombre de machines
ADLA : Infrastructure
25. #JSS2015
• Intégration complète à Visual Studio
• Facile de prise en main
• Création de scripts U-SQL, Hive et
Storm
• Optimisation facilité par la visualisation
des performances
ADLA : Visual Studio
26. #JSS2015
ADLA : U-SQL language
• Unifie la nature déclarative de SQL avec la puissance
expressive de C#
• Facilement extensible
• Fonctionne sur des données structurées et non
structurées
– Schema on read over files
– Relational metadata objects (e.g. database,
table)
• Parallélisassions et élasticité pour les commande :
– EXTRACTOR
– OUTPUTTER
– PROCESSOR
– REDUCER
– COMBINERS
– APPLIER
REFERENCE MyDB.MyAssembly;
CREATE TABLE T( cid int, first_order DateTime
, last_order DateTime, order_count int
, order_amount float );
@o = EXTRACT oid int, cid int, odate DateTime, amount float
FROM "/input/orders.txt“
USING Extractors.Csv();
@c = EXTRACT cid int, name string, city string
FROM "/input/customers.txt“
USING Extractors.Csv();
@j = SELECT c.cid, MIN(o.odate) AS firstorder
, MAX(o.date) AS lastorder, COUNT(o.oid) AS ordercnt
, SUM(c.amount) AS totalamount
FROM @c AS c LEFT OUTER JOIN @o AS o ON c.cid == o.cid
WHERE c.city.StartsWith("New")
&& MyNamespace.MyFunction(o.odate) > 10
GROUP BY c.cid;
OUTPUT @j TO "/output/result.txt"
USING new MyData.Write();
INSERT INTO T SELECT * FROM @j;
27. #JSS2015
Azure Data Lake 1. Visual Studio
2. U-SQL
3. Power BI
Demo
Bonus *
Job Automatisation via
Azure Data Factor
Azure Data Lake Tools : https://aka.ms/ADLTools
28. #JSS2015
Comparaisons
HDInsight SQL DWH
Azure Data Lake
Analytic
Service Managed IaaS PaaS Job Service
Pour les
développeurs
Open Source : Java,
Eclipse, Hive, etc.
T-SQL, Polybase*
U-SQL, C#, SQL et
PowerShell
Management
Customisation et
flexibilité
Azure, Visual Studio
Job Service prêt à
l’emploi et Scalable,
Visual Studio, Azure