Bei vielen Unternehmen fallen extrem viele Daten an, die mit geeigneten Auswertungen gewinnbringend analysiert werden können. Doch häufig werden solche Auswertungen mühsam manuell erstellt, sodass Aufwand und Ertrag kaum übereinstimmen. Der Markt für die moderne Datenanalyse hat sich in den letzten Jahren entwickelt. Die Tools zur Datenauswertung sind einfacher, effizienter und skalierbarer geworden. Zudem können die Daten interaktiv und in Echtzeit ausgewertet und präsentiert werden.
Referent Matthias Gessenay zeigte in seinem Referat, wie mit mit Hilfe einfacher Tools wie PowerBI, PoverView, PowerPivot und SharePoint Daten analysiert und ästhetisch ansprechend dargestellt werden können.
• Welche Daten Sie nutzen können
• Nutzen von Big Data
• Was leistet Microsoft Excel?
• Was bedeutet am meisten Aufwand?
• Wie Sie Daten am besten konsolidieren
• Natural Language Query
• So einfach ist PowerBi
• Was SharePoint in diesem Zusammenhang bietet
In einer Demo zeigte Matthias Gessenay zudem praktische Anwendungen mit Natural Language Query und PowerBI.
Gerne stellen wir Ihnen die Slides des Referats zur Verfügung.
2. 2Digicomp
Copyrights
Folien z.T. entnommen aus dem Azure Readiness Slidedeck von Microsoft (https://github.com/Azure-
Readiness/CloudDataCamp/blob/master/Presentation/HDInsight/Hadoop%20in%20Azure.pptx)
Folien z.T. entnommen aus der MS Ignite Session PowerBI Overview
(http://www.google.ch/url?sa=t&rct=j&q=&esrc=s&source=web&cd=8&cad=rja&uact=8&ved=0ahUKEwiH3pygp7XKA
hVBVRoKHQ9KCJwQFghcMAc&url=http%3A%2F%2Fvideo.ch9.ms%2Fsessions%2Fignite%2F2015%2Fdecks%2FBRK25
56_Doyle.pptx&usg=AFQjCNHOr7Kb8pJEFnLKHvAMUho0AOBhjA)
5. 6Digicomp
Data volume
Hadoop speichert Dateien in einem verteilten Dateisystem
Verteilt über viele Server
Dateien können über viele Knoten verteilt werden
Hadoop kann sehr grosse Datenmengen speichern
Skalierbar von einigen zu vielen tausend Knoten
Dateien können grösser sein als die Kapazität eines einzelnen Knotens
7. CalibriDigicomp
Hadoop vs. SQL
Relational
Database
SCALE (storage & processing)
Hadoop
Platform
schema
speed
governance
best fit use
processing
Required on write Required on read
Reads are fast Writes are fast
Standards and structured Loosely structured
Limited, no data processing Processing coupled with data
data typesStructured Multi and unstructured
Interactive OLAP Analytics
Complex ACID Transactions
Operational Data Store
Data Discovery
Processing unstructured data
Massive Storage/Processing
8. CalibriDigicomp
YARN: Next Generation Hadoop (Azure DataLake ist auf Yarn gebaut)
Single Use System
Batch Apps
Multi Use Data Platform
Batch, Interactive, Online, Streaming, …
1st Gen
of Hadoop
HDFS
(redundant, reliable storage)
MapReduce
(cluster resource management
& data processing)
Redundant, Reliable Storage
(HDFS)
Efficient Cluster Resource
Management & Shared Services
(YARN)
Flexible Data
Processing
Hive, Pig, others…
Batch
MapReduce
Batch & Interactive
Tez
Online Data
Processing
HBase, Accumulo
Stream
Processing
Storm
others
…
2nd Gen of Hadoop
Classic
Hadoop
Apps
18. 19Digicomp
Suited for self-service data that fits in Excel
Data driven shaping – design while you drive
Ideal for sampling data
Partition data in Hadoop/Hive based on user
workloads
No governors to prevent users from pulling «too
much data»
Does not read compressed or binary files (yet)
Power Query
20. 23Digicomp
Azure Data Lake
Basierend auf Apache YARN
Praktisch unbegrenzte Datenmengen / Rechenpower
Zahlung nach Nutzung
Aktuell noch auf Einladung
Neue Sprache: U-SQL