Big Data Webinar (Deutsch)

Big Data
Steffen Krause
Technical Evangelist
@AWS_Aktuell
skrause@amazon.de

Die Sammlung und Analyse von großen
Datenmengen, um einen Wettbewerbsvorteil
zu erlangen
BIG-DATA

Medien/Werbung
Gezielte
Werbung
Bild und Video
Verarbeitung
Telco
Netz-
optimierung
Traffic Analyse
Preis-
optimierung
Retail
Empfehlungen
Transaktions-
Analyse
Life Sciences
Genom
Analyse
Finanz-Dienstl.
Monte Carlo
Simulationen
Risiko-Analyse
Security
Antivirus
Betrugs-
erkennung
Bild-
erkennung
Soziales
Netz/Spiele
User
Demographics
Usage analysis
In-game
metrics
Produk-
tion
Maschinen-
daten-Analyse
Ausfall-
Vorhersage
Big Data Branchen

Kann speichern Kann analysieren
Habe Daten

Kann speichern Kann analysieren
Habe Daten
kostengünstig & schnell

Wer ist Ihr Kunde wirklich?
Was mögen Kunden wirklich?
Was geschieht sozial mit Ihren
Produkten?
Wie verwenden Ihre Kunden Ihre
Produkte tatsächlich?

Erkenntnis 1: Lassen Sie Ihr Amazon
Konto zu Hause nicht eingeloggt
Erkenntnis 2: Verwenden Sie Ihre
vorhandenen Daten für proaktive
Prozesse

HPC Computing
Große Algorithmen & Modelle
Websites
Blogs/Reviews/Emails/Bilder
Soziale Graphen
Facebook, Linked In, Kontakte
Application Server Logs
Websites, Spiele...
Datensammlung und
-auswertung
Bioanalyse, Bergbau, Ingenieurwesen
Sensordaten
Wetter, Wasser, Smart Grids
Bilder/Videos
Verkehr, Überwachungskameras
Twitter
50m Tweets/Tag, 1400% Wachstum
pro Jahr
Warum jetzt?
ComputeStorage Big Data

HPC Computing
Websites
Soziale Graphen
Websites, Spiele...
Datensammlung und -
auswertung
Sensordaten
Bilder/Videos
Twitter
pro Jahr
Warum jetzt?
Mobil verbundene Welt
(Daten einfacher zu sammeln,
mehr Menschen generieren Daten)

HPC Computing
Websites
Soziale Graphen
Websites, Spiele...
Datensammlung und -
auswertung
Sensordaten
Bilder/Videos
Twitter
pro Jahr
Warum jetzt?
Mehr Aspekte der Daten
(Vielfalt, Tiefe, Ort, Häufigkeit)

HPC Computing
Websites
Soziale Graphen
Websites, Spiele...
Datensammlung und -
auswertung
Sensordaten
Bilder/Videos
Twitter
pro Jahr
Warum jetzt?
Reichhaltigkeit erhalten
(man muss nicht mitteln, aggregieren oder löschen)

100 GB 1,000 PB
Herausforderungen fangen bei relativ kleinen Datenmengen an
Big Data mit AWS

Wenn Datenmengen und Datenanalysen so weit skalieren müssen, dass
Sie innovativ sein müssen mit
Sammlung, Speicherung, Organisation, Analyse und Weitergabe der
Daten
Big Data mit AWS

DatenApp App
http://blog.mccrory.me/2010/12/07/data-gravity-in-the-clouds/
Daten haben Schwerkraft

Daten
…und in großen Mengen Trägheit…

Daten
…was es einfacher macht, die Anwendungen zu verschieben als die Daten

Big Data Pipeline
Sammeln | Speichern | Organisieren |
Analysieren | Weitergeben

Wohin packen Sie Ihren Anteil?
Sammlung - Laden
AWS Direct Connect
Dedizierte Leitung zwischen Ihrem
RZ und AWS
Queuing
Zuverlässiges Messaging für
verteilte Aufgaben
Amazon Storage Gateway
Gateway zwischen Ihrer
Storage und AWS Storage
AWS Import/Export
Datentransfer auf physischen
Medien von und nach AWS

Relational Database Service
Voll verwaltete Datenbank
(MySQL, Oracle, MSSQL)
DynamoDB
NoSQL, schemafreie
Datenbank mit
provisioniertem Durchsatz
Simple Storage Service (S3)
Objektspeicher mit bis zu 5TB
pro Objekt
99,999999999% Dauerhaftigkeit

Glacier
Archv-Langzeitspeicher
Ab $0,01 pro GB/Month
99.999999999% Dauerhaftigkeit

Glacier – Komplettes Lifecycle Management
Daten-Import
Physische Datenträger an
AWS zum Laden der Daten
z.B. 50TB Sensordaten in ein
EBS Volumes mit einem
Gluster Filesystem
Berechnung &
Visualisierung
HPC & EMR Cluster Jobs auf
vielen tausend Cores
z.B. 200TB
Visualisierungsdaten
generiert von der
Clusterverarbeitung
Langzeitarchiv
Nach Abschluss der Analyse
werden die Daten ins Glacier
Archiv statt auf Tapes
gespeichert
Kosteneffizient im Vergleich
mit Tape, Zugriffszeit 3-5
Stunden wenn Daten benötigt
werden

Scale Price
Performance
Wie schnell müssen Sie Daten lesen können?
Einstellige
Millisekunden
10 -100te
Millisekunden
<5 Stunden
DynamoDB
Skalierbare Anwendungen
Provisionierter Durchsatz
Flexible Konsistenzmodelle
S3
Jedes Objekt, jede App
99,999999999% Dauerhaftigkeit
Objekte bis 5TB Größe
Glacier
Media & Asset Archiv
Sehr geringe Kosten
Dauerhaftigkeit wie S3

Scale Price
Performance
Verarbeitung in jeder Größe
Unbegrenzte Datenmengen

Scale Price
Performance
Bezahlung nach Verbrauch
Provisioned
IOPS
Provisionierte
Lese/Schreibperformance pro
DynamoDB Tabelle/EBS Volume
Bezahlung für provisionierte
Kapazität, unabhängig von der
Nutzung
Genutzter
Speicherplatz
Bezahlung nach gespeichertem
Volumen &
Lese/Schreibvorgänge
Keine Kapazitätsplanung
erforderlich für unbegrenzten
Speicherplatz

„Big Data“ ändert die Dynamik von Berechnung und Datenweitergabe
Sammlung ZusammenarbeitBerechnung
Wie beschaffe ich die Daten?
Wohin packe ich sie?
Welche Rechenleistung
kann ich anwenden?
Wie arbeite ich mit
anderen zusammen?

Direct Connect
Import/Export
S3
DynamoDB
EC2
GPUs
Elastic Map Reduce
Cloud Formation
Simple Workflow
S3
„Big Data“ ändert die Dynamik von Berechnung und Datenweitergabe
Sammlung ZusammenarbeitBerechnung
Wie beschaffe ich die Daten?
Wohin packe ich sie?
Welche Rechenleistung
kann ich anwenden?
Wie arbeite ich mit
anderen zusammen?

Ein Framework
Teilt Daten auf
Führt Berechnungen aus
Sammelt die Ergebnisse zusammen

Sehr großes
Klick-Log
(TeraByte)

Sehr großes
Klick-Log
(TeraByte)
Viele Aktivitäten von
Hans Meier

Sehr großes
Klick-Log
(TeraByte)
Hans Meier
Splitte das
Log in viele
kleine Teile

Sehr großes
Klick-Log
(TeraByte)
Verarbeitung in
einem EMR Cluster
Hans Meier
Splitte das
Log in viele
kleine Teile

Sehr großes
Klick-Log
(TeraByte) Aggregiere
die
Ergebnisse
von allen
Knoten
Verarbeitung in
einem EMR Cluster
Hans Meier
Splitte das
Log in viele
kleine Teile

Sehr großes
Klick-Log
(TeraByte)
Was
Hans
Meier
getan
hat
Aggregiere
die
Ergebnisse
von allen
Knoten
Verarbeitung in
einem EMR Cluster
Hans Meier
Splitte das
Log in viele
kleine Teile

Sehr großes
Klick-Log
(TeraByte) Erkenntnisse in einem Bruchteil der Zeit
Was
Hans
Meier
getan
hat

Elastic MapReduce
Verwalteter, elastischer Hadoop Cluster
Integration mit S3 & DynamoDB
Nutzt Hive & Pig Analytics Scripts
Integration mit EC2 Optionen wie Spot
Instanzen
Hadoop-as-a-Service – Elastic MapReduce

Feature Details
Skalierbar Verwenden Sie so viele Hadoop Compute Instanzen
wie Sie wollen. Ändern Sie die Anzahl der Instanzen
während der Job Flow läuft
Integriert mit anderen
Diensten
Nahtlose Integration mit S3 als Quelle oder Ausgabe
Integration mit DynamoDB
Umfassend Unterstützt Hive und Pig für Definition der Analysen,
und komplexe Jobs in Cascading, Java, Ruby, Perl,
Python, PHP, R, oder C++
Kosteneffizient Unterstützt Spot Instanzen
Monitoring Überwachung der Job Flows aus der AWS Konsole
Elastic MapReduce
Verwalteter, elastischer Hadoop Cluster
Integration mit S3 & DynamoDB
Nutzt Hive & Pig Analytics Scripts
Integration mit EC2 Optionen wie Spot
Instanzen

Von einer Instanz…

…zu tausenden

…und zurück zu einer

1 Instanz für 100 Stunden
=
100 Instanzen für 1 Stunde

1 Instanz für 1000 Stunden
=
1000 Instanzen für 1 Stunde

S3, DynamoDB, Redshift
Eingabedaten

Elastic
MapReduce
Code
Eingabedaten

Elastic
MapReduce
Code
Eingabedaten
Name
Node

Elastic
MapReduce
Code
Elastic
cluster
S3/HDFS
Eingabedaten
Name
Node

Elastic
MapReduce
Code
S3/HDFS
Via JDBC, Pig, Hive
Elastic
cluster
Eingabedaten
Name
Node
Abfragen
+ BI

Elastic
MapReduce
Code Name
Node
Ausgabe
Eingabedaten
Abfragen
+ BI
Via JDBC, Pig, Hive
Elastic
cluster
S3/HDFS

Eingabedaten
Ausgabe

Nicht vergessen: Schalten Sie Ihre Cloud Ressourcen aus,
wenn Sie sie nicht brauchen

S3
DYNAMODB EMR EMR REDSHIFT DYNAMODB
DATA
PIPELINE
Integration

create external table items_db
(id string, votes bigint, views bigint) stored by
'org.apache.hadoop.hive.dynamodb.DynamoDBStorageHandler'
tblproperties
("dynamodb.table.name" = "items",
"dynamodb.column.mapping" =
"id:id,votes:votes,views:views");
Integration DynamoDB

select id, likes, views
from items_db
order by views desc;
Direkte Abfrage

CREATE EXTERNAL TABLE orders_s3_new_export ( order_id string,
customer_id string, order_date int, total double )
PARTITIONED BY (year string, month string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
LOCATION 's3://export_bucket';
INSERT OVERWRITE TABLE orders_s3_new_export
PARTITION (year='2012', month='01')
SELECT* from orders_ddb_2012_01;
Integration S3

Data Architecture
Data Analyst
Raw Data
Get
Data
Join via Facebook
Add a Skill Page
Invite Friends
Web Servers Amazon S3
User Action Trace Events
EMR
Hive Scripts Process Content
• Process log files with regular
expressions to parse out the info
we need.
• Processes cookies into useful
searchable data such as Session,
UserId, API Security token.
• Filters surplus info like internal
varnish logging.
Amazon S3
Aggregated Data
Raw Events
Internal Web
Excel Tableau
Amazon Redshift

Features, die Amazon Elastic
MapReduce nutzen:
Diese Geschäfte könnten dich auch interessieren...
Beitrags-Highlights
Automatische Ergänzung bei der Eingabe
Rechtschreib-Vorschläge
Top Suchen
Werbung
200 Elastic MapReduce Jobs pro Tag
verarbeiten 3TB Daten

Alles, was eine beschränkte
Ressource war
ist jetzt eine programmierbare
Ressource

Die Cloud ermöglicht die
Sammlung von Big Data

Verarbeitung von Big Data

Nutzung von Big Data

• Hadoop Technik und Cases: http://www.powerof60.com/
• http://aws.amazon.com/de
• Beginnen Sie mit dem Free Tier:
http://aws.amazon.com/de/free/
• 25 US$ Startguthaben für Neukunden:
http://aws.amazon.com/de/campaigns/account/
• Twitter: @AWS_Aktuell
• Facebook:
http://www.facebook.com/awsaktuell
• Webinare: http://aws.amazon.com/de/about-aws/events/
Ressourcen

Big Data Webinar (Deutsch)

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (20)

Similar a Big Data Webinar (Deutsch)

Similar a Big Data Webinar (Deutsch) (20)

Más de AWS Germany

Más de AWS Germany (20)

Big Data Webinar (Deutsch)