Die Aufzeichnung dieses Webinars steht demnächst hier zur Verfügung: http://aws.amazon.com/de/recorded-webinar/
Big Data ist eines der großen Schlagworte der letzten Jahre. Aber was ist das? In vielen Unternehmen gibt es heute große Datenbestände, die nicht oder nicht ausreichend genutzt werden. Das können Logfiles eines Webservers, Bon-Daten eines Einzelhandelsunternehmens oder Sensordaten einer Produktionsstraße sein. In diesem Webinar geben wir einen Überblick über Big Data und die benutzten Technologien.
10. Wer ist Ihr Kunde wirklich?
Was mögen Kunden wirklich?
Was geschieht sozial mit Ihren
Produkten?
Wie verwenden Ihre Kunden Ihre
Produkte tatsächlich?
15. HPC Computing
Große Algorithmen & Modelle
Websites
Blogs/Reviews/Emails/Bilder
Soziale Graphen
Facebook, Linked In, Kontakte
Application Server Logs
Websites, Spiele...
Datensammlung und
-auswertung
Bioanalyse, Bergbau, Ingenieurwesen
Sensordaten
Wetter, Wasser, Smart Grids
Bilder/Videos
Verkehr, Überwachungskameras
Twitter
50m Tweets/Tag, 1400% Wachstum
pro Jahr
Warum jetzt?
ComputeStorage Big Data
16. HPC Computing
Große Algorithmen & Modelle
Websites
Blogs/Reviews/Emails/Bilder
Soziale Graphen
Facebook, Linked In, Kontakte
Application Server Logs
Websites, Spiele...
Datensammlung und -
auswertung
Bioanalyse, Bergbau, Ingenieurwesen
Sensordaten
Wetter, Wasser, Smart Grids
Bilder/Videos
Verkehr, Überwachungskameras
Twitter
50m Tweets/Tag, 1400% Wachstum
pro Jahr
Warum jetzt?
ComputeStorage Big Data
Mobil verbundene Welt
(Daten einfacher zu sammeln,
mehr Menschen generieren Daten)
17. HPC Computing
Große Algorithmen & Modelle
Websites
Blogs/Reviews/Emails/Bilder
Soziale Graphen
Facebook, Linked In, Kontakte
Application Server Logs
Websites, Spiele...
Datensammlung und -
auswertung
Bioanalyse, Bergbau, Ingenieurwesen
Sensordaten
Wetter, Wasser, Smart Grids
Bilder/Videos
Verkehr, Überwachungskameras
Twitter
50m Tweets/Tag, 1400% Wachstum
pro Jahr
Warum jetzt?
ComputeStorage Big Data
Mehr Aspekte der Daten
(Vielfalt, Tiefe, Ort, Häufigkeit)
18. HPC Computing
Große Algorithmen & Modelle
Websites
Blogs/Reviews/Emails/Bilder
Soziale Graphen
Facebook, Linked In, Kontakte
Application Server Logs
Websites, Spiele...
Datensammlung und -
auswertung
Bioanalyse, Bergbau, Ingenieurwesen
Sensordaten
Wetter, Wasser, Smart Grids
Bilder/Videos
Verkehr, Überwachungskameras
Twitter
50m Tweets/Tag, 1400% Wachstum
pro Jahr
Warum jetzt?
ComputeStorage Big Data
Reichhaltigkeit erhalten
(man muss nicht mitteln, aggregieren oder löschen)
19. ComputeStorage Big Data
100 GB 1,000 PB
Herausforderungen fangen bei relativ kleinen Datenmengen an
Big Data mit AWS
20. Wenn Datenmengen und Datenanalysen so weit skalieren müssen, dass
Sie innovativ sein müssen mit
Sammlung, Speicherung, Organisation, Analyse und Weitergabe der
Daten
ComputeStorage Big Data
Big Data mit AWS
25. Wohin packen Sie Ihren Anteil?
Sammlung - Laden
AWS Direct Connect
Dedizierte Leitung zwischen Ihrem
RZ und AWS
Queuing
Zuverlässiges Messaging für
verteilte Aufgaben
Amazon Storage Gateway
Gateway zwischen Ihrer
Storage und AWS Storage
AWS Import/Export
Datentransfer auf physischen
Medien von und nach AWS
ComputeStorage Big Data
26. ComputeStorage Big Data
Relational Database Service
Voll verwaltete Datenbank
(MySQL, Oracle, MSSQL)
DynamoDB
NoSQL, schemafreie
Datenbank mit
provisioniertem Durchsatz
Simple Storage Service (S3)
Objektspeicher mit bis zu 5TB
pro Objekt
99,999999999% Dauerhaftigkeit
Wohin packen Sie Ihren Anteil?
28. ComputeStorage Big Data
Glacier – Komplettes Lifecycle Management
Daten-Import
Physische Datenträger an
AWS zum Laden der Daten
z.B. 50TB Sensordaten in ein
EBS Volumes mit einem
Gluster Filesystem
Berechnung &
Visualisierung
HPC & EMR Cluster Jobs auf
vielen tausend Cores
z.B. 200TB
Visualisierungsdaten
generiert von der
Clusterverarbeitung
Langzeitarchiv
Nach Abschluss der Analyse
werden die Daten ins Glacier
Archiv statt auf Tapes
gespeichert
Kosteneffizient im Vergleich
mit Tape, Zugriffszeit 3-5
Stunden wenn Daten benötigt
werden
29. ComputeStorage Big Data
Scale Price
Performance
Wie schnell müssen Sie Daten lesen können?
Einstellige
Millisekunden
10 -100te
Millisekunden
<5 Stunden
DynamoDB
Skalierbare Anwendungen
Provisionierter Durchsatz
Flexible Konsistenzmodelle
S3
Jedes Objekt, jede App
99,999999999% Dauerhaftigkeit
Objekte bis 5TB Größe
Glacier
Media & Asset Archiv
Sehr geringe Kosten
Dauerhaftigkeit wie S3
31. ComputeStorage Big Data
Scale Price
Performance
Bezahlung nach Verbrauch
Provisioned
IOPS
Provisionierte
Lese/Schreibperformance pro
DynamoDB Tabelle/EBS Volume
Bezahlung für provisionierte
Kapazität, unabhängig von der
Nutzung
Genutzter
Speicherplatz
Bezahlung nach gespeichertem
Volumen &
Lese/Schreibvorgänge
Keine Kapazitätsplanung
erforderlich für unbegrenzten
Speicherplatz
32. ComputeStorage Big Data
„Big Data“ ändert die Dynamik von Berechnung und Datenweitergabe
Sammlung ZusammenarbeitBerechnung
Wie beschaffe ich die Daten?
Wohin packe ich sie?
Welche Rechenleistung
kann ich anwenden?
Wie arbeite ich mit
anderen zusammen?
33. ComputeStorage Big Data
Direct Connect
Import/Export
S3
DynamoDB
EC2
GPUs
Elastic Map Reduce
Cloud Formation
Simple Workflow
S3
„Big Data“ ändert die Dynamik von Berechnung und Datenweitergabe
Sammlung ZusammenarbeitBerechnung
Wie beschaffe ich die Daten?
Wohin packe ich sie?
Welche Rechenleistung
kann ich anwenden?
Wie arbeite ich mit
anderen zusammen?
45. ComputeStorage Big Data
Elastic MapReduce
Verwalteter, elastischer Hadoop Cluster
Integration mit S3 & DynamoDB
Nutzt Hive & Pig Analytics Scripts
Integration mit EC2 Optionen wie Spot
Instanzen
Hadoop-as-a-Service – Elastic MapReduce
46. Feature Details
Skalierbar Verwenden Sie so viele Hadoop Compute Instanzen
wie Sie wollen. Ändern Sie die Anzahl der Instanzen
während der Job Flow läuft
Integriert mit anderen
Diensten
Nahtlose Integration mit S3 als Quelle oder Ausgabe
Integration mit DynamoDB
Umfassend Unterstützt Hive und Pig für Definition der Analysen,
und komplexe Jobs in Cascading, Java, Ruby, Perl,
Python, PHP, R, oder C++
Kosteneffizient Unterstützt Spot Instanzen
Monitoring Überwachung der Job Flows aus der AWS Konsole
Elastic MapReduce
Verwalteter, elastischer Hadoop Cluster
Integration mit S3 & DynamoDB
Nutzt Hive & Pig Analytics Scripts
Integration mit EC2 Optionen wie Spot
Instanzen
68. Data Architecture
Data Analyst
Raw Data
Get
Data
Join via Facebook
Add a Skill Page
Invite Friends
Web Servers Amazon S3
User Action Trace Events
EMR
Hive Scripts Process Content
• Process log files with regular
expressions to parse out the info
we need.
• Processes cookies into useful
searchable data such as Session,
UserId, API Security token.
• Filters surplus info like internal
varnish logging.
Amazon S3
Aggregated Data
Raw Events
Internal Web
Excel Tableau
Amazon Redshift
69. Features, die Amazon Elastic
MapReduce nutzen:
Diese Geschäfte könnten dich auch interessieren...
Beitrags-Highlights
Automatische Ergänzung bei der Eingabe
Rechtschreib-Vorschläge
Top Suchen
Werbung
200 Elastic MapReduce Jobs pro Tag
verarbeiten 3TB Daten
70.
71.
72.
73.
74. Alles, was eine beschränkte
Ressource war
ist jetzt eine programmierbare
Ressource