1. Business Integration mit
CDH 4
(including Apache Hadoop)
Alexander Alten-Lorenz
Customer Operations Engineer, Cloudera INC
Muenchen, 18. September 2012
5. Risiko Management
• Problem: Bewertung von Kunden und
Projekten
• Lösung: Finanzhistorie, Kommunikation,
Mustererkennung
• Anwender: Banken,Versicherungen
6. Empfehlungen
• Problem: Passende Produkte für Kunden
empfehlen
• Lösung: Geschmack durch Verhalten aller
Kunden ermitteln, Muster erkennen,
Statistische Analyse
• Anwender: eCommerce, Advertising
7. Graph-Analyse
• Problem: Trends und Meinungsbildung in
Netzwerken im Voraus erkennen
• Lösung: Social Media Traffic auswerten und
statistisch aufbereiten
• Anwender: Unternehmen, Behörden, NGO
9. Textanalysen
• Problem: Bedeutung von Text erkennen
• Lösung: Schlüsselworte, Zusammenhänge
erkennen
• Anwender: eCommerce, Social Media
Dienstleister, Meinungsforschung
11. Apache Hadoop
• Software Framework für grosse Mengen an
unstrukturierten Daten
• Apache-Lizenz
• Zwei Kern-Komponenten
• HDFS: Verteilte Datenspeicherung
• MapReduce:Verteilte Datenverarbeitung
12. Hadoop Cluster
Data Node Data Node Data Node Data Node
Data Node Data Node Data Node Data Node
Data Node Data Node Data Node Data Node
Data Node Data Node Data Node Data Node
Data Node Data Node Data Node Data Node
Data Node Data Node Data Node Data Node
Data Node Data Node Data Node Data Node
Data Node: 4-16 Cores, 4-16 Disks,
8-64 GB RAM, 1-10GB Network
13. Hadoop Distributed
File System
Datei
Block Block Block Block Block Block Block
Data Node Data Node Data Node