Big/Smart/Fast Data – a very compact overview

OMM Solutions
TECHtalk #4
1< OMM Solutions GmbH >28.06.2017
www.tech-talks.eu

Einmal im Monat ist TECHtalk Zeit! First come first served!
< OMM Solutions GmbH > 2

Talk: Big/Smart/Fast Data – a very compact overview
Speaker: Malte Horstmann
3< OMM Solutions GmbH >

Viele Daten, die schnell analysiert werden, erschaffen Smarte Daten.
Big Data ist mehr als nur eine große Festplatte
28.06.2017 < OMM Solutions GmbH > 4
Masse (Volume)
• Große
Datenmengen
• Ab Terabyte-Bereich
Vielfalt (Variety)
• Daten in vielen
Formaten
• strukturiert
• Unstrukturiert
• Text
• Multimedia
Geschwindigkeit
(Velocity)
• Datenströme
• Analyse von
Streamingdaten
Richtigkeit
(Veracity)
• Vertrauen in Daten
• Zuverlässigkeit der
Vorhersagbarkeit
• Unsichere Daten

Warum eigentlich Big/Fast/Smart Data?
• Logistik
• Vorhersage von Warenströmen
• Produktion
• Vorhersage von Wartungsfällen
• Optimierung von Einsatzstoffen
• Gezielter Pestiziden Einsatz in der Agrarwirtschaft
• Visualisieren von Datenströmen
• Hack-Prävention durch Log-File Analysen
• Transport
• Mobilität
• Verkehrsinformationen auf Grund von Bewegungsdaten
• Vertrieb
• Aussagen über das Kundenverhalten
• Kunde zahlt einen Kredit eher zurück, wenn er seine Kontakte im Handy nach Vor- und Nachnamen
sortiert
Aber erst das Raffinieren macht Öl wertvoll.
Daten sind wirklich das neue Öl.
https://aws.amazon.com/de/solutions/case-studies/

DB Schenker – Predictive Maintenance auf der Schiene: immer gut gewartete
Lokomotiven
628.06.2017 < OMM Solutions GmbH >
Herausforderungen
Blockierende Loks führen zu
Verspätungen und Kosten
Big Data
Große Datenmengen entstehen durch
das permanente Senden von
Sensordaten
Innovation
Fehler sofort entdecken
Prognosemodell nach Loktyp
Wartungsintervall orientiert sich an
tatsächlichem Verlauf.
Quelle: https://www.bitkom.org/noindex/Publikationen/2015/Leitfaden/Big-Data-und-Geschaeftsmodell-Innovationen/151229-Big-Data-und-GM-Innovationen.pdf

Sensorhersteller reduziert Anzahl an Kalibrierungsschritten
um 99%.
Herausforderung
Steigerung der Prozesseffizienz durch
die Reduzierung von
Kalibrierungsschritten bei
gleichbleibender Ergebnisqualität
Big Data
Regressionsanalyse von 51,5
Millionen Messungen aus dem
Produktionsprozess.
Innovation
Vorher: Kalibrierung an über 500
Messpunkten der Magnetische Fluss
gemessen.
Danach: Sieben Messpunkte
ermöglichen die gleiche Qualität.
Quelle: https://www.bitkom.org/noindex/Publikationen/2015/Leitfaden/Big-Data-und-Geschaeftsmodell-Innovationen/151229-Big-Data-und-GM-Innovationen.pdf

Bristol-Myer Squibb (Pharma) reduziert Time To Market um
98%
Herausforderungen
Klinische Versuche und
Simulationen kosten Zeit
100 Jobs ~ 60 Stunden
weil Daten sensibel sind, war
ein eigenes Rechenzentrum
Pflicht
Big Data
Jeder Versuch benötigt
Gigabytes an Daten und
generiert Gigabytes an Daten.
Innovation
Mit einem VPN zu einem
dedizierten AWS-Bereich
konnten Durchlaufzeiten
reduziert werden
• 2000 Jobs ~1,2 Stunden https://www.informationweek.com/software/enterprise-applications/big-data-6-real-life-business-cases/d/d-
id/1320590?image_number=2

Tesco verkauft Analysen aus seinen Kundendaten an
Konkurrenten.
Das passierte alles schon vor mehr als 15 Jahren
Herausforderung
Mehr Umsatz generieren
Big Data
16 Millionen aktive Tesco Kunden von
38 Millionen generieren täglich
Transaktionsdaten seit den 90igern
Innovation
Einsicht in das Kaufverhalten von
Millionen von Kunden und
Vorhersagen über zukünftige
Einkäufe
Dunnhumby Ltd. verkauft für Tesco
diese Daten aggregiert weiter
Quelle: https://datafloq.com/read/tesco-big-data-analytics-recipe-success/665
https://blogs.oracle.com/database/926109a1-9990-4201-8115-9cd6f52d32dd

„richtige“ Hadoop/BigData Usecases sind schwer zu finden.
AirBnB on Hadoop (2015)
Komplette Server Infrastruktur
bei AWS (~5000 EC2
Instanzen)
• 1500 für Webaktivitäten
• 3500 für Analytics und
Machinelearing
Beispiel1: Buchung in Paris
• 40000 insgesamte Einträge
• 5-10 besten Einträge für Gast
und Gastgeber anzeigen
• In Millisekunden
Beispiel 2: Interne Analyse
• Airpal um interne
Unternehmensdaten
abzufragen
• Zwei Cluster nötig nach kurzer
Zeit
https://www.nextplatform.com/2015/09/10/airbnb-shares-the-keys-to-its-infrastructure/
https://medium.com/airbnb-engineering/data-infrastructure-at-airbnb-8adfb34f169c
https://medium.com/airbnb-engineering/democratizing-data-at-airbnb-852d76c51770

Was ist Ihr Ziel?
• Welche Informationen wird meinen Kunden helfen Ihre Kosten oder Risiken zu
reduzieren?
• Welche Informationen sind stark zerstreut, würden aber tiefe Einsichten
vermitteln, wenn diese aggregiert wären?
• Sind meine Kunden verschieden und könnten von den Daten meiner anderen
Kunden profitieren?
• Wollen Sie einfache Daten-Aggregationen auf ein paar Hundert Datensätzen
machen?
• Bauen Sie ein Analytics-Team auf und wollen Ihr Marketing oder Produkt
verbessern?
• Haben Sie Erfahrung im Betrieb von verteilten Anwendungen?
• Wie groß sind Ihre Datenmengen?
• Wie verteilt sind Ihre Datenmengen?
• Wie schnell wachsen diese Datenmengen?
• Wie viele Mitarbeiter sollen sich mit dem Thema beschäftigen?
Prinzipiell kann man mit einem Hammer auch eine Schraube versenken.
Der Anwendungsfall bestimmt den Einsatz der Technologie!

Bei jeglicher Analyse helfen Visualisierungswerkzeuge – hat Olaf schon bei KI gesagt.
Aller Anfang ist, wenn man weiß, was man sucht.
Erst Bereinigen
• Datenqualität sicherstellen
• Duplikate entdecken
• Standardisieren
• Bereinigen
• openrefine.org
• datacleaner.org
Dann Visualisieren
• Mehrere Datenquellen
• Interaktiv
• Teilbar
• Web-basiert
• zeppelin.apache.org
• elastic.co/de/products/kibana
• public.tableau.com
• wolframalpha.com
•
mehr BI als reine Visualisierung:
qlik.com/de-de
• silk.co
• helicalinsight.com
• pentaho.com
• Für Hacker:
• polymaps.org
• iweave.com
• d3js.org
Nicht die „Großen“ zu vergessen
• Amazon Web Services
(AWS)
• QuickSight (beta)
• Google
• Data Studio (beta)
• developers.google.com/chart/
• Microsoft
• Excel
• Power BI
• SandDance
• IBM Analytics
• SAP HANA Cloud Platform
http://paintbynumbersblog.blogspot.de/2014/05/100-blocks-quantified-self-random-walk.html

Elastic Stack ist ein Einstieg in große Datenanalysen.
• Daten Erfassen
• Daten/Texte durchsuchen
• Daten visualisieren
• Daten aggregieren
• Fakten-Abfragen
Sehr gut
• aggregierte sehr große Analysen
• Massendaten-Transformationen
• Stream Processing
• Join-Abfrage
• Mit zunehmender Dokumentenzahl werden
Abfragen ineffizienter
Weniger gut

Daten müssen verlässlich im System landen und bleiben.
Ab Terabytes an Daten wird das eine Herausforderung
Quellausfall
• Fällt eine Datenstromquelle für längere Zeiten aus und ist dann wieder verfügbar,
werden große Mengen aufgelaufener Daten auf einmal übertragen. Die Hard- und
Software muss das verkraften.
Skalierung und Verlässlichkeit
• Die Datenmengen müssen auf verteilten Clustern verarbeitet werden. Das bisherige
Enterprise-Konzept von (verteilten) Transaktionen skaliert allerdings nicht
ausreichend. Daher müssen neue Methoden für die verteilte Verlässlichkeit
gefunden werden.
Widerstandsfähigkeit
• Big-Data-Lösungen bestehen aus vielen beweglichen Teilen. Es ist keine Frage, ob
Fehler und Ausfälle auftreten, sondern nur die Frage wann. Wenn dann eines der
Teile aufgrund eines Entwicklerfehlers oder durch einen Hardwaredefekt ausfällt,
darf das Gesamtsystem keine Daten verlieren oder gar ausfallen.
Elastizität
• Big-Data-Lösungen konsumieren sehr viele Ressourcen auf den Servern. Durch
Oversizing konnten auf kleinen Clustern Performance-Engpässe und Ausfälle
kompensiert werden. Ein Zwei-Maschinen-Cluster kann problemlos um 100 % auf
vier Maschinen oversized werden. Bei großen Clustern ist das aber nicht mehr
finanzierbar. Hier müssen andere Mechanismen für Elastizität gefunden werden.

Sehr große Datenmengen müssen effizient verarbeitet
werden.
Was ist der Trick?
Kurzer Abriss der Historie• 1997 erfindet Doug Cutting eine Suchmaschine namens Lucene
• 2001 Lucene durchsucht das gesamte Web -> Apache Nutch
Webcrawler
• Probleme drehten auf:
• Kein Datenschema; Datenverluste, Hardwareverluste
• 2003 Google File System, ein verteiltes Dateisystem wird
veröffentlicht
• 2003 Nutch File System wird auf Grundlage von GFS gebaut
• Apache Nutch verteilt seine Daten auf Festplatten (Nodes)
• Nachteil: kein paralleles Verarbeiten der Daten möglich
• 2004 Google veröffentlich MapReduce – Simple Data Processing
on Large Clusters
• Parallelisierung, Verteilung und Fehlertoleranz
• 2006 Cutting erstellt aus GFS und MapReduce, Apache Hadoop
• Yahoo stellt Cutting ein um ihr Filesystem auf Hadoop
umzustellen
• Später setzen andere Firmen wie Facebook, Twitter, LinkedIn
auch Hadoop ein
• … HDFS, Hive, Pig, PrestoDB…
• Nochmal später bemerken Firmen mit kleineren Datenmengen,
das ihnen Hadoop zu sperrig ist, und SMACK wird erfunden.
Was ist Map-Reduce?
Ziel: Zähle die Anzahl an Büchern in
einer Bücherei.
Map: Du zählst Stock #1. Ich zähle
Stock #2.
(Je mehr Leute wir sind, um so
schneller geht das am Ende)
Reduce: Wir kommen alle zusammen
und summieren unsere einzelnen
Werte auf.

SMACK dient als Werkzeugkasten für Ihre Datenerhebung.
Store FloorBeacon
POS Beacon
MachineSensor
EnvironmentSensor
DemographicData
BrowsingData
S M ACKSTACK
Spark
Mesos
Akka
Cassandra
Kafka
MobileApps
RealtimeMessaging
Business Intelligence & Analytics
CustomizedDashboards
StorePOS-System
DATA
PREPARATION&CREATION
DATA
VISUALIZATION
Widealalysis Distributed
database
Event based
dataprocessing
DATA
MANAGEMENT&AGGREGATION

Der SMACK Stack im Detail
Umfangreiche Analysen
Verteilte Datenbank
Event-basierte Datenverarbeitung
Liest das Datenmodel
Aufbereitete Daten
API für mobile und
webbasierte Anwendungen
Alarme, Benachrichtungen,
Predictive Maintenance,
automatische Optimierungen;
Machine Learning
Datenquellen
Dateien und
Batch-Prozesse
Echtzeit-APIs;
Streams; OPC
Liest die Daten
Schreibt das Datenmodell
Visualisierung/Dashboards

• Apache Kafka („Buffer“)
• verteilter, skalierbarer und verlässlicher Message Broker für große Datenmengen
• Alternative: beats, rabbitmq; (!) Einsatzzweck: Producer oder Konsumer-Fokus
• Reactive Streams („nicht so schnell, bitte“)
• Abhängigkeit zwischen Komponenten kann durch Umstellen von Push auf Pull bis zur Quelle durcheskaliert werden
• Akka („nah-zeit Verarbeitung“)
• Implementierung des Actor Frameworks für die Implementierung von reaktiven Anwendungen. Scala ermöglicht
dabei funktionale Aspekte.
• Weiter: akka-http, akka-streams, akka-persistence (vs. eventuate)
• Alternativen: RxJava, vertX
• Apache Spark („Filtern von großen Daten“)
• Batch-Verarbeitung (auch MapReduce) und Streaming-Verarbeitung (micro-Batches mit Spark-Streaming);
ermöglicht funktionalen Lambda Architekturen.
• Alle relevanten NoSQL und klassischen RDBMS-Lösungen lassen sich integrieren.
• Alternative: Beam (Metaebene), Storm/Trident; Samza (inkl. Kafka+Hadoop/Yarn), stream vs. batch processing
• Apache Cassandra („Datenspeicher“)
• Spaltenorientierte Datenbank, verteilt, skaliert linear, verarbeitet Daten lokal ohne teure IO-Operationen über das
Netzwerk hinweg
• „Alternativen“: hive, reddis, mongoDB, hadoop/HDFS/hbase; (!) Einsatzzweck: spaltenorientiert vs. Dokumenten-DB
vs. Verteilt.
• Apache Mesos („Lastenmanager“)
• Scheduling Framework für Cluster und Rechenzentren; Anwendungen – auch Spark, Akka, Cassandra, Kafka –
werden auf das Cluster deployed und Mesos entscheidet (scheduled), welcher Job auf welcher Maschine zu laufen
hat.
• Alternative: YARN; (oder sogar Myriad: YARN on Mesos)
SMACK: Spark, Mesos, Akka, Cassandra, Kafka
Greifen Sie auf vorhandene Best-Practices zurück!

https://www.chrisstucchio.com/blog/2013/hadoop_hatred.html
Keine Petabytes an Daten? Machs mit Excel!
Hadoop/SMACK etc. können auch nur map-reduce
Aaaber, meine Daten sind hunderte Megabytes. Excel lädt das nicht.
• Dann nimm http://pandas.pydata.org/ als Datenlader für deine Aggregationen
in Python
Aaaber, meine Daten sind 10 Gigabyte.
• Kauf dir mehr Arbeitsspeicher (32GB für 250€) und lad nicht alles gleichzeitig
in den RAM
Aaaber, meine Daten sind 100GB/500GB/1TB!
• Eine 5TB Festplatte kostet 150€. Installier dir http://www.postgresql.org/ drauf.
SMACK/etc ist SQL immer unterlegen. Nutze Indizes und bereite deine Daten
auf.
Aaaber, meine Daten sind mehr als 5TB!
• „Ok, your life now sucks!“ – Nutze SMACK/etc.
• Jetzt gibt’s es nicht mehr viele Optionen neben vielen Servern mit vielen
Festplatte.

Lies eine Textdatei mit 250MB und zähle wie oft jedes Wort darin vorkommt.
Apache BEAM
• 50 Zeilen Code
• Laufzeit: >1 Minute
• Mind. Heap: 800MB
• Threads: Multithreading, orange: waiting
CommonsIO#FileUtils
• 64 Zeilen Code
• Laufzeit: 22 sec
• Mind. Heap: 15MB
• Threads: Einer
Im direkten Vergleich zweier Implementierungen zeigt sich der
Einsatzzweck.

ThyssenKrupp Elevator – Intelligente Aufzüge durch globale
Vernetzung
Herausforderung
• Wettbewerbsvorteile durch
Zuverlässigkeits-Garantieen
• Vorrausschauende und
präventive Wartung durch
BigData Realisieren
• Kosteneffiziente Auswertung
der Sensordaten auf globaler
Ebene
Big Data
• 1,1 Millionen Aufzüge
generieren jede Minute
hunderte von
Zustandsinformationen
• Jeden Tag, 24h, 365 Tage
im Jahr
Innovation
• Bi-direktionaler Zugriff
• Mit MachineLearning können
die Aufzüge den Technikern
erklären, wie sie in Stand zu
setzen sind.
• Bis zu 400 Fehlercodes pro
Aufzüg verschärfen Effizienz
• Betriebszeit steigt deutlich

Vielen Dank für Eure Aufmerksamkeit!

Ihr persönlicher Ansprechpartner
Fragen oder Interesse?
< OMM Solutions GmbH > 23
Malte Horstmann
Sales & Processes
OMM Solutions GmbH
Vor dem Lauch 4
70567 Stuttgart
Germany
mh@omm-solutions.de
+49 (0)711 67 47 05 11

www.omm-solutions.de
OMM Solutions GmbH
Vor dem Lauch 4
70567 Stuttgart
Geschäftsführer
Martin Allmendinger
Malte Horstmann
Olaf Horstmann
Kontakt
Telefon: +49 711 6747 051-0
E-Mail: info@omm-solutions.de
Umsatzsteuer-ID: DE295716572
Sitz der Gesellschaft: Stuttgart
Amtsgericht Stuttgart, HRB 749562
Impressum

Big/Smart/Fast Data – a very compact overview

Recomendados

Recomendados

Más contenido relacionado

Similar a Big/Smart/Fast Data – a very compact overview

Similar a Big/Smart/Fast Data – a very compact overview (20)

Más de OMM Solutions GmbH

Más de OMM Solutions GmbH (20)

Big/Smart/Fast Data – a very compact overview