SlideShare una empresa de Scribd logo
1 de 24
OMM Solutions
TECHtalk #4
1< OMM Solutions GmbH >28.06.2017
www.tech-talks.eu
Einmal im Monat ist TECHtalk Zeit! First come first served!
< OMM Solutions GmbH > 2
Talk: Big/Smart/Fast Data – a very compact overview
Speaker: Malte Horstmann
3< OMM Solutions GmbH >
Viele Daten, die schnell analysiert werden, erschaffen Smarte Daten.
Big Data ist mehr als nur eine große Festplatte
28.06.2017 < OMM Solutions GmbH > 4
Masse (Volume)
• Große
Datenmengen
• Ab Terabyte-Bereich
Vielfalt (Variety)
• Daten in vielen
Formaten
• strukturiert
• Unstrukturiert
• Text
• Multimedia
Geschwindigkeit
(Velocity)
• Datenströme
• Analyse von
Streamingdaten
Richtigkeit
(Veracity)
• Vertrauen in Daten
• Zuverlässigkeit der
Vorhersagbarkeit
• Unsichere Daten
Warum eigentlich Big/Fast/Smart Data?
• Logistik
• Vorhersage von Warenströmen
• Produktion
• Vorhersage von Wartungsfällen
• Optimierung von Einsatzstoffen
• Gezielter Pestiziden Einsatz in der Agrarwirtschaft
• Visualisieren von Datenströmen
• Hack-Prävention durch Log-File Analysen
• Transport
• Mobilität
• Verkehrsinformationen auf Grund von Bewegungsdaten
• Vertrieb
• Aussagen über das Kundenverhalten
• Kunde zahlt einen Kredit eher zurück, wenn er seine Kontakte im Handy nach Vor- und Nachnamen
sortiert
Aber erst das Raffinieren macht Öl wertvoll.
Daten sind wirklich das neue Öl.
28.06.2017 < OMM Solutions GmbH > 5
https://aws.amazon.com/de/solutions/case-studies/
DB Schenker – Predictive Maintenance auf der Schiene: immer gut gewartete
Lokomotiven
628.06.2017 < OMM Solutions GmbH >
Herausforderungen
Blockierende Loks führen zu
Verspätungen und Kosten
Big Data
Große Datenmengen entstehen durch
das permanente Senden von
Sensordaten
Innovation
Fehler sofort entdecken
Prognosemodell nach Loktyp
Wartungsintervall orientiert sich an
tatsächlichem Verlauf.
Quelle: https://www.bitkom.org/noindex/Publikationen/2015/Leitfaden/Big-Data-und-Geschaeftsmodell-Innovationen/151229-Big-Data-und-GM-Innovationen.pdf
Sensorhersteller reduziert Anzahl an Kalibrierungsschritten
um 99%.
728.06.2017 < OMM Solutions GmbH >
Herausforderung
Steigerung der Prozesseffizienz durch
die Reduzierung von
Kalibrierungsschritten bei
gleichbleibender Ergebnisqualität
Big Data
Regressionsanalyse von 51,5
Millionen Messungen aus dem
Produktionsprozess.
Innovation
Vorher: Kalibrierung an über 500
Messpunkten der Magnetische Fluss
gemessen.
Danach: Sieben Messpunkte
ermöglichen die gleiche Qualität.
Quelle: https://www.bitkom.org/noindex/Publikationen/2015/Leitfaden/Big-Data-und-Geschaeftsmodell-Innovationen/151229-Big-Data-und-GM-Innovationen.pdf
Bristol-Myer Squibb (Pharma) reduziert Time To Market um
98%
828.06.2017 < OMM Solutions GmbH >
Herausforderungen
Klinische Versuche und
Simulationen kosten Zeit
100 Jobs ~ 60 Stunden
weil Daten sensibel sind, war
ein eigenes Rechenzentrum
Pflicht
Big Data
Jeder Versuch benötigt
Gigabytes an Daten und
generiert Gigabytes an Daten.
Innovation
Mit einem VPN zu einem
dedizierten AWS-Bereich
konnten Durchlaufzeiten
reduziert werden
• 2000 Jobs ~1,2 Stunden https://www.informationweek.com/software/enterprise-applications/big-data-6-real-life-business-cases/d/d-
id/1320590?image_number=2
Tesco verkauft Analysen aus seinen Kundendaten an
Konkurrenten.
928.06.2017 < OMM Solutions GmbH >
Das passierte alles schon vor mehr als 15 Jahren
Herausforderung
Mehr Umsatz generieren
Big Data
16 Millionen aktive Tesco Kunden von
38 Millionen generieren täglich
Transaktionsdaten seit den 90igern
Innovation
Einsicht in das Kaufverhalten von
Millionen von Kunden und
Vorhersagen über zukünftige
Einkäufe
Dunnhumby Ltd. verkauft für Tesco
diese Daten aggregiert weiter
Quelle: https://datafloq.com/read/tesco-big-data-analytics-recipe-success/665
https://blogs.oracle.com/database/926109a1-9990-4201-8115-9cd6f52d32dd
„richtige“ Hadoop/BigData Usecases sind schwer zu finden.
1028.06.2017 < OMM Solutions GmbH >
AirBnB on Hadoop (2015)
Komplette Server Infrastruktur
bei AWS (~5000 EC2
Instanzen)
• 1500 für Webaktivitäten
• 3500 für Analytics und
Machinelearing
Beispiel1: Buchung in Paris
• 40000 insgesamte Einträge
• 5-10 besten Einträge für Gast
und Gastgeber anzeigen
• In Millisekunden
Beispiel 2: Interne Analyse
• Airpal um interne
Unternehmensdaten
abzufragen
• Zwei Cluster nötig nach kurzer
Zeit
https://www.nextplatform.com/2015/09/10/airbnb-shares-the-keys-to-its-infrastructure/
https://medium.com/airbnb-engineering/data-infrastructure-at-airbnb-8adfb34f169c
https://medium.com/airbnb-engineering/democratizing-data-at-airbnb-852d76c51770
Was ist Ihr Ziel?
• Welche Informationen wird meinen Kunden helfen Ihre Kosten oder Risiken zu
reduzieren?
• Welche Informationen sind stark zerstreut, würden aber tiefe Einsichten
vermitteln, wenn diese aggregiert wären?
• Sind meine Kunden verschieden und könnten von den Daten meiner anderen
Kunden profitieren?
• Wollen Sie einfache Daten-Aggregationen auf ein paar Hundert Datensätzen
machen?
• Bauen Sie ein Analytics-Team auf und wollen Ihr Marketing oder Produkt
verbessern?
• Haben Sie Erfahrung im Betrieb von verteilten Anwendungen?
• Wie groß sind Ihre Datenmengen?
• Wie verteilt sind Ihre Datenmengen?
• Wie schnell wachsen diese Datenmengen?
• Wie viele Mitarbeiter sollen sich mit dem Thema beschäftigen?
Prinzipiell kann man mit einem Hammer auch eine Schraube versenken.
Der Anwendungsfall bestimmt den Einsatz der Technologie!
28.06.2017 < OMM Solutions GmbH > 11
Bei jeglicher Analyse helfen Visualisierungswerkzeuge – hat Olaf schon bei KI gesagt.
Aller Anfang ist, wenn man weiß, was man sucht.
Erst Bereinigen
• Datenqualität sicherstellen
• Duplikate entdecken
• Standardisieren
• Bereinigen
• openrefine.org
• datacleaner.org
Dann Visualisieren
• Mehrere Datenquellen
• Interaktiv
• Teilbar
• Web-basiert
• zeppelin.apache.org
• elastic.co/de/products/kibana
• public.tableau.com
• wolframalpha.com
•
mehr BI als reine Visualisierung:
qlik.com/de-de
• silk.co
• helicalinsight.com
• pentaho.com
• Für Hacker:
• polymaps.org
• iweave.com
• d3js.org
Nicht die „Großen“ zu vergessen
• Amazon Web Services
(AWS)
• QuickSight (beta)
• Google
• Data Studio (beta)
• developers.google.com/chart/
• Microsoft
• Excel
• Power BI
• SandDance
• IBM Analytics
• SAP HANA Cloud Platform
28.06.2017 < OMM Solutions GmbH > 12
http://paintbynumbersblog.blogspot.de/2014/05/100-blocks-quantified-self-random-walk.html
Elastic Stack ist ein Einstieg in große Datenanalysen.
1328.06.2017 < OMM Solutions GmbH >
• Daten Erfassen
• Daten/Texte durchsuchen
• Daten visualisieren
• Daten aggregieren
• Fakten-Abfragen
Sehr gut
• aggregierte sehr große Analysen
• Massendaten-Transformationen
• Stream Processing
• Join-Abfrage
• Mit zunehmender Dokumentenzahl werden
Abfragen ineffizienter
Weniger gut
Daten müssen verlässlich im System landen und bleiben.
1428.06.2017 < OMM Solutions GmbH >
Ab Terabytes an Daten wird das eine Herausforderung
Quellausfall
• Fällt eine Datenstromquelle für längere Zeiten aus und ist dann wieder verfügbar,
werden große Mengen aufgelaufener Daten auf einmal übertragen. Die Hard- und
Software muss das verkraften.
Skalierung und Verlässlichkeit
• Die Datenmengen müssen auf verteilten Clustern verarbeitet werden. Das bisherige
Enterprise-Konzept von (verteilten) Transaktionen skaliert allerdings nicht
ausreichend. Daher müssen neue Methoden für die verteilte Verlässlichkeit
gefunden werden.
Widerstandsfähigkeit
• Big-Data-Lösungen bestehen aus vielen beweglichen Teilen. Es ist keine Frage, ob
Fehler und Ausfälle auftreten, sondern nur die Frage wann. Wenn dann eines der
Teile aufgrund eines Entwicklerfehlers oder durch einen Hardwaredefekt ausfällt,
darf das Gesamtsystem keine Daten verlieren oder gar ausfallen.
Elastizität
• Big-Data-Lösungen konsumieren sehr viele Ressourcen auf den Servern. Durch
Oversizing konnten auf kleinen Clustern Performance-Engpässe und Ausfälle
kompensiert werden. Ein Zwei-Maschinen-Cluster kann problemlos um 100 % auf
vier Maschinen oversized werden. Bei großen Clustern ist das aber nicht mehr
finanzierbar. Hier müssen andere Mechanismen für Elastizität gefunden werden.
Sehr große Datenmengen müssen effizient verarbeitet
werden.
1528.06.2017 < OMM Solutions GmbH >
Was ist der Trick?
Kurzer Abriss der Historie• 1997 erfindet Doug Cutting eine Suchmaschine namens Lucene
• 2001 Lucene durchsucht das gesamte Web -> Apache Nutch
Webcrawler
• Probleme drehten auf:
• Kein Datenschema; Datenverluste, Hardwareverluste
• 2003 Google File System, ein verteiltes Dateisystem wird
veröffentlicht
• 2003 Nutch File System wird auf Grundlage von GFS gebaut
• Apache Nutch verteilt seine Daten auf Festplatten (Nodes)
• Nachteil: kein paralleles Verarbeiten der Daten möglich
• 2004 Google veröffentlich MapReduce – Simple Data Processing
on Large Clusters
• Parallelisierung, Verteilung und Fehlertoleranz
• 2006 Cutting erstellt aus GFS und MapReduce, Apache Hadoop
• Yahoo stellt Cutting ein um ihr Filesystem auf Hadoop
umzustellen
• Später setzen andere Firmen wie Facebook, Twitter, LinkedIn
auch Hadoop ein
• … HDFS, Hive, Pig, PrestoDB…
• Nochmal später bemerken Firmen mit kleineren Datenmengen,
das ihnen Hadoop zu sperrig ist, und SMACK wird erfunden.
Was ist Map-Reduce?
Ziel: Zähle die Anzahl an Büchern in
einer Bücherei.
Map: Du zählst Stock #1. Ich zähle
Stock #2.
(Je mehr Leute wir sind, um so
schneller geht das am Ende)
Reduce: Wir kommen alle zusammen
und summieren unsere einzelnen
Werte auf.
SMACK dient als Werkzeugkasten für Ihre Datenerhebung.
1628.06.2017 < OMM Solutions GmbH >
Store FloorBeacon
POS Beacon
MachineSensor
EnvironmentSensor
DemographicData
BrowsingData
S M ACKSTACK
Spark
Mesos
Akka
Cassandra
Kafka
MobileApps
RealtimeMessaging
Business Intelligence & Analytics
CustomizedDashboards
StorePOS-System
DATA
PREPARATION&CREATION
DATA
VISUALIZATION
Widealalysis Distributed
database
Event based
dataprocessing
DATA
MANAGEMENT&AGGREGATION
Der SMACK Stack im Detail
1728.06.2017 < OMM Solutions GmbH >
Umfangreiche Analysen
Verteilte Datenbank
Event-basierte Datenverarbeitung
Liest das Datenmodel
Aufbereitete Daten
API für mobile und
webbasierte Anwendungen
Alarme, Benachrichtungen,
Predictive Maintenance,
automatische Optimierungen;
Machine Learning
Datenquellen
Dateien und
Batch-Prozesse
Echtzeit-APIs;
Streams; OPC
Liest die Daten
Schreibt das Datenmodell
Visualisierung/Dashboards
• Apache Kafka („Buffer“)
• verteilter, skalierbarer und verlässlicher Message Broker für große Datenmengen
• Alternative: beats, rabbitmq; (!) Einsatzzweck: Producer oder Konsumer-Fokus
• Reactive Streams („nicht so schnell, bitte“)
• Abhängigkeit zwischen Komponenten kann durch Umstellen von Push auf Pull bis zur Quelle durcheskaliert werden
• Akka („nah-zeit Verarbeitung“)
• Implementierung des Actor Frameworks für die Implementierung von reaktiven Anwendungen. Scala ermöglicht
dabei funktionale Aspekte.
• Weiter: akka-http, akka-streams, akka-persistence (vs. eventuate)
• Alternativen: RxJava, vertX
• Apache Spark („Filtern von großen Daten“)
• Batch-Verarbeitung (auch MapReduce) und Streaming-Verarbeitung (micro-Batches mit Spark-Streaming);
ermöglicht funktionalen Lambda Architekturen.
• Alle relevanten NoSQL und klassischen RDBMS-Lösungen lassen sich integrieren.
• Alternative: Beam (Metaebene), Storm/Trident; Samza (inkl. Kafka+Hadoop/Yarn), stream vs. batch processing
• Apache Cassandra („Datenspeicher“)
• Spaltenorientierte Datenbank, verteilt, skaliert linear, verarbeitet Daten lokal ohne teure IO-Operationen über das
Netzwerk hinweg
• „Alternativen“: hive, reddis, mongoDB, hadoop/HDFS/hbase; (!) Einsatzzweck: spaltenorientiert vs. Dokumenten-DB
vs. Verteilt.
• Apache Mesos („Lastenmanager“)
• Scheduling Framework für Cluster und Rechenzentren; Anwendungen – auch Spark, Akka, Cassandra, Kafka –
werden auf das Cluster deployed und Mesos entscheidet (scheduled), welcher Job auf welcher Maschine zu laufen
hat.
• Alternative: YARN; (oder sogar Myriad: YARN on Mesos)
SMACK: Spark, Mesos, Akka, Cassandra, Kafka
Greifen Sie auf vorhandene Best-Practices zurück!
28.06.2017 < OMM Solutions GmbH > 18
https://www.chrisstucchio.com/blog/2013/hadoop_hatred.html
Keine Petabytes an Daten? Machs mit Excel!
28.06.2017 < OMM Solutions GmbH > 19
Hadoop/SMACK etc. können auch nur map-reduce
Aaaber, meine Daten sind hunderte Megabytes. Excel lädt das nicht.
• Dann nimm http://pandas.pydata.org/ als Datenlader für deine Aggregationen
in Python
Aaaber, meine Daten sind 10 Gigabyte.
• Kauf dir mehr Arbeitsspeicher (32GB für 250€) und lad nicht alles gleichzeitig
in den RAM
Aaaber, meine Daten sind 100GB/500GB/1TB!
• Eine 5TB Festplatte kostet 150€. Installier dir http://www.postgresql.org/ drauf.
SMACK/etc ist SQL immer unterlegen. Nutze Indizes und bereite deine Daten
auf.
Aaaber, meine Daten sind mehr als 5TB!
• „Ok, your life now sucks!“ – Nutze SMACK/etc.
• Jetzt gibt’s es nicht mehr viele Optionen neben vielen Servern mit vielen
Festplatte.
Lies eine Textdatei mit 250MB und zähle wie oft jedes Wort darin vorkommt.
Apache BEAM
• 50 Zeilen Code
• Laufzeit: >1 Minute
• Mind. Heap: 800MB
• Threads: Multithreading, orange: waiting
CommonsIO#FileUtils
• 64 Zeilen Code
• Laufzeit: 22 sec
• Mind. Heap: 15MB
• Threads: Einer
Im direkten Vergleich zweier Implementierungen zeigt sich der
Einsatzzweck.
28.06.2017 < OMM Solutions GmbH > 20
ThyssenKrupp Elevator – Intelligente Aufzüge durch globale
Vernetzung
Herausforderung
• Wettbewerbsvorteile durch
Zuverlässigkeits-Garantieen
• Vorrausschauende und
präventive Wartung durch
BigData Realisieren
• Kosteneffiziente Auswertung
der Sensordaten auf globaler
Ebene
Big Data
• 1,1 Millionen Aufzüge
generieren jede Minute
hunderte von
Zustandsinformationen
• Jeden Tag, 24h, 365 Tage
im Jahr
Innovation
• Bi-direktionaler Zugriff
• Mit MachineLearning können
die Aufzüge den Technikern
erklären, wie sie in Stand zu
setzen sind.
• Bis zu 400 Fehlercodes pro
Aufzüg verschärfen Effizienz
• Betriebszeit steigt deutlich
28.06.2017 < OMM Solutions GmbH > 21
Vielen Dank für Eure Aufmerksamkeit!
22< OMM Solutions GmbH >
Ihr persönlicher Ansprechpartner
Fragen oder Interesse?
< OMM Solutions GmbH > 23
Malte Horstmann
Sales & Processes
OMM Solutions GmbH
Vor dem Lauch 4
70567 Stuttgart
Germany
mh@omm-solutions.de
+49 (0)711 67 47 05 11
24< OMM Solutions GmbH >
www.omm-solutions.de
OMM Solutions GmbH
Vor dem Lauch 4
70567 Stuttgart
Geschäftsführer
Martin Allmendinger
Malte Horstmann
Olaf Horstmann
Kontakt
Telefon: +49 711 6747 051-0
E-Mail: info@omm-solutions.de
Umsatzsteuer-ID: DE295716572
Sitz der Gesellschaft: Stuttgart
Amtsgericht Stuttgart, HRB 749562
Impressum

Más contenido relacionado

Similar a Big/Smart/Fast Data – a very compact overview

8 Tipps für eine Cloud Strategie – wie Unternehmen heute die Cloud einsetzen
8 Tipps für eine Cloud Strategie – wie Unternehmen heute die Cloud einsetzen8 Tipps für eine Cloud Strategie – wie Unternehmen heute die Cloud einsetzen
8 Tipps für eine Cloud Strategie – wie Unternehmen heute die Cloud einsetzen
AWS Germany
 
Skalierung & Performance
Skalierung & PerformanceSkalierung & Performance
Skalierung & Performance
glembotzky
 
Historisierung und Analyse von Daten aus Oracle Enterprise Manager Cloud Cont...
Historisierung und Analyse von Daten aus Oracle Enterprise Manager Cloud Cont...Historisierung und Analyse von Daten aus Oracle Enterprise Manager Cloud Cont...
Historisierung und Analyse von Daten aus Oracle Enterprise Manager Cloud Cont...
OPITZ CONSULTING Deutschland
 
Rbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastrukturRbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastruktur
Rene Burgener
 
BITKOM_Präsentation Data Intelligence Hub -Schwarz-Kouril
BITKOM_Präsentation Data Intelligence Hub -Schwarz-KourilBITKOM_Präsentation Data Intelligence Hub -Schwarz-Kouril
BITKOM_Präsentation Data Intelligence Hub -Schwarz-Kouril
Stefan Schwarz
 

Similar a Big/Smart/Fast Data – a very compact overview (20)

Cyber Crime leeds to Tape Air-Gap Protection
Cyber Crime leeds to Tape Air-Gap ProtectionCyber Crime leeds to Tape Air-Gap Protection
Cyber Crime leeds to Tape Air-Gap Protection
 
8 Tipps für eine Cloud Strategie – wie Unternehmen heute die Cloud einsetzen
8 Tipps für eine Cloud Strategie – wie Unternehmen heute die Cloud einsetzen8 Tipps für eine Cloud Strategie – wie Unternehmen heute die Cloud einsetzen
8 Tipps für eine Cloud Strategie – wie Unternehmen heute die Cloud einsetzen
 
Webinar: BigData - Vom Hype zum Nutzen
Webinar: BigData - Vom Hype zum NutzenWebinar: BigData - Vom Hype zum Nutzen
Webinar: BigData - Vom Hype zum Nutzen
 
Skalierung & Performance
Skalierung & PerformanceSkalierung & Performance
Skalierung & Performance
 
Hadoop in modernen BI-Infrastrukturen
Hadoop in modernen BI-InfrastrukturenHadoop in modernen BI-Infrastrukturen
Hadoop in modernen BI-Infrastrukturen
 
OpenDMA - Daten Management Solution
OpenDMA  - Daten Management SolutionOpenDMA  - Daten Management Solution
OpenDMA - Daten Management Solution
 
Kritische app performance erfolgreich optimieren mit Bison
Kritische app performance erfolgreich optimieren mit BisonKritische app performance erfolgreich optimieren mit Bison
Kritische app performance erfolgreich optimieren mit Bison
 
Modernes Rechenzentrum
Modernes Rechenzentrum Modernes Rechenzentrum
Modernes Rechenzentrum
 
Public Cloud Erfahrungsbericht SBB
Public Cloud Erfahrungsbericht SBBPublic Cloud Erfahrungsbericht SBB
Public Cloud Erfahrungsbericht SBB
 
Webinar - Sehr empfehlenswert: wie man aus Daten durch maschinelles Lernen We...
Webinar - Sehr empfehlenswert: wie man aus Daten durch maschinelles Lernen We...Webinar - Sehr empfehlenswert: wie man aus Daten durch maschinelles Lernen We...
Webinar - Sehr empfehlenswert: wie man aus Daten durch maschinelles Lernen We...
 
Wie sich SaaS und PaaS in Unternehmen durchsetzen wird
Wie sich SaaS und PaaS in Unternehmen durchsetzen wirdWie sich SaaS und PaaS in Unternehmen durchsetzen wird
Wie sich SaaS und PaaS in Unternehmen durchsetzen wird
 
Wird das Datacenter künstlich-intelligent?
Wird das Datacenter künstlich-intelligent?Wird das Datacenter künstlich-intelligent?
Wird das Datacenter künstlich-intelligent?
 
Cloud Wars – what‘s the smartest data platform? Vergleich Microsoft Azure, Am...
Cloud Wars – what‘s the smartest data platform? Vergleich Microsoft Azure, Am...Cloud Wars – what‘s the smartest data platform? Vergleich Microsoft Azure, Am...
Cloud Wars – what‘s the smartest data platform? Vergleich Microsoft Azure, Am...
 
The Big Five - IT Architektur Heute
The Big Five - IT Architektur HeuteThe Big Five - IT Architektur Heute
The Big Five - IT Architektur Heute
 
OSMC 2011 | Monitoring "wer kennt wen" mit free and open source software by J...
OSMC 2011 | Monitoring "wer kennt wen" mit free and open source software by J...OSMC 2011 | Monitoring "wer kennt wen" mit free and open source software by J...
OSMC 2011 | Monitoring "wer kennt wen" mit free and open source software by J...
 
Historisierung und Analyse von Daten aus Oracle Enterprise Manager Cloud Cont...
Historisierung und Analyse von Daten aus Oracle Enterprise Manager Cloud Cont...Historisierung und Analyse von Daten aus Oracle Enterprise Manager Cloud Cont...
Historisierung und Analyse von Daten aus Oracle Enterprise Manager Cloud Cont...
 
SCAPE Skalierbare Langzeitarchivierung
SCAPE Skalierbare LangzeitarchivierungSCAPE Skalierbare Langzeitarchivierung
SCAPE Skalierbare Langzeitarchivierung
 
Rbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastrukturRbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastruktur
 
BITKOM_Präsentation Data Intelligence Hub -Schwarz-Kouril
BITKOM_Präsentation Data Intelligence Hub -Schwarz-KourilBITKOM_Präsentation Data Intelligence Hub -Schwarz-Kouril
BITKOM_Präsentation Data Intelligence Hub -Schwarz-Kouril
 
Data Mining und OLAP
Data Mining und OLAPData Mining und OLAP
Data Mining und OLAP
 

Más de OMM Solutions GmbH

Más de OMM Solutions GmbH (20)

Growth Hacking
Growth HackingGrowth Hacking
Growth Hacking
 
IoT-Home fails
IoT-Home failsIoT-Home fails
IoT-Home fails
 
Mythos und Realität des Intrapreneurs - Wer ist er und welche organisatorisch...
Mythos und Realität des Intrapreneurs - Wer ist er und welche organisatorisch...Mythos und Realität des Intrapreneurs - Wer ist er und welche organisatorisch...
Mythos und Realität des Intrapreneurs - Wer ist er und welche organisatorisch...
 
How everyone can program a browser to quickly automate research and analyst-t...
How everyone can program a browser to quickly automate research and analyst-t...How everyone can program a browser to quickly automate research and analyst-t...
How everyone can program a browser to quickly automate research and analyst-t...
 
How we automate tasks and processes at OMM
How we automate tasks and processes at OMMHow we automate tasks and processes at OMM
How we automate tasks and processes at OMM
 
The possibilities of information that can be extracted from seemingly simpel ...
The possibilities of information that can be extracted from seemingly simpel ...The possibilities of information that can be extracted from seemingly simpel ...
The possibilities of information that can be extracted from seemingly simpel ...
 
Industrie 4.0: State of the art
Industrie 4.0: State of the artIndustrie 4.0: State of the art
Industrie 4.0: State of the art
 
How AI will affect individuals
How AI will affect individualsHow AI will affect individuals
How AI will affect individuals
 
The future of society with AI
The future of society with AIThe future of society with AI
The future of society with AI
 
Quantum computing - the next big thing
Quantum computing - the next big thingQuantum computing - the next big thing
Quantum computing - the next big thing
 
How AI will affect individuals
How AI will affect individuals How AI will affect individuals
How AI will affect individuals
 
Industry ready software ecosystems how to attract software development part...
Industry ready software ecosystems   how to attract software development part...Industry ready software ecosystems   how to attract software development part...
Industry ready software ecosystems how to attract software development part...
 
Wie Edtech das Lernen der Zukunft verändert
Wie Edtech das Lernen der Zukunft verändertWie Edtech das Lernen der Zukunft verändert
Wie Edtech das Lernen der Zukunft verändert
 
How AI will effect individuals
How AI will effect individualsHow AI will effect individuals
How AI will effect individuals
 
Agile Software Development – Why all the fuzz?
Agile Software Development – Why all the fuzz?Agile Software Development – Why all the fuzz?
Agile Software Development – Why all the fuzz?
 
New Work - Collaborative Work
New Work - Collaborative WorkNew Work - Collaborative Work
New Work - Collaborative Work
 
The state of AI & ML Hype or potential – what‘s possible, how the future will...
The state of AI & ML Hype or potential – what‘s possible, how the future will...The state of AI & ML Hype or potential – what‘s possible, how the future will...
The state of AI & ML Hype or potential – what‘s possible, how the future will...
 
Scaling Blockchain Transaction Are 1000000 Transactions / second really possi...
Scaling Blockchain Transaction Are 1000000 Transactions / second really possi...Scaling Blockchain Transaction Are 1000000 Transactions / second really possi...
Scaling Blockchain Transaction Are 1000000 Transactions / second really possi...
 
Passwörter lang oder kurz?
Passwörter lang oder kurz?Passwörter lang oder kurz?
Passwörter lang oder kurz?
 
Nutzerzentrierte Prozesse und Methoden im Überblick - Mit Design Thinking, Cu...
Nutzerzentrierte Prozesse und Methoden im Überblick - Mit Design Thinking, Cu...Nutzerzentrierte Prozesse und Methoden im Überblick - Mit Design Thinking, Cu...
Nutzerzentrierte Prozesse und Methoden im Überblick - Mit Design Thinking, Cu...
 

Big/Smart/Fast Data – a very compact overview

  • 1. OMM Solutions TECHtalk #4 1< OMM Solutions GmbH >28.06.2017 www.tech-talks.eu
  • 2. Einmal im Monat ist TECHtalk Zeit! First come first served! < OMM Solutions GmbH > 2
  • 3. Talk: Big/Smart/Fast Data – a very compact overview Speaker: Malte Horstmann 3< OMM Solutions GmbH >
  • 4. Viele Daten, die schnell analysiert werden, erschaffen Smarte Daten. Big Data ist mehr als nur eine große Festplatte 28.06.2017 < OMM Solutions GmbH > 4 Masse (Volume) • Große Datenmengen • Ab Terabyte-Bereich Vielfalt (Variety) • Daten in vielen Formaten • strukturiert • Unstrukturiert • Text • Multimedia Geschwindigkeit (Velocity) • Datenströme • Analyse von Streamingdaten Richtigkeit (Veracity) • Vertrauen in Daten • Zuverlässigkeit der Vorhersagbarkeit • Unsichere Daten
  • 5. Warum eigentlich Big/Fast/Smart Data? • Logistik • Vorhersage von Warenströmen • Produktion • Vorhersage von Wartungsfällen • Optimierung von Einsatzstoffen • Gezielter Pestiziden Einsatz in der Agrarwirtschaft • Visualisieren von Datenströmen • Hack-Prävention durch Log-File Analysen • Transport • Mobilität • Verkehrsinformationen auf Grund von Bewegungsdaten • Vertrieb • Aussagen über das Kundenverhalten • Kunde zahlt einen Kredit eher zurück, wenn er seine Kontakte im Handy nach Vor- und Nachnamen sortiert Aber erst das Raffinieren macht Öl wertvoll. Daten sind wirklich das neue Öl. 28.06.2017 < OMM Solutions GmbH > 5 https://aws.amazon.com/de/solutions/case-studies/
  • 6. DB Schenker – Predictive Maintenance auf der Schiene: immer gut gewartete Lokomotiven 628.06.2017 < OMM Solutions GmbH > Herausforderungen Blockierende Loks führen zu Verspätungen und Kosten Big Data Große Datenmengen entstehen durch das permanente Senden von Sensordaten Innovation Fehler sofort entdecken Prognosemodell nach Loktyp Wartungsintervall orientiert sich an tatsächlichem Verlauf. Quelle: https://www.bitkom.org/noindex/Publikationen/2015/Leitfaden/Big-Data-und-Geschaeftsmodell-Innovationen/151229-Big-Data-und-GM-Innovationen.pdf
  • 7. Sensorhersteller reduziert Anzahl an Kalibrierungsschritten um 99%. 728.06.2017 < OMM Solutions GmbH > Herausforderung Steigerung der Prozesseffizienz durch die Reduzierung von Kalibrierungsschritten bei gleichbleibender Ergebnisqualität Big Data Regressionsanalyse von 51,5 Millionen Messungen aus dem Produktionsprozess. Innovation Vorher: Kalibrierung an über 500 Messpunkten der Magnetische Fluss gemessen. Danach: Sieben Messpunkte ermöglichen die gleiche Qualität. Quelle: https://www.bitkom.org/noindex/Publikationen/2015/Leitfaden/Big-Data-und-Geschaeftsmodell-Innovationen/151229-Big-Data-und-GM-Innovationen.pdf
  • 8. Bristol-Myer Squibb (Pharma) reduziert Time To Market um 98% 828.06.2017 < OMM Solutions GmbH > Herausforderungen Klinische Versuche und Simulationen kosten Zeit 100 Jobs ~ 60 Stunden weil Daten sensibel sind, war ein eigenes Rechenzentrum Pflicht Big Data Jeder Versuch benötigt Gigabytes an Daten und generiert Gigabytes an Daten. Innovation Mit einem VPN zu einem dedizierten AWS-Bereich konnten Durchlaufzeiten reduziert werden • 2000 Jobs ~1,2 Stunden https://www.informationweek.com/software/enterprise-applications/big-data-6-real-life-business-cases/d/d- id/1320590?image_number=2
  • 9. Tesco verkauft Analysen aus seinen Kundendaten an Konkurrenten. 928.06.2017 < OMM Solutions GmbH > Das passierte alles schon vor mehr als 15 Jahren Herausforderung Mehr Umsatz generieren Big Data 16 Millionen aktive Tesco Kunden von 38 Millionen generieren täglich Transaktionsdaten seit den 90igern Innovation Einsicht in das Kaufverhalten von Millionen von Kunden und Vorhersagen über zukünftige Einkäufe Dunnhumby Ltd. verkauft für Tesco diese Daten aggregiert weiter Quelle: https://datafloq.com/read/tesco-big-data-analytics-recipe-success/665 https://blogs.oracle.com/database/926109a1-9990-4201-8115-9cd6f52d32dd
  • 10. „richtige“ Hadoop/BigData Usecases sind schwer zu finden. 1028.06.2017 < OMM Solutions GmbH > AirBnB on Hadoop (2015) Komplette Server Infrastruktur bei AWS (~5000 EC2 Instanzen) • 1500 für Webaktivitäten • 3500 für Analytics und Machinelearing Beispiel1: Buchung in Paris • 40000 insgesamte Einträge • 5-10 besten Einträge für Gast und Gastgeber anzeigen • In Millisekunden Beispiel 2: Interne Analyse • Airpal um interne Unternehmensdaten abzufragen • Zwei Cluster nötig nach kurzer Zeit https://www.nextplatform.com/2015/09/10/airbnb-shares-the-keys-to-its-infrastructure/ https://medium.com/airbnb-engineering/data-infrastructure-at-airbnb-8adfb34f169c https://medium.com/airbnb-engineering/democratizing-data-at-airbnb-852d76c51770
  • 11. Was ist Ihr Ziel? • Welche Informationen wird meinen Kunden helfen Ihre Kosten oder Risiken zu reduzieren? • Welche Informationen sind stark zerstreut, würden aber tiefe Einsichten vermitteln, wenn diese aggregiert wären? • Sind meine Kunden verschieden und könnten von den Daten meiner anderen Kunden profitieren? • Wollen Sie einfache Daten-Aggregationen auf ein paar Hundert Datensätzen machen? • Bauen Sie ein Analytics-Team auf und wollen Ihr Marketing oder Produkt verbessern? • Haben Sie Erfahrung im Betrieb von verteilten Anwendungen? • Wie groß sind Ihre Datenmengen? • Wie verteilt sind Ihre Datenmengen? • Wie schnell wachsen diese Datenmengen? • Wie viele Mitarbeiter sollen sich mit dem Thema beschäftigen? Prinzipiell kann man mit einem Hammer auch eine Schraube versenken. Der Anwendungsfall bestimmt den Einsatz der Technologie! 28.06.2017 < OMM Solutions GmbH > 11
  • 12. Bei jeglicher Analyse helfen Visualisierungswerkzeuge – hat Olaf schon bei KI gesagt. Aller Anfang ist, wenn man weiß, was man sucht. Erst Bereinigen • Datenqualität sicherstellen • Duplikate entdecken • Standardisieren • Bereinigen • openrefine.org • datacleaner.org Dann Visualisieren • Mehrere Datenquellen • Interaktiv • Teilbar • Web-basiert • zeppelin.apache.org • elastic.co/de/products/kibana • public.tableau.com • wolframalpha.com • mehr BI als reine Visualisierung: qlik.com/de-de • silk.co • helicalinsight.com • pentaho.com • Für Hacker: • polymaps.org • iweave.com • d3js.org Nicht die „Großen“ zu vergessen • Amazon Web Services (AWS) • QuickSight (beta) • Google • Data Studio (beta) • developers.google.com/chart/ • Microsoft • Excel • Power BI • SandDance • IBM Analytics • SAP HANA Cloud Platform 28.06.2017 < OMM Solutions GmbH > 12 http://paintbynumbersblog.blogspot.de/2014/05/100-blocks-quantified-self-random-walk.html
  • 13. Elastic Stack ist ein Einstieg in große Datenanalysen. 1328.06.2017 < OMM Solutions GmbH > • Daten Erfassen • Daten/Texte durchsuchen • Daten visualisieren • Daten aggregieren • Fakten-Abfragen Sehr gut • aggregierte sehr große Analysen • Massendaten-Transformationen • Stream Processing • Join-Abfrage • Mit zunehmender Dokumentenzahl werden Abfragen ineffizienter Weniger gut
  • 14. Daten müssen verlässlich im System landen und bleiben. 1428.06.2017 < OMM Solutions GmbH > Ab Terabytes an Daten wird das eine Herausforderung Quellausfall • Fällt eine Datenstromquelle für längere Zeiten aus und ist dann wieder verfügbar, werden große Mengen aufgelaufener Daten auf einmal übertragen. Die Hard- und Software muss das verkraften. Skalierung und Verlässlichkeit • Die Datenmengen müssen auf verteilten Clustern verarbeitet werden. Das bisherige Enterprise-Konzept von (verteilten) Transaktionen skaliert allerdings nicht ausreichend. Daher müssen neue Methoden für die verteilte Verlässlichkeit gefunden werden. Widerstandsfähigkeit • Big-Data-Lösungen bestehen aus vielen beweglichen Teilen. Es ist keine Frage, ob Fehler und Ausfälle auftreten, sondern nur die Frage wann. Wenn dann eines der Teile aufgrund eines Entwicklerfehlers oder durch einen Hardwaredefekt ausfällt, darf das Gesamtsystem keine Daten verlieren oder gar ausfallen. Elastizität • Big-Data-Lösungen konsumieren sehr viele Ressourcen auf den Servern. Durch Oversizing konnten auf kleinen Clustern Performance-Engpässe und Ausfälle kompensiert werden. Ein Zwei-Maschinen-Cluster kann problemlos um 100 % auf vier Maschinen oversized werden. Bei großen Clustern ist das aber nicht mehr finanzierbar. Hier müssen andere Mechanismen für Elastizität gefunden werden.
  • 15. Sehr große Datenmengen müssen effizient verarbeitet werden. 1528.06.2017 < OMM Solutions GmbH > Was ist der Trick? Kurzer Abriss der Historie• 1997 erfindet Doug Cutting eine Suchmaschine namens Lucene • 2001 Lucene durchsucht das gesamte Web -> Apache Nutch Webcrawler • Probleme drehten auf: • Kein Datenschema; Datenverluste, Hardwareverluste • 2003 Google File System, ein verteiltes Dateisystem wird veröffentlicht • 2003 Nutch File System wird auf Grundlage von GFS gebaut • Apache Nutch verteilt seine Daten auf Festplatten (Nodes) • Nachteil: kein paralleles Verarbeiten der Daten möglich • 2004 Google veröffentlich MapReduce – Simple Data Processing on Large Clusters • Parallelisierung, Verteilung und Fehlertoleranz • 2006 Cutting erstellt aus GFS und MapReduce, Apache Hadoop • Yahoo stellt Cutting ein um ihr Filesystem auf Hadoop umzustellen • Später setzen andere Firmen wie Facebook, Twitter, LinkedIn auch Hadoop ein • … HDFS, Hive, Pig, PrestoDB… • Nochmal später bemerken Firmen mit kleineren Datenmengen, das ihnen Hadoop zu sperrig ist, und SMACK wird erfunden. Was ist Map-Reduce? Ziel: Zähle die Anzahl an Büchern in einer Bücherei. Map: Du zählst Stock #1. Ich zähle Stock #2. (Je mehr Leute wir sind, um so schneller geht das am Ende) Reduce: Wir kommen alle zusammen und summieren unsere einzelnen Werte auf.
  • 16. SMACK dient als Werkzeugkasten für Ihre Datenerhebung. 1628.06.2017 < OMM Solutions GmbH > Store FloorBeacon POS Beacon MachineSensor EnvironmentSensor DemographicData BrowsingData S M ACKSTACK Spark Mesos Akka Cassandra Kafka MobileApps RealtimeMessaging Business Intelligence & Analytics CustomizedDashboards StorePOS-System DATA PREPARATION&CREATION DATA VISUALIZATION Widealalysis Distributed database Event based dataprocessing DATA MANAGEMENT&AGGREGATION
  • 17. Der SMACK Stack im Detail 1728.06.2017 < OMM Solutions GmbH > Umfangreiche Analysen Verteilte Datenbank Event-basierte Datenverarbeitung Liest das Datenmodel Aufbereitete Daten API für mobile und webbasierte Anwendungen Alarme, Benachrichtungen, Predictive Maintenance, automatische Optimierungen; Machine Learning Datenquellen Dateien und Batch-Prozesse Echtzeit-APIs; Streams; OPC Liest die Daten Schreibt das Datenmodell Visualisierung/Dashboards
  • 18. • Apache Kafka („Buffer“) • verteilter, skalierbarer und verlässlicher Message Broker für große Datenmengen • Alternative: beats, rabbitmq; (!) Einsatzzweck: Producer oder Konsumer-Fokus • Reactive Streams („nicht so schnell, bitte“) • Abhängigkeit zwischen Komponenten kann durch Umstellen von Push auf Pull bis zur Quelle durcheskaliert werden • Akka („nah-zeit Verarbeitung“) • Implementierung des Actor Frameworks für die Implementierung von reaktiven Anwendungen. Scala ermöglicht dabei funktionale Aspekte. • Weiter: akka-http, akka-streams, akka-persistence (vs. eventuate) • Alternativen: RxJava, vertX • Apache Spark („Filtern von großen Daten“) • Batch-Verarbeitung (auch MapReduce) und Streaming-Verarbeitung (micro-Batches mit Spark-Streaming); ermöglicht funktionalen Lambda Architekturen. • Alle relevanten NoSQL und klassischen RDBMS-Lösungen lassen sich integrieren. • Alternative: Beam (Metaebene), Storm/Trident; Samza (inkl. Kafka+Hadoop/Yarn), stream vs. batch processing • Apache Cassandra („Datenspeicher“) • Spaltenorientierte Datenbank, verteilt, skaliert linear, verarbeitet Daten lokal ohne teure IO-Operationen über das Netzwerk hinweg • „Alternativen“: hive, reddis, mongoDB, hadoop/HDFS/hbase; (!) Einsatzzweck: spaltenorientiert vs. Dokumenten-DB vs. Verteilt. • Apache Mesos („Lastenmanager“) • Scheduling Framework für Cluster und Rechenzentren; Anwendungen – auch Spark, Akka, Cassandra, Kafka – werden auf das Cluster deployed und Mesos entscheidet (scheduled), welcher Job auf welcher Maschine zu laufen hat. • Alternative: YARN; (oder sogar Myriad: YARN on Mesos) SMACK: Spark, Mesos, Akka, Cassandra, Kafka Greifen Sie auf vorhandene Best-Practices zurück! 28.06.2017 < OMM Solutions GmbH > 18
  • 19. https://www.chrisstucchio.com/blog/2013/hadoop_hatred.html Keine Petabytes an Daten? Machs mit Excel! 28.06.2017 < OMM Solutions GmbH > 19 Hadoop/SMACK etc. können auch nur map-reduce Aaaber, meine Daten sind hunderte Megabytes. Excel lädt das nicht. • Dann nimm http://pandas.pydata.org/ als Datenlader für deine Aggregationen in Python Aaaber, meine Daten sind 10 Gigabyte. • Kauf dir mehr Arbeitsspeicher (32GB für 250€) und lad nicht alles gleichzeitig in den RAM Aaaber, meine Daten sind 100GB/500GB/1TB! • Eine 5TB Festplatte kostet 150€. Installier dir http://www.postgresql.org/ drauf. SMACK/etc ist SQL immer unterlegen. Nutze Indizes und bereite deine Daten auf. Aaaber, meine Daten sind mehr als 5TB! • „Ok, your life now sucks!“ – Nutze SMACK/etc. • Jetzt gibt’s es nicht mehr viele Optionen neben vielen Servern mit vielen Festplatte.
  • 20. Lies eine Textdatei mit 250MB und zähle wie oft jedes Wort darin vorkommt. Apache BEAM • 50 Zeilen Code • Laufzeit: >1 Minute • Mind. Heap: 800MB • Threads: Multithreading, orange: waiting CommonsIO#FileUtils • 64 Zeilen Code • Laufzeit: 22 sec • Mind. Heap: 15MB • Threads: Einer Im direkten Vergleich zweier Implementierungen zeigt sich der Einsatzzweck. 28.06.2017 < OMM Solutions GmbH > 20
  • 21. ThyssenKrupp Elevator – Intelligente Aufzüge durch globale Vernetzung Herausforderung • Wettbewerbsvorteile durch Zuverlässigkeits-Garantieen • Vorrausschauende und präventive Wartung durch BigData Realisieren • Kosteneffiziente Auswertung der Sensordaten auf globaler Ebene Big Data • 1,1 Millionen Aufzüge generieren jede Minute hunderte von Zustandsinformationen • Jeden Tag, 24h, 365 Tage im Jahr Innovation • Bi-direktionaler Zugriff • Mit MachineLearning können die Aufzüge den Technikern erklären, wie sie in Stand zu setzen sind. • Bis zu 400 Fehlercodes pro Aufzüg verschärfen Effizienz • Betriebszeit steigt deutlich 28.06.2017 < OMM Solutions GmbH > 21
  • 22. Vielen Dank für Eure Aufmerksamkeit! 22< OMM Solutions GmbH >
  • 23. Ihr persönlicher Ansprechpartner Fragen oder Interesse? < OMM Solutions GmbH > 23 Malte Horstmann Sales & Processes OMM Solutions GmbH Vor dem Lauch 4 70567 Stuttgart Germany mh@omm-solutions.de +49 (0)711 67 47 05 11
  • 24. 24< OMM Solutions GmbH > www.omm-solutions.de OMM Solutions GmbH Vor dem Lauch 4 70567 Stuttgart Geschäftsführer Martin Allmendinger Malte Horstmann Olaf Horstmann Kontakt Telefon: +49 711 6747 051-0 E-Mail: info@omm-solutions.de Umsatzsteuer-ID: DE295716572 Sitz der Gesellschaft: Stuttgart Amtsgericht Stuttgart, HRB 749562 Impressum