SlideShare una empresa de Scribd logo
1 de 37
Descargar para leer sin conexión
Vom Spam zum Mehrwert
Ganzheitliches APM und intelligentes
Incident Management
2
Olena Kharchenko, Consultant
Incident und Transformation Management
Franco Sollner, Senior Consultant
Application Performance Management
Ganzheitliches APM
3
Agenda
1. Warum Observability / APM?
2. Observability VS. Monitoring
3. Die drei Grundsäulen der Observability
4. Live-Demo:
− Grafana
− Prometheus
− Jaeger
− Loki
4
Warum Observability/APM?
5
...so ist es Software ohne
Monitoring zu betreiben!
Observability ist die Antwort!
7
▪ Ist meine Applikation erreichbar?
▪ Sind alle Komponenten verfügbar?
▪ Wie sind meine Benutzer oder Geschäftstransaktionen von Fehlern betroffen?
▪ Wie schnell können wir auf Fehler reagieren?
▪ Werden Ressourcen effizient genutzt?
▪ Wie kann ich schnell einen Überblick meiner Applikation und
ihres Gesundheitszustandes erhalten?
▪ Wie wird mein Service genutzt?
▪ Wie zufrieden sind Benutzer mit meinem Service?
Noch nicht überzeugt?
8
▪ Ein kontinuierlicher, detaillierter und stets aktueller Einblick in
das Verhalten Ihrer IT-Systeme sowie in die Fachprozesse
ermöglicht es, Probleme automatisch zu erkennen und zu
beheben, bevor sie sich negativ auf die Kundenzufriedenheit
auswirken.
openapm.io
Observability VS. Monitoring
9
Monitoring ist das Fundament der Observability
10
Monitoring
Was ist passiert?
Observability
Warum ist es passiert?
Die drei Grundsäulen der Observability
11
Die Dreifaltigkeit der Observability
12
2019-03-02 8:22.312 “GET /products/16572/page”
2019-03-02 8:23.651 “POST /cart/submit”
2019-03-02 8:27.279 “GET /home”
2019-03-02 8:31.334 “GET /products/85417/page”
2019-03-02 8:33.677 “GET /home”
2019-03-02 8:34.927 “POST /cart/submit”
Observability
Metrics
Events
/ Logs
Traces
Wertschöpfende APM Features
13
Live-Demo
14
Incident Management
15
Agenda
1. Incident und Problem Management
2. Phasen des Incident Management
3. Herausforderungen und Risiken
4. Best Practices im Incident Management
5. Mehrwert erreichen
16
Incident und Problem Management
17
▪ Incident (Vorfall) ist eine ungeplante Unterbrechung vom Service oder eine
erhebliche Minderung seiner Qualität.
▪ Incident Management minimiert die negativen Auswirkungen von Störungen,
indem der normale Betrieb so schnell wie möglich wiederhergestellt wird.
▪ Problem ist eine Ursache für einen oder mehrere Vorfälle.
▪ Problem Management verringert die Wahrscheinlichkeit und die Auswirkungen
von Vorfällen, indem Ursachen von Vorfällen ermittelt werden.
Incident Management
18
Phasen des Incident Management
19
Team
IT/Dev
Stack
Monitoring
Tools
Customers Support
Bemerken Kommunizieren Wiederherstellen Analysieren
▪ Zu viele Alarme
▪ Fehlende Priorisierung
▪ Falsch positive Meldungen
▪ Unklare Zuständigkeiten
▪ Falsche Weiterleitung von Alarmen
▪ Fehlende Eskalationen
Herausforderungen und Risiken
20
Team
“Alarme als Spam” Mindset
21
Best Practices im Incident
Management
22
▪ Prozesse definieren
▪ Richtige Tools einsetzen
▪ Vor- und Nachbereitung leisten
Incident Management
23
▪ Wo befindet sich die Information über Vorfälle?
▪ Wer ist für was zuständig?
▪ Welche Kommunikationswege werden benutzt?
▪ Welche Eskalationswege gibt es?
▪ Welche Voraussetzungen müssen technisch erfüllt werden?
Prozesse definieren
24
Richtige Tools einsetzen
25
IT/Dev
Stack
Monitoring
Tools
Customers Support
Messaging
Documentation &
Reporting
On-Call Tool
Team
Ticketing
system
▪ Einheitliches Dashboard
▪ Definierte Zuständigkeiten
▪ Automatische Alarm-Weiterleitung
▪ Einfache Priorisierung
▪ Eskalationsregeln
▪ Postmortem Analyse
▪ Berichte
Alarm– und Incident Management Tools
26
Messaging
Documentation
& Reporting
On-Call Tool
Team
Ticketing
system
Alarm– und Incident Management Tools
27
Cabot
Openduty
▪ Service-Zuständigkeiten abklären
▪ Monitoring aufsetzen
▪ SLAs, SLOs und SLIs definieren
▪ Run- und Playbooks anlegen
▪ Root Cause/ Ursachenanalyse durchführen
▪ Wissensaustausch und Vertrauenskultur fördern
Vor- und Nachbereitung auf Service-Ebene
28
▪ Alarme richtig mappen
▪ Priorisierung der Alarme aktualisieren
▪ Nur kritische und wichtige Alarme verschicken
▪ Benachrichtigungsregeln anlegen
▪ Alarmregeln immer wieder hinterfragen
Vor- und Nachbereitung auf Alert-Ebene
29
Oh Gott, das klingt nach viel!
30
Mehrwert erreichen
31
▪ Aussagekräftige Daten zu Applikationen und Services
▪ Nachverfolgbare und nachvollziehbare Alarme
▪ Unterstützung der Root-Cause-Analyse
▪ Einfache und verständliche Prozesse im Falle eines Incidents
▪ Schnelle Reaktionszeiten bei Service-Ausfall
▪ Mitarbeiterzufriedenheit durch weniger False Positives
▪ Höhere Zufriedenheit aller Stakeholder dank besseren Uptimes
Mehrwert von APM mit IcM
32
Gibt es Fragen?
33
Vielen Dank!
34
Observability
35
Incident
Management
36
Novatec Consulting GmbH
Bertha-Benz-Platz 1
D-70771 Leinfelden-Echterdingen
T. +49 711 22040-700
info@novatec-gmbh.de
www.novatec-gmbh.de
37

Más contenido relacionado

Similar a OSMC 2022 | Vom Spam zum Mehrwert: Ganzheitliches APM und intelligentes Incident Management by Olena Kharchenko & Franco Sollner

Fehlererkennung und Optimierung von Produktionsprozessen
Fehlererkennung und Optimierung von ProduktionsprozessenFehlererkennung und Optimierung von Produktionsprozessen
Fehlererkennung und Optimierung von ProduktionsprozessenThomas Schulz
 
Application Lifecycle Management _ Was bedeutet das?
Application Lifecycle Management _ Was bedeutet das?Application Lifecycle Management _ Was bedeutet das?
Application Lifecycle Management _ Was bedeutet das?Minerva SoftCare GmbH
 
20191113 dev ops und continuous delivery_testautomatisierung ist trumpf
20191113 dev ops und continuous delivery_testautomatisierung ist trumpf20191113 dev ops und continuous delivery_testautomatisierung ist trumpf
20191113 dev ops und continuous delivery_testautomatisierung ist trumpfStefan Jobst
 
Call center audit marketing resultant
Call center audit marketing resultantCall center audit marketing resultant
Call center audit marketing resultantHarald Henn
 
Observability: Der Schlüssel für Threat Detection, Mitigation und Analyse
Observability: Der Schlüssel für Threat Detection, Mitigation und Analyse Observability: Der Schlüssel für Threat Detection, Mitigation und Analyse
Observability: Der Schlüssel für Threat Detection, Mitigation und Analyse QAware GmbH
 
Software-Auswahl & Einführung für Instandhaltung & Facility Management
Software-Auswahl & Einführung für Instandhaltung & Facility ManagementSoftware-Auswahl & Einführung für Instandhaltung & Facility Management
Software-Auswahl & Einführung für Instandhaltung & Facility Managementdankl+partner consulting gmbh
 
Software-Auswahl & Einführung für Instandhaltung & Facility Management
Software-Auswahl & Einführung für Instandhaltung & Facility ManagementSoftware-Auswahl & Einführung für Instandhaltung & Facility Management
Software-Auswahl & Einführung für Instandhaltung & Facility ManagementMCP Deutschland GmbH
 
Softwarewerkzeuge Portfoliomanagement Vortrag TU Darmstadt
Softwarewerkzeuge Portfoliomanagement Vortrag TU DarmstadtSoftwarewerkzeuge Portfoliomanagement Vortrag TU Darmstadt
Softwarewerkzeuge Portfoliomanagement Vortrag TU DarmstadtAndreas Borchert
 
Dipl.-Ing. Christian Plaichner (Senactive)
Dipl.-Ing. Christian Plaichner (Senactive)Dipl.-Ing. Christian Plaichner (Senactive)
Dipl.-Ing. Christian Plaichner (Senactive)Praxistage
 
Digitale Transformation für EVU’s, Science-Fiction oder Realität?
Digitale Transformation für EVU’s, Science-Fiction oder Realität?Digitale Transformation für EVU’s, Science-Fiction oder Realität?
Digitale Transformation für EVU’s, Science-Fiction oder Realität?Railnova
 
Optimizer+ GiS Asset Performance Management
Optimizer+ GiS Asset Performance ManagementOptimizer+ GiS Asset Performance Management
Optimizer+ GiS Asset Performance ManagementRODIAS GmbH
 
Kopie von PROSPER - Module 1 - Unit 5 de.pptx
Kopie von PROSPER - Module 1 - Unit 5 de.pptxKopie von PROSPER - Module 1 - Unit 5 de.pptx
Kopie von PROSPER - Module 1 - Unit 5 de.pptxcaniceconsulting
 
Vermeiden_Sie_Workflow_Killer
Vermeiden_Sie_Workflow_KillerVermeiden_Sie_Workflow_Killer
Vermeiden_Sie_Workflow_KillerSundus R. Rifaat
 
IBS QMS:forum FMEA Jena 03.12.2015
IBS QMS:forum FMEA Jena 03.12.2015IBS QMS:forum FMEA Jena 03.12.2015
IBS QMS:forum FMEA Jena 03.12.2015Tanja Böttcher
 
Erfolgsprizipien der Smart Maintenance
Erfolgsprizipien der Smart MaintenanceErfolgsprizipien der Smart Maintenance
Erfolgsprizipien der Smart MaintenanceBranding Maintenance
 
Service Operation mit ITIL | C.Habermueller
Service Operation mit ITIL | C.HabermuellerService Operation mit ITIL | C.Habermueller
Service Operation mit ITIL | C.HabermuellerChristian Habermueller
 
Kritische Erfolgsfaktoren für die Verknüpfung von BPM und Enterprise Architek...
Kritische Erfolgsfaktoren für die Verknüpfung von BPM und Enterprise Architek...Kritische Erfolgsfaktoren für die Verknüpfung von BPM und Enterprise Architek...
Kritische Erfolgsfaktoren für die Verknüpfung von BPM und Enterprise Architek...LeanIX GmbH
 

Similar a OSMC 2022 | Vom Spam zum Mehrwert: Ganzheitliches APM und intelligentes Incident Management by Olena Kharchenko & Franco Sollner (20)

Fehlererkennung und Optimierung von Produktionsprozessen
Fehlererkennung und Optimierung von ProduktionsprozessenFehlererkennung und Optimierung von Produktionsprozessen
Fehlererkennung und Optimierung von Produktionsprozessen
 
Application Lifecycle Management _ Was bedeutet das?
Application Lifecycle Management _ Was bedeutet das?Application Lifecycle Management _ Was bedeutet das?
Application Lifecycle Management _ Was bedeutet das?
 
20191113 dev ops und continuous delivery_testautomatisierung ist trumpf
20191113 dev ops und continuous delivery_testautomatisierung ist trumpf20191113 dev ops und continuous delivery_testautomatisierung ist trumpf
20191113 dev ops und continuous delivery_testautomatisierung ist trumpf
 
Call center audit marketing resultant
Call center audit marketing resultantCall center audit marketing resultant
Call center audit marketing resultant
 
Observability: Der Schlüssel für Threat Detection, Mitigation und Analyse
Observability: Der Schlüssel für Threat Detection, Mitigation und Analyse Observability: Der Schlüssel für Threat Detection, Mitigation und Analyse
Observability: Der Schlüssel für Threat Detection, Mitigation und Analyse
 
Software-Auswahl & Einführung für Instandhaltung & Facility Management
Software-Auswahl & Einführung für Instandhaltung & Facility ManagementSoftware-Auswahl & Einführung für Instandhaltung & Facility Management
Software-Auswahl & Einführung für Instandhaltung & Facility Management
 
Software-Auswahl & Einführung für Instandhaltung & Facility Management
Software-Auswahl & Einführung für Instandhaltung & Facility ManagementSoftware-Auswahl & Einführung für Instandhaltung & Facility Management
Software-Auswahl & Einführung für Instandhaltung & Facility Management
 
Minerva ikanalm slideshare
Minerva ikanalm slideshareMinerva ikanalm slideshare
Minerva ikanalm slideshare
 
Softwarewerkzeuge Portfoliomanagement Vortrag TU Darmstadt
Softwarewerkzeuge Portfoliomanagement Vortrag TU DarmstadtSoftwarewerkzeuge Portfoliomanagement Vortrag TU Darmstadt
Softwarewerkzeuge Portfoliomanagement Vortrag TU Darmstadt
 
Dipl.-Ing. Christian Plaichner (Senactive)
Dipl.-Ing. Christian Plaichner (Senactive)Dipl.-Ing. Christian Plaichner (Senactive)
Dipl.-Ing. Christian Plaichner (Senactive)
 
Digitale Transformation für EVU’s, Science-Fiction oder Realität?
Digitale Transformation für EVU’s, Science-Fiction oder Realität?Digitale Transformation für EVU’s, Science-Fiction oder Realität?
Digitale Transformation für EVU’s, Science-Fiction oder Realität?
 
Revisoren und hacker
Revisoren und hackerRevisoren und hacker
Revisoren und hacker
 
Optimizer+ GiS Asset Performance Management
Optimizer+ GiS Asset Performance ManagementOptimizer+ GiS Asset Performance Management
Optimizer+ GiS Asset Performance Management
 
Kopie von PROSPER - Module 1 - Unit 5 de.pptx
Kopie von PROSPER - Module 1 - Unit 5 de.pptxKopie von PROSPER - Module 1 - Unit 5 de.pptx
Kopie von PROSPER - Module 1 - Unit 5 de.pptx
 
Vermeiden_Sie_Workflow_Killer
Vermeiden_Sie_Workflow_KillerVermeiden_Sie_Workflow_Killer
Vermeiden_Sie_Workflow_Killer
 
IBS QMS:forum FMEA Jena 03.12.2015
IBS QMS:forum FMEA Jena 03.12.2015IBS QMS:forum FMEA Jena 03.12.2015
IBS QMS:forum FMEA Jena 03.12.2015
 
Erfolgsprizipien der Smart Maintenance
Erfolgsprizipien der Smart MaintenanceErfolgsprizipien der Smart Maintenance
Erfolgsprizipien der Smart Maintenance
 
ERP-SAP-Monitoring mit WOTAN
ERP-SAP-Monitoring mit WOTANERP-SAP-Monitoring mit WOTAN
ERP-SAP-Monitoring mit WOTAN
 
Service Operation mit ITIL | C.Habermueller
Service Operation mit ITIL | C.HabermuellerService Operation mit ITIL | C.Habermueller
Service Operation mit ITIL | C.Habermueller
 
Kritische Erfolgsfaktoren für die Verknüpfung von BPM und Enterprise Architek...
Kritische Erfolgsfaktoren für die Verknüpfung von BPM und Enterprise Architek...Kritische Erfolgsfaktoren für die Verknüpfung von BPM und Enterprise Architek...
Kritische Erfolgsfaktoren für die Verknüpfung von BPM und Enterprise Architek...
 

OSMC 2022 | Vom Spam zum Mehrwert: Ganzheitliches APM und intelligentes Incident Management by Olena Kharchenko & Franco Sollner

  • 1. Vom Spam zum Mehrwert Ganzheitliches APM und intelligentes Incident Management
  • 2. 2 Olena Kharchenko, Consultant Incident und Transformation Management Franco Sollner, Senior Consultant Application Performance Management
  • 4. Agenda 1. Warum Observability / APM? 2. Observability VS. Monitoring 3. Die drei Grundsäulen der Observability 4. Live-Demo: − Grafana − Prometheus − Jaeger − Loki 4
  • 6. ...so ist es Software ohne Monitoring zu betreiben!
  • 7. Observability ist die Antwort! 7 ▪ Ist meine Applikation erreichbar? ▪ Sind alle Komponenten verfügbar? ▪ Wie sind meine Benutzer oder Geschäftstransaktionen von Fehlern betroffen? ▪ Wie schnell können wir auf Fehler reagieren? ▪ Werden Ressourcen effizient genutzt? ▪ Wie kann ich schnell einen Überblick meiner Applikation und ihres Gesundheitszustandes erhalten? ▪ Wie wird mein Service genutzt? ▪ Wie zufrieden sind Benutzer mit meinem Service?
  • 8. Noch nicht überzeugt? 8 ▪ Ein kontinuierlicher, detaillierter und stets aktueller Einblick in das Verhalten Ihrer IT-Systeme sowie in die Fachprozesse ermöglicht es, Probleme automatisch zu erkennen und zu beheben, bevor sie sich negativ auf die Kundenzufriedenheit auswirken. openapm.io
  • 10. Monitoring ist das Fundament der Observability 10 Monitoring Was ist passiert? Observability Warum ist es passiert?
  • 11. Die drei Grundsäulen der Observability 11
  • 12. Die Dreifaltigkeit der Observability 12 2019-03-02 8:22.312 “GET /products/16572/page” 2019-03-02 8:23.651 “POST /cart/submit” 2019-03-02 8:27.279 “GET /home” 2019-03-02 8:31.334 “GET /products/85417/page” 2019-03-02 8:33.677 “GET /home” 2019-03-02 8:34.927 “POST /cart/submit” Observability Metrics Events / Logs Traces
  • 16. Agenda 1. Incident und Problem Management 2. Phasen des Incident Management 3. Herausforderungen und Risiken 4. Best Practices im Incident Management 5. Mehrwert erreichen 16
  • 17. Incident und Problem Management 17
  • 18. ▪ Incident (Vorfall) ist eine ungeplante Unterbrechung vom Service oder eine erhebliche Minderung seiner Qualität. ▪ Incident Management minimiert die negativen Auswirkungen von Störungen, indem der normale Betrieb so schnell wie möglich wiederhergestellt wird. ▪ Problem ist eine Ursache für einen oder mehrere Vorfälle. ▪ Problem Management verringert die Wahrscheinlichkeit und die Auswirkungen von Vorfällen, indem Ursachen von Vorfällen ermittelt werden. Incident Management 18
  • 19. Phasen des Incident Management 19 Team IT/Dev Stack Monitoring Tools Customers Support Bemerken Kommunizieren Wiederherstellen Analysieren
  • 20. ▪ Zu viele Alarme ▪ Fehlende Priorisierung ▪ Falsch positive Meldungen ▪ Unklare Zuständigkeiten ▪ Falsche Weiterleitung von Alarmen ▪ Fehlende Eskalationen Herausforderungen und Risiken 20 Team
  • 21. “Alarme als Spam” Mindset 21
  • 22. Best Practices im Incident Management 22
  • 23. ▪ Prozesse definieren ▪ Richtige Tools einsetzen ▪ Vor- und Nachbereitung leisten Incident Management 23
  • 24. ▪ Wo befindet sich die Information über Vorfälle? ▪ Wer ist für was zuständig? ▪ Welche Kommunikationswege werden benutzt? ▪ Welche Eskalationswege gibt es? ▪ Welche Voraussetzungen müssen technisch erfüllt werden? Prozesse definieren 24
  • 25. Richtige Tools einsetzen 25 IT/Dev Stack Monitoring Tools Customers Support Messaging Documentation & Reporting On-Call Tool Team Ticketing system
  • 26. ▪ Einheitliches Dashboard ▪ Definierte Zuständigkeiten ▪ Automatische Alarm-Weiterleitung ▪ Einfache Priorisierung ▪ Eskalationsregeln ▪ Postmortem Analyse ▪ Berichte Alarm– und Incident Management Tools 26 Messaging Documentation & Reporting On-Call Tool Team Ticketing system
  • 27. Alarm– und Incident Management Tools 27 Cabot Openduty
  • 28. ▪ Service-Zuständigkeiten abklären ▪ Monitoring aufsetzen ▪ SLAs, SLOs und SLIs definieren ▪ Run- und Playbooks anlegen ▪ Root Cause/ Ursachenanalyse durchführen ▪ Wissensaustausch und Vertrauenskultur fördern Vor- und Nachbereitung auf Service-Ebene 28
  • 29. ▪ Alarme richtig mappen ▪ Priorisierung der Alarme aktualisieren ▪ Nur kritische und wichtige Alarme verschicken ▪ Benachrichtigungsregeln anlegen ▪ Alarmregeln immer wieder hinterfragen Vor- und Nachbereitung auf Alert-Ebene 29
  • 30. Oh Gott, das klingt nach viel! 30
  • 32. ▪ Aussagekräftige Daten zu Applikationen und Services ▪ Nachverfolgbare und nachvollziehbare Alarme ▪ Unterstützung der Root-Cause-Analyse ▪ Einfache und verständliche Prozesse im Falle eines Incidents ▪ Schnelle Reaktionszeiten bei Service-Ausfall ▪ Mitarbeiterzufriedenheit durch weniger False Positives ▪ Höhere Zufriedenheit aller Stakeholder dank besseren Uptimes Mehrwert von APM mit IcM 32
  • 37. Novatec Consulting GmbH Bertha-Benz-Platz 1 D-70771 Leinfelden-Echterdingen T. +49 711 22040-700 info@novatec-gmbh.de www.novatec-gmbh.de 37