SlideShare una empresa de Scribd logo
1 de 35
© OPITZ CONSULTING 2016
 überraschend mehr Möglichkeiten!
© OPITZ CONSULTING 2016
Projektbericht: Stabilisierung der ASM-
Verfügbarkeit
Uwe Küchler
ASM-Reorganisation
© OPITZ CONSULTING 2016 Projektbericht ASM-Troubleshooting und -Reorganisation
Zur Person
 Generation C=64
 Seit über 25 Jahren in der IT tätig
 1997-2000 bei Oracle Deutschland
 Seither durchgehend Oracle-Berater, im DBA-
und Entwicklungs-Umfeld, Tutor
 Seit 09/2013 bei OPITZ CONSULTING
 Buch- und Blogautor (oraculix.de)
 Performance als „Steckenpferd“
1975
© OPITZ CONSULTING 2016 Seite 3
Agenda
1
2
3
4
Ausgangslage
Der "Tag X" und die Fehlerdiagnose
Praxisbeispiel: Reorganisation
Was sonst noch gefunden wurde
Projektbericht ASM-Troubleshooting und -Reorganisation
© OPITZ CONSULTING 2016 Seite 4
Ausgangslage
1
Projektbericht ASM-Troubleshooting und -Reorganisation
© OPITZ CONSULTING 2016 Projektbericht ASM-Troubleshooting und -Reorganisation
Ausgangslage
 RAC mit ASM
 Version 11.2.0.4
 Windows 2008R2
 Redundante Storage-
Systeme
 Redundante Switches
 Redundante
Multipath-
Verbindungen
© OPITZ CONSULTING 2016 Projektbericht ASM-Troubleshooting und -Reorganisation
Ausgangslage (2)
 Kein Mirroring zwischen den SANs
 keine EXTERNAL Redundancy
 Also soll mithilfe von ASM die Spiegelung erfolgen
  NORMAL Redundancy
  Failure Groups (FG) werden über LUNs von je einem SAN gelegt und zu Disk Groups
zusammengefügt.
 Also: Fällt ein SAN aus, ist nur jeweils die Hälfte der Failure Groups weg
  der Spiegel bleibt erhalten
  der Betrieb geht weiter
 … ODER?!?
© OPITZ CONSULTING 2016 Projektbericht ASM-Troubleshooting und -Reorganisation
Ausgangslage (2)
ASM-Konfiguration
© OPITZ CONSULTING 2016 Seite 8
„Tag X“: Abschaltung eines RZ
2
Projektbericht ASM-Troubleshooting und -Reorganisation
© OPITZ CONSULTING 2016 Projektbericht ASM-Troubleshooting und -Reorganisation
„Tag X“: Erwartungshaltung
© OPITZ CONSULTING 2016 Projektbericht ASM-Troubleshooting und -Reorganisation
„Tag X“: Die harte Realität
© OPITZ CONSULTING 2016 Projektbericht ASM-Troubleshooting und -Reorganisation
„Tag X“: Diagnose
Blick in das ASM Alert Log
Fri Dec 11 15:56:45 2015
WARNING: Write Failed. group:3 disk:1 AU:1 offset:1044480 size:4096
...
Fri Dec 11 15:56:52 2015
WARNING: Disk RDG1D01_0002 in mode 0x7f is now being offlined
...
ORA-15130: diskgroup "RDG1D01" is being dismounted
...
ORA-15078: ASM diskgroup was forcibly dismounted
...
NOTE: cache closing disk 2 of grp 1: (not open) RDG1D01_0002
NOTE: cache closing disk 3 of grp 1: (not open) RDG1D01_0003
ERROR: too many offline disks in PST (grp 1)
...
NOTE: diskgroup resource ora.RDG1F01.dg is offline
...
© OPITZ CONSULTING 2016 Projektbericht ASM-Troubleshooting und -Reorganisation
„Tag X“: Diagnose
Blick in das ASM Alert Log (2)
ERROR: Disk 7 cannot be offlined, since all the disks [7, 2] with mirrored
data would be offline.
ERROR: too many offline disks in PST (grp 1)
...
NOTE: halting all I/Os to diskgroup 1 (RDG1D01)
...
Fri Dec 11 16:07:17 2015
SQL> ALTER DISKGROUP RDG1F01 MOUNT /* asm agent *//* {0:3:294} */
NOTE: Disk RDG1F01_0002 in mode 0x7f marked for de-assignment
NOTE: Disk in mode 0x7f marked for de-assignment
ERROR: diskgroup RDG1F01 was not mounted
WARNING: Disk Group RDG1F01 containing configured OCR is not mounted
ORA-15032: not all alterations performed
ORA-15040: diskgroup is incomplete
ORA-15042: ASM disk "3" is missing from group number "1"
ORA-15042: ASM disk "1" is missing from group number "1"
© OPITZ CONSULTING 2016 Projektbericht ASM-Troubleshooting und -Reorganisation
„Tag X“: Diagnose
 Besonderheit bei NORMAL Redundancy:
 Bei mehr als 2 Failgroups ist nicht gewährleistet, dass die Daten 1:1 zwischen den FGs
gespiegelt sind.
 Schließlich „weiß“ ASM nicht, dass die FGs auf verschiedene SANs verteilt sind!
  Sobald die 2. FG offline geht, wird die ganze Disk Group dismounted.
 kann erst wieder gemountet werden, wenn n-1 Failgroups online sind.
  Wenn ein RZ offline geht, sind die Diskgroups „RDG1D01“ und „RDG1F01“ nicht mehr
verfügbar
  Damit sind auch die Datenbanken nicht mehr verfügbar.
© OPITZ CONSULTING 2016 Seite 14
Reorganisation
3
Projektbericht ASM-Troubleshooting und -Reorganisation
© OPITZ CONSULTING 2016
Zielkonfiguration
 Diskgroups für Daten und FRA
 Bestehen aus jeweils 2 Failgroups (1 pro RZ)
 Die Disks aus den nicht mehr benötigten Failgroups wandern in die verbleibenden
Failgroups.
 Bei dieser Gelegenheit sollen die FGs einheitlich benannt werden.
  Wenn ein RZ offline geht, bleiben die Diskgroups „RDG1D01“ und „RDG1F01“
verfügbar!
RZ1 RZ2
RDG1D01
FG_S1D01 FG_S2D01
RDG1D01_
0000
RDG1D01_
0001
RDG1D01_
0004
RDG1D01_
0005
RDG1D01_
0002
RDG1D01_
0003
RDG1D01_
0006
RDG1D01_
0007
© OPITZ CONSULTING 2016
Zielkonfiguration
© OPITZ CONSULTING 2016
Der Weg zur Zielkonfiguration
 Umbenennung von Failgroups nicht direkt möglich
 Neue Failgroup wird angelegt.
 Disks werden schrittweise in neue Failgroup verschoben.
 Zwischenschritte erfordern Rebalance der Daten auf den
verbleibenden Disks
 Jedes Rebalance benötigt Zeit und
 reduziert die verfügbare I/O-Bandbreite für Anwendungen.
 Es wird ein Weg aufgezeigt, der möglichst wenig Rebalances benötigt.
 Idealerweise müssen beim Rebalance möglichst wenig Daten
bewegt werden.
  Tablespaces mit viel freiem Platz sollten vorher verkleinert werden.
© OPITZ CONSULTING 2016
Der Weg zur Zielkonfiguration (2)
 Die folgende Grafik zeigt die Operationen zum Verschieben der
Disks in die neuen Failgroups am Beispiel der DATA-Diskgroup
im Test-Cluster.
 Namen der Disks sind zur besseren Darstellung vereinfacht.
 Beispiel geht von einem Füllgrad der Disk Group > 50% aus.
 Zusammenfassung von Disk-Migrationen ist in den ersten Schritten möglich, um
Zeitbedarf durch Rebalancing zu minimieren.
 Diskgroup „FRA“ ist einfacher zu migrieren: Pro Failgroup ein
Migrationsschritt.
 Und das Beste: Alles geht online!
 Es empfiehlt sich aber eine Ankündigung der Wartung wegen möglicher, längerer
Antwortzeiten.
© OPITZ CONSULTING 2016
Schrittweiser Umzug der Disks in neue Failgroups
bei weniger als 50% Platz (1/2)
© OPITZ CONSULTING 2016
Schrittweiser Umzug der Disks in neue Failgroups
bei weniger als 50% Platz (2/2)
© OPITZ CONSULTING 2016
Der Weg zur Zielkonfiguration:
Rebalances
Diskgroup DATA:
 16 Operationen (DROP oder ADD)
 Aber nur 6 Rebalances!
 Jedes Rebalance verschiebt ca. 600 GB Daten
 Schätzung: 30-45 min / Rebalance
  3-4 Stunden für die Reorganisation der DATA-Diskgroup
© OPITZ CONSULTING 2016
Der Weg zur Zielkonfiguration:
Rebalances
Diskgroup FRA:
 300 GB pro Rebalance
 Schätzung: 15-20 min / Rebalance
  1 – 1,5 h für die Reorganisation.
© OPITZ CONSULTING 2016 Projektbericht ASM-Troubleshooting und -Reorganisation
Der Weg zur Zielkonfiguration:
Code (1/3)
-- Schritt 1
ALTER DISKGROUP RDG1D01 DROP DISK RDG1D01_0001 REBALANCE POWER 0;
ALTER DISKGROUP RDG1D01 DROP DISK RDG1D01_0005 REBALANCE POWER 0;
ALTER DISKGROUP RDG1D01 REBALANCE POWER 1024 WAIT;
ALTER DISKGROUP RDG1D01 ADD FAILGROUP FG_S1D01
DISK '.ORCLDISK_S1L150' NAME RDG1D01_0001
DISK '.ORCLDISK_S1L170' NAME RDG1D01_0005
REBALANCE POWER 0;
-- Schritt 2
ALTER DISKGROUP RDG1D01 DROP DISK RDG1D01_0003 REBALANCE POWER 0;
ALTER DISKGROUP RDG1D01 DROP DISK RDG1D01_0007 REBALANCE POWER 1024 WAIT;
ALTER DISKGROUP RDG1D01 ADD FAILGROUP FG_S2D01
DISK '.ORCLDISK_S2L150' NAME RDG1D01_0003
DISK '.ORCLDISK_S2L170' NAME RDG1D01_0007
REBALANCE POWER 0;
© OPITZ CONSULTING 2016 Projektbericht ASM-Troubleshooting und -Reorganisation
Der Weg zur Zielkonfiguration:
Code (2/3)
-- Schritt 3
ALTER DISKGROUP RDG1D01 DROP DISK RDG1D01_0000 REBALANCE POWER 1024 WAIT;
ALTER DISKGROUP RDG1D01 ADD FAILGROUP FG_S1D01
DISK '.ORCLDISK_S1L140' NAME RDG1D01_0000
REBALANCE POWER 0;
-- Schritt 4
ALTER DISKGROUP RDG1D01 DROP DISK RDG1D01_0002 REBALANCE POWER 1024 WAIT;
ALTER DISKGROUP RDG1D01 ADD FAILGROUP FG_S2D01
DISK '.ORCLDISK_S2L140' NAME RDG1D01_0002
REBALANCE POWER 0;
© OPITZ CONSULTING 2016 Projektbericht ASM-Troubleshooting und -Reorganisation
Der Weg zur Zielkonfiguration:
Code (3/3)
-- Schritt 5
ALTER DISKGROUP RDG1D01 DROP DISK RDG1D01_0005 REBALANCE POWER 0;
ALTER DISKGROUP RDG1D01 DROP DISK RDG1D01_0004 REBALANCE POWER 1024 WAIT;
ALTER DISKGROUP RDG1D01 ADD FAILGROUP FG_S1D01
DISK '.ORCLDISK_S1L160' NAME RDG1D01_0004
, '.ORCLDISK_S1L170' NAME RDG1D01_0005
REBALANCE POWER 0;
-- Schritt 6
ALTER DISKGROUP RDG1D01 DROP DISK RDG1D01_0006 REBALANCE POWER 1024 WAIT;
ALTER DISKGROUP RDG1D01 ADD FAILGROUP FG_S2D01
DISK '.ORCLDISK_S2L160' NAME RDG1D01_0006
REBALANCE POWER 1024 WAIT;
© OPITZ CONSULTING 2016 Seite 26
Was sonst noch gefunden wurde
4
Projektbericht ASM-Troubleshooting und -Reorganisation
© OPITZ CONSULTING 2016
COMPATIBLE.ASM und COMPATIBLE.RDBMS
 Waren = 10.1
 Erst ab compatible.asm=11.1 geht „Fast Mirror Resync“
  Andernfalls geht FG offline, wenn Disk offline ist!
  Nach Ablauf der Repair Time müsste dann auch die FG neu
aufgebaut werden.
 Um alle 11g-Features zu nutzen: compatible.asm=11.2.0.4
 Siehe Feature-Tabelle in Oracle-Doku
© OPITZ CONSULTING 2016
DISK_REPAIR_TIME
 Countdown, bis eine OFFLINE Disk gedroppt wird
 Einstellung für „ASM Fast Mirror Resync“
 Erfordert „compatible.asm“ und „compatible.rdbms“ >= 11.1
 Default: 3,6 Stunden
 Nach Ablauf des Timers wird die Disk aus der Konfiguration
entfernt!
 Aber nicht gelöscht; kann wieder hinzugefügt werden.
  Default von 3,6h ist häufig zu kurz für Reaktionen in der
Nacht oder am Wochenende
 Genau das war in der demonstrierten Umgebung der Fall:
© OPITZ CONSULTING 2016 Projektbericht ASM-Troubleshooting und -Reorganisation
COMPATIBLE.ASM und COMPATIBLE.RDBMS:
Failure Group Offline laut Alert Log
Mon Dec 21 08:51:37 2015
SUCCESS: ALTER DISKGROUP RDG1SYS ADD FAILGROUP FG_S2C1S DISK
'.ORCLDISK_S2L110' FORCE
NOTE: starting rebalance of group 3/0xeba08ee0 (RDG1SYS) at power 1
...
Mon Dec 21 08:52:48 2015
SUCCESS: refreshed membership for 2/0xeba08edf (RDG1F01)
SUCCESS: ALTER DISKGROUP RDG1F01 ADD FAILGROUP FG_S2G02 DISK
'.ORCLDISK_S2L120' FORCE
NOTE: starting rebalance of group 2/0xeba08edf (RDG1F01) at power 1
...
Mon Dec 21 08:54:35 2015
SUCCESS: refreshed membership for 1/0xeb908ede (RDG1D01)
SUCCESS: ALTER DISKGROUP RDG1D01 ADD FAILGROUP FG_S2G05 DISK
'.ORCLDISK_S2L140' FORCE, '.ORCLDISK_S2L150' FORCE
...
© OPITZ CONSULTING 2016
FAILGROUP_REPAIR_TIME in 12c
 Default von 3,6h für DISK_REPAIR_TIME ist häufig zu kurz für
Reaktionen in der Nacht oder am Wochenende
 Neu in 12c ist FAILGOUP_REPAIR_TIME
 Erlaubt Fast Mirror Resync auch zwischen FGs, nicht nur Disks.
 Default: 24h
 FG wird erst nach Ablauf dieses (längeren) Timers gelöscht.
© OPITZ CONSULTING 2016 Seite 31Projektbericht ASM-Troubleshooting und -Reorganisation
Fragen
© OPITZ CONSULTING 2016
 überraschend mehr Möglichkeiten!
@OC_WIRE
OPITZCONSULTING
opitzconsulting
opitz-consulting-bcb8-1009116
WWW.OPITZ-CONSULTING.COM
Uwe M. Küchler
Managing Consultant
uwe.kuechler@opitz-consulting.com
Telefon +49 6172 66260 – 0
Mobil +49 173 727 91 43
Projektbericht ASM-Troubleshooting und -Reorganisation
© OPITZ CONSULTING 2016
Links + Literatur
Li
3
6.941
© OPITZ CONSULTING 2016
Links + Literatur
 “Mother of All ASM Scripts (MAAS)” by John Hallas:
 Original Blog Post
 Modifiziert für FailGroups und Exadata auf GitHub: https://git.io/vPmQN
 How to Create a Normal Redundancy Diskgroup Best Practices (Doc ID 1910315.1)
 How to free space from an ASM diskgroup? (Doc ID 1553744.1)
 When Will the Rebalance Complete? (Doc ID 1477905.1)
 Oracle ASM 12.1: DISK_REPAIR_TIME und FAILGROUP_REPAIR_TIME
 Oracle ASM 12.1: Oracle ASM Fast Mirror Resync
 ASM Fast Mirror Resync - Example To Simulate Transient Disk Failure And Restore Disk
(Doc ID 443835.1)
© OPITZ CONSULTING 2016
Links + Literatur
 Information to gather when diagnosing ASM space issues (Doc ID 351117.1)
 Oracle 12c ASM Guide: Negative Values of USABLE_FILE_MB

Más contenido relacionado

Destacado

Tanel Poder - Troubleshooting Complex Oracle Performance Issues - Part 1
Tanel Poder - Troubleshooting Complex Oracle Performance Issues - Part 1Tanel Poder - Troubleshooting Complex Oracle Performance Issues - Part 1
Tanel Poder - Troubleshooting Complex Oracle Performance Issues - Part 1Tanel Poder
 
Troubleshooting Complex Performance issues - Oracle SEG$ contention
Troubleshooting Complex Performance issues - Oracle SEG$ contentionTroubleshooting Complex Performance issues - Oracle SEG$ contention
Troubleshooting Complex Performance issues - Oracle SEG$ contentionTanel Poder
 
How a Developer can Troubleshoot a SQL performing poorly on a Production DB
How a Developer can Troubleshoot a SQL performing poorly on a Production DBHow a Developer can Troubleshoot a SQL performing poorly on a Production DB
How a Developer can Troubleshoot a SQL performing poorly on a Production DBCarlos Sierra
 
Oracle und Hochverfügbarkeit – Verschiedene Ansätze im Vergleich
Oracle und Hochverfügbarkeit – Verschiedene Ansätze im VergleichOracle und Hochverfügbarkeit – Verschiedene Ansätze im Vergleich
Oracle und Hochverfügbarkeit – Verschiedene Ansätze im VergleichDierk Lenz
 
Datenbankkonsolidierung
DatenbankkonsolidierungDatenbankkonsolidierung
DatenbankkonsolidierungDierk Lenz
 
TEDx Manchester: AI & The Future of Work
TEDx Manchester: AI & The Future of WorkTEDx Manchester: AI & The Future of Work
TEDx Manchester: AI & The Future of WorkVolker Hirsch
 

Destacado (7)

Tanel Poder - Troubleshooting Complex Oracle Performance Issues - Part 1
Tanel Poder - Troubleshooting Complex Oracle Performance Issues - Part 1Tanel Poder - Troubleshooting Complex Oracle Performance Issues - Part 1
Tanel Poder - Troubleshooting Complex Oracle Performance Issues - Part 1
 
Troubleshooting Complex Performance issues - Oracle SEG$ contention
Troubleshooting Complex Performance issues - Oracle SEG$ contentionTroubleshooting Complex Performance issues - Oracle SEG$ contention
Troubleshooting Complex Performance issues - Oracle SEG$ contention
 
How a Developer can Troubleshoot a SQL performing poorly on a Production DB
How a Developer can Troubleshoot a SQL performing poorly on a Production DBHow a Developer can Troubleshoot a SQL performing poorly on a Production DB
How a Developer can Troubleshoot a SQL performing poorly on a Production DB
 
Oracle und Hochverfügbarkeit – Verschiedene Ansätze im Vergleich
Oracle und Hochverfügbarkeit – Verschiedene Ansätze im VergleichOracle und Hochverfügbarkeit – Verschiedene Ansätze im Vergleich
Oracle und Hochverfügbarkeit – Verschiedene Ansätze im Vergleich
 
Datenbankkonsolidierung
DatenbankkonsolidierungDatenbankkonsolidierung
Datenbankkonsolidierung
 
Corporate image building
Corporate image buildingCorporate image building
Corporate image building
 
TEDx Manchester: AI & The Future of Work
TEDx Manchester: AI & The Future of WorkTEDx Manchester: AI & The Future of Work
TEDx Manchester: AI & The Future of Work
 

Más de OPITZ CONSULTING Deutschland

Architecture Room Stuttgart - "Cloud-native ist nur ein Teil des Spiels!"
Architecture Room Stuttgart - "Cloud-native ist nur ein Teil des Spiels!"Architecture Room Stuttgart - "Cloud-native ist nur ein Teil des Spiels!"
Architecture Room Stuttgart - "Cloud-native ist nur ein Teil des Spiels!"OPITZ CONSULTING Deutschland
 
OC|Webcast: Oracle Lizenzierung - Die größten Fallen in der Praxis
OC|Webcast: Oracle Lizenzierung - Die größten Fallen in der PraxisOC|Webcast: Oracle Lizenzierung - Die größten Fallen in der Praxis
OC|Webcast: Oracle Lizenzierung - Die größten Fallen in der PraxisOPITZ CONSULTING Deutschland
 
OC|Webcast: Oracle Lizenzierung - Virtualisierung und Cloud
OC|Webcast: Oracle Lizenzierung - Virtualisierung und CloudOC|Webcast: Oracle Lizenzierung - Virtualisierung und Cloud
OC|Webcast: Oracle Lizenzierung - Virtualisierung und CloudOPITZ CONSULTING Deutschland
 
OC|Weekly Talk: Inspect’n’Adapt – Make Change come true!
OC|Weekly Talk: Inspect’n’Adapt – Make Change come true!OC|Weekly Talk: Inspect’n’Adapt – Make Change come true!
OC|Weekly Talk: Inspect’n’Adapt – Make Change come true!OPITZ CONSULTING Deutschland
 
OC|Webcast: Schnell und clever in die AWS Cloud – Migrationsszenarien und Han...
OC|Webcast: Schnell und clever in die AWS Cloud – Migrationsszenarien und Han...OC|Webcast: Schnell und clever in die AWS Cloud – Migrationsszenarien und Han...
OC|Webcast: Schnell und clever in die AWS Cloud – Migrationsszenarien und Han...OPITZ CONSULTING Deutschland
 
OC|Weekly Talk: "Das müsste man mal digitalisieren" - Mit Low-Code schnell zu...
OC|Weekly Talk: "Das müsste man mal digitalisieren" - Mit Low-Code schnell zu...OC|Weekly Talk: "Das müsste man mal digitalisieren" - Mit Low-Code schnell zu...
OC|Weekly Talk: "Das müsste man mal digitalisieren" - Mit Low-Code schnell zu...OPITZ CONSULTING Deutschland
 
OC|Weekly Talk: Service Management – Was hat sich durch Corona geändert?
OC|Weekly Talk: Service Management – Was hat sich durch Corona geändert?OC|Weekly Talk: Service Management – Was hat sich durch Corona geändert?
OC|Weekly Talk: Service Management – Was hat sich durch Corona geändert?OPITZ CONSULTING Deutschland
 
OC|Weekly Talk - Digitales Coaching & Smart Sparring
OC|Weekly Talk - Digitales Coaching & Smart Sparring OC|Weekly Talk - Digitales Coaching & Smart Sparring
OC|Weekly Talk - Digitales Coaching & Smart Sparring OPITZ CONSULTING Deutschland
 
Effiziente Betriebsoptimierung durch Cloud Nutzung
Effiziente Betriebsoptimierung durch Cloud NutzungEffiziente Betriebsoptimierung durch Cloud Nutzung
Effiziente Betriebsoptimierung durch Cloud NutzungOPITZ CONSULTING Deutschland
 

Más de OPITZ CONSULTING Deutschland (20)

OC|Webcast: Grundlagen der Oracle Lizenzierung
OC|Webcast: Grundlagen der Oracle LizenzierungOC|Webcast: Grundlagen der Oracle Lizenzierung
OC|Webcast: Grundlagen der Oracle Lizenzierung
 
OC|Webcast "Java heute" vom 28.09.2021
OC|Webcast "Java heute" vom 28.09.2021OC|Webcast "Java heute" vom 28.09.2021
OC|Webcast "Java heute" vom 28.09.2021
 
OC|Webcast "Java heute" vom 24.08.2021
OC|Webcast "Java heute" vom 24.08.2021OC|Webcast "Java heute" vom 24.08.2021
OC|Webcast "Java heute" vom 24.08.2021
 
OC|Webcast "Daten wirklich nutzen"
OC|Webcast "Daten wirklich nutzen"OC|Webcast "Daten wirklich nutzen"
OC|Webcast "Daten wirklich nutzen"
 
Architecture Room Stuttgart - "Cloud-native ist nur ein Teil des Spiels!"
Architecture Room Stuttgart - "Cloud-native ist nur ein Teil des Spiels!"Architecture Room Stuttgart - "Cloud-native ist nur ein Teil des Spiels!"
Architecture Room Stuttgart - "Cloud-native ist nur ein Teil des Spiels!"
 
OC|Webcast "Willkommen in der Cloud!"
OC|Webcast "Willkommen in der Cloud!"OC|Webcast "Willkommen in der Cloud!"
OC|Webcast "Willkommen in der Cloud!"
 
OC|Webcast "Die neue Welt der Virtualisierung"
OC|Webcast "Die neue Welt der Virtualisierung"OC|Webcast "Die neue Welt der Virtualisierung"
OC|Webcast "Die neue Welt der Virtualisierung"
 
10 Thesen zur professionellen Softwareentwicklung
10 Thesen zur professionellen Softwareentwicklung10 Thesen zur professionellen Softwareentwicklung
10 Thesen zur professionellen Softwareentwicklung
 
OC|Webcast: Oracle Lizenzierung - Lizenznews 2021
OC|Webcast: Oracle Lizenzierung - Lizenznews 2021OC|Webcast: Oracle Lizenzierung - Lizenznews 2021
OC|Webcast: Oracle Lizenzierung - Lizenznews 2021
 
OC|Webcast: Oracle Lizenzierung - Die größten Fallen in der Praxis
OC|Webcast: Oracle Lizenzierung - Die größten Fallen in der PraxisOC|Webcast: Oracle Lizenzierung - Die größten Fallen in der Praxis
OC|Webcast: Oracle Lizenzierung - Die größten Fallen in der Praxis
 
OC|Webcast: Oracle Lizenzierung - Virtualisierung und Cloud
OC|Webcast: Oracle Lizenzierung - Virtualisierung und CloudOC|Webcast: Oracle Lizenzierung - Virtualisierung und Cloud
OC|Webcast: Oracle Lizenzierung - Virtualisierung und Cloud
 
OC|Webcast: Grundlagen der Oracle-Lizenzierung
OC|Webcast: Grundlagen der Oracle-LizenzierungOC|Webcast: Grundlagen der Oracle-Lizenzierung
OC|Webcast: Grundlagen der Oracle-Lizenzierung
 
OC|Weekly Talk: Inspect’n’Adapt – Make Change come true!
OC|Weekly Talk: Inspect’n’Adapt – Make Change come true!OC|Weekly Talk: Inspect’n’Adapt – Make Change come true!
OC|Weekly Talk: Inspect’n’Adapt – Make Change come true!
 
OC|Webcast: Schnell und clever in die AWS Cloud – Migrationsszenarien und Han...
OC|Webcast: Schnell und clever in die AWS Cloud – Migrationsszenarien und Han...OC|Webcast: Schnell und clever in die AWS Cloud – Migrationsszenarien und Han...
OC|Webcast: Schnell und clever in die AWS Cloud – Migrationsszenarien und Han...
 
OC|Weekly Talk The Power of DevOps…
OC|Weekly Talk  The Power of DevOps…OC|Weekly Talk  The Power of DevOps…
OC|Weekly Talk The Power of DevOps…
 
OC|Weekly Talk: "Das müsste man mal digitalisieren" - Mit Low-Code schnell zu...
OC|Weekly Talk: "Das müsste man mal digitalisieren" - Mit Low-Code schnell zu...OC|Weekly Talk: "Das müsste man mal digitalisieren" - Mit Low-Code schnell zu...
OC|Weekly Talk: "Das müsste man mal digitalisieren" - Mit Low-Code schnell zu...
 
OC|Weekly Talk: Service Management – Was hat sich durch Corona geändert?
OC|Weekly Talk: Service Management – Was hat sich durch Corona geändert?OC|Weekly Talk: Service Management – Was hat sich durch Corona geändert?
OC|Weekly Talk: Service Management – Was hat sich durch Corona geändert?
 
OC|Weekly Talk - Digitales Coaching & Smart Sparring
OC|Weekly Talk - Digitales Coaching & Smart Sparring OC|Weekly Talk - Digitales Coaching & Smart Sparring
OC|Weekly Talk - Digitales Coaching & Smart Sparring
 
OC|Weekly Talk - Beratung remote
OC|Weekly Talk - Beratung remoteOC|Weekly Talk - Beratung remote
OC|Weekly Talk - Beratung remote
 
Effiziente Betriebsoptimierung durch Cloud Nutzung
Effiziente Betriebsoptimierung durch Cloud NutzungEffiziente Betriebsoptimierung durch Cloud Nutzung
Effiziente Betriebsoptimierung durch Cloud Nutzung
 

Projektbericht: ASM-Troubleshooting und -Reorganisation

  • 1. © OPITZ CONSULTING 2016  überraschend mehr Möglichkeiten! © OPITZ CONSULTING 2016 Projektbericht: Stabilisierung der ASM- Verfügbarkeit Uwe Küchler ASM-Reorganisation
  • 2. © OPITZ CONSULTING 2016 Projektbericht ASM-Troubleshooting und -Reorganisation Zur Person  Generation C=64  Seit über 25 Jahren in der IT tätig  1997-2000 bei Oracle Deutschland  Seither durchgehend Oracle-Berater, im DBA- und Entwicklungs-Umfeld, Tutor  Seit 09/2013 bei OPITZ CONSULTING  Buch- und Blogautor (oraculix.de)  Performance als „Steckenpferd“ 1975
  • 3. © OPITZ CONSULTING 2016 Seite 3 Agenda 1 2 3 4 Ausgangslage Der "Tag X" und die Fehlerdiagnose Praxisbeispiel: Reorganisation Was sonst noch gefunden wurde Projektbericht ASM-Troubleshooting und -Reorganisation
  • 4. © OPITZ CONSULTING 2016 Seite 4 Ausgangslage 1 Projektbericht ASM-Troubleshooting und -Reorganisation
  • 5. © OPITZ CONSULTING 2016 Projektbericht ASM-Troubleshooting und -Reorganisation Ausgangslage  RAC mit ASM  Version 11.2.0.4  Windows 2008R2  Redundante Storage- Systeme  Redundante Switches  Redundante Multipath- Verbindungen
  • 6. © OPITZ CONSULTING 2016 Projektbericht ASM-Troubleshooting und -Reorganisation Ausgangslage (2)  Kein Mirroring zwischen den SANs  keine EXTERNAL Redundancy  Also soll mithilfe von ASM die Spiegelung erfolgen   NORMAL Redundancy   Failure Groups (FG) werden über LUNs von je einem SAN gelegt und zu Disk Groups zusammengefügt.  Also: Fällt ein SAN aus, ist nur jeweils die Hälfte der Failure Groups weg   der Spiegel bleibt erhalten   der Betrieb geht weiter  … ODER?!?
  • 7. © OPITZ CONSULTING 2016 Projektbericht ASM-Troubleshooting und -Reorganisation Ausgangslage (2) ASM-Konfiguration
  • 8. © OPITZ CONSULTING 2016 Seite 8 „Tag X“: Abschaltung eines RZ 2 Projektbericht ASM-Troubleshooting und -Reorganisation
  • 9. © OPITZ CONSULTING 2016 Projektbericht ASM-Troubleshooting und -Reorganisation „Tag X“: Erwartungshaltung
  • 10. © OPITZ CONSULTING 2016 Projektbericht ASM-Troubleshooting und -Reorganisation „Tag X“: Die harte Realität
  • 11. © OPITZ CONSULTING 2016 Projektbericht ASM-Troubleshooting und -Reorganisation „Tag X“: Diagnose Blick in das ASM Alert Log Fri Dec 11 15:56:45 2015 WARNING: Write Failed. group:3 disk:1 AU:1 offset:1044480 size:4096 ... Fri Dec 11 15:56:52 2015 WARNING: Disk RDG1D01_0002 in mode 0x7f is now being offlined ... ORA-15130: diskgroup "RDG1D01" is being dismounted ... ORA-15078: ASM diskgroup was forcibly dismounted ... NOTE: cache closing disk 2 of grp 1: (not open) RDG1D01_0002 NOTE: cache closing disk 3 of grp 1: (not open) RDG1D01_0003 ERROR: too many offline disks in PST (grp 1) ... NOTE: diskgroup resource ora.RDG1F01.dg is offline ...
  • 12. © OPITZ CONSULTING 2016 Projektbericht ASM-Troubleshooting und -Reorganisation „Tag X“: Diagnose Blick in das ASM Alert Log (2) ERROR: Disk 7 cannot be offlined, since all the disks [7, 2] with mirrored data would be offline. ERROR: too many offline disks in PST (grp 1) ... NOTE: halting all I/Os to diskgroup 1 (RDG1D01) ... Fri Dec 11 16:07:17 2015 SQL> ALTER DISKGROUP RDG1F01 MOUNT /* asm agent *//* {0:3:294} */ NOTE: Disk RDG1F01_0002 in mode 0x7f marked for de-assignment NOTE: Disk in mode 0x7f marked for de-assignment ERROR: diskgroup RDG1F01 was not mounted WARNING: Disk Group RDG1F01 containing configured OCR is not mounted ORA-15032: not all alterations performed ORA-15040: diskgroup is incomplete ORA-15042: ASM disk "3" is missing from group number "1" ORA-15042: ASM disk "1" is missing from group number "1"
  • 13. © OPITZ CONSULTING 2016 Projektbericht ASM-Troubleshooting und -Reorganisation „Tag X“: Diagnose  Besonderheit bei NORMAL Redundancy:  Bei mehr als 2 Failgroups ist nicht gewährleistet, dass die Daten 1:1 zwischen den FGs gespiegelt sind.  Schließlich „weiß“ ASM nicht, dass die FGs auf verschiedene SANs verteilt sind!   Sobald die 2. FG offline geht, wird die ganze Disk Group dismounted.  kann erst wieder gemountet werden, wenn n-1 Failgroups online sind.   Wenn ein RZ offline geht, sind die Diskgroups „RDG1D01“ und „RDG1F01“ nicht mehr verfügbar   Damit sind auch die Datenbanken nicht mehr verfügbar.
  • 14. © OPITZ CONSULTING 2016 Seite 14 Reorganisation 3 Projektbericht ASM-Troubleshooting und -Reorganisation
  • 15. © OPITZ CONSULTING 2016 Zielkonfiguration  Diskgroups für Daten und FRA  Bestehen aus jeweils 2 Failgroups (1 pro RZ)  Die Disks aus den nicht mehr benötigten Failgroups wandern in die verbleibenden Failgroups.  Bei dieser Gelegenheit sollen die FGs einheitlich benannt werden.   Wenn ein RZ offline geht, bleiben die Diskgroups „RDG1D01“ und „RDG1F01“ verfügbar! RZ1 RZ2 RDG1D01 FG_S1D01 FG_S2D01 RDG1D01_ 0000 RDG1D01_ 0001 RDG1D01_ 0004 RDG1D01_ 0005 RDG1D01_ 0002 RDG1D01_ 0003 RDG1D01_ 0006 RDG1D01_ 0007
  • 16. © OPITZ CONSULTING 2016 Zielkonfiguration
  • 17. © OPITZ CONSULTING 2016 Der Weg zur Zielkonfiguration  Umbenennung von Failgroups nicht direkt möglich  Neue Failgroup wird angelegt.  Disks werden schrittweise in neue Failgroup verschoben.  Zwischenschritte erfordern Rebalance der Daten auf den verbleibenden Disks  Jedes Rebalance benötigt Zeit und  reduziert die verfügbare I/O-Bandbreite für Anwendungen.  Es wird ein Weg aufgezeigt, der möglichst wenig Rebalances benötigt.  Idealerweise müssen beim Rebalance möglichst wenig Daten bewegt werden.   Tablespaces mit viel freiem Platz sollten vorher verkleinert werden.
  • 18. © OPITZ CONSULTING 2016 Der Weg zur Zielkonfiguration (2)  Die folgende Grafik zeigt die Operationen zum Verschieben der Disks in die neuen Failgroups am Beispiel der DATA-Diskgroup im Test-Cluster.  Namen der Disks sind zur besseren Darstellung vereinfacht.  Beispiel geht von einem Füllgrad der Disk Group > 50% aus.  Zusammenfassung von Disk-Migrationen ist in den ersten Schritten möglich, um Zeitbedarf durch Rebalancing zu minimieren.  Diskgroup „FRA“ ist einfacher zu migrieren: Pro Failgroup ein Migrationsschritt.  Und das Beste: Alles geht online!  Es empfiehlt sich aber eine Ankündigung der Wartung wegen möglicher, längerer Antwortzeiten.
  • 19. © OPITZ CONSULTING 2016 Schrittweiser Umzug der Disks in neue Failgroups bei weniger als 50% Platz (1/2)
  • 20. © OPITZ CONSULTING 2016 Schrittweiser Umzug der Disks in neue Failgroups bei weniger als 50% Platz (2/2)
  • 21. © OPITZ CONSULTING 2016 Der Weg zur Zielkonfiguration: Rebalances Diskgroup DATA:  16 Operationen (DROP oder ADD)  Aber nur 6 Rebalances!  Jedes Rebalance verschiebt ca. 600 GB Daten  Schätzung: 30-45 min / Rebalance   3-4 Stunden für die Reorganisation der DATA-Diskgroup
  • 22. © OPITZ CONSULTING 2016 Der Weg zur Zielkonfiguration: Rebalances Diskgroup FRA:  300 GB pro Rebalance  Schätzung: 15-20 min / Rebalance   1 – 1,5 h für die Reorganisation.
  • 23. © OPITZ CONSULTING 2016 Projektbericht ASM-Troubleshooting und -Reorganisation Der Weg zur Zielkonfiguration: Code (1/3) -- Schritt 1 ALTER DISKGROUP RDG1D01 DROP DISK RDG1D01_0001 REBALANCE POWER 0; ALTER DISKGROUP RDG1D01 DROP DISK RDG1D01_0005 REBALANCE POWER 0; ALTER DISKGROUP RDG1D01 REBALANCE POWER 1024 WAIT; ALTER DISKGROUP RDG1D01 ADD FAILGROUP FG_S1D01 DISK '.ORCLDISK_S1L150' NAME RDG1D01_0001 DISK '.ORCLDISK_S1L170' NAME RDG1D01_0005 REBALANCE POWER 0; -- Schritt 2 ALTER DISKGROUP RDG1D01 DROP DISK RDG1D01_0003 REBALANCE POWER 0; ALTER DISKGROUP RDG1D01 DROP DISK RDG1D01_0007 REBALANCE POWER 1024 WAIT; ALTER DISKGROUP RDG1D01 ADD FAILGROUP FG_S2D01 DISK '.ORCLDISK_S2L150' NAME RDG1D01_0003 DISK '.ORCLDISK_S2L170' NAME RDG1D01_0007 REBALANCE POWER 0;
  • 24. © OPITZ CONSULTING 2016 Projektbericht ASM-Troubleshooting und -Reorganisation Der Weg zur Zielkonfiguration: Code (2/3) -- Schritt 3 ALTER DISKGROUP RDG1D01 DROP DISK RDG1D01_0000 REBALANCE POWER 1024 WAIT; ALTER DISKGROUP RDG1D01 ADD FAILGROUP FG_S1D01 DISK '.ORCLDISK_S1L140' NAME RDG1D01_0000 REBALANCE POWER 0; -- Schritt 4 ALTER DISKGROUP RDG1D01 DROP DISK RDG1D01_0002 REBALANCE POWER 1024 WAIT; ALTER DISKGROUP RDG1D01 ADD FAILGROUP FG_S2D01 DISK '.ORCLDISK_S2L140' NAME RDG1D01_0002 REBALANCE POWER 0;
  • 25. © OPITZ CONSULTING 2016 Projektbericht ASM-Troubleshooting und -Reorganisation Der Weg zur Zielkonfiguration: Code (3/3) -- Schritt 5 ALTER DISKGROUP RDG1D01 DROP DISK RDG1D01_0005 REBALANCE POWER 0; ALTER DISKGROUP RDG1D01 DROP DISK RDG1D01_0004 REBALANCE POWER 1024 WAIT; ALTER DISKGROUP RDG1D01 ADD FAILGROUP FG_S1D01 DISK '.ORCLDISK_S1L160' NAME RDG1D01_0004 , '.ORCLDISK_S1L170' NAME RDG1D01_0005 REBALANCE POWER 0; -- Schritt 6 ALTER DISKGROUP RDG1D01 DROP DISK RDG1D01_0006 REBALANCE POWER 1024 WAIT; ALTER DISKGROUP RDG1D01 ADD FAILGROUP FG_S2D01 DISK '.ORCLDISK_S2L160' NAME RDG1D01_0006 REBALANCE POWER 1024 WAIT;
  • 26. © OPITZ CONSULTING 2016 Seite 26 Was sonst noch gefunden wurde 4 Projektbericht ASM-Troubleshooting und -Reorganisation
  • 27. © OPITZ CONSULTING 2016 COMPATIBLE.ASM und COMPATIBLE.RDBMS  Waren = 10.1  Erst ab compatible.asm=11.1 geht „Fast Mirror Resync“   Andernfalls geht FG offline, wenn Disk offline ist!   Nach Ablauf der Repair Time müsste dann auch die FG neu aufgebaut werden.  Um alle 11g-Features zu nutzen: compatible.asm=11.2.0.4  Siehe Feature-Tabelle in Oracle-Doku
  • 28. © OPITZ CONSULTING 2016 DISK_REPAIR_TIME  Countdown, bis eine OFFLINE Disk gedroppt wird  Einstellung für „ASM Fast Mirror Resync“  Erfordert „compatible.asm“ und „compatible.rdbms“ >= 11.1  Default: 3,6 Stunden  Nach Ablauf des Timers wird die Disk aus der Konfiguration entfernt!  Aber nicht gelöscht; kann wieder hinzugefügt werden.   Default von 3,6h ist häufig zu kurz für Reaktionen in der Nacht oder am Wochenende  Genau das war in der demonstrierten Umgebung der Fall:
  • 29. © OPITZ CONSULTING 2016 Projektbericht ASM-Troubleshooting und -Reorganisation COMPATIBLE.ASM und COMPATIBLE.RDBMS: Failure Group Offline laut Alert Log Mon Dec 21 08:51:37 2015 SUCCESS: ALTER DISKGROUP RDG1SYS ADD FAILGROUP FG_S2C1S DISK '.ORCLDISK_S2L110' FORCE NOTE: starting rebalance of group 3/0xeba08ee0 (RDG1SYS) at power 1 ... Mon Dec 21 08:52:48 2015 SUCCESS: refreshed membership for 2/0xeba08edf (RDG1F01) SUCCESS: ALTER DISKGROUP RDG1F01 ADD FAILGROUP FG_S2G02 DISK '.ORCLDISK_S2L120' FORCE NOTE: starting rebalance of group 2/0xeba08edf (RDG1F01) at power 1 ... Mon Dec 21 08:54:35 2015 SUCCESS: refreshed membership for 1/0xeb908ede (RDG1D01) SUCCESS: ALTER DISKGROUP RDG1D01 ADD FAILGROUP FG_S2G05 DISK '.ORCLDISK_S2L140' FORCE, '.ORCLDISK_S2L150' FORCE ...
  • 30. © OPITZ CONSULTING 2016 FAILGROUP_REPAIR_TIME in 12c  Default von 3,6h für DISK_REPAIR_TIME ist häufig zu kurz für Reaktionen in der Nacht oder am Wochenende  Neu in 12c ist FAILGOUP_REPAIR_TIME  Erlaubt Fast Mirror Resync auch zwischen FGs, nicht nur Disks.  Default: 24h  FG wird erst nach Ablauf dieses (längeren) Timers gelöscht.
  • 31. © OPITZ CONSULTING 2016 Seite 31Projektbericht ASM-Troubleshooting und -Reorganisation Fragen
  • 32. © OPITZ CONSULTING 2016  überraschend mehr Möglichkeiten! @OC_WIRE OPITZCONSULTING opitzconsulting opitz-consulting-bcb8-1009116 WWW.OPITZ-CONSULTING.COM Uwe M. Küchler Managing Consultant uwe.kuechler@opitz-consulting.com Telefon +49 6172 66260 – 0 Mobil +49 173 727 91 43 Projektbericht ASM-Troubleshooting und -Reorganisation
  • 33. © OPITZ CONSULTING 2016 Links + Literatur Li 3 6.941
  • 34. © OPITZ CONSULTING 2016 Links + Literatur  “Mother of All ASM Scripts (MAAS)” by John Hallas:  Original Blog Post  Modifiziert für FailGroups und Exadata auf GitHub: https://git.io/vPmQN  How to Create a Normal Redundancy Diskgroup Best Practices (Doc ID 1910315.1)  How to free space from an ASM diskgroup? (Doc ID 1553744.1)  When Will the Rebalance Complete? (Doc ID 1477905.1)  Oracle ASM 12.1: DISK_REPAIR_TIME und FAILGROUP_REPAIR_TIME  Oracle ASM 12.1: Oracle ASM Fast Mirror Resync  ASM Fast Mirror Resync - Example To Simulate Transient Disk Failure And Restore Disk (Doc ID 443835.1)
  • 35. © OPITZ CONSULTING 2016 Links + Literatur  Information to gather when diagnosing ASM space issues (Doc ID 351117.1)  Oracle 12c ASM Guide: Negative Values of USABLE_FILE_MB

Notas del editor

  1. HA-Planung: Ausfall eines Storage-Systems: 2. System reicht für den weiteren Betrieb Ausfall eines Switches: 2. Switch reicht für den weiteren Betrieb Ausfall eines Netzwerkpfades: 2. Pfad reicht für den weiteren Betrieb Ausfall eines RAC-Knotens: 2. Knoten reicht für den weiteren Betrieb Allgemein formuliert: Bei Ausfall eines RZ kann der Betrieb mit dem 2. RZ weiterlaufen. Die ASM-Konfiguration soll dies widerspiegeln.
  2. Die ASM-Konfiguration soll die HA-Konfiguration der Systeme widerspiegeln. Kein Mirroring zwischen den SANs Also soll mithilfe von ASM die Spiegelung erfolgen. In diesem Schaubild sind bewusst keine RAC-Knoten oder RZ-Grenzen eingezeichnet, da ASM gegenüber diesen physischen Entitäten agnostisch ist. Selbst die noch eingezeichnete Verteilung auf mehrere SAN-Systeme ist für die Behandlung von Ausfällen einer Failure Group nicht relevant. OCR- und Voting-Disk sind zur besseren Übersicht ebenfalls nicht eingezeichnet.
  3. Oh Schreck, die Diskgroup ist weg! …und das RAC auch!
  4. Rot: Unbalanced Grün: Balanced
  5. ASM Fast Mirror Resync: Geht eine Disk offline, puffert ASM die Änderungen an Extents, die auf dieser Disk lagern. Geht sie innerhalb der DISK_REPAIR_TIME wieder online, werden die Extents nachsynchronisiert. > 11.2  asm_power_limit bis 1024 Content type of a disk group ACFS: Encryption, replication, snapshots, security, performance
  6. Codebeispiel: Disks und Failgroups, die nach Ablauf von DISK_REPAIR_TIME gedroppt wurden, werden mit ADD … FORCE wieder hinzugefügt.