1 / 20

Hochverfügbarkeit

Hochverfügbarkeit. Gliederung. Einführung Prozessor Kryptographischer Koprozessor Speicher Ein-/Ausgabe Weitere Hardware Parallel Sysplex Sysplex Failure Management Automatic Restart Manager Workload Balancing Software. Einführung.

linda-welch
Download Presentation

Hochverfügbarkeit

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Hochverfügbarkeit

  2. Gliederung • Einführung • Prozessor • Kryptographischer Koprozessor • Speicher • Ein-/Ausgabe • Weitere Hardware • Parallel Sysplex • Sysplex Failure Management • Automatic Restart Manager • Workload Balancing • Software

  3. Einführung • Verfügbarkeit = Zeitanteil, zu dem das System seine Funktion wie spezifiziert erfüllt • Hochverfügbarkeit ab 99,999% => 5 Min. Ausfallzeit/Jahr • erreicht durch hohes Maß an Redundanz an allen möglichen Fehlerstellen • Redundanz = Vorhandensein von Mitteln, die für die Funktionserfüllung nicht notwendig sind

  4. Prozessor

  5. Prozessor • jede PU (Processor Unit) der zSeries 900 enthält doppelte Instruction/Execution Units, die simultan arbeiten • Ergebnisse werden verglichen, bei Abweichung Instruction Retry • bei weiterem Fehler Speichern des Zustands und Umschalten auf Reserve-PU • falls keine freie PU vorhanden, wird der Zustand an eine andere aktive PU übergeben • bei Fehler eines SAP und keiner Reserve-PU wird ein aktiver CP (Central Processor) als SAP eingeteilt

  6. Kryptographischer Koprozessor • 2 Cryptographic Coprocessor Elements (CCE) pro System • Betriebssystem wiederholt fehlgeschlagene Instruktion auf dem anderen CCE • pro CCE ein Pfad zu einer primären PU sowie zu alternativer PU (immer nur 1 Pfad aktiv) • Alternativ-PUs werden als letztes als Reserve-PUs benutzt

  7. Speicher • L1 Cache Parity protected • L1 und L2: Löschen/Austauschen von Zeilen • L2 und Memory: Error Correcting Codes (Single Error Correction/Double Error Detection) • bei Parity/ECC-Fehler neuer Versuch, danach löschen der Cache-Zeile • ECC auch für Daten- und Status/Kommando-Busse • Speicherkarten sind mit Reservechips ausgerüstet

  8. Ein-/Ausgabe CPU Haupt- speicher Channel Subsystem Channel Path Control Unit Control Unit Subchannel E/A E/A E/A E/A

  9. Ein-/Ausgabe • mehrere Channel Paths zur gleichen Control Unit • ein E/A-Gerät kann mit mehr als einer Kontrolleinheit verbunden sein • Verbindung einer CU mit mehr als einem System im Parallel Sysplex möglich • dynamische I/O-Konfiguration • ESCON 16-Port I/O-Card beinhaltet 1 Reserve-Port • bei Versagen eines MBA partieller Neustart ohne entsprechende I/O-Verbindungen möglich

  10. Weitere Hardware zur höheren Verfügbarkeit • redundante Stromzufuhr, interne Batterie verfügbar • redundante Kühlsysteme • je System zwei External Time Reference-Karten und redundante Pfade zu den Clustern • RAID (Redundant Array of Inexpensive Disks): verschiedene Level der Redundanz für Plattenspeicher (Hamming-Code, Parity) • Disk Mirroring

  11. Cluster-Typen • Cluster = lose gekoppelte Anordnung mehrerer SMPs (Knoten) • High Availability Cluster: Heartbeat-Monitoring-Prozess überträgt die Verarbeitung bei Ausfall des primären Servers auf einen Backup-Server, der sonst beschäftigungslos ist • Parallel Cluster: manuelle Aufteilung der anfallenden Arbeit auf die Knoten • Shared Cluster: WLM verteilt Arbeit dynamisch auf die einzelnen Knoten

  12. Unterscheidung nach Zugriff auf Plattenspeicher • Shared Nothing: nur ein Knoten kann auf einen bestimmten Plattenspeicher zugreifen => statische Aufteilung des Workloads • Shared Disk: jeder Knoten kann auf alle Plattenspeicher zugreifen =>Datenkohärenzsteuerung nötig • Parallel Sysplex implementiert Shared Disk(Data)

  13. Parallel Sysplex

  14. Sysplex Failure Management • integriert in OS/390 • erlaubt Definition einer sysplex-weiten Policy • Policy legt Fehlererkennungsintervalle und Wiederherstellungsaktionen für den Ausfall eines Systems im Sysplex fest • Fehlerarten: Ausfall der Signalverbindung zwischen Systemen, Status Update Missing Condition • Status Update Missing Condition: System erneuert nicht seinen Status innerhalb eines bestimmten Zeitintervalls =>z.B.System-Isolation

  15. Automatic Restart Manager • Teil von OS/390 • ausgefallene Anwendungen können automatisch auf gesunden Systemen im Parallel Sysplex neu gestartet werden oder auf dem selben System, falls dies nicht ausgefallen ist • kennt Zustände aller Prozesse auf allen Systemen, bemerkt sofort alle Systemausfälle, benutzt WLM um geeignetes System für Restart zu finden • Prozesse können in Restart Groups zusammengefasst werden

  16. Reihenfolge der Restart-Aktivitäten kann festgelegt werden • in hot-standby-Umgebungen (Backup-Server) kann der Restart des ausgefallenen Servers unterdrückt werden • Prozesse registrieren sich zum Start beim ARM, melden sich beim Herunterfahren ab

  17. Workload Balancing • nötig, um die eingehende Arbeit im Sysplex zu verteilen oder im Fehlerfall umzuleiten • dabei muss der ganze Sysplex nach außen eine einzige Identität haben (Host Name oder IP-Adresse) • 2 Kategorien von Lastverteilungslösungen: DNS mapping solutions, Connection dispatching

  18. Domain Name Server mapping solutions • dynamisches Wechseln der DNS-Einträge, um einem Hostnamen versch. IPs (und damit Server) zuzuordnen • Round-Robin: DNS kreist durch Liste mit IP-Adressen => Workload auf Server unbetrachtet • Connection Optimization: DNS betrachtet Arbeitslast der einzelnen Server, Messergebnisse vom Workload Manager • Nachteil: Auswahl des Servers nur bei Verbindungsaufbau

  19. Connection dispatching solutions • Client hat Verbindung mit Verteilerknoten, dieser leitet die Daten an entspr. Server weiter, der dann direkt dem Kunden antworten kann • alle Systeme im Cluster liefern Informationen über ihre aktuelle Arbeitslast an den Distribution Manager • Backup-Verteilerknoten überwacht Zustand des primären Verteilers und übernimmt die Arbeit bei Ausfall • Verteilerknoten in PC, im Sysplex oder im Router

  20. Softwarefeatures • MQSeries, DB2 usw. benutzen ARM • MQSeries: automatic rerouting of messages if target machine is unavailable • Fehlerbehandlungsmaßnahmen der Datenbanksysteme

More Related