Robust Optimal On-Board Reentry Guidance of an European Space Shuttle

Robust Optimal On-Board Reentry Guidance of an European Space Shuttle Seminar Differentialspiele Stephan Schmidt

Gliederung • Der Wiedereintritt • Zielsetzung • Was macht einen Wiedereintritt aus? • Die Probleme an eine Steuerung • Das Differentialspiel als Lösung • Das robuste Differentialspiel • Der Kontrollprozess (Kinematik Equation) • Die Nebenbedingungen • Robust-Optimalität • Die Isaacs Gleichung (Main Equation II) • Neue Lösungsverfahren • „Open-Loop“-Verfahren • Bessere Verfahren

Gliederung • Neuronales Netz • Was ist ein künstliches neuronales Netz? • Das künstliche Neuron • Ideen für Funktionen eines Neurons • Approximierbarkeit • Praktische Realisierung • Gewichtselimination • Sigmoide Aktivierungsfunktionen • Praktische Approximation • Approximationsfehler • Gradient des Fehlers • Der Backpropagationsalgorithmus • Zusammenfassung

Teil 1: Der Wiedereintritt

Zielsetzung • Finde eine automatische Steuerung,die einen Space Shuttle ähnlichen Gleitertrotz Auftretens von unvorhergesehen Ereignissen auf dem optimalen Weg sicher zurück zur Erde bringt. • Die Steuerung muss mit den an Bord zur Verfügung stehenden Mitteln in Echtzeit berechenbar sein.

Was macht einen Wiedereintritt aus? • Ziele: • Kontrollierter Abbau von hoher Bewegungs- und Lageenergie • Beibehalten der Flugstabilität und Steuerbarkeit • Alleinige Umwandelbarkeit der überschüssigen Energie durch Reibung, kein Antrieb • Randbedingungen: • Hitze außen und innen • Druck auf den Shuttlerahmen • Tragflächenbelastung • Fluglage bei hoher Geschwindigkeit

Die Probleme an eine Steuerung • „Robust-Optimalität“: • Ungenauigkeiten bei der Modellierung • Unvorhersehbare bzw. nicht-messbare Einflüsse • Berechenbarkeit • Ionisierung der Luft verhindert Funkkontakt zur Bodenstation • Echtzeit • Die Daten werden sofort benötigt • Zufall • Alle Größen sind abhängig vom Luftdruck, welcher in sehr großer Höhe unvorhersehbar schwankt und nicht messbar ist

Das Differentialspiel als Lösung • Problem: Finde Wiedereintrittsflugbahn trotz stark schwankender Größe des Luftdrucks p(h) • Idee: Betrachte „worst case“: Wenn selbst bei einem „planmäßig bösartig“ handelnden Luftdruck eine Steuerung zum Wiedereintritt gefunden werden kann, so sollte dies bei einem zufällig handelnden Luftdruck erst recht möglich sein • Lösung: Betrachte Luftdruck und Shuttle als zwei Spieler in einem Differentialspiel

Teil 2: Das robuste Differentialspiel

Der Kontrollprozess Dem Differentialspiel soll folgende Mechanik zugrunde liegen: mit: z: Spielzustand, State Variable u: Kontrollvariable Spieler I, Control Variable w: Unbekannt, nicht messbar, Schwankung, Modellfehler oder Kontrollvariable Spieler II

Die Nebenbedingungen Folgende Bedingungen sollen zusätzlich erfüllt werden: • Eine Steuerung u(z) heißt genau dann zulässig, wenn • Eine Steuerung w(z) heißt genau dann zulässig, wenn

Robust-Optimalität Menge aller kontrollierbaren Zustände: Performance-Index zur Leistungsmessung des Spielers: Eine zulässige Steuerung u*(z) heißt robust-optimal genau dann, wenn: Für z aus Scsei unter Benutzung eines robust-optimalen u* die Auszahlung (Value) definiert als:

Die Isaacs Gleichung Optimalitätskriterium: An differenzierbaren Stellen des Values ergibt sich für u* die Optimalitätsbedingung: Dies wird bei Isaacs als Main Equation II bezeichnet Herkömmliches Differentialspiel dadurch nach Betrachten der singulären Hyperebenen lösbar durch multiple Shooting und Rückwärtsdifferentieren Robustes Differentialspiel: w: Schwankung, Unbekannt oder Modellfehler

Neue Lösungsverfahren • Problem:w wird nicht optimal, sondern zufällig gewählt • Ansatz:Diskretisiere die Zeit • Lösung: Rückkopplungssteuerung • Bestimme derzeitigen Spielzustand z • Löse Isaacs-Gleichung für z und benutze so gewonnenes u als Steuerung • Verbleibe bei u als Steuerung für selbst gewähltes Zeitintervall • Gehe zu 1.

„Open-Loop“-Verfahren

Bessere Verfahren • Problem: • In jedem Schritt muss das RWP der Isaacs-Gleichung neu gelöst werden • Bei realistischer Mechanik nicht in Echtzeit zu bewerkstelligen • Idee: • Berechne so viel wie möglich im Voraus • Interpolation der Pfadfunktion Neuronales Netz

Teil 3: Das Neuronale Netz

Was ist ein künstliches neuronales Netz? • Abbildung eines Eingabevektors x unter Berücksichtigung eines Gewichtsvektors (w,q) auf Ausgabevektor y • Gerichteter, gewichteter Graph • Knoten: künstliche Neuronen, Funktionen • Funktionskomposition • Nicht-linear

Das künstliche Neuron • Gewichten und Aggregieren aller Eingaben: • Eingabewert netj (t): • Grad der Aktivierung aj (t): • Ausgabe oj (t):

Ideen für Funktionen eines Neurons • Eingabefunktion: • Aktivierungsfunktion: • Ausgabefunktion

Approximierbarkeit, Behauptung Jede stetige, nicht konstante Funktion f ist durch ein (mehrschichtiges) neuronales Netz beliebig genau approximierbar

Approximierbarkeit, Beweisskizze Stetige, nicht konstante Funktionen sind beliebig genau durch Treppenfunktionen approximierbar (WT1)

Approximierbarkeit, Beweisskizze Definiere Neuronen der ersten Schicht als: Definiere Neuronen der zweiten Schicht als: Mit w 1-Matrix und q 0-Vektor gilt dann: Damit gilt die Behauptung

Praktische Realisierung • Beweis liefert nur begrenzten Bezug zur Anwendbarkeit: • I im Allgemeinen sehr groß • Bei Steigerung der Genauigkeit müssen Schichten neu gestaltet werden • Gewichte werden kaum beachtet • Für Anwendung in Praxis: • Netzarchitektur vereinfachen • Netz differenzierbar gestalten

o1 q w1j o1 o2 w2j w1j nj w2j w3j o2 nj o3 -q w3j 1 o3 Gewichtselimination Gilt für die Aktivierungsfunktion: So können die Schwellwerte q als Gewichte w aufgefasst werden:

Sigmoide Aktivierungsfunktionen • Problem:Indikatorfunktion macht das Netz nicht-differenzierbar • Substituiere Indikatorfunktion durch sigmoide Funktion fsig: • fsig ist streng monoton steigend • Grenzwert ist +/- 1 • Üblich:tanh oder 2/p arctan

Praktische Approximation • Sei I Menge mit den zu approximierenden Punktepaaren • Zufälliges Aufteilen von I in Trainings- und Validierungsmenge

Approximationsfehler • Für beliebige differenzierbare Metrik definiere: • Lernproblem mit Gradientenabstiegsverfahren:

Gradient des Fehlers • Bei Verwendung der 2-Norm ergibt sich: • Idee zur Berechnung der Ableitung des neuronalen Netzes:

Der Backpropagationsalgorithmus • Initialisierung: Wähle wij zufällig • Feedforward: wähle z aus IT zufällig, berechne Ausgabewerte yi schichtweise und speichere die Ableitung sj der Neuronen • Backpropagation: Traversiere das Netz rückwärts mit der Eingabe zi-yi. Berechne rückwärtigen Fehler d in Ausgabeschicht und verdeckten Schichten: • Korrigiere Netzgewichte: • Gehe zu 2.

Zusammenfassung • physikalische und technische Gegebenheiten verlangen die Berücksichtigung zufälliger Luftdruckschwankungen. • Dem Luftdruck wird planmäßiges Handeln zu Grunde gelegt und als Gegenspieler eines Differentialspieles aufgefasst • Lösung als Open-Loop ist nicht echtzeitfähig. • Das Neuronale Netz zur Approximation • Anlernen des Netzes mit Backpropagation

Robust Optimal On-Board Reentry Guidance of an European Space Shuttle

Robust Optimal On-Board Reentry Guidance of an European Space Shuttle

Presentation Transcript

SPACE SHUTTLE PROGRAM

Space Shuttle Columbia

Space Shuttle

Space Shuttle Program

Space Shuttle Columbia

Space Shuttle Columbia

Space Shuttle Columbia

The Space Shuttle

C.M.M. -Space Shuttle-

Space shuttle Columbia

Modeling of Infrasound from the Space Shuttle Columbia Reentry

THE SPACE SHUTTLE

Space Shuttle Photographs

SPACE SHUTTLE LAUNCHING

Space Shuttle

The Space Shuttle

Space shuttle Columbia

Final Presentation Online-implementable robust optimal guidance law

Der Space Shuttle

Space Shuttle