310 likes | 424 Views
Robust Optimal On-Board Reentry Guidance of an European Space Shuttle. Seminar Differentialspiele Stephan Schmidt. Gliederung. Der Wiedereintritt Zielsetzung Was macht einen Wiedereintritt aus? Die Probleme an eine Steuerung Das Differentialspiel als Lösung Das robuste Differentialspiel
E N D
Robust Optimal On-Board Reentry Guidance of an European Space Shuttle Seminar Differentialspiele Stephan Schmidt
Gliederung • Der Wiedereintritt • Zielsetzung • Was macht einen Wiedereintritt aus? • Die Probleme an eine Steuerung • Das Differentialspiel als Lösung • Das robuste Differentialspiel • Der Kontrollprozess (Kinematik Equation) • Die Nebenbedingungen • Robust-Optimalität • Die Isaacs Gleichung (Main Equation II) • Neue Lösungsverfahren • „Open-Loop“-Verfahren • Bessere Verfahren
Gliederung • Neuronales Netz • Was ist ein künstliches neuronales Netz? • Das künstliche Neuron • Ideen für Funktionen eines Neurons • Approximierbarkeit • Praktische Realisierung • Gewichtselimination • Sigmoide Aktivierungsfunktionen • Praktische Approximation • Approximationsfehler • Gradient des Fehlers • Der Backpropagationsalgorithmus • Zusammenfassung
Zielsetzung • Finde eine automatische Steuerung,die einen Space Shuttle ähnlichen Gleitertrotz Auftretens von unvorhergesehen Ereignissen auf dem optimalen Weg sicher zurück zur Erde bringt. • Die Steuerung muss mit den an Bord zur Verfügung stehenden Mitteln in Echtzeit berechenbar sein.
Was macht einen Wiedereintritt aus? • Ziele: • Kontrollierter Abbau von hoher Bewegungs- und Lageenergie • Beibehalten der Flugstabilität und Steuerbarkeit • Alleinige Umwandelbarkeit der überschüssigen Energie durch Reibung, kein Antrieb • Randbedingungen: • Hitze außen und innen • Druck auf den Shuttlerahmen • Tragflächenbelastung • Fluglage bei hoher Geschwindigkeit
Die Probleme an eine Steuerung • „Robust-Optimalität“: • Ungenauigkeiten bei der Modellierung • Unvorhersehbare bzw. nicht-messbare Einflüsse • Berechenbarkeit • Ionisierung der Luft verhindert Funkkontakt zur Bodenstation • Echtzeit • Die Daten werden sofort benötigt • Zufall • Alle Größen sind abhängig vom Luftdruck, welcher in sehr großer Höhe unvorhersehbar schwankt und nicht messbar ist
Das Differentialspiel als Lösung • Problem: Finde Wiedereintrittsflugbahn trotz stark schwankender Größe des Luftdrucks p(h) • Idee: Betrachte „worst case“: Wenn selbst bei einem „planmäßig bösartig“ handelnden Luftdruck eine Steuerung zum Wiedereintritt gefunden werden kann, so sollte dies bei einem zufällig handelnden Luftdruck erst recht möglich sein • Lösung: Betrachte Luftdruck und Shuttle als zwei Spieler in einem Differentialspiel
Der Kontrollprozess Dem Differentialspiel soll folgende Mechanik zugrunde liegen: mit: z: Spielzustand, State Variable u: Kontrollvariable Spieler I, Control Variable w: Unbekannt, nicht messbar, Schwankung, Modellfehler oder Kontrollvariable Spieler II
Die Nebenbedingungen Folgende Bedingungen sollen zusätzlich erfüllt werden: • Eine Steuerung u(z) heißt genau dann zulässig, wenn • Eine Steuerung w(z) heißt genau dann zulässig, wenn
Robust-Optimalität Menge aller kontrollierbaren Zustände: Performance-Index zur Leistungsmessung des Spielers: Eine zulässige Steuerung u*(z) heißt robust-optimal genau dann, wenn: Für z aus Scsei unter Benutzung eines robust-optimalen u* die Auszahlung (Value) definiert als:
Die Isaacs Gleichung Optimalitätskriterium: An differenzierbaren Stellen des Values ergibt sich für u* die Optimalitätsbedingung: Dies wird bei Isaacs als Main Equation II bezeichnet Herkömmliches Differentialspiel dadurch nach Betrachten der singulären Hyperebenen lösbar durch multiple Shooting und Rückwärtsdifferentieren Robustes Differentialspiel: w: Schwankung, Unbekannt oder Modellfehler
Neue Lösungsverfahren • Problem:w wird nicht optimal, sondern zufällig gewählt • Ansatz:Diskretisiere die Zeit • Lösung: Rückkopplungssteuerung • Bestimme derzeitigen Spielzustand z • Löse Isaacs-Gleichung für z und benutze so gewonnenes u als Steuerung • Verbleibe bei u als Steuerung für selbst gewähltes Zeitintervall • Gehe zu 1.
Bessere Verfahren • Problem: • In jedem Schritt muss das RWP der Isaacs-Gleichung neu gelöst werden • Bei realistischer Mechanik nicht in Echtzeit zu bewerkstelligen • Idee: • Berechne so viel wie möglich im Voraus • Interpolation der Pfadfunktion Neuronales Netz
Was ist ein künstliches neuronales Netz? • Abbildung eines Eingabevektors x unter Berücksichtigung eines Gewichtsvektors (w,q) auf Ausgabevektor y • Gerichteter, gewichteter Graph • Knoten: künstliche Neuronen, Funktionen • Funktionskomposition • Nicht-linear
Das künstliche Neuron • Gewichten und Aggregieren aller Eingaben: • Eingabewert netj (t): • Grad der Aktivierung aj (t): • Ausgabe oj (t):
Ideen für Funktionen eines Neurons • Eingabefunktion: • Aktivierungsfunktion: • Ausgabefunktion
Approximierbarkeit, Behauptung Jede stetige, nicht konstante Funktion f ist durch ein (mehrschichtiges) neuronales Netz beliebig genau approximierbar
Approximierbarkeit, Beweisskizze Stetige, nicht konstante Funktionen sind beliebig genau durch Treppenfunktionen approximierbar (WT1)
Approximierbarkeit, Beweisskizze Definiere Neuronen der ersten Schicht als: Definiere Neuronen der zweiten Schicht als: Mit w 1-Matrix und q 0-Vektor gilt dann: Damit gilt die Behauptung
Praktische Realisierung • Beweis liefert nur begrenzten Bezug zur Anwendbarkeit: • I im Allgemeinen sehr groß • Bei Steigerung der Genauigkeit müssen Schichten neu gestaltet werden • Gewichte werden kaum beachtet • Für Anwendung in Praxis: • Netzarchitektur vereinfachen • Netz differenzierbar gestalten
o1 q w1j o1 o2 w2j w1j nj w2j w3j o2 nj o3 -q w3j 1 o3 Gewichtselimination Gilt für die Aktivierungsfunktion: So können die Schwellwerte q als Gewichte w aufgefasst werden:
Sigmoide Aktivierungsfunktionen • Problem:Indikatorfunktion macht das Netz nicht-differenzierbar • Substituiere Indikatorfunktion durch sigmoide Funktion fsig: • fsig ist streng monoton steigend • Grenzwert ist +/- 1 • Üblich:tanh oder 2/p arctan
Praktische Approximation • Sei I Menge mit den zu approximierenden Punktepaaren • Zufälliges Aufteilen von I in Trainings- und Validierungsmenge
Approximationsfehler • Für beliebige differenzierbare Metrik definiere: • Lernproblem mit Gradientenabstiegsverfahren:
Gradient des Fehlers • Bei Verwendung der 2-Norm ergibt sich: • Idee zur Berechnung der Ableitung des neuronalen Netzes:
Der Backpropagationsalgorithmus • Initialisierung: Wähle wij zufällig • Feedforward: wähle z aus IT zufällig, berechne Ausgabewerte yi schichtweise und speichere die Ableitung sj der Neuronen • Backpropagation: Traversiere das Netz rückwärts mit der Eingabe zi-yi. Berechne rückwärtigen Fehler d in Ausgabeschicht und verdeckten Schichten: • Korrigiere Netzgewichte: • Gehe zu 2.
Zusammenfassung • physikalische und technische Gegebenheiten verlangen die Berücksichtigung zufälliger Luftdruckschwankungen. • Dem Luftdruck wird planmäßiges Handeln zu Grunde gelegt und als Gegenspieler eines Differentialspieles aufgefasst • Lösung als Open-Loop ist nicht echtzeitfähig. • Das Neuronale Netz zur Approximation • Anlernen des Netzes mit Backpropagation