Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/18797
Title: Reachability Analysis Optimal Control
Authors: Κωστόπουλος, Κωνσταντίνος
Ψυλλάκης Χαράλαμπος
Keywords: Βέλτιστος Έλεγχος
Ενισχυτική Μάθηση
Hamilton-Jacobi Reachability
Q-Learning
Reachability Decomposition
Actor-Critic
Issue Date: 12-Sep-2023
Abstract: Αυτή η διπλωµατική διερευνά το Βέλτιστο ΄Ελεγχο (Optimal Control) µέσω Ανάλυσης Προσπελασιµότητας (Reachability Analysis). Αποσαφηνίζει κατάρχάς τα ϐασικά στοιχεία του ϐέλτιστου ελέγχου και την αξία που προσδίδει στον έλεγχο συστηµάτων. Συνεχίζει µε ϑεωρία και εφαρµογές στα Προσπελάσιµα Συνόλα (Reachable Sets), καθώς και στη χρήση του δυναµικού προγραµµατισµού στην Reach-Avoid ανάλυση, µια µέθοδο επίλυσης προβληµάτων ϐέλτιστου ελέγχου µε στόχο την επίτευξη ενός στόχου µε παράκαµψη εµποδίων. Συζητείται επίσης η έννοια της Αποσύνθεσης Προσπελασιµότητας (Reachability Decomposition), η οποία απλοποιεί τα προβλήµατα προσπελασιµότητας υψηλών διαστάσεων. Η µελέτη εφαρµόζει αυτές τις ϑεωρίες σε ένα σύστηµα quadrotor 6 διαστάσεων, συγκρίνοντας τα αποτελέσµατα της παραδοσιακής ανάλυσης προσπελασιµότητας µε την αποσύνθεση προσπελασιµότητας, αναδεικνύοντας την αποτελεσµατικότητα της τελευταίας. Στη συνέχεια, διερευνά πώς η Ενισχυτική Μάθηση (RL), µια τεχνική µηχανικής µάθησης λήψης αποφάσεων, µπορεί να ενσωµατωθεί στην Ανάλυση Προσπελασιµότητας. Παρουσιάζεται η προσοµοίωση ενός συστήµατος 6∆ σεληνιακής προσεδάφισης, µε τη χρήση RL Reachability Analysis και RL Reachability Decomposition. Τα ευρήµατα αναδεικνύουν τα πλεονεκτήµατα και τα µειονεκτήµατα κάθε µεθόδου. Στο κύριο µέρος αυτής της διατριβής, χρησιµοποιούµε την ανάλυση προσπελασιµότητας για να επινοήσουµε ένα zero-sum game µε model-free, actor-critic Q-learning προσέγγιση για τον υπολογισµό προσπελάσιµων συνόλων σε γραµµικά ή γραµµικοποιήσιµα συστήµατα, ακόµη και παρουσία διαταραχών. Αρχικά παρουσιάζουµε το δίκτυο κριτικών (critic network) που χρησιµοποιείται στην προσέγγισή µας, το οποίο αποτελείται από έναν κριτικό και δύο ηθοποιούς : έναν για τον ελεγκτή και έναν για τη διαταραχή. Στη συνέχεια, εισάγουµε µια επαυξηµένη κατάσταση που ξαναγράφει τη συνάρτηση πλεονεκτήµατος που εξαρτάται από τη δράση των προϐληµάτων προσπελασιµότητας σε συµπαγή µορφή. Στη συνέχεια, σχεδιάζουµε έναν αλγόριθµο που προσεγγίζει τη ϐέλτιστη πολιτική, υπολογίζει το προσβάσιµο σύνολο και είναι ϐελτιστοποιηµένος ως προς τη χρονική πολυπλοκότητα. Τέλος, δείχνουµε την αποτελεσµατικότητα του πλαισίου µας µέσω παραδειγµάτων προσοµοίωσης.
URI: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/18797
Appears in Collections:Διπλωματικές Εργασίες - Theses

Files in This Item:
File Description SizeFormat 
DiplomaThesisKostopoulos03117043.pdf2.13 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.