Παρακαλώ χρησιμοποιήστε αυτό το αναγνωριστικό για να παραπέμψετε ή να δημιουργήσετε σύνδεσμο προς αυτό το τεκμήριο: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/17141
Τίτλος: Προσαρμοστική Ενισχυτική Μηχανική Μάθηση για την ανάπτυξη Ρομποτικών Δεξιοτήτων σε Δυναμικά Περιβάλλοντα
Συγγραφείς: Βελεντζάς, Γεώργιος
Τζαφέστας Κωνσταντίνος
Λέξεις κλειδιά: Ενισχυτική μηχανική μάθηση
Μαρκοβιανές διαδικασίες λήψης αποφάσεων
Μηχανές επιβράβευσης πολλαπλών επιλογών
Φίλτρο Kalman
Προσαρμοστικότητα
Δίλημμα εξερεύνησης-αξιοποίησης
Αλληλεπίδραση ανθρώπου-ρομπότ
Ημερομηνία έκδοσης: 22-Οκτ-2018
Περίληψη: Αντικείμενο της παρούσας διπλωματικής εργασίας είναι η ανάπτυξη νέων μεθόδων προσαρμοστικής ενισχυτικής μηχανικής μάθησης με κύριο πεδίο εφαρμογής την αλληλεπίδραση ανθρώπου-ρομπότ. Η έρευνα αυτή ξεκινάει από το θεμελιώδες πρόβλημα της στοχαστικής βελτιστοποίησης αποφάσεων σε μία κατάσταση, ένα πρόβλημα που είναι γνωστό στην παγκόσμια βιβλιογραφία ως multi-armed bandit task, ενώ θα αποδοθεί στην ελληνική γλώσσα ως μηχανή επιβράβευσης πολλαπλών επιλογών. Στη συνέχεια οι ιδέες αυτές επεκτείνονται σε χρονομεταβλητές μαρκοβιανές διαδικασίες λήψης αποφάσεων άγνωστης δομής, προσεγγίζοντας το δίλημμα εξερεύνησης-αξιοποίησης (exploration-exploitation) με τεχνικές εμπνευσμένες από τον τομέα των νευροεπιστημών. Το πρόβλημα εκτίμησης της βέλτιστης (δυναμικά εξελισσόμενης) αναλογίας εξερεύνησης-αξιοποίησης έχει μελετηθεί εκτενώς στη βιβλιογραφία από τα πεδία Μηχανικής Μάθησης και Υπολογιστικής Νευροεπιστήμης. Στην εργασία αυτή παρουσιάζεται αρχικά μία προσπάθεια για γεφύρωση των δύο κλάδων με την ανάπτυξη ενός υβριδικού αλγορίθμου, συνδυάζοντας βιολογικά εμπνευσμένη μεταμάθηση με φίλτρα Kalman και επιβραβεύσεις εξερεύνησης. Συγκρίνοντας την επιτευχθείσα απόδοση με αυτή σύγχρονων και επίκαιρων δυναμικών αλγορίθμων σε ένα σύνολο αριθμητικών προσομοιώσεων διαφορετικών σεναρίων, ο υβριδικός αλγόριθμος φαίνεται να συνδυάζει τα πλεονεκτήματα των μεθόδων και επιδεικνύει καλύτερη συμπεριφορά των προγενέστερων. Στη συνέχεια, προτείνεται ένας προσαρμοστικός αλγόριθμος ενισχυτικής μάθησης με παραμετροποιημένες διακριτές δράσεις και εμπλουτισμένος με στρατηγική ενεργής εξερεύνησης ανά κατάσταση. Η εφαρμοσιμότητά του επιδεικνύεται σε κλασσικά προβλήματα, όπως αυτό της πλοήγησης σε άγνωστο χάρτη, καθώς και με τη βελτιστοποίηση της αλληλεπίδρασης ρομπότ-παιδιού παράλληλα με την εκμάθηση επίλυσης του παζλ «ο πύργος του Ανόι».
URI: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/17141
Εμφανίζεται στις συλλογές:Διπλωματικές Εργασίες - Theses

Αρχεία σε αυτό το τεκμήριο:
Αρχείο Περιγραφή ΜέγεθοςΜορφότυπος 
VelentzasGeorgios_2018.pdf1.56 MBAdobe PDFΕμφάνιση/Άνοιγμα


Όλα τα τεκμήρια του δικτυακού τόπου προστατεύονται από πνευματικά δικαιώματα.