Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/17141
Full metadata record
DC FieldValueLanguage
dc.contributor.authorΒελεντζάς, Γεώργιος-
dc.date.accessioned2018-11-08T07:36:28Z-
dc.date.available2018-11-08T07:36:28Z-
dc.date.issued2018-10-22-
dc.identifier.urihttp://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/17141-
dc.description.abstractΑντικείμενο της παρούσας διπλωματικής εργασίας είναι η ανάπτυξη νέων μεθόδων προσαρμοστικής ενισχυτικής μηχανικής μάθησης με κύριο πεδίο εφαρμογής την αλληλεπίδραση ανθρώπου-ρομπότ. Η έρευνα αυτή ξεκινάει από το θεμελιώδες πρόβλημα της στοχαστικής βελτιστοποίησης αποφάσεων σε μία κατάσταση, ένα πρόβλημα που είναι γνωστό στην παγκόσμια βιβλιογραφία ως multi-armed bandit task, ενώ θα αποδοθεί στην ελληνική γλώσσα ως μηχανή επιβράβευσης πολλαπλών επιλογών. Στη συνέχεια οι ιδέες αυτές επεκτείνονται σε χρονομεταβλητές μαρκοβιανές διαδικασίες λήψης αποφάσεων άγνωστης δομής, προσεγγίζοντας το δίλημμα εξερεύνησης-αξιοποίησης (exploration-exploitation) με τεχνικές εμπνευσμένες από τον τομέα των νευροεπιστημών. Το πρόβλημα εκτίμησης της βέλτιστης (δυναμικά εξελισσόμενης) αναλογίας εξερεύνησης-αξιοποίησης έχει μελετηθεί εκτενώς στη βιβλιογραφία από τα πεδία Μηχανικής Μάθησης και Υπολογιστικής Νευροεπιστήμης. Στην εργασία αυτή παρουσιάζεται αρχικά μία προσπάθεια για γεφύρωση των δύο κλάδων με την ανάπτυξη ενός υβριδικού αλγορίθμου, συνδυάζοντας βιολογικά εμπνευσμένη μεταμάθηση με φίλτρα Kalman και επιβραβεύσεις εξερεύνησης. Συγκρίνοντας την επιτευχθείσα απόδοση με αυτή σύγχρονων και επίκαιρων δυναμικών αλγορίθμων σε ένα σύνολο αριθμητικών προσομοιώσεων διαφορετικών σεναρίων, ο υβριδικός αλγόριθμος φαίνεται να συνδυάζει τα πλεονεκτήματα των μεθόδων και επιδεικνύει καλύτερη συμπεριφορά των προγενέστερων. Στη συνέχεια, προτείνεται ένας προσαρμοστικός αλγόριθμος ενισχυτικής μάθησης με παραμετροποιημένες διακριτές δράσεις και εμπλουτισμένος με στρατηγική ενεργής εξερεύνησης ανά κατάσταση. Η εφαρμοσιμότητά του επιδεικνύεται σε κλασσικά προβλήματα, όπως αυτό της πλοήγησης σε άγνωστο χάρτη, καθώς και με τη βελτιστοποίηση της αλληλεπίδρασης ρομπότ-παιδιού παράλληλα με την εκμάθηση επίλυσης του παζλ «ο πύργος του Ανόι».en_US
dc.languageelen_US
dc.subjectΕνισχυτική μηχανική μάθησηen_US
dc.subjectΜαρκοβιανές διαδικασίες λήψης αποφάσεωνen_US
dc.subjectΜηχανές επιβράβευσης πολλαπλών επιλογώνen_US
dc.subjectΦίλτρο Kalmanen_US
dc.subjectΠροσαρμοστικότηταen_US
dc.subjectΔίλημμα εξερεύνησης-αξιοποίησηςen_US
dc.subjectΑλληλεπίδραση ανθρώπου-ρομπότen_US
dc.titleΠροσαρμοστική Ενισχυτική Μηχανική Μάθηση για την ανάπτυξη Ρομποτικών Δεξιοτήτων σε Δυναμικά Περιβάλλονταen_US
dc.description.pages123en_US
dc.contributor.supervisorΤζαφέστας Κωνσταντίνοςen_US
dc.departmentΤομέας Σημάτων, Ελέγχου και Ρομποτικήςen_US
Appears in Collections:Διπλωματικές Εργασίες - Theses

Files in This Item:
File Description SizeFormat 
VelentzasGeorgios_2018.pdf1.56 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.