Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/17965
Title: Εκμάθηση δεξιοτήτων ρομποτικού χειρισμού συνδυάζοντας δεδομένα επίδειξης και τεχνικές ενισχυτικής μάθησης
Authors: Κοτσόβολης, Στυλιανός
Τζαφέστας Κωνσταντίνος
Keywords: Ρομποτικός χειρισμός
Επιδέξιος χειρισμός εσωτερικής λαβής
Ενισχυτική μάθηση
Μάθηση από δεδομένα επίδειξης
Παρακολούθηση τροχιάς
Ανάδραση δυνάμεων επαφής
Τηλεχειρισμός
Issue Date: 24-Jun-2021
Abstract: Αντικείμενο της παρούσας διπλωματικής εργασίας είναι η ανάπτυξη μεθόδου επιδέξιου εσωτερικού (in-hand) ρομποτικού χειρισμού αντικειμένων, χρησιμοποιώντας ενισχυτική μάθηση και δεδομένα επίδειξης. Η έρευνα ξεκινά από το πρόβλημα της στοχαστικής βελτιστοποίησης αποφάσεων σε περιβάλλοντα με άγνωστη δυναμική, με την βοήθεια της ενισχυτικής μηχανικής μάθησης. Στη συνέχεια, μελετάμε μεθόδους χρήσης δεδομένων επίδειξης, με σκοπό τη βελτίωση της επίδοσης της ενισχυτικής μάθησης και τη μίμηση της ανθρώπινης συμπεριφοράς. Επικεντρωνόμαστε στο πρόβλημα της χωρίς μοντέλο μάθησης (model-free learning) συμπεριφορών in-hand χειρισμού αντικειμένων στα οποία είναι επιθυμητή η παρακολούθηση τροχιών των μεγεθών του και ο έλεγχος της ασκούμενης δύναμης στο αντικείμενο. Για τον σκοπό αυτό προτείνεται ένας νευρο-ελεγκτής, ο οποίος εκπαιδεύεται αρχικά με επιβλεπόμενη μάθηση από τα δεδομένα επίδειξης και στη συνέχεια με ενισχυτική μάθηση ώστε να βελτιστοποιηθεί περαιτέρω ως προς την ζητούμενη συμπεριφορά. Συγκεκριμένα, χρησιμοποιούμε ένα μοντέλο δράστη-κριτή (actor-critic) με αναπαραστάσεις νευρωνικών δικτύων για μία γκαουσιανή πολιτική και μία συνάρτηση αξίας, τα οποία εκπαιδεύονται κατά την ενισχυτική μάθηση με μία μέθοδο βελτιστοποίησης πολιτικής βάσει περιοχών εμπιστοσύνης. Χρησιμοποιούμε, εκτός των πληροφοριών των διατάξεων ρομπότ και αντικειμένου και τις δυνάμεις αλληλεπίδρασης μεταξύ τους, ως κύρια πληροφορία διατήρησης της ζητούμενης εσωτερικής λαβής επαφής αλλά και με στόχο τον έλεγχο των δυνάμεων που αναπτύσσονται. Εφαρμόζουμε πειραματικά την μέθοδο στο πρόβλημα λαβής και ανύψωσης αντικειμένου υπό συγκεκριμένη επιθυμητή τροχιά ύψους και προσανατολισμού από το ανθρωπομορφικό ρομποτικό χέρι ADROIT στο περιβάλλον προσομοίωσης Mujoco, με την βοήθεια δεδομένων επίδειξης που λαμβάνονται με τηλεχειρισμό του ρομπότ, χρησιμοποιώντας τον αισθητήρα Leap Motion. Τα αποτελέσματα των πειραμάτων επιβεβαιώνουν την μέθοδο που προτείνουμε, αναδεικνύοντας τις δυνατότητες γενίκευσης της τροχιάς που έχει μάθει το σύστημα σχετικά με τον χρόνο και το τελικό ύψος ανύψωσης, ενώ παράλληλα επικυρώνουν την συμβολή των δεδομένων επίδειξης στην απόδοση της μάθησης και των αισθητήρων δύναμης στην επιτυχία της ζητούμενης λαβής.
URI: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/17965
Appears in Collections:Διπλωματικές Εργασίες - Theses

Files in This Item:
File Description SizeFormat 
thesis_kotsovolis.pdf4.02 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.