Εκμάθηση δεξιοτήτων ρομποτικού χειρισμού συνδυάζοντας δεδομένα επίδειξης και τεχνικές ενισχυτικής μάθησης

Κοτσόβολης, Στυλιανός

National Technical University of Athens

School of Electrical and Computer Engineering

Artemis is Live!

Welcome to our digital repository! The aim of Artemis is the systematic archiving and dissemination of the scientific work produced in the School of Electrical and Computer Engineering, National Technical University of Athens, Greece, using the technology of digital libraries.

Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/17965

Title:	Εκμάθηση δεξιοτήτων ρομποτικού χειρισμού συνδυάζοντας δεδομένα επίδειξης και τεχνικές ενισχυτικής μάθησης
Authors:	Κοτσόβολης, Στυλιανός Τζαφέστας Κωνσταντίνος
Keywords:	Ρομποτικός χειρισμός Επιδέξιος χειρισμός εσωτερικής λαβής Ενισχυτική μάθηση Μάθηση από δεδομένα επίδειξης Παρακολούθηση τροχιάς Ανάδραση δυνάμεων επαφής Τηλεχειρισμός
Issue Date:	24-Jun-2021
Abstract:	Αντικείμενο της παρούσας διπλωματικής εργασίας είναι η ανάπτυξη μεθόδου επιδέξιου εσωτερικού (in-hand) ρομποτικού χειρισμού αντικειμένων, χρησιμοποιώντας ενισχυτική μάθηση και δεδομένα επίδειξης. Η έρευνα ξεκινά από το πρόβλημα της στοχαστικής βελτιστοποίησης αποφάσεων σε περιβάλλοντα με άγνωστη δυναμική, με την βοήθεια της ενισχυτικής μηχανικής μάθησης. Στη συνέχεια, μελετάμε μεθόδους χρήσης δεδομένων επίδειξης, με σκοπό τη βελτίωση της επίδοσης της ενισχυτικής μάθησης και τη μίμηση της ανθρώπινης συμπεριφοράς. Επικεντρωνόμαστε στο πρόβλημα της χωρίς μοντέλο μάθησης (model-free learning) συμπεριφορών in-hand χειρισμού αντικειμένων στα οποία είναι επιθυμητή η παρακολούθηση τροχιών των μεγεθών του και ο έλεγχος της ασκούμενης δύναμης στο αντικείμενο. Για τον σκοπό αυτό προτείνεται ένας νευρο-ελεγκτής, ο οποίος εκπαιδεύεται αρχικά με επιβλεπόμενη μάθηση από τα δεδομένα επίδειξης και στη συνέχεια με ενισχυτική μάθηση ώστε να βελτιστοποιηθεί περαιτέρω ως προς την ζητούμενη συμπεριφορά. Συγκεκριμένα, χρησιμοποιούμε ένα μοντέλο δράστη-κριτή (actor-critic) με αναπαραστάσεις νευρωνικών δικτύων για μία γκαουσιανή πολιτική και μία συνάρτηση αξίας, τα οποία εκπαιδεύονται κατά την ενισχυτική μάθηση με μία μέθοδο βελτιστοποίησης πολιτικής βάσει περιοχών εμπιστοσύνης. Χρησιμοποιούμε, εκτός των πληροφοριών των διατάξεων ρομπότ και αντικειμένου και τις δυνάμεις αλληλεπίδρασης μεταξύ τους, ως κύρια πληροφορία διατήρησης της ζητούμενης εσωτερικής λαβής επαφής αλλά και με στόχο τον έλεγχο των δυνάμεων που αναπτύσσονται. Εφαρμόζουμε πειραματικά την μέθοδο στο πρόβλημα λαβής και ανύψωσης αντικειμένου υπό συγκεκριμένη επιθυμητή τροχιά ύψους και προσανατολισμού από το ανθρωπομορφικό ρομποτικό χέρι ADROIT στο περιβάλλον προσομοίωσης Mujoco, με την βοήθεια δεδομένων επίδειξης που λαμβάνονται με τηλεχειρισμό του ρομπότ, χρησιμοποιώντας τον αισθητήρα Leap Motion. Τα αποτελέσματα των πειραμάτων επιβεβαιώνουν την μέθοδο που προτείνουμε, αναδεικνύοντας τις δυνατότητες γενίκευσης της τροχιάς που έχει μάθει το σύστημα σχετικά με τον χρόνο και το τελικό ύψος ανύψωσης, ενώ παράλληλα επικυρώνουν την συμβολή των δεδομένων επίδειξης στην απόδοση της μάθησης και των αισθητήρων δύναμης στην επιτυχία της ζητούμενης λαβής.
URI:	http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/17965
Appears in Collections:	Διπλωματικές Εργασίες - Theses

Files in This Item:

File	Description	Size	Format
thesis_kotsovolis.pdf		4.02 MB	Adobe PDF	View/Open

Show full item record