Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/18126
Full metadata record
DC FieldValueLanguage
dc.contributor.authorΒλαχογιαννόπουλος, Μάριος-
dc.date.accessioned2021-11-02T09:11:31Z-
dc.date.available2021-11-02T09:11:31Z-
dc.date.issued2021-11-01-
dc.identifier.urihttp://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/18126-
dc.description.abstractΑντικείμενο της διπλωματικής εργασίας είναι η εξέταση μεθόδων εξερεύνησης μέσω μπόνους περιέργειας στο πλαίσιο αλγορίθμων βαθιάς ενισχυτικής μάθησης σε περιβάλλοντα βιντεοπαιχνιδιών Atari. Το πρόβλημα της εκμετάλλευσης-εξερεύνησης είναι κεντρικό στο πεδίο της ενισχυτικής μάθησης και αφορά την εξισορρόπηση της εκμετάλλευσης των καλύτερων πολιτικών που έχουν βρεθεί να αποδίδουν υψηλές επιστροφές και της εξερεύνησης του χώρου καταστάσεων-δράσεων για ανακάλυψη πιθανώς καλύτερων αποδοχών. Χρησιμοποιούμε τεχνικές που βασίζονται στη παραγωγή ενός σήματος ανταμοιβής περι έργειας και την υπέρθεση αυτού στο σήμα ανταμοιβής που δίνει το περιβάλλον, με σκοπό να επιτύχουμε εξερεύνηση καταστάσεων που παρουσιάζουν ενδιαφέρον. Το ενδιαφέρον των καταστάσεων μπορεί να μοντελοποιηθεί είτε μέσω της δυναμικής είτε μέσω της καινοτομίας της κατάστασης. Οι μέθοδοι δυναμικής ορίζουν το ενδιαφέρον μιας κατάστασης ως την αδυναμία πρόβλεψης της κατάστασης δεδομένης της προηγούμενης κατάστασης και της δράσης που επιλέχθηκε. Οι μέθοδοι καινοτομίας αφορούν την ανίχνευση καταστάσεων που ο πράκτορας δεν έχει επισκεφθεί στο παρελθόν. Τέλος, μελετάμε την ικανότητα πρακτόρων να επιτύχουν υψηλές επιστροφές χρησιμοποιώντας μόνο το σήμα εξερεύνησης, μηδενίζοντας το σήμα ανταμοιβής που προέρχεται από το περιβάλλον.en_US
dc.languageelen_US
dc.subjectΔυναμικός Προγραμματισμόςen_US
dc.subjectΕνισχυτική Μάθησηen_US
dc.subjectΝευρωνικά Δίκτυαen_US
dc.subjectΠράκτορες Κριτή-Δράστηen_US
dc.subjectΕξερεύνησηen_US
dc.subjectΠεριέργειαen_US
dc.subjectΚαινοτόμες καταστάσειςen_US
dc.subjectΠρόβλεψη Δυναμικής Περιβάλλοντοςen_US
dc.titleΒαθιά ενισχυτική μάθηση με χρήση μεθόδων εξερεύνησης βασισμένων σε σήμα ανταμοιβής περιέργειαςen_US
dc.description.pages85en_US
dc.contributor.supervisorΣταφυλοπάτης Ανδρέας-Γεώργιοςen_US
dc.departmentΤομέας Τεχνολογίας Πληροφορικής και Υπολογιστώνen_US
Appears in Collections:Διπλωματικές Εργασίες - Theses

Files in This Item:
File Description SizeFormat 
diploma_thesis_MariosVlachogiannopoulos.pdf1.08 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.