Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/19274
Full metadata record
DC FieldValueLanguage
dc.contributor.authorΣινανάι, Έραλντ-
dc.date.accessioned2024-09-25T06:59:09Z-
dc.date.available2024-09-25T06:59:09Z-
dc.date.issued2024-09-24-
dc.identifier.urihttp://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/19274-
dc.description.abstractΣτην παρούσα διπλωματική εργασία μελετάμε το πρόβλημα των Multi Armed Bandits (MAB), το οποίο αφορά την άμεση μάθηση σε περιβάλλοντα περιορισμένης ανάδρασης. Το πρώτο μέρος της διπλωματικής αφορά τη στοχαστική μορφή του προβλήματος. Διάφοροι αλγόριθμοι έχουν προταθεί και μελετηθεί για αυτό το πρόβλημα, μερικοί πιο απλοί και ’μη προσαρμοστικοί’, ενώ άλλοι πιο ισχυροί, αλλά πιο περίτεχνοι. Μελετάμε τους σημαντικότερους από αυτούς και αναλύουμε την απόδοση τους μέσω της μετρικής της ’μετάνοιας’ (regret), αποδεικνύοντας εγγύησεις με υψηλή πιθανότητα (high probability regret guarantees). Ακόμα, μελετάμε τον αλγόριθμο UCBV που εκτιμάει πέρα από τη μέση τιμή και την διασπορά κάθε ενέργειας. Αυτό οδηγεί σε βελτιωμένη εγγύηση όταν οι ενέργειες είναι πιο στατικές, παράλληλα εξασφαλίζοντας την εγγύηση των σχεδόν βέλτιστων αλγορίθμων που διατηρούν μόνο εκτιμήσεις μέσης τιμής. Ταυτόχρονα, αποδεικνύουμε αυτό το αποτέλεσμα με μια σημαντικά απλούστερη ανάλυση από αυτή στην αρχική δημοσίευση. Στο δεύτερο μέρος μελετάμε το πρόβλημα των ανταγωνιστικών MAB (Adversarial MAB), όπου δεν κάνουμε καμία στατιστική υπόθεση. Αρχικά μελετάμε το πρόβλημα του Online Learning για να κατανοήσουμε στην πορεία τον ευρέως γνωστό αλγόριθμο Exp3. Στη συνέχεια εστιάζουμε στο πρόβλημα των Στοχαστικών MAB υπό ανταγωνιστικές αλλοιώσεις (Adversarially Corrupted MABs). Σε αυτό το πρόβλημα το υποκείμενο περιβάλλον είναι στοχαστικό, αλλά κάποιος ανταγωνιστής μπορεί να αλλοιώσει τις ανταμοιβές πριν παρατηρηθούν. O πρώτος αλγόριθμος που μελετάμε σε αυτό το πρόβλημα εξασφαλίζει σχεδόν βέλτιστη εγγυήση μετάνοιας στο αμιγώς στοχαστικό περιβάλλον η οποία μεταβάλλεται ομαλά με την αύξηση της σωρευτικής αλλοίωσης. Ακόμη, μελετάμε τον αλγόριθμο BARBAR ο οποίος επιτυγχάνει σημαντικά καλύτερη εγγύηση. Τέλος, βασισμένοι σε αυτόν παρουσιάζουμε έναν αλγόριθμο ο οποίος χρησιμοποιεί επιπλέον εκτιμήσεις διασποράς των ανταμοιβών, σε μια προσπάθεια να επιτύγχουμε μετάνοια η οποία μεταβάλλεται ομαλά από αυτό που εξασφαλίζει ο UCBV σε στοχαστικό περιβάλλον. Πράγματι, αποδεικνύουμε ότι ο αλγόριθμος μας εξασφαλίζει σχεδόν όμοια εγγύηση μετάνοιας σε αμιγώς στοχαστικό περιβάλλον, αλλά ένα παράδειγμα οικογενειών στιγμιοτύπων δείχνει ότι ο αλγόριθμος στην τωρινή μορφή του δεν μπορεί να επιτύχει τα επιθυμητά αποτελέσματα.en_US
dc.languageelen_US
dc.subjectΠεριορισμένη Ανάδρασηen_US
dc.subjectΔιαδοχική Λήψη Αποφάσεων Υπό Αβεβαιότηταen_US
dc.subjectΜετάνοιαen_US
dc.subjectΑνταγωνιστική Μάθησηen_US
dc.subjectΑνταγωνιστική Αλλοίωσηen_US
dc.subjectΕκτίμηση Μέσης Τιμήςen_US
dc.subjectΕκτίμηση Διασποράςen_US
dc.titleΑξιοποίηση Εκτιμήσεων Διασποράς σε Στοχαστικά MAB Προβλήματα με Αλλοιωμένες Ανταμοιβέςen_US
dc.description.pages93en_US
dc.contributor.supervisorΦωτάκης Δημήτριοςen_US
dc.departmentΤομέας Τεχνολογίας Πληροφορικής και Υπολογιστώνen_US
Appears in Collections:Διπλωματικές Εργασίες - Theses

Files in This Item:
File Description SizeFormat 
thesis.pdf1.05 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.