Fairness Constraints and Reward Manipulation in Stochastic Multi-Armed Bandits

Κονταλέξη, Μαρίνα

Εθνικό Μετσόβιο Πολυτεχνείο

Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών

Καλώς ήρθατε στο Άρτεμις

Σκοπός του Άρτεμις είναι η συστηματική αρχειοθέτηση και διαδοση της πνευματικής παραγωγής της Σχολής Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών του Εθνικού Μετσόβιου Πολυτεχνείου, με τη βοήθεια της τεχνολογίας των ψηφιακών βιβλιοθηκών.

Παρακαλώ χρησιμοποιήστε αυτό το αναγνωριστικό για να παραπέμψετε ή να δημιουργήσετε σύνδεσμο προς αυτό το τεκμήριο: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/19143

Πλήρες αρχείο μεταδεδομένων

Πεδίο DC	Τιμή	Γλώσσα
dc.contributor.author	Κονταλέξη, Μαρίνα	-
dc.date.accessioned	2024-07-08T07:25:05Z	-
dc.date.available	2024-07-08T07:25:05Z	-
dc.date.issued	2024-06-12	-
dc.identifier.uri	http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/19143	-
dc.description.abstract	Η παρούσα διπλωματική μελετά το multi-armed bandit πρόβλημα με στοχαστικές ανταμοιβές, όπου ένας learner παίζει ένα σειριακό παιχνίδι με ένα περιβάλλον για T γύρους. Σε κάθε γύρο, ο learner διαλέγει ένα από τα K "χέρια" μίας μηχανής slot και λαμβάνει μία ανταμοιβή που προέρχεται από κάποια στοχαστική κατανομή. Ο στόχος του learner είναι να παίξει όσο καλά θα έπαιζε η καλύτερη στρατηγική (δηλαδή η βέλτιστη γνωρίζοντας όλες τις κατανομές μέχρι τον τρέχοντα γύρο). Οι βέλτιστοι αλγόριθμοι εγγυώνται πως το regret του learner είναι φραγμένο από O(\sqrt{KT}), το οποίο είναι το καλύτερο δυνατό φράγμα σύμφωνα με τη θεωρία πληροφορίας. Οι Joseph et al. [1] επιβάλλουν έναν επιπλέον περιορισμό δικαιοσύνης στον learner, που δεν του επιτρέπει να ευνοήσει ένα "χέρι" έναντι ενός άλλου εκτός εάν είναι σίγουρος για τη σχετική τους σύγκριση. Η εργασία μας προτείνει μία ε-χαλάρωση του ορισμού τους και έναν δίκαιο αλγόριθμο που πετυχαίνει eO(\sqrt{1/\varepsilon} \sqrt({KT}) regret. Οι εφαρμογές όπου έχει νόημα αυτός ο περιορισμός (όπως τα recommendation systems) είναι ευ- αίσθητες σε ανταγωνιστικές επιθέσεις (π.χ., ψεύτικες κριτικές), γι’ αυτόν τον λόγο παρουσιάζουμε πώς συμπεριφέρονται γνωστοί αλγόριθμοι σε αυτό το μοντέλο και φιλοδοξούμε να καταλάβουμε τη σχέση ανάμεσα στους δίκαιους αλγόριθμους και σε αυτούς που είναι ανεκτικοί στις παραπάνω επιθέσεις.	en_US
dc.language	en	en_US
dc.subject	online learning	en_US
dc.subject	regret	en_US
dc.subject	multi-armed bandits	en_US
dc.subject	fairness	en_US
dc.subject	strategic manipulation	en_US
dc.subject	adversarial corruption	en_US
dc.title	Fairness Constraints and Reward Manipulation in Stochastic Multi-Armed Bandits	en_US
dc.description.pages	69	en_US
dc.contributor.supervisor	Φωτάκης Δημήτριος	en_US
dc.department	Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών	en_US
Εμφανίζεται στις συλλογές:	Διπλωματικές Εργασίες - Theses

Αρχεία σε αυτό το τεκμήριο:

Αρχείο	Περιγραφή	Μέγεθος	Μορφότυπος
Thesis.pdf		1.24 MB	Adobe PDF	Εμφάνιση/Άνοιγμα

Δείξε τη σύντομη περιγραφή του τεκμηρίου

Όλα τα τεκμήρια του δικτυακού τόπου προστατεύονται από πνευματικά δικαιώματα.