Σχεδιασμός και ανάπτυξη μηχανισμού επιβράβευσης μέσω Blockchain για ενισχυτική μάθηση (Reinforcement Learning)

Davarakis, Theodoros-Thirimachos

Εθνικό Μετσόβιο Πολυτεχνείο

Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών

Καλώς ήρθατε στο Άρτεμις

Σκοπός του Άρτεμις είναι η συστηματική αρχειοθέτηση και διαδοση της πνευματικής παραγωγής της Σχολής Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών του Εθνικού Μετσόβιου Πολυτεχνείου, με τη βοήθεια της τεχνολογίας των ψηφιακών βιβλιοθηκών.

Παρακαλώ χρησιμοποιήστε αυτό το αναγνωριστικό για να παραπέμψετε ή να δημιουργήσετε σύνδεσμο προς αυτό το τεκμήριο: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/17690

Τίτλος:	Σχεδιασμός και ανάπτυξη μηχανισμού επιβράβευσης μέσω Blockchain για ενισχυτική μάθηση (Reinforcement Learning)
Συγγραφείς:	Davarakis, Theodoros-Thirimachos Βαρβαρίγου Θεοδώρα
Λέξεις κλειδιά:	Blockchain, Ethereum, Smart contracts, Machine Learning, Reinforcement Learning, Imitation Learning, ML-Agents
Ημερομηνία έκδοσης:	29-Ιου-2020
Περίληψη:	Ο συνδυασμός της μηχανικής μάθησης με την τεχνολογία blockchain αποτελεί μία δύσκολη, απαιτητική αλλά και προκλητική διαδικασία. Ο χώρος έρευνας και πρακτικής υλοποίησης που ανοίγεται είναι ευρύτατος και υπό εξερεύνηση. Η κάθε μία τεχνολογία μπορεί να αντιμετωπίσει τα κενά της άλλης. Η μηχανική μάθηση μπορεί να χρησιμοποιήσει δεδομένα που είναι αποθηκευμένα σε Blockchain και σε κατανεμημένη υπολογιστική ισχύ. Με την σειρά του το Blockchain μπορεί να χρησιμοποιήσει την μηχανική μάθηση για να κεφαλαιοποιήσει δεδομένα που ελέγχονται από χρήστες ή/και να δημιουργήσει marketplaces για μοντέλα μηχανικής μάθησης. Στα πλαίσια της εργασίας προτείνεται ένας συνδυασμός της τεχνολογίας μηχανικής μάθησης και πιο συγκεκριμένα της ενισχυτικής μάθησης (reinforcement learning) και της μάθησης με απομίμηση (imitation learning) με την τεχνολογία blockchain. Η ενισχυτική μάθηση δίνει την δυνατότητα σε έναν software agent να αλληλοεπιδρά με το περιβάλλον του και να μαθαίνει - μέσω της διαδικασίας μαθαίνω από τα λάθη (trial and error) - βασιζόμενος αποκλειστικά στις δικές του ενέργειες, εμπειρίες και παρατηρήσεις. Ο software agent μαθαίνει μέσω της επιβράβευσης / αποθάρρυνσης που δέχεται από το περιβάλλον του. Ο σχεδιασμός του μηχανισμού επιβράβευσης είναι σημαντικός και σε πολύπλοκα συστήματα πραγματικά πολύ δύσκολος. Η πρόταση που γίνεται στα πλαίσια αυτής της εργασίας περιλαμβάνει τις έννοιες του άρτια εκπαιδευμένου software agent (Trainer agent) ο οποίος καταγράφει την συμπεριφορά του σε αρχεία επίδειξης (demo) και τα διαθέτει μέσω του blockchain σε άλλους software agents (Trainee agents) που αλληλοεπιδρούν σε ίδιο ή παρόμοιο περιβάλλον με αυτό του Trainer agent και θέλουν να εκπαιδευτούν. Η εκπαίδευση τους γίνεται με αλγορίθμους ενισχυτικής μάθησης (μέσω επιβράβευσης / αποθάρρυνσης) σε συνδυασμό με αλγορίθμους μάθησης με απομίμηση (μέσω αρχείων επίδειξης). Τα αρχεία επίδειξης ‘αποθηκεύονται΄ σε blockchain έξυπνα συμβόλαια (smart contracts) και στο τέλος, το blockchain επιβραβεύει τον Trainer agent ανάλογα με το πόσο βοήθησε στην βελτίωση των μοντέλων του Trainee agent.
URI:	http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/17690
Εμφανίζεται στις συλλογές:	Διπλωματικές Εργασίες - Theses

Αρχεία σε αυτό το τεκμήριο:

Αρχείο	Περιγραφή	Μέγεθος	Μορφότυπος
Thesis-29-07-2020.pdf		10.71 MB	Adobe PDF	Εμφάνιση/Άνοιγμα

Δείξε την πλήρη περιγραφή του τεκμηρίου

Όλα τα τεκμήρια του δικτυακού τόπου προστατεύονται από πνευματικά δικαιώματα.