Σχεδιασμός και ανάπτυξη μηχανισμού επιβράβευσης μέσω Blockchain για ενισχυτική μάθηση (Reinforcement Learning)

Davarakis, Theodoros-Thirimachos

National Technical University of Athens

School of Electrical and Computer Engineering

Artemis is Live!

Welcome to our digital repository! The aim of Artemis is the systematic archiving and dissemination of the scientific work produced in the School of Electrical and Computer Engineering, National Technical University of Athens, Greece, using the technology of digital libraries.

Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/17690

Title:	Σχεδιασμός και ανάπτυξη μηχανισμού επιβράβευσης μέσω Blockchain για ενισχυτική μάθηση (Reinforcement Learning)
Authors:	Davarakis, Theodoros-Thirimachos Βαρβαρίγου Θεοδώρα
Keywords:	Blockchain, Ethereum, Smart contracts, Machine Learning, Reinforcement Learning, Imitation Learning, ML-Agents
Issue Date:	29-Jul-2020
Abstract:	Ο συνδυασμός της μηχανικής μάθησης με την τεχνολογία blockchain αποτελεί μία δύσκολη, απαιτητική αλλά και προκλητική διαδικασία. Ο χώρος έρευνας και πρακτικής υλοποίησης που ανοίγεται είναι ευρύτατος και υπό εξερεύνηση. Η κάθε μία τεχνολογία μπορεί να αντιμετωπίσει τα κενά της άλλης. Η μηχανική μάθηση μπορεί να χρησιμοποιήσει δεδομένα που είναι αποθηκευμένα σε Blockchain και σε κατανεμημένη υπολογιστική ισχύ. Με την σειρά του το Blockchain μπορεί να χρησιμοποιήσει την μηχανική μάθηση για να κεφαλαιοποιήσει δεδομένα που ελέγχονται από χρήστες ή/και να δημιουργήσει marketplaces για μοντέλα μηχανικής μάθησης. Στα πλαίσια της εργασίας προτείνεται ένας συνδυασμός της τεχνολογίας μηχανικής μάθησης και πιο συγκεκριμένα της ενισχυτικής μάθησης (reinforcement learning) και της μάθησης με απομίμηση (imitation learning) με την τεχνολογία blockchain. Η ενισχυτική μάθηση δίνει την δυνατότητα σε έναν software agent να αλληλοεπιδρά με το περιβάλλον του και να μαθαίνει - μέσω της διαδικασίας μαθαίνω από τα λάθη (trial and error) - βασιζόμενος αποκλειστικά στις δικές του ενέργειες, εμπειρίες και παρατηρήσεις. Ο software agent μαθαίνει μέσω της επιβράβευσης / αποθάρρυνσης που δέχεται από το περιβάλλον του. Ο σχεδιασμός του μηχανισμού επιβράβευσης είναι σημαντικός και σε πολύπλοκα συστήματα πραγματικά πολύ δύσκολος. Η πρόταση που γίνεται στα πλαίσια αυτής της εργασίας περιλαμβάνει τις έννοιες του άρτια εκπαιδευμένου software agent (Trainer agent) ο οποίος καταγράφει την συμπεριφορά του σε αρχεία επίδειξης (demo) και τα διαθέτει μέσω του blockchain σε άλλους software agents (Trainee agents) που αλληλοεπιδρούν σε ίδιο ή παρόμοιο περιβάλλον με αυτό του Trainer agent και θέλουν να εκπαιδευτούν. Η εκπαίδευση τους γίνεται με αλγορίθμους ενισχυτικής μάθησης (μέσω επιβράβευσης / αποθάρρυνσης) σε συνδυασμό με αλγορίθμους μάθησης με απομίμηση (μέσω αρχείων επίδειξης). Τα αρχεία επίδειξης ‘αποθηκεύονται΄ σε blockchain έξυπνα συμβόλαια (smart contracts) και στο τέλος, το blockchain επιβραβεύει τον Trainer agent ανάλογα με το πόσο βοήθησε στην βελτίωση των μοντέλων του Trainee agent.
URI:	http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/17690
Appears in Collections:	Διπλωματικές Εργασίες - Theses

Files in This Item:

File	Description	Size	Format
Thesis-29-07-2020.pdf		10.71 MB	Adobe PDF	View/Open

Show full item record