Please use this identifier to cite or link to this item:
http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/19107
Title: | Τεχνητή Νοημοσύνη για Παιχνίδια: Ανάπτυξη Πρακτόρων με χρήση Βαθιάς Μάθησης |
Authors: | Παπαγιάννης, Αναστάσιος Σταφυλοπάτης Ανδρέας-Γεώργιος |
Keywords: | Τεχνητή Νοημοσύνη Artificial Intelligence Βαθιά Μηχανική Μάθηση Deep Learning Ευφυείς Πράκτορες Intelligent Agents Νευρωνικά Δίκτυα Neural Networks Γενετικοί Αλγόριθμοι Genetic Algorithms Δενδρική Αναζήτηση Μόντε Κάρλο Monte Carlo Tree Search Τεχνικές Κλαδέματος Pruning Techniques Ενισχυτική Μάθηση Reinforcement Learning Γεννητική Επαύξηση Δεδομένων Generative Data Augmentation Ηλεκτρονικά Παιχνίδια Video Games |
Issue Date: | 26-Apr-2024 |
Abstract: | Η τεχνητή νοημοσύνη εξελίσσεται την τελευταία δεκαετία με ραγδαίο ρυθμό, διεισδύοντας σε ολοένα και περισσότερους επιστημονικούς κλάδους όπως η πληροφορική, η ιατρική, ακόμα και η εκπαίδευση. Η συνεχώς αυξανόμενη εφαρμογή της σε διαφορετικούς τομείς, αναμενόμενα συμβάλλει αφενός στη διαρκή ανάπτυξη σύγχρονων τεχνικών και αλγορίθμων, αφετέρου στον προσδιορισμό επιπλέον απαιτήσεων και στη δημιουργία νέων προκλήσεων για τον ευρύτερο κλάδο της τεχνητής νοημοσύνης. Ένα πεδίο το οποίο παρουσιάζει ιδιαίτερο ενδιαφέρον αφορά την εφαρμογή τέτοιων αλγορίθμων στο πλαίσιο των παιχνιδιών, τα περιβάλλοντα των οποίων προσφέρουν άμεση ανατροφοδότηση και συγχρόνως παρουσιάζουν διαφορετικές δυσκολίες και περιορισμούς. Στόχος της παρούσας διατριβής είναι η ανάπτυξη ευφυών πρακτόρων για ηλεκτρονικά παιχνίδια με τη χρήση τεχνητής νοημοσύνης και τεχνικών μηχανικής μάθησης. Υπό αυτό το πρίσμα, εξετάζονται οι επικρατέστερες επί του παρόντος τεχνικές, προτείνονται αλγόριθμοι και παρουσιάζονται μέθοδοι προκειμένου να αντιμετωπιστούν ορισμένες από τις κυριότερες προκλήσεις που εμφανίζονται. Στο πρώτο στάδιο της διατριβής εξετάστηκε η υλοποίηση πρακτόρων με βάση τους γενετικούς αλγορίθμους. Συγκεκριμένα, διερευνήθηκε η δυνατότητα να εφαρμοστούν ως αυτούσια τεχνική για την κωδικοποίηση των καταστάσεων του περιβάλλοντος και την τελική λήψη αποφάσεων από τον πράκτορα. Σε αυτό το πλαίσιο σχεδιάστηκε και μία νέα μέθοδος αναπαράστασης των καταστάσεων προκειμένου να μειωθεί ο χώρος καταστάσεων και να είναι εφικτή η υλοποίηση της προτεινόμενης προσέγγισης. Η λογική της αναπαράστασης βασίστηκε σε ένα μοτίβο Ν-πλειάδων από συντεταγμένες του χώρου προκειμένου να κωδικοποιηθούν οι καταστάσεις χρησιμοποιώντας τη λιγότερη δυνατή πληροφορία. Τα πειράματα που διενεργήθηκαν ανέδειξαν τη λειτουργικότητα της συγκεκριμένης τεχνικής κατατάσσοντάς την υψηλότερα από αντίστοιχες μεθόδους διαφορετικής προσέγγισης των εξελικτικών αλγορίθμων. Στη συνέχεια μελετήθηκε η συμπεριφορά ενός ευφυούς πράκτορα σε στοχαστικά περιβάλλοντα. Σε αυτήν την περίπτωση, ερευνήθηκε κατά κύριο λόγο ο αλγόριθμος δενδρικής αναζήτησης Μόντε Κάρλο που αποτελεί την προσέγγιση αιχμής για ένα μεγάλο υποσύνολο του ευρύτερου πεδίου της τεχνητής νοημοσύνης για παιχνίδια. Το πρώτο τμήμα που εξετάστηκε ήταν η βελτιστοποίηση του σταδίου κατά το οποίο γίνεται η αξιολόγηση των καταστάσεων που χρησιμοποιούνται στη συνέχεια από τον αλγόριθμο. Για το σκοπό αυτό, ένας ταξινομητής ακραίας ενίσχυσης κλίσης εκπαιδευμένος σε ειδικά σχεδιασμένο σύνολο δεδομένων, ενσωματώθηκε στον αλγόριθμο αυξάνοντας σε σημαντικό βαθμό την ακρίβεια αποτίμησης της αξίας καταστάσεων. Επιπλέον υλοποιήθηκε μία διαδικασία στοχαστικής αξιολόγησης των κόμβων του δέντρου αναζήτησης με στόχο την προσαρμογή του μοντέλου ανάλογα με το συντελεστή διακλάδωσης. Για την αποδοτικότερη εκμετάλλευση της πληροφορίας με βάση το βάθος των δέντρων, εφαρμόστηκε και μία τεχνική πρώιμης προσομοίωσης στα αρχικό στάδιο του αλγορίθμου που οδήγησε σε ισχυρότερες προβλέψεις του ταξινομητή. Ο συνδυασμός των παραπάνω μεθόδων οδήγησε σε μεγάλη αύξηση της απόδοσης του πράκτορα, που ξεπέρασε τον βέλτιστο αλγόριθμο που παρέχεται από το περιβάλλον στο οποίο δοκιμάστηκε. Έπειτα, αξιολογήθηκε η βελτιστοποίηση του σταδίου επιλογής του αλγορίθμου. Σε αυτό το πλαίσιο, η παραπάνω μεθοδολογία ενισχύθηκε επιπλέον με μία πρωτότυπη τεχνική κλαδέματος βασισμένη σε χρήση τεχνητών νευρωνικών δικτύων, προκειμένου να μειωθεί ο χώρος αναζήτησης. Στόχος είναι κατά τη διάρκεια του αλγορίθμου να αφαιρούνται από το σύνολο των ενεργειών προς εξέταση οι ενέργειες που δεν αναμένεται να έχουν υψηλή αξία και οι εναπομείναντες υπολογιστικοί πόροι να αξιοποιούνται για την ακριβέστερη αξιολόγηση των υπόλοιπων ενεργειών. Για την υλοποίηση αυτής της μεθόδου εκπαιδεύτηκαν δύο διαφορετικά νευρωνικά δίκτυα τα οποία χρησιμοποιήθηκαν συνεργατικά. Με το συνδυασμό των εξόδων των δύο δικτύων προσδιορίζεται το βέλτιστο ζεύγος επαναλήψεων και πλήθους ενεργειών προς αφαίρεση και μειώνεται επαναληπτικά ο χώρος αναζήτησης μέχρι την ολοκλήρωση του αλγορίθμου. Η εκπαίδευση των δικτύων έγινε σε συνθετικά δεδομένα εκπαίδευσης τα οποία προέκυψαν από ειδικό περιβάλλον προσομοίωσης που υλοποιήθηκε για αυτό το σκοπό. Η τεχνική κλαδέματος χρησιμοποιήθηκε τόσο αυτούσια όσο και σε συνδυασμό με τον ταξινομητή ενίσχυσης κλίσης οδηγώντας σε περαιτέρω βελτίωση της απόδοσης του αλγορίθμου. Στο επόμενο μέρος, εξετάστηκε η ενίσχυση της φάσης επιλογής στη δενδρική αναζήτηση Μόντε Κάρλο χωρίς την εισαγωγή γνώσης πεδίου. Η βασική ιδέα σε αυτή την περίπτωση αφορά στην αντιστοίχιση παρόμοιων κόμβων προκειμένου να γίνεται – κατά τη διαδικασία της επιλογής – χρήση στατιστικών των κόμβων που βρίσκονται σε υψηλότερο επίπεδο του δέντρου αναζήτησης και συνεπώς έχουν ακριβέστερα δεδομένα (καθώς έχουν επισκεφθεί περισσότερες φορές κατά τη διάρκεια της αναζήτησης). Υπό αυτό το πρίσμα υλοποιήθηκαν δύο διαφορετικές μεθοδολογίες αντιστοίχισης καταστάσεων με βάση την ακολουθία των ενεργειών που προηγήθηκαν. Στην πρώτη περίπτωση ο προσδιορισμός της ομοιότητας των κόμβων έγινε με κριτήριο το μήκος των πανομοιότυπων Ν-γράμμων από τα οποία προέκυψαν ενώ στη δεύτερη έγινε με βάση μία ειδικά σχεδιασμένη αναπαράσταση της ομοιότητας των ενεργειών που εκτελέστηκαν. Οι προτεινόμενες τεχνικές εφαρμόστηκαν σε περιβάλλοντα γενικών ευφυών πρακτόρων, πετυχαίνοντας υψηλότερη απόδοση από τις αντίστοιχες προσεγγίσεις που αφορούν το στάδιο επιλογής του αλγορίθμου στην πλειοψηφία των περιπτώσεων. Στο τελευταίο σκέλος της διατριβής, διερευνήθηκε το πεδίο της ενισχυτικής μάθησης. Ιδιαίτερα, εξετάστηκε η εισαγωγή μίας τεχνικής επαύξησης δεδομένων με γεννητικά μοντέλα για τη δημιουργία νέων, συνθετικών καταστάσεων με στόχο την αποτελεσματικότερη εκπαίδευση του πράκτορα. Συμπληρωματικά, σχεδιάστηκε ένα μοντέλο για την πρόβλεψη της ενέργειας που εκτελείται μεταξύ δύο διαδοχικών καταστάσεων προκειμένου να είναι εφικτή η σύνθεση ολοκληρωμένων δειγμάτων στη μορφή που απαιτείται για την επίλυση προβλημάτων ενισχυτικής μάθησης. Τα επιμέρους μοντέλα χρησιμοποιήθηκαν συνδυαστικά για τη δημιουργία συνθετικών δεδομένων με υψηλή και χαμηλή άμεση ανταμοιβή, τα οποία συναντώνται λιγότερο συχνά κατά τη διάρκεια της αλληλεπίδρασης του πράκτορα με το περιβάλλον. Η προτεινόμενη μεθοδολογία, στην οποία τα συνθετικά δείγματα αναμειγνύονται με τα πραγματικά δεδομένα κατά τη διαδικασία της εκπαίδευσης, αξιολογήθηκε σε διαφορετικά, ετερογενή περιβάλλοντα επιτυγχάνοντας αύξηση της συνολικής ανταμοιβής του πράκτορα συγκριτικά με αντίστοιχες κλασσικές τεχνικές επαύξησης εικόνας. |
URI: | http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/19107 |
Appears in Collections: | Διδακτορικές Διατριβές - Ph.D. Theses |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Thesis_Tasos_Papagiannis.pdf | 3.13 MB | Adobe PDF | View/Open |
Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.