Ανάπτυξη Αλγορίθμων Μάθησης για Βελτίωση της Εκπαίδευσης και της Ερμηνείας των Βαθιών Νευρωνικών Δικτύων

Ιωάννου, Γεώργιος

Εθνικό Μετσόβιο Πολυτεχνείο

Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών

Καλώς ήρθατε στο Άρτεμις

Σκοπός του Άρτεμις είναι η συστηματική αρχειοθέτηση και διαδοση της πνευματικής παραγωγής της Σχολής Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών του Εθνικού Μετσόβιου Πολυτεχνείου, με τη βοήθεια της τεχνολογίας των ψηφιακών βιβλιοθηκών.

Παρακαλώ χρησιμοποιήστε αυτό το αναγνωριστικό για να παραπέμψετε ή να δημιουργήσετε σύνδεσμο προς αυτό το τεκμήριο: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/18962

Τίτλος:	Ανάπτυξη Αλγορίθμων Μάθησης για Βελτίωση της Εκπαίδευσης και της Ερμηνείας των Βαθιών Νευρωνικών Δικτύων
Συγγραφείς:	Ιωάννου, Γεώργιος Σταφυλοπάτης Ανδρέας-Γεώργιος
Λέξεις κλειδιά:	Μηχανική Μάθηση Βαθιά Μηχανική Μάθηση Νευρωνικά Δίκτυα Συνελικτικά Νευρωνικά Δίκτυα Βελτιστοποίηση Αλγόριθμοι Μάθησης Στοχαστικοί Αλγόριθμοι Δειγματοληψία Ερμηνευσιμότητα Επεξηγησιμότητα Σημεία Αναφοράς Διανυσματική Αναπαράσταση
Ημερομηνία έκδοσης:	11-Δεκ-2023
Περίληψη:	Τα τελευταία χρόνια το πεδίο της Μηχανικής Μάθησης έχει αναπτυχθεί σε μεγάλο βαθμό. Με την εξέλιξη και την αξιοποίηση σύγχρονων υπολογιστικών συστημάτων και καινούργιων τεχνολογιών ο τομέας της Μηχανικής Μάθησης κατάφερε να παρέχει λύσεις σε προβλήματα διαφόρων επιστημονικών πεδίων, καθώς και να έχει σημαντικό ρόλο στον τομέα της παραγωγής και της εργασίας. Κυριότερα, η ανάπτυξη της Βαθιάς Μηχανικής Μάθησης και των Νευρωνικών Δικτύων ευθύνεται για μέρος αυτής της επιτυχίας. Σε αυτή τη διατριβή ασχοληθήκαμε, κυρίως, με τα Βαθιά Νευρωνικά Δίκτυα και την λειτουργία τους. Αναλύσαμε διάφορους αλγορίθμους μάθησης και εντοπίσαμε προβλήματα που δυσχεραίνουν την καλή επίδοση ενός δικτύου. Μέσω της διατριβής προτείνονται αλγόριθμοι και μέθοδοι μάθησης νευρωνικών δικτύων, οι οποίοι αποσκοπούν στην καλύτερη εκπαίδευση και, κατά συνέπεια, στην βελτίωση των αποδόσεων των Βαθιών Νευρωνικών Δικτύων. Πιο συγκεκριμένα, στο πρώτο μέρος εξετάσαμε την τεχνική εκπαίδευσης με παρτίδες ενός νευρωνικού δικτύου. Εντρυφήσαμε στο πεδίο της Δυναμικής Επιλογής Παρτίδας και προτείναμε έναν αλγόριθμο που βασίζεται στην Μεροληπτική Δειγματοληψία. Σκοπός του είναι να επιλέγει δείγματα από το σύνολο δεδομένων που εμφανίζουν υψηλές τιμές σφάλματος και να τις εισάγει περισσότερες φορές στην διαδικασία της εκπαίδευσης. Δίνοντας έμφαση στα δύσκολα δείγματα το νευρωνικό δίκτυο καταφέρνει να εκπαιδευτεί γρηγορότερα και να έχει καλύτερες επιδόσεις. Για να αποδειχθεί η χρησιμότητα της μεθόδου, διεξήχθησαν μία σειρά από πειράματα σε διαφορετικά σύνολα δεδομένων. Τα αποτελέσματα δείχνουν ότι ο προτεινόμενος αλγόριθμος βελτιώνει την ταχύτητα σύγκλισης και πολλές φορές την μέγιστη επίδοση του δικτύου. Εκτός αυτού βελτιώνει τον χρόνο εκπαίδευσης και τον αριθμό των υπολογισμών ανά επανάληψη σε σχέση με άλλες τεχνικές της βιβλιογραφίας. Στο δεύτερο μέρος της διατριβής ασχοληθήκαμε με το πεδίο της Ανισορροπίας δεδομένων. Αυτό το φαινόμενο συναντάται συχνά στα πραγματικά σύνολα δεδομένων και αποτελεί ένα σημαντικό εμπόδιο στην ομαλή εκπαίδευση και γενίκευση των μοντέλων μηχανικής μάθησης. Περιγράψαμε και αναλύσαμε διάφορες μεθόδους και τεχνικές της βιβλιογραφίας πάνω σε αυτό το θέμα. Η μελέτη μας επικεντρώθηκε στις τεχνικές προσαρμογής του αλγορίθμου μάθησης με σκοπό την καταπολέμηση της ανισορροπίας. Προτείναμε την μέθοδο εκπαίδευσης νευρωνικών δικτύων με όνομα Θορυβώδης Επιλογή Παρτίδας με Επανεισαγωγές, η οποία επιλέγει δείγματα από τα δεδομένα με βάση κάποια κριτήρια και προσθέτει κατάλληλο θόρυβο. Με αυτόν τον τρόπο μπορεί το δίκτυο να εκπαιδεύεται εξίσου καλά σε κλάσεις δεδομένων με μικρό αριθμό δειγμάτων επιτυγχάνοντας υψηλότερες επιδόσεις. Μία σειρά από πειράματα σε ανισόρροπα σύνολα δεδομένων έδειξαν την βελτίωση που παρέχει η μέθοδος αυτή σε σχέση με άλλες. Επίσης, δείχνουμε ότι είναι ικανή να λειτουργήσει σε συνδυασμό με άλλες τεχνικές καταπολέμησης ανισορροπίας, όπως τεχνικές μετασχηματισμού δεδομένων. Μία άλλη θεματική που μελετήθηκε σε αυτή τη διατριβή είναι η ερευνητική περιοχή της βελτιστοποίησης. Στο πλαίσιο της εκπαίδευσης νευρωνικών δικτύων έχουν δημιουργηθεί μία πληθώρα από βελτιστοποιητές, καθένας από τους οποίους έχει τις ιδιαιτερότητές του. Εμβαθύναμε περισσότερο σε προσαρμοστικούς αλγόριθμους και προτείναμε μία μέθοδο βελτιστοποίησης, με όνομα AdaLip, η οποία κατασκευάζει διαφορετικό ρυθμό μάθησης ανά επίπεδο βασισμένη στην σταθερά του Lipschitz. Στοιχεία παρατέθηκαν για την ανάγκη διαφορετικής προσέγγισης των διαφορετικών επιπέδων και υποστηρίχθηκαν πειραματικά. Δοκιμάσαμε την μέθοδο μας σε ένα σύνολο προβλημάτων ταξινόμησης εικόνας και τα αποτελέσματα έδειξαν βελτιώσεις στην ταχύτητα σύγκλισης, στην συνολική επίδοση στο σύνολο εκπαίδευσης αλλά και πιο σταθερή γενίκευση. Η μέθοδος αυτή μπορεί να δουλέψει πάνω από ήδη υπάρχοντες βελτιστοποιητές και να καλυτερέψει τα αποτελέσματά τους. Τέλος, παρατέθηκε θεωρητική απόδειξη σύγκλισης του προτεινόμενου βελτιστοποιητή. Στο τελευταίο κομμάτι της διατριβής ασχοληθήκαμε με το πεδίο της ερμηνείας των νευρωνικών δικτύων. Η ερμηνευσιμότητα πραγματεύεται με την κατανόηση των νευρωνικών δικτύων και των προβλέψεών τους. Αρχικά, εξερευνούμε διάφορες τεχνικές ερμηνευσιμότητας και συγκρίνουμε τις επιδόσεις τους. Τα πειράματα βασίστηκαν πάνω σε ιατρικές εικόνες για ταξινόμηση του σταδίου της αμφιβληστροειδοπάθειας. Αυτό συνέβαλε στην βαθύτερη κατανόηση της λειτουργίας των μοντέλων αλλά και στην εξήγηση των περιοχών βλάβης των ιατρικών εικόνων. Επίσης, με την χρήση τέτοιων μεθόδων δείξαμε ότι είναι εφικτό να προσεγγιστεί και μία λύση στο πρόβλημα της κατάτμησης εικόνας. Εκτός από αυτό εμβαθύναμε περισσότερο στην λειτουργία των μεθόδων ερμηνευσιμότητας και συγκεκριμένα στις μεθόδους που χρησιμοποιούν σημεία αναφοράς. Δείξαμε ότι η χρήση σημείων αναφοράς εγκυμονεί πολλούς κινδύνους ανακρίβειας των σημασιών των προβλέψεων νευρωνικών δικτύων. Με βάση αυτή την αδυναμία τους προτείναμε ένα νέο επίπεδο που αποσκοπεί στο να βελτιώσει αυτά τα ζητήματα. Το προτεινόμενο Επίπεδο Διανυσματικής Αναπαράστασης με Αντίληψη Βάσης κατασκευάστηκε με σκοπό να ενσωματώνει μέσω της εκπαίδευσης την έννοια της βάσης ή σημείου αναφοράς. Έτσι, οι εκάστοτε αλγόριθμοι ερμηνευσιμότητας που λειτουργούν με σημεία αναφοράς μπορούν να χρησιμοποιούν το παραπάνω επίπεδο στις αρχιτεκτονικές του δικτύου και να δημιουργούν πιο ακριβείς ερμηνείες για τις διάφορες προβλέψεις. Αυτό το δείξαμε πειραματικά πάνω σε 4 σύνολα δεδομένων πινάκων. Τα σύνολα πινάκων επιλέχθηκαν λόγω της μεγάλης ποικιλίας χαρακτηριστικών που διαθέτουν αλλά και επειδή σε αυτά παρατηρείται πιο συχνά το πρόβλημα των σημείων αναφοράς.
URI:	http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/18962
Εμφανίζεται στις συλλογές:	Διδακτορικές Διατριβές - Ph.D. Theses

Αρχεία σε αυτό το τεκμήριο:

Αρχείο	Περιγραφή	Μέγεθος	Μορφότυπος
final_thesis.pdf		5.72 MB	Adobe PDF	Εμφάνιση/Άνοιγμα

Δείξε την πλήρη περιγραφή του τεκμηρίου

Όλα τα τεκμήρια του δικτυακού τόπου προστατεύονται από πνευματικά δικαιώματα.