Παρακαλώ χρησιμοποιήστε αυτό το αναγνωριστικό για να παραπέμψετε ή να δημιουργήσετε σύνδεσμο προς αυτό το τεκμήριο:
http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/19294
Τίτλος: | Integrated Gradients for Structured Pruning in BERT |
Συγγραφείς: | ΜΠΕΚΡΗΣ, ΔΗΜΗΤΡΗΣ Ποταμιάνος Αλέξανδρος |
Λέξεις κλειδιά: | pruning interpretability |
Ημερομηνία έκδοσης: | 13-Σεπ-2024 |
Περίληψη: | Τα μοντέλα Transformer έχουν φέρει επανάσταση στον τομέα της Επεξεργασίας Φυσικής Γλώσσας (NLP), ιδιαίτερα σε εργασίες όπως η ταξινόμηση κειμένου. Αυτά τα μοντέλα βασίζονται σε μεγάλο βαθμό στους μηχανισμούς προσοχής, που επιτρέπουν στο μοντέλο να εστιάζει σε διάφορα σημεία της εισόδου, βελτιώνοντας την κατανόηση του πλαισίου. Ωστόσο, υπάρχει μια συνεχιζόμενη συζήτηση σχετικά με το αν οι μηχανισμοί προσοχής μπορούν να θεωρηθούν αξιόπιστες εξηγήσεις για τις αποφάσεις του μοντέλου, όπως επισημαίνεται στη διαμάχη "Attention is not Explanation". Αυτή η διπλωματική εργασία εξετάζει τη δομημένη κλάδευση των κεφαλών προσοχής ως μέθοδο βελτιστοποίησης των μοντέλων Transformer, όπως το BERT, σε εργασίες ταξινόμησης του GLUE benchmark, μειώνοντας την πολυπλοκότητα του μοντέλου ενώ διατηρείται η απόδοση και η ερμηνευσιμότητα. Το κίνητρο για αυτή την έρευνα πηγάζει από τη διαμάχη για τη δυνατότητα εξήγησης των μηχανισμών προσοχής. Εισάγεται ένας νέος δείκτης βασισμένος στη συσχέτιση που αξιοποιεί τη σχέση μεταξύ των τιμών προσοχής και των αποδόσεων, με στόχο την ταυτοποίηση των πιο σημαντικών κεφαλών προσοχής. Η προτεινόμενη μέθοδος βασίζεται στη Θεωρία του Τυχερού Δελτίου (Lottery Ticket Hypothesis) και δοκιμάζει τον αλγόριθμο Iterative Structured Pruning, ο οποίος προτάθηκε από τον Αχλατή. Αυτή η προσέγγιση στοχεύει να αξιολογήσει αν οι κεφαλές προσοχής που κλαδεύονται με βάση αυτόν τον δείκτη μπορούν να διατηρήσουν την απόδοση και την εξηγητική αξία του μοντέλου. Η μέθοδος εφαρμόστηκε στο BERT και διεξήχθησαν εκτεταμένα πειράματα σε διάφορες εργασίες ταξινόμησης του GLUE Benchmark. Τα αποτελέσματα δείχνουν ότι η απόδοση είναι συγκρίσιμη με τη δουλειά του Αχλατή, με την προτεινόμενη προσέγγιση να επιτυγχάνει ανταγωνιστικά αποτελέσματα όσον αφορά την ακρίβεια και την αποδοτικότητα του μοντέλου. Οι συνεισφορές αυτής της έρευνας εντοπίζονται τόσο στον τομέα του Structured Pruning όσο και στη συνεχιζόμενη συζήτηση για το αν οι μηχανισμοί προσοχής μπορούν να λειτουργήσουν ως εξηγήσεις. Με την ανάπτυξη και αξιολόγηση αυτής της μεθόδου, συμβάλλουμε στη βελτιστοποίηση των μοντέλων και προσφέρουμε νέες προοπτικές για την κατανόηση και αξιοποίηση των μηχανισμών προσοχής σε εργασίες NLP. |
URI: | http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/19294 |
Εμφανίζεται στις συλλογές: | Διπλωματικές Εργασίες - Theses |
Αρχεία σε αυτό το τεκμήριο:
Αρχείο | Περιγραφή | Μέγεθος | Μορφότυπος | |
---|---|---|---|---|
Thesis_Bekris.pdf | 6.04 MB | Adobe PDF | Εμφάνιση/Άνοιγμα |
Όλα τα τεκμήρια του δικτυακού τόπου προστατεύονται από πνευματικά δικαιώματα.