Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/19294
Full metadata record
DC FieldValueLanguage
dc.contributor.authorΜΠΕΚΡΗΣ, ΔΗΜΗΤΡΗΣ-
dc.date.accessioned2024-10-14T05:58:13Z-
dc.date.available2024-10-14T05:58:13Z-
dc.date.issued2024-09-13-
dc.identifier.urihttp://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/19294-
dc.description.abstractΤα μοντέλα Transformer έχουν φέρει επανάσταση στον τομέα της Επεξεργασίας Φυσικής Γλώσσας (NLP), ιδιαίτερα σε εργασίες όπως η ταξινόμηση κειμένου. Αυτά τα μοντέλα βασίζονται σε μεγάλο βαθμό στους μηχανισμούς προσοχής, που επιτρέπουν στο μοντέλο να εστιάζει σε διάφορα σημεία της εισόδου, βελτιώνοντας την κατανόηση του πλαισίου. Ωστόσο, υπάρχει μια συνεχιζόμενη συζήτηση σχετικά με το αν οι μηχανισμοί προσοχής μπορούν να θεωρηθούν αξιόπιστες εξηγήσεις για τις αποφάσεις του μοντέλου, όπως επισημαίνεται στη διαμάχη "Attention is not Explanation". Αυτή η διπλωματική εργασία εξετάζει τη δομημένη κλάδευση των κεφαλών προσοχής ως μέθοδο βελτιστοποίησης των μοντέλων Transformer, όπως το BERT, σε εργασίες ταξινόμησης του GLUE benchmark, μειώνοντας την πολυπλοκότητα του μοντέλου ενώ διατηρείται η απόδοση και η ερμηνευσιμότητα. Το κίνητρο για αυτή την έρευνα πηγάζει από τη διαμάχη για τη δυνατότητα εξήγησης των μηχανισμών προσοχής. Εισάγεται ένας νέος δείκτης βασισμένος στη συσχέτιση που αξιοποιεί τη σχέση μεταξύ των τιμών προσοχής και των αποδόσεων, με στόχο την ταυτοποίηση των πιο σημαντικών κεφαλών προσοχής. Η προτεινόμενη μέθοδος βασίζεται στη Θεωρία του Τυχερού Δελτίου (Lottery Ticket Hypothesis) και δοκιμάζει τον αλγόριθμο Iterative Structured Pruning, ο οποίος προτάθηκε από τον Αχλατή. Αυτή η προσέγγιση στοχεύει να αξιολογήσει αν οι κεφαλές προσοχής που κλαδεύονται με βάση αυτόν τον δείκτη μπορούν να διατηρήσουν την απόδοση και την εξηγητική αξία του μοντέλου. Η μέθοδος εφαρμόστηκε στο BERT και διεξήχθησαν εκτεταμένα πειράματα σε διάφορες εργασίες ταξινόμησης του GLUE Benchmark. Τα αποτελέσματα δείχνουν ότι η απόδοση είναι συγκρίσιμη με τη δουλειά του Αχλατή, με την προτεινόμενη προσέγγιση να επιτυγχάνει ανταγωνιστικά αποτελέσματα όσον αφορά την ακρίβεια και την αποδοτικότητα του μοντέλου. Οι συνεισφορές αυτής της έρευνας εντοπίζονται τόσο στον τομέα του Structured Pruning όσο και στη συνεχιζόμενη συζήτηση για το αν οι μηχανισμοί προσοχής μπορούν να λειτουργήσουν ως εξηγήσεις. Με την ανάπτυξη και αξιολόγηση αυτής της μεθόδου, συμβάλλουμε στη βελτιστοποίηση των μοντέλων και προσφέρουμε νέες προοπτικές για την κατανόηση και αξιοποίηση των μηχανισμών προσοχής σε εργασίες NLP.en_US
dc.languageenen_US
dc.subjectpruningen_US
dc.subjectinterpretabilityen_US
dc.titleIntegrated Gradients for Structured Pruning in BERTen_US
dc.description.pages153en_US
dc.contributor.supervisorΠοταμιάνος Αλέξανδροςen_US
dc.departmentΤομέας Σημάτων, Ελέγχου και Ρομποτικήςen_US
Appears in Collections:Διπλωματικές Εργασίες - Theses

Files in This Item:
File Description SizeFormat 
Thesis_Bekris.pdf6.04 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.