΄Μελετώντας την Ερμηνευσιμότητα των Vision Transformers: Εφαρμογές στην Ιατρική Απεικόνιση

Μαγγελάκη, Βαρβάρα Κωνσταντίνα

National Technical University of Athens

School of Electrical and Computer Engineering

Artemis is Live!

Welcome to our digital repository! The aim of Artemis is the systematic archiving and dissemination of the scientific work produced in the School of Electrical and Computer Engineering, National Technical University of Athens, Greece, using the technology of digital libraries.

Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/19402

Title:	΄Μελετώντας την Ερμηνευσιμότητα των Vision Transformers: Εφαρμογές στην Ιατρική Απεικόνιση
Authors:	Μαγγελάκη, Βαρβάρα Κωνσταντίνα Βουλόδημος Αθανάσιος
Keywords:	Τεχνητή Νοημοσύνη Νευρωνικά Δίκτυα Ερμηνευσιμότητα Όραση Υπολογιστών Vision Transformers Ιατρική Απεικόνιση
Issue Date:	1-Nov-2024
Abstract:	Για αρκετά χρόνια τώρα, οι προσπάθειες επέκτασης της ψηφιακής επεξεργασίας εικόνας σε αλγορίθμους ανάλυσης και κατανόησης τους έχουν καθορίσει σε μεγάλο βαθμό την πορεία της τεχνητής νοημοσύνης. Η ανάπτυξη προηγμένων μοντέλων βαθιάς μάθησης έχει επιτρέψει την επιτυχή ανάλυση και κατανόηση πολύπλοκων εικόνων σε ποικίλες εφαρμογές, από την αυτόματη αναγνώριση αντικειμένων της καθημερινότητας μέχρι την ιατρική διάγνωση. Η χρήση της τεχνητής νοημοσύνης στην ιατρική απεικόνιση προκαλεί επανάσταση στον τομέα της υγείας, κατορθώνοντας να παρέχονται πιο ακριβείς, αποτελεσματικές και εξατομικευμένες διαγνωστικές και θεραπευτικές επιλογές στους ασθενείς. Ωστόσο, παρά τις προσπάθειες για σταδιακή ένταξη της τεχνητής νοημοσύνης στον τομέα της υγείας, η ιατρική κοινότητα δεν φαίνεται να της δείχνει απόλυτη εμπιστοσύνη. Στο πλαίσιο αυτό, η επεξηγησιμότητα (interpretability) των συστημάτων τεχνητής νοημοσύνης, όχι μόνο συμβάλλει στην ενίσχυση του κλίματος εμπιστοσύνης, αλλά έχει αποτυπωθεί και ως δικαίωμα του υποκειμένου στην επεξήγηση αποφάσεων που λαμβάνονται με αυτοματοποιημένο τρόπο. Οι Vision Transformers (ViTs) είναι μια πρόσφατη προσέγγιση στον τομέα της όρασης υπολογιστών, που έρχονται να αντικαταστήσουν τα, έως τώρα κυρίαρχα στην ανάλυση των εικόνων, Συνελικτικά Νευρωνικά Δίκτυα (CNNs), χρησιμοποιώντας μηχανισμούς προσοχής (attention mechanisms) που συναντώνται συχνά στην επεξεργασία φυσικής γλώσσας. Καθώς οι ViTs είναι πολύπλοκα μοντέλα που αντιμετωπίζουν δεδομένα υψηλής διάστασης, η ικανότητά τους να εξηγήσουν τις αποφάσεις τους είναι ζωτικής σημασίας και περιλαμβάνει την εξαγωγή χαρτών (attention, saliency, relevancy) για την επισημείωση των περιοχών της εικόνας που έπαιξαν καθοριστικό ρόλο για την πραγματοποίηση της ταξινόμησης από το μοντέλο. Στην παρούσα διπλωματική εργασία, γίνεται εφαρμογή ορισμένων Interpretable Vision Transformer δικτύων σε ιατρικά σύνολα δεδομένων διαφορετικής φύσης. Πιο συγκεκριμένα, εφαρμόζουμε το ProtoPFormer, το ViT-NeT σε τέσσερα datasets, τα οποία περιλαμβάνουν αξονικές και μαγνητικές τομογραφίες, ιστοπαθολογικές εικόνες και εικόνες από ενδοσκοπήσεις. Ακόμα, προκειμένου να αξιολογήσουμε την επίδραση των built-in μεθόδων ερμηνευσιμότητας στην ακρίβεια των μοντέλων, εφαρμόζουμε έναν απλό Transformer, τον Swin, συνδυασμένο με Grad-CAM ως post-hoc μέθοδο επεξηγησιμότητας, στα παραπάνω σύνολα δεδομένων και συγκρίνουμε τις επιδόσεις. Τα πειραματικά αποτελέσματα αποδεικνύουν ότι η προσθήκη ερμηνευσιμότητας στα δίκτυα μάλλον βελτιώνει, παρά μειώνει την ακρίβεια των ViTs.
URI:	http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/19402
Appears in Collections:	Διπλωματικές Εργασίες - Theses

Files in This Item:

File	Description	Size	Format
Exploring the Interpretability of Vision Transformers_Applications in Medical Imaging.pdf		27.87 MB	Adobe PDF	View/Open

Show full item record