Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/19402
Full metadata record
DC FieldValueLanguage
dc.contributor.authorΜαγγελάκη, Βαρβάρα Κωνσταντίνα-
dc.date.accessioned2024-11-11T07:05:34Z-
dc.date.available2024-11-11T07:05:34Z-
dc.date.issued2024-11-01-
dc.identifier.urihttp://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/19402-
dc.description.abstractΓια αρκετά χρόνια τώρα, οι προσπάθειες επέκτασης της ψηφιακής επεξεργασίας εικόνας σε αλγορίθμους ανάλυσης και κατανόησης τους έχουν καθορίσει σε μεγάλο βαθμό την πορεία της τεχνητής νοημοσύνης. Η ανάπτυξη προηγμένων μοντέλων βαθιάς μάθησης έχει επιτρέψει την επιτυχή ανάλυση και κατανόηση πολύπλοκων εικόνων σε ποικίλες εφαρμογές, από την αυτόματη αναγνώριση αντικειμένων της καθημερινότητας μέχρι την ιατρική διάγνωση. Η χρήση της τεχνητής νοημοσύνης στην ιατρική απεικόνιση προκαλεί επανάσταση στον τομέα της υγείας, κατορθώνοντας να παρέχονται πιο ακριβείς, αποτελεσματικές και εξατομικευμένες διαγνωστικές και θεραπευτικές επιλογές στους ασθενείς. Ωστόσο, παρά τις προσπάθειες για σταδιακή ένταξη της τεχνητής νοημοσύνης στον τομέα της υγείας, η ιατρική κοινότητα δεν φαίνεται να της δείχνει απόλυτη εμπιστοσύνη. Στο πλαίσιο αυτό, η επεξηγησιμότητα (interpretability) των συστημάτων τεχνητής νοημοσύνης, όχι μόνο συμβάλλει στην ενίσχυση του κλίματος εμπιστοσύνης, αλλά έχει αποτυπωθεί και ως δικαίωμα του υποκειμένου στην επεξήγηση αποφάσεων που λαμβάνονται με αυτοματοποιημένο τρόπο. Οι Vision Transformers (ViTs) είναι μια πρόσφατη προσέγγιση στον τομέα της όρασης υπολογιστών, που έρχονται να αντικαταστήσουν τα, έως τώρα κυρίαρχα στην ανάλυση των εικόνων, Συνελικτικά Νευρωνικά Δίκτυα (CNNs), χρησιμοποιώντας μηχανισμούς προσοχής (attention mechanisms) που συναντώνται συχνά στην επεξεργασία φυσικής γλώσσας. Καθώς οι ViTs είναι πολύπλοκα μοντέλα που αντιμετωπίζουν δεδομένα υψηλής διάστασης, η ικανότητά τους να εξηγήσουν τις αποφάσεις τους είναι ζωτικής σημασίας και περιλαμβάνει την εξαγωγή χαρτών (attention, saliency, relevancy) για την επισημείωση των περιοχών της εικόνας που έπαιξαν καθοριστικό ρόλο για την πραγματοποίηση της ταξινόμησης από το μοντέλο. Στην παρούσα διπλωματική εργασία, γίνεται εφαρμογή ορισμένων Interpretable Vision Transformer δικτύων σε ιατρικά σύνολα δεδομένων διαφορετικής φύσης. Πιο συγκεκριμένα, εφαρμόζουμε το ProtoPFormer, το ViT-NeT σε τέσσερα datasets, τα οποία περιλαμβάνουν αξονικές και μαγνητικές τομογραφίες, ιστοπαθολογικές εικόνες και εικόνες από ενδοσκοπήσεις. Ακόμα, προκειμένου να αξιολογήσουμε την επίδραση των built-in μεθόδων ερμηνευσιμότητας στην ακρίβεια των μοντέλων, εφαρμόζουμε έναν απλό Transformer, τον Swin, συνδυασμένο με Grad-CAM ως post-hoc μέθοδο επεξηγησιμότητας, στα παραπάνω σύνολα δεδομένων και συγκρίνουμε τις επιδόσεις. Τα πειραματικά αποτελέσματα αποδεικνύουν ότι η προσθήκη ερμηνευσιμότητας στα δίκτυα μάλλον βελτιώνει, παρά μειώνει την ακρίβεια των ViTs.en_US
dc.languageenen_US
dc.subjectΤεχνητή Νοημοσύνηen_US
dc.subjectΝευρωνικά Δίκτυαen_US
dc.subjectΕρμηνευσιμότηταen_US
dc.subjectΌραση Υπολογιστώνen_US
dc.subjectVision Transformersen_US
dc.subjectΙατρική Απεικόνισηen_US
dc.title΄Μελετώντας την Ερμηνευσιμότητα των Vision Transformers: Εφαρμογές στην Ιατρική Απεικόνισηen_US
dc.description.pages94en_US
dc.contributor.supervisorΒουλόδημος Αθανάσιοςen_US
dc.departmentΤομέας Τεχνολογίας Πληροφορικής και Υπολογιστώνen_US
Appears in Collections:Διπλωματικές Εργασίες - Theses

Files in This Item:
File Description SizeFormat 
Exploring the Interpretability of Vision Transformers_Applications in Medical Imaging.pdf27.87 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.