Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/18907
Full metadata record
DC FieldValueLanguage
dc.contributor.authorΚριθαρούλα, Αναστασία-
dc.date.accessioned2023-11-13T14:38:21Z-
dc.date.available2023-11-13T14:38:21Z-
dc.date.issued2023-10-26-
dc.identifier.urihttp://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/18907-
dc.description.abstractΗ Αποσαφήνιση Οπτικών Εννοιών (Visual Word Sense Disambiguation - VWSD) είναι ένα καινούριο πρόβλημα με πολλές προκλήσεις, που μπορεί να τοποθετηθεί στην τομή μεταξύ του προβλήματος αποσαφήνισης γλωσσικών εννοιών και του προβλήματος ανάκτησης εικόνων από κειμενικές περιγραφές. Με αυτή τη διατριβή θα επιχειρήσουμε ένα πρώτο ουσιαστικό βήμα προς την αναγνώριση και αντιμετώπιση του νέου αυτού προβλήματος, εφαρμόζοντας ένα ευρύ σύνολο μεθόδων. Οι πρόσφατες εξελίξεις και καινοτομίες στον τομέα των Οπτικογλωσσικών Μετασχηματιστών (VL Transformers) παρουσίαζουν υλοποιήσεις με ενθαρρυντικά αποτελέσματα, τα οποία ωστόσο υποστηρίζουμε ότι μπορούν να ενισχυθούν περαιτέρω. Για το λόγο αυτό, προτείνουμε κάποιες τεχνικές ενίσχυσης γνώσης που έχουν σκοπό να βελτιώσουν την απόδοση ανάκτησης των Οπτικογλωσσικών Μετασχηματιστών με χρήση Μεγάλων Γλωσσικών Μοντέλων (Large Language Models - LLMs) ως Βάσεις Γνώσεων. Πιο συγκεκριμένα, επιχειρούμε την ανάκτηση της γνώσης που είναι αποθηκευμένη αθόρυβα στα βάρη των Οπτικογλωσσικών Μετασχηματιστών, επερωτώντας τα με κατάλληλες φράσεις, που καλούμε \emph{προτροπές}, σε συνθήκες μηδενικής ρύθμισης- χωρίς τη χρήση κάποιας διαδικασίας προεκπαίδευσης ή κάποιων αντιπροσωπευτικών κατευθυντήριων παραδειγμάτων. Επιπλέον, μελετάμε το πρόβλημα της Αποσαφήνισης Οπτικών Εννοιών είτε από την οπτική ενός προβλήματος Ανάκτησης Εικόνων από Εικόνες, είτε ενός προβλήματος Ανάκτησης Κειμένου από Κείμενου έτσι ώστε να διευρευνήσουμε πλήρως τις δυνατότητες των πιο σύγχρονων καινοτόμων μοντέλων που χρησιμοποιούνται για την επίλυση των προβλημάτων αυτών. Επακόλουθα, εκπαιδεύουμε ένα Μοντέλο Εκμάθησης Κατάταξης με σκοπό να συνδυάσουμε τις διαφορετικές προσεγγίσεις μας, επιτυγχάνοντας ανταγωνιστικά αποτελέσματα. Επιπρόσθετα, μεατρέπουμε το πρόβλημα Αποσαφήνισης Οπτικών Εννοιών σε ένα αμιγώς γλωσσικό πρόβλημα Ερώτησης-Απάντησης, θεωρώντας τις παραγόμενες λεζάντες των υποψήφιων εικόνων ως υποψήφιες απαντήσεις πολλαπλής επιλογής. Στρατηγικές χρήσης προτροπών με μηδενική βολή-χωρίς την ενσωμάτωση ενδεικτιών παραδειγμάτων- ή πολλαπλή βολή-με ενσωμάτωση μερικών ενδεικτικών παραδειγμάτων- προστίθενται στα πειράματά μας προκειμένου να εξερευνήσουμε πλήρως τη δυνατότητα ενός τέτοιου μετασχηματισμού για το πρόβλημα αυτό. Παράλληλα, η χρήση προτροπών Αλυσιδωτής-Σκέψης με μηδενική-βολή μας αποκαλύπτει τα εσωτερικά βήματα συλλογιστικής που ακολουθεί ένα Μεγάλο Γλωσσικό Μοντέλο για να επιλέξει την κατάλληλη υποψήφια εικόνα. Συνολικά, η προσέγγιση που παρουσίαζουμε είναι η πρώτη που αναλύει τα πλεονεκτήματα της αξιοποίησης γνώσης που βρίσκεται αποθηκευμένη στα Μεγάλα Γλωσσικά Μοντέλα με διαφορετικούς τρόπους για την επίλυση του προβλήματος της Αποσαφήνισης Οπτικών Εννοιών.en_US
dc.languageelen_US
dc.subjectΑποσαφήνιση Οπτικών Εννοιώνen_US
dc.subjectVisual Word Sense Disambiguationen_US
dc.subjectΠολυτροπική Ανάκτηση Εικόνας-Κειμένουen_US
dc.subjectMultimodal Retrievalen_US
dc.subjectΟπτικογλωσικοί Μετασχηματιστέςen_US
dc.subjectVL Transformersen_US
dc.subjectΜεγάλα Γλωσσικά Μοντέλαen_US
dc.subjectLarge Language Modelsen_US
dc.subjectΜεγάλα Γλωσσικά Μοντέλα ως Βάσεις Γνώσεωνen_US
dc.subjectLanguage Models as Knowledge Basesen_US
dc.subjectΣυλλογιστική Διαδικασία σε Μεγάλα Γλωσσικά Μοντέλαen_US
dc.subjectReasoning in Large Language Modelsen_US
dc.titleLarge Language Models and Multimodal Retrieval for Visual Word Sense Disambiguationen_US
dc.description.pages97en_US
dc.contributor.supervisorΣτάμου Γιώργοςen_US
dc.departmentΤομέας Τεχνολογίας Πληροφορικής και Υπολογιστώνen_US
Appears in Collections:Διπλωματικές Εργασίες - Theses

Files in This Item:
File Description SizeFormat 
Diploma_Thesis_Anastasia_Kritharoula.pdf7.08 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.