Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/18907
Title: Large Language Models and Multimodal Retrieval for Visual Word Sense Disambiguation
Authors: Κριθαρούλα, Αναστασία
Στάμου Γιώργος
Keywords: Αποσαφήνιση Οπτικών Εννοιών
Visual Word Sense Disambiguation
Πολυτροπική Ανάκτηση Εικόνας-Κειμένου
Multimodal Retrieval
Οπτικογλωσικοί Μετασχηματιστές
VL Transformers
Μεγάλα Γλωσσικά Μοντέλα
Large Language Models
Μεγάλα Γλωσσικά Μοντέλα ως Βάσεις Γνώσεων
Language Models as Knowledge Bases
Συλλογιστική Διαδικασία σε Μεγάλα Γλωσσικά Μοντέλα
Reasoning in Large Language Models
Issue Date: 26-Oct-2023
Abstract: Η Αποσαφήνιση Οπτικών Εννοιών (Visual Word Sense Disambiguation - VWSD) είναι ένα καινούριο πρόβλημα με πολλές προκλήσεις, που μπορεί να τοποθετηθεί στην τομή μεταξύ του προβλήματος αποσαφήνισης γλωσσικών εννοιών και του προβλήματος ανάκτησης εικόνων από κειμενικές περιγραφές. Με αυτή τη διατριβή θα επιχειρήσουμε ένα πρώτο ουσιαστικό βήμα προς την αναγνώριση και αντιμετώπιση του νέου αυτού προβλήματος, εφαρμόζοντας ένα ευρύ σύνολο μεθόδων. Οι πρόσφατες εξελίξεις και καινοτομίες στον τομέα των Οπτικογλωσσικών Μετασχηματιστών (VL Transformers) παρουσίαζουν υλοποιήσεις με ενθαρρυντικά αποτελέσματα, τα οποία ωστόσο υποστηρίζουμε ότι μπορούν να ενισχυθούν περαιτέρω. Για το λόγο αυτό, προτείνουμε κάποιες τεχνικές ενίσχυσης γνώσης που έχουν σκοπό να βελτιώσουν την απόδοση ανάκτησης των Οπτικογλωσσικών Μετασχηματιστών με χρήση Μεγάλων Γλωσσικών Μοντέλων (Large Language Models - LLMs) ως Βάσεις Γνώσεων. Πιο συγκεκριμένα, επιχειρούμε την ανάκτηση της γνώσης που είναι αποθηκευμένη αθόρυβα στα βάρη των Οπτικογλωσσικών Μετασχηματιστών, επερωτώντας τα με κατάλληλες φράσεις, που καλούμε \emph{προτροπές}, σε συνθήκες μηδενικής ρύθμισης- χωρίς τη χρήση κάποιας διαδικασίας προεκπαίδευσης ή κάποιων αντιπροσωπευτικών κατευθυντήριων παραδειγμάτων. Επιπλέον, μελετάμε το πρόβλημα της Αποσαφήνισης Οπτικών Εννοιών είτε από την οπτική ενός προβλήματος Ανάκτησης Εικόνων από Εικόνες, είτε ενός προβλήματος Ανάκτησης Κειμένου από Κείμενου έτσι ώστε να διευρευνήσουμε πλήρως τις δυνατότητες των πιο σύγχρονων καινοτόμων μοντέλων που χρησιμοποιούνται για την επίλυση των προβλημάτων αυτών. Επακόλουθα, εκπαιδεύουμε ένα Μοντέλο Εκμάθησης Κατάταξης με σκοπό να συνδυάσουμε τις διαφορετικές προσεγγίσεις μας, επιτυγχάνοντας ανταγωνιστικά αποτελέσματα. Επιπρόσθετα, μεατρέπουμε το πρόβλημα Αποσαφήνισης Οπτικών Εννοιών σε ένα αμιγώς γλωσσικό πρόβλημα Ερώτησης-Απάντησης, θεωρώντας τις παραγόμενες λεζάντες των υποψήφιων εικόνων ως υποψήφιες απαντήσεις πολλαπλής επιλογής. Στρατηγικές χρήσης προτροπών με μηδενική βολή-χωρίς την ενσωμάτωση ενδεικτιών παραδειγμάτων- ή πολλαπλή βολή-με ενσωμάτωση μερικών ενδεικτικών παραδειγμάτων- προστίθενται στα πειράματά μας προκειμένου να εξερευνήσουμε πλήρως τη δυνατότητα ενός τέτοιου μετασχηματισμού για το πρόβλημα αυτό. Παράλληλα, η χρήση προτροπών Αλυσιδωτής-Σκέψης με μηδενική-βολή μας αποκαλύπτει τα εσωτερικά βήματα συλλογιστικής που ακολουθεί ένα Μεγάλο Γλωσσικό Μοντέλο για να επιλέξει την κατάλληλη υποψήφια εικόνα. Συνολικά, η προσέγγιση που παρουσίαζουμε είναι η πρώτη που αναλύει τα πλεονεκτήματα της αξιοποίησης γνώσης που βρίσκεται αποθηκευμένη στα Μεγάλα Γλωσσικά Μοντέλα με διαφορετικούς τρόπους για την επίλυση του προβλήματος της Αποσαφήνισης Οπτικών Εννοιών.
URI: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/18907
Appears in Collections:Διπλωματικές Εργασίες - Theses

Files in This Item:
File Description SizeFormat 
Diploma_Thesis_Anastasia_Kritharoula.pdf7.08 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.