Παρακαλώ χρησιμοποιήστε αυτό το αναγνωριστικό για να παραπέμψετε ή να δημιουργήσετε σύνδεσμο προς αυτό το τεκμήριο: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/18907
Τίτλος: Large Language Models and Multimodal Retrieval for Visual Word Sense Disambiguation
Συγγραφείς: Κριθαρούλα, Αναστασία
Στάμου Γιώργος
Λέξεις κλειδιά: Αποσαφήνιση Οπτικών Εννοιών
Visual Word Sense Disambiguation
Πολυτροπική Ανάκτηση Εικόνας-Κειμένου
Multimodal Retrieval
Οπτικογλωσικοί Μετασχηματιστές
VL Transformers
Μεγάλα Γλωσσικά Μοντέλα
Large Language Models
Μεγάλα Γλωσσικά Μοντέλα ως Βάσεις Γνώσεων
Language Models as Knowledge Bases
Συλλογιστική Διαδικασία σε Μεγάλα Γλωσσικά Μοντέλα
Reasoning in Large Language Models
Ημερομηνία έκδοσης: 26-Οκτ-2023
Περίληψη: Η Αποσαφήνιση Οπτικών Εννοιών (Visual Word Sense Disambiguation - VWSD) είναι ένα καινούριο πρόβλημα με πολλές προκλήσεις, που μπορεί να τοποθετηθεί στην τομή μεταξύ του προβλήματος αποσαφήνισης γλωσσικών εννοιών και του προβλήματος ανάκτησης εικόνων από κειμενικές περιγραφές. Με αυτή τη διατριβή θα επιχειρήσουμε ένα πρώτο ουσιαστικό βήμα προς την αναγνώριση και αντιμετώπιση του νέου αυτού προβλήματος, εφαρμόζοντας ένα ευρύ σύνολο μεθόδων. Οι πρόσφατες εξελίξεις και καινοτομίες στον τομέα των Οπτικογλωσσικών Μετασχηματιστών (VL Transformers) παρουσίαζουν υλοποιήσεις με ενθαρρυντικά αποτελέσματα, τα οποία ωστόσο υποστηρίζουμε ότι μπορούν να ενισχυθούν περαιτέρω. Για το λόγο αυτό, προτείνουμε κάποιες τεχνικές ενίσχυσης γνώσης που έχουν σκοπό να βελτιώσουν την απόδοση ανάκτησης των Οπτικογλωσσικών Μετασχηματιστών με χρήση Μεγάλων Γλωσσικών Μοντέλων (Large Language Models - LLMs) ως Βάσεις Γνώσεων. Πιο συγκεκριμένα, επιχειρούμε την ανάκτηση της γνώσης που είναι αποθηκευμένη αθόρυβα στα βάρη των Οπτικογλωσσικών Μετασχηματιστών, επερωτώντας τα με κατάλληλες φράσεις, που καλούμε \emph{προτροπές}, σε συνθήκες μηδενικής ρύθμισης- χωρίς τη χρήση κάποιας διαδικασίας προεκπαίδευσης ή κάποιων αντιπροσωπευτικών κατευθυντήριων παραδειγμάτων. Επιπλέον, μελετάμε το πρόβλημα της Αποσαφήνισης Οπτικών Εννοιών είτε από την οπτική ενός προβλήματος Ανάκτησης Εικόνων από Εικόνες, είτε ενός προβλήματος Ανάκτησης Κειμένου από Κείμενου έτσι ώστε να διευρευνήσουμε πλήρως τις δυνατότητες των πιο σύγχρονων καινοτόμων μοντέλων που χρησιμοποιούνται για την επίλυση των προβλημάτων αυτών. Επακόλουθα, εκπαιδεύουμε ένα Μοντέλο Εκμάθησης Κατάταξης με σκοπό να συνδυάσουμε τις διαφορετικές προσεγγίσεις μας, επιτυγχάνοντας ανταγωνιστικά αποτελέσματα. Επιπρόσθετα, μεατρέπουμε το πρόβλημα Αποσαφήνισης Οπτικών Εννοιών σε ένα αμιγώς γλωσσικό πρόβλημα Ερώτησης-Απάντησης, θεωρώντας τις παραγόμενες λεζάντες των υποψήφιων εικόνων ως υποψήφιες απαντήσεις πολλαπλής επιλογής. Στρατηγικές χρήσης προτροπών με μηδενική βολή-χωρίς την ενσωμάτωση ενδεικτιών παραδειγμάτων- ή πολλαπλή βολή-με ενσωμάτωση μερικών ενδεικτικών παραδειγμάτων- προστίθενται στα πειράματά μας προκειμένου να εξερευνήσουμε πλήρως τη δυνατότητα ενός τέτοιου μετασχηματισμού για το πρόβλημα αυτό. Παράλληλα, η χρήση προτροπών Αλυσιδωτής-Σκέψης με μηδενική-βολή μας αποκαλύπτει τα εσωτερικά βήματα συλλογιστικής που ακολουθεί ένα Μεγάλο Γλωσσικό Μοντέλο για να επιλέξει την κατάλληλη υποψήφια εικόνα. Συνολικά, η προσέγγιση που παρουσίαζουμε είναι η πρώτη που αναλύει τα πλεονεκτήματα της αξιοποίησης γνώσης που βρίσκεται αποθηκευμένη στα Μεγάλα Γλωσσικά Μοντέλα με διαφορετικούς τρόπους για την επίλυση του προβλήματος της Αποσαφήνισης Οπτικών Εννοιών.
URI: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/18907
Εμφανίζεται στις συλλογές:Διπλωματικές Εργασίες - Theses

Αρχεία σε αυτό το τεκμήριο:
Αρχείο Περιγραφή ΜέγεθοςΜορφότυπος 
Diploma_Thesis_Anastasia_Kritharoula.pdf7.08 MBAdobe PDFΕμφάνιση/Άνοιγμα


Όλα τα τεκμήρια του δικτυακού τόπου προστατεύονται από πνευματικά δικαιώματα.