Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/19240
Title: Out of Distribution generalization methods for Visual Question Answering
Authors: Ζέρβας, Νικόλαος
Ποταμιάνος Αλέξανδρος
Keywords: Απάντηση σε Οπτικές Ερωτήσεις(VQA)
Κάλυψη οπτικών αντικειμένων
Δεδομένα εκτός κατανομής
Συνάρτηση κόστους τριπλών απωλειών
Τεχνικές επαύξησης δεδομένων
Γενίκευση
Issue Date: 13-Feb-2024
Abstract: Η Απάντηση σε Οπτικές Ερωτήσεις (VQA) βρίσκεται στο προσκήνιο της προαγωγής της Γενικής Τεχνητής Νοημοσύνης (AGI), συνδυάζοντας τον τομέα της υπολογιστικής όρασης με την επεξεργασία φυσικής γλώσσας. Τα τρέχοντα μοντέλα στο VQA επιτυγχάνουν υψηλές επιδόσεις σε κλασικά σύνολα δεδομένων, αλλά συχνά περιορίζονται από την εξάρτησή τους στις συσχετίσεις της γλώσσας στα δεδομένα εκπαίδευσης. Συχνά απαντούν χωρίς να λαμβάνουν υπόψη τις εικόνες, με αποτέλεσμα να αποτυγχάνουν σε ποικίλα περιβάλλοντα δοκιμών. Αυτή η διατριβή αντιμετωπίζει αυτές τις προκλήσεις, εστιάζοντας στη γενίκευση στη VQA, ιδιαίτερα σε σενάρια εκτός κατανομής. Η διπλωματική εργασία ξεκινά από θεμελιώδεις έννοιες της μηχανικής μάθησης και στη συνέχεια, διεξάγει μια σφαιρική βιβλιογραφική ανασκόπηση του τομέα γενίκευσης στο αντικείμενο του VQA, με στόχο την κατανόηση των διάφορων μεθόδων γενίκευσης σε δεδομένα εκτός κατανομής και επανεκτελέσεις καινοτόμων μεθόδων. Αναφέρουμε ορισμένα ευρήματα και συμπεράσματα βασισμένα στα αποτελέσματα των μεθόδων στα σύνολα δεδομένων GQA OOD και VQA-CPv2. Ακολουθούν, αρχικά πειράματα στη δημιουργία οπτικών ερωτήσεων ως τεχνική επαύξησης δεδομένων και ανάλυση των αποτελεσμάτων. Το κύριο αντικείμενο αυτής της εργασίας είναι η ανάπτυξη μιας νέας μεθοδολογίας μάσκας αντικειμένων εικόνας, που διαφέρει από τις παραδοσιακές προσεγγίσεις. Οι προσαρμοσμένες μέθοδοι μας βασίζονται στον εντοπισμό σημαντικών αντικειμένων μέσω καλύψεων και στη δημιουργία θετικών και αρνητικών τριάδων Εικόνας-Ερώτησης. Χρησιμοποιείται μια συνάρτηση κόστους τριπλών απωλειών, η οποία πλησιάζει τις πολυδιάστατες αναπαραστάσεις των πραγματικών δειγμάτων πιο κοντά στα θετικά δείγματα και μακριά από τα αρνητικά. Επιπλέον, χρησιμοποιήσαμε μια συνάρτηση κόστους επαύξησης δεδομένων με θετικά δείγματα. Τέλος, πειραματιστήκαμε με μια τυχαία μέθοδο μάσκας που έδειξε σημαντικές βελτιώσεις στην απόδοση, σε συνδυασμό με την αρχική μας μεθοδολογία. Τα προτεινόμενα μοντέλα μας συνδυάζοντας τις αναφερθείσες μεθοδολογίες οδηγούν σε σημαντικές βελτιώσεις σε συνθήκες εντός και εκτός κατανομής στο σύνολο δεδομένων GQA OOD. Συνοψίζοντας, αυτή η διατριβή περιλαμβάνει τις νέες συνεισφορές μας στον τομέα του VQA, αναλύοντας τα κύρια ευρήματά μας και προτείνοντας κατευθύνσεις για μελλοντική έρευνα για να βελτιώσουν περαιτέρω τις δυνατότητες γενίκευσης των μοντέλων VQA.
URI: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/19240
Appears in Collections:Διπλωματικές Εργασίες - Theses

Files in This Item:
File Description SizeFormat 
Thesis_Zervas_Nikolaos_Final.pdfΚείμενο Διπλωματικής Εργασίας11.61 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.