Out of Distribution generalization methods for Visual Question Answering

Ζέρβας, Νικόλαος

Εθνικό Μετσόβιο Πολυτεχνείο

Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών

Καλώς ήρθατε στο Άρτεμις

Σκοπός του Άρτεμις είναι η συστηματική αρχειοθέτηση και διαδοση της πνευματικής παραγωγής της Σχολής Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών του Εθνικού Μετσόβιου Πολυτεχνείου, με τη βοήθεια της τεχνολογίας των ψηφιακών βιβλιοθηκών.

Παρακαλώ χρησιμοποιήστε αυτό το αναγνωριστικό για να παραπέμψετε ή να δημιουργήσετε σύνδεσμο προς αυτό το τεκμήριο: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/19240

Τίτλος:	Out of Distribution generalization methods for Visual Question Answering
Συγγραφείς:	Ζέρβας, Νικόλαος Ποταμιάνος Αλέξανδρος
Λέξεις κλειδιά:	Απάντηση σε Οπτικές Ερωτήσεις(VQA) Κάλυψη οπτικών αντικειμένων Δεδομένα εκτός κατανομής Συνάρτηση κόστους τριπλών απωλειών Τεχνικές επαύξησης δεδομένων Γενίκευση
Ημερομηνία έκδοσης:	13-Φεβ-2024
Περίληψη:	Η Απάντηση σε Οπτικές Ερωτήσεις (VQA) βρίσκεται στο προσκήνιο της προαγωγής της Γενικής Τεχνητής Νοημοσύνης (AGI), συνδυάζοντας τον τομέα της υπολογιστικής όρασης με την επεξεργασία φυσικής γλώσσας. Τα τρέχοντα μοντέλα στο VQA επιτυγχάνουν υψηλές επιδόσεις σε κλασικά σύνολα δεδομένων, αλλά συχνά περιορίζονται από την εξάρτησή τους στις συσχετίσεις της γλώσσας στα δεδομένα εκπαίδευσης. Συχνά απαντούν χωρίς να λαμβάνουν υπόψη τις εικόνες, με αποτέλεσμα να αποτυγχάνουν σε ποικίλα περιβάλλοντα δοκιμών. Αυτή η διατριβή αντιμετωπίζει αυτές τις προκλήσεις, εστιάζοντας στη γενίκευση στη VQA, ιδιαίτερα σε σενάρια εκτός κατανομής. Η διπλωματική εργασία ξεκινά από θεμελιώδεις έννοιες της μηχανικής μάθησης και στη συνέχεια, διεξάγει μια σφαιρική βιβλιογραφική ανασκόπηση του τομέα γενίκευσης στο αντικείμενο του VQA, με στόχο την κατανόηση των διάφορων μεθόδων γενίκευσης σε δεδομένα εκτός κατανομής και επανεκτελέσεις καινοτόμων μεθόδων. Αναφέρουμε ορισμένα ευρήματα και συμπεράσματα βασισμένα στα αποτελέσματα των μεθόδων στα σύνολα δεδομένων GQA OOD και VQA-CPv2. Ακολουθούν, αρχικά πειράματα στη δημιουργία οπτικών ερωτήσεων ως τεχνική επαύξησης δεδομένων και ανάλυση των αποτελεσμάτων. Το κύριο αντικείμενο αυτής της εργασίας είναι η ανάπτυξη μιας νέας μεθοδολογίας μάσκας αντικειμένων εικόνας, που διαφέρει από τις παραδοσιακές προσεγγίσεις. Οι προσαρμοσμένες μέθοδοι μας βασίζονται στον εντοπισμό σημαντικών αντικειμένων μέσω καλύψεων και στη δημιουργία θετικών και αρνητικών τριάδων Εικόνας-Ερώτησης. Χρησιμοποιείται μια συνάρτηση κόστους τριπλών απωλειών, η οποία πλησιάζει τις πολυδιάστατες αναπαραστάσεις των πραγματικών δειγμάτων πιο κοντά στα θετικά δείγματα και μακριά από τα αρνητικά. Επιπλέον, χρησιμοποιήσαμε μια συνάρτηση κόστους επαύξησης δεδομένων με θετικά δείγματα. Τέλος, πειραματιστήκαμε με μια τυχαία μέθοδο μάσκας που έδειξε σημαντικές βελτιώσεις στην απόδοση, σε συνδυασμό με την αρχική μας μεθοδολογία. Τα προτεινόμενα μοντέλα μας συνδυάζοντας τις αναφερθείσες μεθοδολογίες οδηγούν σε σημαντικές βελτιώσεις σε συνθήκες εντός και εκτός κατανομής στο σύνολο δεδομένων GQA OOD. Συνοψίζοντας, αυτή η διατριβή περιλαμβάνει τις νέες συνεισφορές μας στον τομέα του VQA, αναλύοντας τα κύρια ευρήματά μας και προτείνοντας κατευθύνσεις για μελλοντική έρευνα για να βελτιώσουν περαιτέρω τις δυνατότητες γενίκευσης των μοντέλων VQA.
URI:	http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/19240
Εμφανίζεται στις συλλογές:	Διπλωματικές Εργασίες - Theses

Αρχεία σε αυτό το τεκμήριο:

Αρχείο	Περιγραφή	Μέγεθος	Μορφότυπος
Thesis_Zervas_Nikolaos_Final.pdf	Κείμενο Διπλωματικής Εργασίας	11.61 MB	Adobe PDF	Εμφάνιση/Άνοιγμα

Δείξε την πλήρη περιγραφή του τεκμηρίου

Όλα τα τεκμήρια του δικτυακού τόπου προστατεύονται από πνευματικά δικαιώματα.