Analyzing and Solving Context Bias in Visual Relationship Detection using semi-supervised techniques

Diomataris, Markos

Εθνικό Μετσόβιο Πολυτεχνείο

Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών

Καλώς ήρθατε στο Άρτεμις

Σκοπός του Άρτεμις είναι η συστηματική αρχειοθέτηση και διαδοση της πνευματικής παραγωγής της Σχολής Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών του Εθνικού Μετσόβιου Πολυτεχνείου, με τη βοήθεια της τεχνολογίας των ψηφιακών βιβλιοθηκών.

Παρακαλώ χρησιμοποιήστε αυτό το αναγνωριστικό για να παραπέμψετε ή να δημιουργήσετε σύνδεσμο προς αυτό το τεκμήριο: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/17806

Τίτλος:	Analyzing and Solving Context Bias in Visual Relationship Detection using semi-supervised techniques
Συγγραφείς:	Diomataris, Markos Μαραγκός Πέτρος
Λέξεις κλειδιά:	visual relationship detection deep learning grounding semi-supervised spatial common sense context bias
Ημερομηνία έκδοσης:	2020
Περίληψη:	Το πρόβλημα αναγνώρισης οπτικών σχέσεων(visual relationship detection)της όρασης υπολογιστών αφορά τη εξαγωγή κατευθυνόμενων γράφων ως αναπαράσταση των σχέσεων(ακμές)μεταξύ των αντικειμένων(κόμβοι)σε μία εικόνα. Παρατηρώντας τη συμπεριφορά των σύγχρονων μοντέλων της βιβλιογραφίας στα μη επισημειωμένα δείγματα αποκαλύπτεται πως υπάρχουν πολλές περιπτώσεις όπου το περιεχόμενο της εικόνας αγνοείται πλήρως και χρησιμοποιείται μόνο η σημασιολογική πληροφορία των αντικειμένων για την πρόβλεψη των σχέσεων.Ονομάζουμε αυτό τοπρόβλημα context bias και από όσο γνωρίζουμε είμαστε οι πρώτοι που το εντοπίζουν. Η συνεισφορά αυτής της διπλωματικής αφορά τόσο την ανάλυση και πρόταση μεθόδων επίλυσης του context bias,όσο και την εισαγωγή νέων μετρικών οι οποίες, σε αντίθεση με τις υιοθετούμενες, είναι ικανές να το αναδείξουν. Συγκεκριμένα: (1) Εισάγουμε το πείραμα του κυλιόμενου κουτιού (sliding box experiment) με το οποίο διερευνούμε ποιοτικά την επίδραση του context bias στα μοντέλα. (2) Δημιουργούμε μία μέθοδο εντοπισμού κλάσεων που προκαλούν context bias μετρώντας την εντροπία της κατανομής τους στο σύνολο δεδομένων (entropy ranking). (2) Παρουσιάζουμε ένα σύνολο κανόνων εξόρυξης αρνητικών μη επισημειωμένων δειγμάτων που ονομάζουμε αρνητική συμπλήρωση γράφου (Negative Graph CompletionήNGC). (4) Η ανάλυσή μας, μας επιτρέπει να σχεδιάσουμε τις εξής τρεις μεθόδους επίλυσης του context bias: (α) Αρνητικής Εντροπίας (NCE): συνάρτηση κόστους αρνητικής εντροπίας που εφαρμόζεται στα αρνητικά δείγματα που παράγονται από την NGC. (β) Κατάταξης Αρνητικότητας (NR): αντικατάσταση της NGC με ένα δίκτυο που μαθαίνει να αξιολογεί την αρνητικότητα δειγμάτων προκαθορισμένων κλάσεων. (γ) Συνέπειας Grounding (GCL): χρησιμοποιώντας το αντίστροφο πρόβλημα της πρόβλεψης οπτικών σχέσεων (grounding) επιβάλουμε συνέπεια ανάμεσα στην πρόβλεψη σχέσεων και την επαναπροβολή τους πίσω στην εικόνα μέσω του grounding με πλήρως ημι-επιβλεπόμενο τρόπο. (5) Εισάγουμε δύο παραλλαγές μέτρησης του Precision που, χρησιμοποιώντας τα αρνητικά δείγματα που παράγονται από την NGC, είναι ικανές να αναδείξουν το πρόβλημα του context bias. (6) Πραγματοποιούμε τόσο ποσοτική όσο και ποιοτική σύγκριση μεταξύ των μεθόδων που προτείνουμε αλλά και με τη σχετική βιβλιογραφία στα VRD και VG200, τα δύο δημοφιλέστερα σύνολα δεδομένων του προβλήματος όπου πετυχαίνουμε 42.2% και 54% μέγιστη σχετική βελτίωση αντίστοιχα. ́Ολα τα παραπάνω αναδεικνύουν την ανάγκη χρήσης ημι-επιβλεπόμενων μεθόδων καθώς και επαναπροσδιορίζουν την μετρική του Precision ως μία αναπόσπαστη πτυχή του προβλήματος ανίχνευσηςοπτικών σχέσεων, συμβάλλοντας έτσι στην περαιτέρω εμβάθυνση της μέχρι τώρα κατανόησής του. Μεγάλο μέρος των συνεισφορών υποβλήθηκαν στο Thirty-Fifth AAAI Conference on Artificial Intelligence (AAAI-21) με συγγραφείς τους Μάρκος Διοματάρης, Νικόλαος Γκανάτσιος, ΒασίληςΠιτσικάλης και Πέτρος Μαραγκός.
URI:	http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/17806
Εμφανίζεται στις συλλογές:	Διπλωματικές Εργασίες - Theses

Αρχεία σε αυτό το τεκμήριο:

Αρχείο	Περιγραφή	Μέγεθος	Μορφότυπος
thesis_Diomataris.pdf		28.06 MB	Adobe PDF	Εμφάνιση/Άνοιγμα

Δείξε την πλήρη περιγραφή του τεκμηρίου

Όλα τα τεκμήρια του δικτυακού τόπου προστατεύονται από πνευματικά δικαιώματα.