Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/18397
Title: Παραγωγή Περιγραφικών Γράφων Σκηνής Χρησιμοποιώντας Ασθενή Επίβλεψη σε Περιγραφές Εικόνων
Authors: Μπενετάτος, Αλέξανδρος
Μαραγκός Πέτρος
Keywords: παραγωγή γράφων σκηνής
scene graph generation (SGG)
ασθενής επίβλεψη
weak supervision
περιγραφικότητα
saliency
παραγωγή γράφων σκηνής από περιγραφές εικόνων
scene graph generation from image captions
COCO
VG200
Open Images
Issue Date: 14-Jul-2022
Abstract: Το πρόβλημα παραγωγής γράφων σκηνής (scene graph generation) του τομέα της όρασης υπολογιστών αφορά την εξαγωγή κατευθυνόμενων γράφων ως αναπαράσταση των σχέσεων (ακμές) μεταξύ των αντικειμένων (κόμβοι) σε μία εικόνα. Παρατηρώντας τη συμπεριφορά σύγχρονων μοντέλων στη βιβλιογραφία σε εικόνες με επισημειωμένα δείγματα, γίνεται σαφές πως τα μοντέλα που εκπαιδεύουμε δυσκολεύονται να ξεχωρίσουν ποιες από τις πιθανές σχέσεις είναι πιο σημαντικές για την περιγραφή της εικόνας. Μάλιστα, αυτό δεν οφείλεται σε κάποιο πρόβλημα εκπαίδευσης καθώς, πολύ συχνά, τα μοντέλα θα προβλέψουν τις σχέσεις που είναι επισημειωμένες, ωστόσο ακόμα και αυτές δεν θα παρέχουν σημαντική πληροφορία για την εικόνα. Θα αναφερόμαστε στην ικανότητα των μοντέλων να εντοπίσουν ποιες από τις πιθανές σχέσεις είναι πιο σημαντικές για την περιγραφή της εικόνας ως saliency και, από όσο γνωρίζουμε, είμαστε οι πρώτοι που αναφερόμαστε σε αυτό το χαρακτηριστικό. Η συνεισφορά αυτής της διπλωματικής αφορά τόσο τη μέτρηση του saliency ενός Scene Graph Generation (SGG) μοντέλου όσο και τη παραγωγή πιο salient γράφων σκηνής σύμφωνα με ποιοτικά και ποσοτικά αποτελέσματα που εξάγουμε. Συγκεκριμένα (α) εισάγουμε μια γενικευμένη μέθοδο εκπαίδευσης SGG μοντέλων με ασθενή επίβλεψη χρησιμοποιώντας περιγραφές εικόνων, (β) εισάγουμε δύο παραλλαγές της μέτρησης του Recall@N όπου, με χρήση των περιγραφών εικόνων, μπορούμε να εξάγουμε μετρήσεις για το saliency SGG μοντέλων και (γ) πραγματοποιούμε τόσο ποσοτική όσο και ποιοτική σύγκριση μεταξύ των μεθόδων που προτείνουμε και με τη σχετική βιβλιογραφία στο VG200, το δημοφιλέστερο σύνολο δεδομένων του προβλήματος όπου πετυχαίνουμε 35% μέγιστη σχετική βελτίωση συγκριτικά με επαναϋλοποίηση της SOTA μεθόδου. Θεμελιώνουμε, λοιπόν, την αιτία έλλειψης saliency στους γράφους σκηνής, προτείνουμε μετρικές για την αξιολόγηση του saliency ενός μοντέλου και τέλος σχεδιάζουμε μια μέθοδο εκπαίδευσης μοντέλων ώστε αυτά να αντιλαμβάνονται καλύτερα την έννοια του saliency και να παράγουν πιο ουσιώδεις γράφους σκηνής. Τα παραπάνω τονίζουν την ανάγκη παραγωγής περιγραφικών γράφων σκηνής και αναδεικνύουν την ανάγκη αλλαγής προσανατολισμού στην αντιμετώπιση του προβλήματος. Η χρήση πλήρως επιβλεπόμενων μεθόδων, δυστυχώς, δεν κλιμακώνονται καλά σε αυξημένο αριθμό από κατηγορίες αντικειμένων ή σχέσεων. Αλλά ακόμα και σε μικρότερα λεξιλόγια, εξαιτίας της αραιής μη-περιγραφικής επισημείωσης, οδηγούμαστε σε μεροληπτικά μοντέλα που δεν κατανοούν την εικόνα και αδυνατούν να εντοπίσουν τη σημαντική πληροφορία σε αυτή.
URI: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/18397
Appears in Collections:Διπλωματικές Εργασίες - Theses

Files in This Item:
File Description SizeFormat 
[Αλέξανδρος Μπενετάτος] Διπλωματική Εργασία.pdffinal corrected12.39 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.