Παρακαλώ χρησιμοποιήστε αυτό το αναγνωριστικό για να παραπέμψετε ή να δημιουργήσετε σύνδεσμο προς αυτό το τεκμήριο: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/18397
Τίτλος: Παραγωγή Περιγραφικών Γράφων Σκηνής Χρησιμοποιώντας Ασθενή Επίβλεψη σε Περιγραφές Εικόνων
Συγγραφείς: Μπενετάτος, Αλέξανδρος
Μαραγκός Πέτρος
Λέξεις κλειδιά: παραγωγή γράφων σκηνής
scene graph generation (SGG)
ασθενής επίβλεψη
weak supervision
περιγραφικότητα
saliency
παραγωγή γράφων σκηνής από περιγραφές εικόνων
scene graph generation from image captions
COCO
VG200
Open Images
Ημερομηνία έκδοσης: 14-Ιου-2022
Περίληψη: Το πρόβλημα παραγωγής γράφων σκηνής (scene graph generation) του τομέα της όρασης υπολογιστών αφορά την εξαγωγή κατευθυνόμενων γράφων ως αναπαράσταση των σχέσεων (ακμές) μεταξύ των αντικειμένων (κόμβοι) σε μία εικόνα. Παρατηρώντας τη συμπεριφορά σύγχρονων μοντέλων στη βιβλιογραφία σε εικόνες με επισημειωμένα δείγματα, γίνεται σαφές πως τα μοντέλα που εκπαιδεύουμε δυσκολεύονται να ξεχωρίσουν ποιες από τις πιθανές σχέσεις είναι πιο σημαντικές για την περιγραφή της εικόνας. Μάλιστα, αυτό δεν οφείλεται σε κάποιο πρόβλημα εκπαίδευσης καθώς, πολύ συχνά, τα μοντέλα θα προβλέψουν τις σχέσεις που είναι επισημειωμένες, ωστόσο ακόμα και αυτές δεν θα παρέχουν σημαντική πληροφορία για την εικόνα. Θα αναφερόμαστε στην ικανότητα των μοντέλων να εντοπίσουν ποιες από τις πιθανές σχέσεις είναι πιο σημαντικές για την περιγραφή της εικόνας ως saliency και, από όσο γνωρίζουμε, είμαστε οι πρώτοι που αναφερόμαστε σε αυτό το χαρακτηριστικό. Η συνεισφορά αυτής της διπλωματικής αφορά τόσο τη μέτρηση του saliency ενός Scene Graph Generation (SGG) μοντέλου όσο και τη παραγωγή πιο salient γράφων σκηνής σύμφωνα με ποιοτικά και ποσοτικά αποτελέσματα που εξάγουμε. Συγκεκριμένα (α) εισάγουμε μια γενικευμένη μέθοδο εκπαίδευσης SGG μοντέλων με ασθενή επίβλεψη χρησιμοποιώντας περιγραφές εικόνων, (β) εισάγουμε δύο παραλλαγές της μέτρησης του Recall@N όπου, με χρήση των περιγραφών εικόνων, μπορούμε να εξάγουμε μετρήσεις για το saliency SGG μοντέλων και (γ) πραγματοποιούμε τόσο ποσοτική όσο και ποιοτική σύγκριση μεταξύ των μεθόδων που προτείνουμε και με τη σχετική βιβλιογραφία στο VG200, το δημοφιλέστερο σύνολο δεδομένων του προβλήματος όπου πετυχαίνουμε 35% μέγιστη σχετική βελτίωση συγκριτικά με επαναϋλοποίηση της SOTA μεθόδου. Θεμελιώνουμε, λοιπόν, την αιτία έλλειψης saliency στους γράφους σκηνής, προτείνουμε μετρικές για την αξιολόγηση του saliency ενός μοντέλου και τέλος σχεδιάζουμε μια μέθοδο εκπαίδευσης μοντέλων ώστε αυτά να αντιλαμβάνονται καλύτερα την έννοια του saliency και να παράγουν πιο ουσιώδεις γράφους σκηνής. Τα παραπάνω τονίζουν την ανάγκη παραγωγής περιγραφικών γράφων σκηνής και αναδεικνύουν την ανάγκη αλλαγής προσανατολισμού στην αντιμετώπιση του προβλήματος. Η χρήση πλήρως επιβλεπόμενων μεθόδων, δυστυχώς, δεν κλιμακώνονται καλά σε αυξημένο αριθμό από κατηγορίες αντικειμένων ή σχέσεων. Αλλά ακόμα και σε μικρότερα λεξιλόγια, εξαιτίας της αραιής μη-περιγραφικής επισημείωσης, οδηγούμαστε σε μεροληπτικά μοντέλα που δεν κατανοούν την εικόνα και αδυνατούν να εντοπίσουν τη σημαντική πληροφορία σε αυτή.
URI: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/18397
Εμφανίζεται στις συλλογές:Διπλωματικές Εργασίες - Theses

Αρχεία σε αυτό το τεκμήριο:
Αρχείο Περιγραφή ΜέγεθοςΜορφότυπος 
[Αλέξανδρος Μπενετάτος] Διπλωματική Εργασία.pdffinal corrected12.39 MBAdobe PDFΕμφάνιση/Άνοιγμα


Όλα τα τεκμήρια του δικτυακού τόπου προστατεύονται από πνευματικά δικαιώματα.