Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/19060
Title: Enhancing Video Question Answering with the use of Scene Graphs
Authors: Μπρίλλη, Διονυσία Δανάη
Μαραγκός Πέτρος
Keywords: Βαθειά Μάθηση
Αυτόματη απάντηση ερωτήσεων σε βίντεο
Γράφοι Σκηνής
Παραγωγή Γράφων Σκηνής
Νευρωνικά Δίκτυα Γραφών
Action Genome Question Answering Dataset
Video Question Answering
Deep Learning
Scene Graphs
Graph Neural Networks
Issue Date: 28-Mar-2024
Abstract: Στη σύγχρονη εποχή της ψηφιακής επανάστασης, με την εκθετική αύξηση του περιεχομένου σε βίντεο, είναι πλέον επιτακτική η ανάγκη για αποτελεσματική κατανόηση και ερμηνεία των βίντεο, κάτι ζωτικής σημασίας για πολλές εφαρμογές. Η απάντηση ερωτήσεων σε βίντεο (Video Question Answering) είναι ένα πολύπλοκο πρόβλημα που απαιτεί βαθιά κατανόηση τόσο του οπτικού περιεχομένου όσο και των φυσικών γλωσσικών ερωτήσεων. Παρόλο που έρευνες παρουσιάζουν συνεχή πρόοδο, οι περισσότερες δουλειές μέχρι σήμερα έχουν επικεντρωθεί σε μεθόδους που βασίζονται σε εικονοστοιχεία (pixel), ενώ συχνά δυσκολεύονται να αποτυπώσουν αποτελεσματικά τις πολύπλοκες σχέσεις και δυναμικές εντός του βίντεο. Η παρατήρηση της συμπεριφοράς των μοντέλων αυτών έχει αναδείξει αυτόν τον περιορισμό και την ανάγκη για την ανάπτυξη πιο αποτελεσματικών συστημάτων Video Question Answering. Η παρούσα εργασία παρουσιάζει μία νέα προσέγγιση προς αυτή την κατεύθυνση με την ενσωμάτωση των γράφων σκηνής με μία ιεραρχική προσέγγιση για την πιο αποτελεσματική απάντηση ερωτήσεων σε βίντεο. Οι γράφοι σκηνής παρέχουν μία δομημένη αναπαράσταση των οπτικών στοιχείων μέσα σε ένα βίντεο και των μεταξύ τους σχέσεων, προσφέροντας μία πλούσια σημασιολογική βάση για την κατανόηση σύνθετων βίντεο. Μετατρέποντας την ανάλυση βίντεο από τον χώρο των πίξελ στον χώρο των γράφων, δίνουμε τη δυνατότητα αποτελεσματικότερης και σημασιολογικά πλούσιας επεξεργασίας βίντεο. Προτείνουμε μία αρχιτεκτονική που αξιοποιεί τους γράφους σκηνής, χρησιμοποιώντας Νευρωνικά Δίκτυα Γράφων (GNNs) για την επεξεργασία των γράφων σκηνής, μαζί με ένα ιεραρχικό μοντέλο που λειτουργεί σε διαφορετικά επίπεδα του βίντεο, από μεμονωμένα κλιπ, έως και ολόκληρο το βίντεο για να επιτρέψει πιο ολοκληρωμένη κατανόηση του βίντεο. Η ενσωμάτωση των GNNs επιτρέπει την εξαγωγή σημαντικών πληροφοριών για τους γράφους, αποτυπώνοντας τις σχέσεις και τα χαρακτηριστικά των οπτικών στοιχείων. Το ιεραρχικό μοντέλο, που λειτουργεί σε διαφορετικά επίπεδα, διασφαλίζει ότι λαμβάνονται υπόψη τόσο οι λεπτομέρειες όσο και το ευρύτερο περιεχόμενο, οδηγώντας σε βαθύτερη κατανόηση του βίντεο. Έτσι, παρουσιάζουμε μία μέθοδο που(1) Ξεκινά με την εξαγωγή γράφων σκηνής από επιλεγμένα κλιπ βίντεο (2) Δημιουργεί διανύσματα χαρακτηριστικών με τη χρήση GNNs και (3) Ενσωματώνει τα διανύσματα χαρακτηριστικών σε ένα ιεραρχικό μοντέλο Αξιολογούμε τη μέθοδό μας στο Action Genome Question Answering Dataset, ένα σύνολο δεδομένων πραγματικού κόσμου που απεικονίζει ανθρώπους σε καθημερινές δραστηριότητες. Τα αποτελέσματά μας δείχνουν ότι η προσέγγισή μας είναι μεταξύ των state-of-the-art μεθόδων, ενώ μάλιστα υπερτερεί σε συγκεκριμένες κατηγορίες ερωτήσεων. Η προσέγγισή μας είναι ένα βήμα προς πιο αποδοτικά και με επίγνωση του περιεχομένου συστήματα Video Question Answering, επιτρέποντας πιο ακριβείς και με ουσία απαντήσεις σε ερωτήσεις φυσικής γλώσσας σχετικά με βίντεο. Εν κατακλείδι, η παρούσα εργασία παρουσιάζει μία νέα προσέγγιση για την απάντηση ερωτήσεων σε βίντεο, η οποία επικεντρώνεται στην αποτελεσματική κατανόηση και ερμηνεία των βίντεο. Η προσέγγισή μας είναι η πρώτη, εξ όσων γνωρίζουμε, που χρησιμοποιεί γράφους σκηνής μαζί με ιεραρχική προσέγγιση για το πρόβλημα του Video Question Answering, ενώ ακόμα τα αποτελέσματά μας αποδεικνύουν την αποτελεσματικότητα της προσέγγισής μας σε σενάρια πραγματικού κόσμου. Πειραματιζόμαστε ακόμα με διαφορετικές μεθόδους επεξεργασίας των γράφων σκηνής αλλά και επίπεδα του ιεραρχικού μοντέλου, παρέχοντας πληροφορίες σχετικά με την αποτελεσματικότητα διαφορετικών αρχιτεκτονικών.
URI: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/19060
Appears in Collections:Διπλωματικές Εργασίες - Theses

Files in This Item:
File Description SizeFormat 
thesis_brilli.pdf21.32 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.