Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/18051
Title: Μοντελοποίηση Οπτικής Προσοχής σε Δεδομένα Βίντεο με Ενσωμάτωση του Βάθους
Authors: Διαμάντη, Ιωάννα
Μαραγκός Πέτρος
Keywords: Τρισδιάστατα Συνελικτικά Δίκτυα
Συνελικτικά Νευρωνικά Δίκτυα Διπλής Ροής
Όραση Υπολογιστών
Εμφάνεια
Οπτική Προσοχή
Δεδομένα Βίντεο
Βάθος
Issue Date: 25-Jul-2021
Abstract: Το θέμα της παρούσας Διπλωματικής Εργασίας είναι η αντιμετώπιση του προβλήματος της μοντελοποίησης της προσοχής στην φύση μέσω της πρόβλεψης της Εμφάνειας σε βίντεο. Αντίθετα με τις υπάρχουσες μεθόδους οπτικής Εμφάνειας, οι οποίες χρησιμοποιούν μόνο τις RGB ακολουθίες εικόνων των βίντεο ως είσοδο, η προτεινόμενη μέθοδος χρησιμοποιεί και το βάθος ως μία επιπλέον πληροφορία. Το υπό εξέταση πρόβλημα διαφέρει από το πρόβλημα της Αναγνώρισης Σημαντικών Αντικειμένων (Salient Object Detection), καθώς ο σκοπός είναι η πρόβλεψη της ανθρώπινης προσοχής σε βίντεο σε μία γενικότερη σκοπιά και όχι περιορισμένα σε συγκεκριμένα αντικείμενα. Το προτεινόμενο μοντέλο αποτελείται από δύο οπτικές ροές, μία για τις RGB εικόνες και μία για τις αντίστοιχες εικόνες βάθους. Και οι δύο ροές ακολουθούν μία αρχιτεκτονική Κωδικοποιητή-Αποκωδικοποιητή και συγχωνεύονται προκειμένου να προκύψει ένας ενιαίος τελικός χάρτης Εμφάνειας. Το δίκτυο εκπαιδεύεται από άκρο σε άκρο και αξιολογείται πάνω σε 9 διαφορετικά σύνολα δεδομένων παρακολούθησης ματιού, τα οποία αποτελούνται από μεγάλο εύρος περιεχομένου βίντεο. Διεξάχθηκαν εκτενή πειράματα τόσο όσον αφορά τις διαφορετικές μεθόδους που εφαρμόστηκαν για τον υπολογισμό του βάθους από τα αρχικά δεδομένα παρακολούθησης ματιού καθώς αυτά δεν περιέχουν αυτή την πληροφορία, όσο και την αλληλεπίδραση και συγχώνευση των δύο πληροφοριών (RGB και βάθους) κατά τη διαδικασία της εκπαίδευσης, προκειμένου να εξεταστεί η συνεισφορά του βάθους στο πρόβλημα της οπτικής εμφάνειας. Η προτεινόμενη μέθοδος στις περισσότερες περιπτώσεις αποδίδει καλύτερα από πολλές άλλες state-of-the-art μεθόδους όπως και από την RGB-μόνο εκδοχή του μοντέλου, κάτι το οποίο υποδεικνύει την συνεισφορά της πληροφορίας του βάθους στην αποτελεσματική εκτίμηση της Εμφάνειας σε βίντεο τα οποία έχουν προβληθεί σε μία δισδιάστατη οθόνη. Από όσο γνωρίζουμε, αυτή είναι η πρώτη ανταγωνιστική προσέγγιση βαθιάς μάθησης του προβλήματος της εκτίμησης της Εμφάνειας σε βίντεο που συνδυάζει τόσο τις RGB εικόνες όπως και το Βάθος προκειμένου να αντιμετωπίσει το γενικότερο πρόβλημα της εκτίμησης της Εμφάνειας στη φύση.
URI: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/18051
Appears in Collections:Διπλωματικές Εργασίες - Theses

Files in This Item:
File Description SizeFormat 
DIAMANTI_Thesis_FINAL.pdf15.83 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.