Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/13536
Title: Πολυτροπική Κατανόηση Βίντεο Με Τεχνικές Ασθενώς Επιβλεπόμενης Μάθησης
Authors: Γιώργος Μπουρίτσας
Μαραγκός Πέτρος
Keywords: αυτόματη κατανόηση βίντεο
πολυτροπική κατανόηση γεγονότων
ασθενώς επιβλεπόμενη μάθηση
μάθηση πολλαπλών παραδειγμάτων
ασαφή σύνολα
πιθανοτικές ετικέτες
διακριτική ομαδοποίηση
κυρτός προγραμματισμός
σημασιολογία κειμένου
σημασιολογική ομοιότητα
αναγνώριση προσώπου
αναγνώριση δράσεων
Issue Date: 18-Jul-2017
Abstract: Στην παρούσα διπλωματική αντιμετωπίζουμε το πρόβλημα της αυτόματης κατανόησης βίντεο χρησιμοποιώντας κειμενικούς υπαινιγμούς ως μορφές ασθενούς επίβλεψης. Συγκεκριμένα, αν και υπάρχειμεγάλος όγκος βίντεο που συνοδεύονται από περιγραφικό κείμενο, δεν είναι πάντα εύκολο να αξιοποιηθεί η επίβλεψη που μας παρέχει, λόγω της χωροχρονικής ανακρίβειας των περιγραφών, αλλά και τηςδυσκολίας στην κατανόηση της σημασιολογίας τους.Για κάθε κατηγορία οπτικών αντικειμένων υπό αναγνώριση, τα ερωτήματα που προκύπτουν είναιδύο: (i) Ποιο είναι το χωροχρονικό τμήμα του βίντεο στο οποίο αναφέρεται κάθε περιγραφή; (ii)Ποια είναι η ετικέτα που υπαινίσσεται κάθε περιγραφή; Απαντάμε στο πρώτο με Μάθηση ΠολλαπλώνΠαραδειγμάτων και στο δεύτερο με Μάθηση Πιθανοτικών Ετικετών. Ακόμα, εισάγουμε την έννοια τωνΑσαφών Συνόλων Πολλαπλών Παραδειγμάτων για να μοντελοποιήσουμε τις διαφορετικές χρονικέςεπικαλύψεις μεταξύ των κειμενικών υπαινιγμών και των οπτικών αντικειμένων. Επίσης, εξερευνούμετις δυνατότητες βελτίωσης της κατανόησης ενσωματώνοντας πληροφορία από άλλα υπό αναγνώρισηοπτικά αντικείμενα και από τις προβλέψεις ενός προεκπαιδευμένου ταξινομητή. Τέλος, διατυπώνουμεμαθηματικά όλες αυτές τις μορφές ασθενούς επίβλεψης επεκτείνοντας έναν παλαιότερο φορμαλισμόδιακριτικής ομαδοποίησης μέσω κυρτού προγραμματισμού.Οι πτυχές του βίντεο που επιχειρούνται να κατανοηθούν είναι οι ανθρώπινοι χαρακτήρες και οιδράσεις που εκτελούν, αν και η μοντελοποίηση δεν περιορίζεται σε αυτές. Αφού εντοπιστούν τααντικείμενα αυτά στο βίντεο, αναπαρίστανται μέσω χαρακτηριστικών βαθιάς μάθησης. Για να εξάγουμετις ασθενείς ετικέτες από το κείμενο καθορίζουμε εκ των προτέρων ένα σταθερό σύνολο για κάθεμία από τις 2 περιπτώσεις και στη συνέχεια χρησιμοποιούμε ταίριασμα κανονικών εκφράσεων για τουςχαρακτήρες και υπολογισμό σημασιολογικής ομοιότητας για τις δράσεις.Αξιολογούμε τις μεθόδους μας, αφενός για την αναγνώριση προσώπου και για αφετέρου για τηναναγνώριση δράσεων, σε ρεαλιστικά περιβάλλοντα και συγκεκριμένα σε 6 ταινίες της νεοεισαχθείσαςστη διεθνή βιβλιογραφία βάσης COGNIMUSE, συνοδευόμενες από τα σενάρια και τους υπότιτλούςτους.
URI: http://artemis-new.cslab.ece.ntua.gr:8080/jspui/handle/123456789/13536
Appears in Collections:Διπλωματικές Εργασίες - Theses

Files in This Item:
File SizeFormat 
DT2017-0194.pdf4.13 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.