Πολυτροπική Κατανόηση Βίντεο Με Τεχνικές Ασθενώς Επιβλεπόμενης Μάθησης

Γιώργος Μπουρίτσας

National Technical University of Athens

School of Electrical and Computer Engineering

Artemis is Live!

Welcome to our digital repository! The aim of Artemis is the systematic archiving and dissemination of the scientific work produced in the School of Electrical and Computer Engineering, National Technical University of Athens, Greece, using the technology of digital libraries.

Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/13536

Title:	Πολυτροπική Κατανόηση Βίντεο Με Τεχνικές Ασθενώς Επιβλεπόμενης Μάθησης
Authors:	Γιώργος Μπουρίτσας Μαραγκός Πέτρος
Keywords:	αυτόματη κατανόηση βίντεο πολυτροπική κατανόηση γεγονότων ασθενώς επιβλεπόμενη μάθηση μάθηση πολλαπλών παραδειγμάτων ασαφή σύνολα πιθανοτικές ετικέτες διακριτική ομαδοποίηση κυρτός προγραμματισμός σημασιολογία κειμένου σημασιολογική ομοιότητα αναγνώριση προσώπου αναγνώριση δράσεων
Issue Date:	18-Jul-2017
Abstract:	Στην παρούσα διπλωματική αντιμετωπίζουμε το πρόβλημα της αυτόματης κατανόησης βίντεο χρησιμοποιώντας κειμενικούς υπαινιγμούς ως μορφές ασθενούς επίβλεψης. Συγκεκριμένα, αν και υπάρχειμεγάλος όγκος βίντεο που συνοδεύονται από περιγραφικό κείμενο, δεν είναι πάντα εύκολο να αξιοποιηθεί η επίβλεψη που μας παρέχει, λόγω της χωροχρονικής ανακρίβειας των περιγραφών, αλλά και τηςδυσκολίας στην κατανόηση της σημασιολογίας τους.Για κάθε κατηγορία οπτικών αντικειμένων υπό αναγνώριση, τα ερωτήματα που προκύπτουν είναιδύο: (i) Ποιο είναι το χωροχρονικό τμήμα του βίντεο στο οποίο αναφέρεται κάθε περιγραφή; (ii)Ποια είναι η ετικέτα που υπαινίσσεται κάθε περιγραφή; Απαντάμε στο πρώτο με Μάθηση ΠολλαπλώνΠαραδειγμάτων και στο δεύτερο με Μάθηση Πιθανοτικών Ετικετών. Ακόμα, εισάγουμε την έννοια τωνΑσαφών Συνόλων Πολλαπλών Παραδειγμάτων για να μοντελοποιήσουμε τις διαφορετικές χρονικέςεπικαλύψεις μεταξύ των κειμενικών υπαινιγμών και των οπτικών αντικειμένων. Επίσης, εξερευνούμετις δυνατότητες βελτίωσης της κατανόησης ενσωματώνοντας πληροφορία από άλλα υπό αναγνώρισηοπτικά αντικείμενα και από τις προβλέψεις ενός προεκπαιδευμένου ταξινομητή. Τέλος, διατυπώνουμεμαθηματικά όλες αυτές τις μορφές ασθενούς επίβλεψης επεκτείνοντας έναν παλαιότερο φορμαλισμόδιακριτικής ομαδοποίησης μέσω κυρτού προγραμματισμού.Οι πτυχές του βίντεο που επιχειρούνται να κατανοηθούν είναι οι ανθρώπινοι χαρακτήρες και οιδράσεις που εκτελούν, αν και η μοντελοποίηση δεν περιορίζεται σε αυτές. Αφού εντοπιστούν τααντικείμενα αυτά στο βίντεο, αναπαρίστανται μέσω χαρακτηριστικών βαθιάς μάθησης. Για να εξάγουμετις ασθενείς ετικέτες από το κείμενο καθορίζουμε εκ των προτέρων ένα σταθερό σύνολο για κάθεμία από τις 2 περιπτώσεις και στη συνέχεια χρησιμοποιούμε ταίριασμα κανονικών εκφράσεων για τουςχαρακτήρες και υπολογισμό σημασιολογικής ομοιότητας για τις δράσεις.Αξιολογούμε τις μεθόδους μας, αφενός για την αναγνώριση προσώπου και για αφετέρου για τηναναγνώριση δράσεων, σε ρεαλιστικά περιβάλλοντα και συγκεκριμένα σε 6 ταινίες της νεοεισαχθείσαςστη διεθνή βιβλιογραφία βάσης COGNIMUSE, συνοδευόμενες από τα σενάρια και τους υπότιτλούςτους.
URI:	http://artemis-new.cslab.ece.ntua.gr:8080/jspui/handle/123456789/13536
Appears in Collections:	Διπλωματικές Εργασίες - Theses

Files in This Item:

File	Size	Format
DT2017-0194.pdf	4.13 MB	Adobe PDF	View/Open

Show full item record