Πολυτροπική Κατανόηση Βίντεο Με Τεχνικές Ασθενώς Επιβλεπόμενης Μάθησης

Γιώργος Μπουρίτσας

Εθνικό Μετσόβιο Πολυτεχνείο

Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών

Καλώς ήρθατε στο Άρτεμις

Σκοπός του Άρτεμις είναι η συστηματική αρχειοθέτηση και διαδοση της πνευματικής παραγωγής της Σχολής Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών του Εθνικού Μετσόβιου Πολυτεχνείου, με τη βοήθεια της τεχνολογίας των ψηφιακών βιβλιοθηκών.

Παρακαλώ χρησιμοποιήστε αυτό το αναγνωριστικό για να παραπέμψετε ή να δημιουργήσετε σύνδεσμο προς αυτό το τεκμήριο: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/13536

Τίτλος:	Πολυτροπική Κατανόηση Βίντεο Με Τεχνικές Ασθενώς Επιβλεπόμενης Μάθησης
Συγγραφείς:	Γιώργος Μπουρίτσας Μαραγκός Πέτρος
Λέξεις κλειδιά:	αυτόματη κατανόηση βίντεο πολυτροπική κατανόηση γεγονότων ασθενώς επιβλεπόμενη μάθηση μάθηση πολλαπλών παραδειγμάτων ασαφή σύνολα πιθανοτικές ετικέτες διακριτική ομαδοποίηση κυρτός προγραμματισμός σημασιολογία κειμένου σημασιολογική ομοιότητα αναγνώριση προσώπου αναγνώριση δράσεων
Ημερομηνία έκδοσης:	18-Ιου-2017
Περίληψη:	Στην παρούσα διπλωματική αντιμετωπίζουμε το πρόβλημα της αυτόματης κατανόησης βίντεο χρησιμοποιώντας κειμενικούς υπαινιγμούς ως μορφές ασθενούς επίβλεψης. Συγκεκριμένα, αν και υπάρχειμεγάλος όγκος βίντεο που συνοδεύονται από περιγραφικό κείμενο, δεν είναι πάντα εύκολο να αξιοποιηθεί η επίβλεψη που μας παρέχει, λόγω της χωροχρονικής ανακρίβειας των περιγραφών, αλλά και τηςδυσκολίας στην κατανόηση της σημασιολογίας τους.Για κάθε κατηγορία οπτικών αντικειμένων υπό αναγνώριση, τα ερωτήματα που προκύπτουν είναιδύο: (i) Ποιο είναι το χωροχρονικό τμήμα του βίντεο στο οποίο αναφέρεται κάθε περιγραφή; (ii)Ποια είναι η ετικέτα που υπαινίσσεται κάθε περιγραφή; Απαντάμε στο πρώτο με Μάθηση ΠολλαπλώνΠαραδειγμάτων και στο δεύτερο με Μάθηση Πιθανοτικών Ετικετών. Ακόμα, εισάγουμε την έννοια τωνΑσαφών Συνόλων Πολλαπλών Παραδειγμάτων για να μοντελοποιήσουμε τις διαφορετικές χρονικέςεπικαλύψεις μεταξύ των κειμενικών υπαινιγμών και των οπτικών αντικειμένων. Επίσης, εξερευνούμετις δυνατότητες βελτίωσης της κατανόησης ενσωματώνοντας πληροφορία από άλλα υπό αναγνώρισηοπτικά αντικείμενα και από τις προβλέψεις ενός προεκπαιδευμένου ταξινομητή. Τέλος, διατυπώνουμεμαθηματικά όλες αυτές τις μορφές ασθενούς επίβλεψης επεκτείνοντας έναν παλαιότερο φορμαλισμόδιακριτικής ομαδοποίησης μέσω κυρτού προγραμματισμού.Οι πτυχές του βίντεο που επιχειρούνται να κατανοηθούν είναι οι ανθρώπινοι χαρακτήρες και οιδράσεις που εκτελούν, αν και η μοντελοποίηση δεν περιορίζεται σε αυτές. Αφού εντοπιστούν τααντικείμενα αυτά στο βίντεο, αναπαρίστανται μέσω χαρακτηριστικών βαθιάς μάθησης. Για να εξάγουμετις ασθενείς ετικέτες από το κείμενο καθορίζουμε εκ των προτέρων ένα σταθερό σύνολο για κάθεμία από τις 2 περιπτώσεις και στη συνέχεια χρησιμοποιούμε ταίριασμα κανονικών εκφράσεων για τουςχαρακτήρες και υπολογισμό σημασιολογικής ομοιότητας για τις δράσεις.Αξιολογούμε τις μεθόδους μας, αφενός για την αναγνώριση προσώπου και για αφετέρου για τηναναγνώριση δράσεων, σε ρεαλιστικά περιβάλλοντα και συγκεκριμένα σε 6 ταινίες της νεοεισαχθείσαςστη διεθνή βιβλιογραφία βάσης COGNIMUSE, συνοδευόμενες από τα σενάρια και τους υπότιτλούςτους.
URI:	http://artemis-new.cslab.ece.ntua.gr:8080/jspui/handle/123456789/13536
Εμφανίζεται στις συλλογές:	Διπλωματικές Εργασίες - Theses

Αρχεία σε αυτό το τεκμήριο:

Αρχείο	Μέγεθος	Μορφότυπος
DT2017-0194.pdf	4.13 MB	Adobe PDF	Εμφάνιση/Άνοιγμα

Δείξε την πλήρη περιγραφή του τεκμηρίου

Όλα τα τεκμήρια του δικτυακού τόπου προστατεύονται από πνευματικά δικαιώματα.