Please use this identifier to cite or link to this item:
Title: Αναγνώριση ανθρώπινων ενεργειών σε βίντεο με την χρήση Βαθιών Νευρωνικών δικτύων
Authors: Στάμου, Φιλομένα
Σταφυλοπάτης Ανδρέας-Γεώργιος
Keywords: αναγνώριση ενεργειών σε βίντεο
όραση υπολογιστών
βαθιά μηχανική μάθηση
συνελικτικά νευρωνικά δίκτυα
οπτική ροή
δίκτυο δύο ρευμάτων
video action recognition
computer vision
deep learning
convolutional neural networks
optical flow
two-stream network
Issue Date: 19-Nov-2019
Abstract: Το θέμα της παρούσας διπλωματικής εργασίας είναι η Αναγνώριση Ανθρώπινων Ενεργειών σε ψηφιακά βίντεο (Video Action Recognition) κάνοντας χρήση τεχνικών της Βαθιάς Μηχανικής Μάθησης (Deep Learning). Το συγκεκριμένο πρόβλημα έχει βρεθεί στο επίκεντρο σημαντικών επιστημονικών και ερευνητικών προσπαθειών κατά τη διάρκεια των τελευταίων χρόνων, χάρη στην εφαρμογή που βρίσκει σε ένα ευρύ φάσμα τομέων. Καθημερινά προκύπτει ένας τεράστιος όγκος ψηφιακών δεδομένων, με αποτέλεσμα να κρίνεται αναγκαία η βαθύτερη κατανόηση της δομής τους και η ανακάλυψη τρόπων επεξεργασίας και εξαγωγής χρήσιμης γνώσης από αυτά. Η πληροφορία που περιέχεται σε ένα ψηφιακό βίντεο μπορεί να φανεί χρήσιμη σε κλάδους όπως η παρακολούθηση χώρων μέσω κάμερας (video surveillance), η αυτόματη οδήγηση (self-driving cars) ή η αλληλεπίδραση μεταξύ ανθρώπου-υπολογιστή (human-computer interaction). Προκειμένου να προσεγγίσουμε το περιεχόμενο του Video Action Recognition, αρχικά παρουσιάζουμε ένα σύνολο μεθόδων και αρχιτεκτονικών που έχουν χρησιμοποιηθεί για την επίλυση του προβλήματος. Εστιάζουμε την προσοχή μας στις τεχνικές που προέρχονται από τον χώρο της Βαθιάς Μηχανικής Μάθησης και μελετάμε τις επιδόσεις που έχουν σημειώσει. Στο Κεφάλαιο 5 του εγγράφου υλοποιούμε το δικό μας μοντέλο αναγνώρισης ενεργειών σε βίντεο, το οποίο είναι βασισμένο στα Συνελικτικά Νευρωνικά Δίκτυα (CNN) και στα δίκτυα Δύο-Ρευμάτων (Two-Stream Networks). Χρησιμοποιούμε τα 13320 δεδομένα βίντεο που περιέχονται στο dataset UCF-101, τα επεξεργαζόμαστε και εξάγουμε τα χαρακτηριστικά τους, προκειμένου να καταλήξουμε σε μία πρόβλεψη σχετικά με την αναπαριστούμενη ενέργεια του κάθε βίντεο. This diploma thesis deals with Video Action Recognition utilizing Deep Learning techniques. Video activity recognition, although being an emerging task, has been the subject of important research efforts due to the importance of its everyday applications. The huge amount of data that are generated on an everyday basis has encouraged the research community to better investigate videos and to develop ways in order to exclude valuable knowledge through data (Data Mining). This field is useful to a number of applications, such as video-surveillance, self-driving cars and human-computer interaction. Activity recognition consists of identifying some actions from a series of observations. As part of the document, we discuss about the main techniques used for activity recognitionin computer vision, namely Video-based Activity Recognition focusing on the state-of-the-art methods while at the same time mentioning other techniques used for the same task that the research community has known for several years. For each of the analyzed models, its contribution over previous works and the proposed approach performance are examined. On the Chapter 5 of this paper we try to implement a video action recognition technique that uses Deep Convolutional Neural Networks (CNN) and combines both spatial and temporal information from video frames. We present all the preprocessing that is applied to our data (dataset UCF-101) prior to feeding them into our model and the results of our predictions.
Appears in Collections:Διπλωματικές Εργασίες - Theses

Files in This Item:
File Description SizeFormat 
VideoActionRecognition_DeepLearning.pdf4.18 MBAdobe PDFView/Open

Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.