Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/17448
Title: Αναγνώριση και εντοπισμός ανθρώπινης δραστηριότητας σε βίντεο
Authors: Γαλανάκης, Ευστάθιος
Μαραγκός Πέτρος
Keywords: Αναγνώριση δράσης
Εντοπισμός δράσης
Action Tubes
TPN
Computer Vision
Όραση υπολογιστών
Issue Date: 6-Nov-2019
Abstract: Σκοπός αυτής της διπλωματικής εργασίας είναι ο σχεδιασμός ενός δικτύου αναγνώρισης και εντοπισμού οποιωνδήποτε ανθρώπινων ενεργειών σε ένα βίντεο. Το δίκτυό μας στοχεύει να εντοπίσει χωροχρονικά μια ανθρώπινη ενέργεια που εκτελείται σε ένα βίντεο παράγοντας ακολουθίες δισδιάστατων πλαισίων, ένα για κάθε καρέ βίντεο, περικλείοντας το άτομο που εκτελεί αυτή την ενέργεια και ταυτόχρονα να την εντοπίσει. Η αναγνώριση και ο εντοπισμός ανθρώπινων ενεργειών σε βίντεο είναι μια από τις μεγαλύτερες προκλήσεις στο πεδίο της ́Ορασης Υπολογιστών. Οι πιο πρόσφατες προσεγγίσεις περιλαμβάνουν ένα δίκτυο αναγνώρισης αντικειμένων το οποίο προτείνει δισδίαστατα κουτάκια ανά καρέ, έναν αλγόριθμο σύνδεσης για τη δημιουργία υποψήφιων action tubes και έναν ταξινομητή για την ταξινόμησή τους. Πάνω σ ́ αυτό, οι περισσότερες από αυτές τις προσεγγίσεις εξαγάγουν τις χρονικές πληροφορίες από ένα δίκτυο το οποίο εκτιμά οπτική ροή σε επίπεδο πλαισίου. Η εισαγωγή των τρισδιάστατων συνελικτικών δικτύων μας έχει βοηθήσει να μπορούμε να υπολογίσουμε τις χωροχρονικές πληροφορίες από τα βίντεο και ταυτόχρονα να εξάγουμε χωροχρονικά χαρακτηριστικά. Η προσέγγισή μας προσπαθεί να συνδυάσει τα οφέλη του να χρησιμοποιείς δίκτυα ανίχνευσης αντικειμένων και τρισδιάστατες συνελίξεις. Σχεδιάζουμε ένα δίκτυο του οποίου η δομή βασίζεται στα κλασσικά δίκτυα εντοπισμού δράσης και το ονομάζουμε ActionNet. Το πρώτο στοιχείο είναι ένα τρισδιάστατο ResNet34 το οποίο χρησιμοποιείται για τη εξαγωγή χωροχρονικών χαρακτηριστικών κάθε τμήματος του βίντεο που δέχεται ως είσοδο. Επίσης, σχεδιάζουμε ένα δίκτυο για να το οποίο προτείνει υποψήφιες ακολουθίες από δισδιάστατα πλαίσια με βάση χωροχρονικά χαρακτηριστικά, το οποίο ονομάζουμε Tube Proposal Network. Αυτό το δίκτυο είναι μια επέκταση του Region Proposal Network παίρνοντας ως είσοδο τα εξαγόμενα χαρακτηριστικά και εξάγοντας k προτεινόμενες ακολουθίες από δισδιάστατα κουτιά που πιθανώς να περιέχουν κάποια δράση. Εξετάζουμε 2 προσεγγίσεις για τον καθορισμό των τρισδιάστατων προκαθορισμένων κουτιών, τα οποία χρησιμοποιεί το TPN. Επιπλέον, σχεδιάζουμε έναν αλγόριθμο σύνδεσης για τη σύνδεση των προτεινόμενων ακολουθιών και δημιουργία των υποψήφιων action tubes. Τέλος, διερευνούμε αρκετές τεχνικές ταξινόμησης, συμπεριλαμβανομένου ενός ταξινομητή SVM, ενός Linear, ενός RNN και ενός MLP για τα σύνολα δεδομένων JHMDB και UCF101.
URI: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/17448
Appears in Collections:Διπλωματικές Εργασίες - Theses

Files in This Item:
File Description SizeFormat 
efstathiosgalanakis.pdf7.87 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.