Αναγνώριση Ανθρώπινης Δράσης Και Χειρονομιών Χρησιμοποιώντας Συνελικτικά Και Αναδρομικά Νευρωνικά Δίκτυα

Θεόδωρος Πίσσας

Εθνικό Μετσόβιο Πολυτεχνείο

Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών

Καλώς ήρθατε στο Άρτεμις

Σκοπός του Άρτεμις είναι η συστηματική αρχειοθέτηση και διαδοση της πνευματικής παραγωγής της Σχολής Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών του Εθνικού Μετσόβιου Πολυτεχνείου, με τη βοήθεια της τεχνολογίας των ψηφιακών βιβλιοθηκών.

Παρακαλώ χρησιμοποιήστε αυτό το αναγνωριστικό για να παραπέμψετε ή να δημιουργήσετε σύνδεσμο προς αυτό το τεκμήριο: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/13508

Τίτλος:	Αναγνώριση Ανθρώπινης Δράσης Και Χειρονομιών Χρησιμοποιώντας Συνελικτικά Και Αναδρομικά Νευρωνικά Δίκτυα
Συγγραφείς:	Θεόδωρος Πίσσας Μαραγκός Πέτρος
Λέξεις κλειδιά:	συνελικτικά νευρωνικά δίκτυα δισδιάστατη και τρισδιάστατη συνέλιξη νευρώνες μακράς και βραχείας μνήμης αναδρομικά νευρωνικά δίκτυα αναγνώριση ανθρώπινης δράσης αναγνώριση ανθρωπίνων χειρονομιών επαύξηση δεδομένων on-line αναγνώριση χειρονομιών
Ημερομηνία έκδοσης:	25-Ιου-2017
Περίληψη:	Στην παρούσα διπλωματική επιδιώκεται προσεγγιστεί το πρόβλημα της αναγνώρισης δράσεων και χειρονομιών χρησιμοποιώντας μοντέλα Τεχνητών Νευρωνικών Δικτύων. Συγκεκριμένα εξετάζονται δύο κατηγορίες εξειδικευμένων νευρωνικών μοντέλων τα Συνελικτικά Νευρωνικά Δίκτυα και τα Αναδρομικά Νευρωνικά Δίκτυα.Τα πρώτα έχουν τη δυνατότητα να εντοπίζουν και να εξάγουν τοπικά χωρικά ή χωρικά-χρονικά χαρακτηριστικά από βίντεο, ενώ τα δεύτερα είναι κατάλληλα για τη συνολική χρονική μοντελοποίηση μίας δράσης.Προκειμένου να εξετασθεί η συνεισφορά των δύο κατηγοριών μοντέλων διεξήχθησαν πειράματα για τρία διαφορετικά μοντέλα:Ένα Νευρωνικό Δίκτυο Τρισδιάστατης Συνέλιξης (3D-CNN) το οποίο εξάγει μόνο τοπικά χωροχρονικά χαρακτηριστικά από τμήματα ενός βίντεο και δύο Αναδρομικά Νευρωνικά Δίκτυα που αποτελούνται από στρώματα νευρώνωνΜακράς και Βραχείας Μνήμης (Long and Short Term Memory), εκ των οποίων, το πρώτο (3D-CNN-LSTM) χρησιμοποιεί τα τοπικά χωροχρονικά χαρακτηριστικά που εξάγει ένα Νευρωνικό Δίκτυο Τρισδιάστατης Συνέλιξηςαπό τμήματα ενός βίντεο ενώ το δεύτερο (CNN-LSTM) χρησιμοποιείτα χωρικά χαρακτηριστικά που εξάγει ένα Νευρωνικό Δίκτυο Δισδιάστατης Συνέλιξης (2D-CNN ή απλά CNN) από κάθε καρέ ενός βίντεο.Τα παραπάνω μοντέλα εκπαιδεύτηκαν και αξιολογήθηκαν επί δύο βάσεων δεδομένων μεσαίας κλίμακας, τις KTH και SKIG).Στην βάση SKIG, που περιέχει βίντεο με δυναμικές χειρονομίες, εκπαιδεύονται ξεχωριστά μοντέλα για δύο διαφορετικές τροπικότητες το RGB βίντεο και το βίντεο βάθους (Depth). Κατά συνέπεια, δίνεται η δυνατότητα να αξιολογηθεί η σημασία κάθε τροπικότητας και να συνδυαστούν οι δύο τροπικότητες κατά την αξιολόγηση των μοντέλων.Επιπλέον, επιδιώκεται η πειραματική αξιολόγηση της επίδρασης κάποιων εμπειρικά επιβεβαιωμένων μεθοδολογιών (Προγραμματισμός ρυθμού μάθησης και Επαύξηση Δεδομένων) και τεχνικών κανονικοποίησης (Dropout και Batch Normalization) που αποσκοπούν στην βελτίωση της ικανότητας γενίκευσης των μοντέλων καθώς και στην επιτάχυνση της διαδικασίας εκπαίδευσης.Τέλος, ενσωματώθηκαν τα εκπαιδευμένα μοντέλα σε ένα σύστημα on-line αναγνώρισης χειρονομιών, το οποίο αναπτύχθηκε εντός του περιβάλλοντος του R.O.S (Robotics Operating System).Το σύστημα αυτό επιτρέπει την ταχύτατη επεξεργασία και αναγνώριση χειρονομιών (της τάξης μεγέθους των εκατοντάδων mseconds ανά χειρονομία)σε σχέση με άλλες κλασσικές μεθόδους αναγνώρισης που βασίζονται στην εξαγωγή κατασκευασμένων χαρακτηριστικών, όπως οι πυκνές τροχιές, που απαιτούν σημαντικά περισσότερο χρόνο για τον υπολογισμό τους.
URI:	http://artemis-new.cslab.ece.ntua.gr:8080/jspui/handle/123456789/13508
Εμφανίζεται στις συλλογές:	Διπλωματικές Εργασίες - Theses

Αρχεία σε αυτό το τεκμήριο:

Αρχείο	Μέγεθος	Μορφότυπος
DT2017-0166.pdf	3.83 MB	Adobe PDF	Εμφάνιση/Άνοιγμα

Δείξε την πλήρη περιγραφή του τεκμηρίου

Όλα τα τεκμήρια του δικτυακού τόπου προστατεύονται από πνευματικά δικαιώματα.