Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/17653
Title: Εκμάθηση χωροχρονικών αναπαραστάσεων και μοντελοποίηση οπτικής προσοχής σε προβλήματα όρασης υπολογιστών
Authors: Kούτρας, Πέτρος
Μαραγκός Πέτρος
Keywords: Όραση υπολογιστών
Computer vision
Μηχανική μάθηση
Machine learning
Χωροχρονικές αναπαραστάσεις
Spatio-temporal representations
Οπτική προσοχή
Visual attention
Αναγνώριση δράσεων
Action recognition
Δημιουργία περιλήψεων
Summarization
Νευρωνικά δίκτυα
Neural networks
Αλληλεπίδραση ανθρώπου-ρομπότ
Human-robot interaction
Issue Date: 19-Dec-2019
Abstract: Στα πλαίσια της διδακτορικής διατριβής αρχικά αναπτύχθηκε και προτάθηκε ένα χωροχρονικό μοντέλο για την ανάλυση βίντεο και την οπτική προσοχή εμπνευσμένο από την ανθρώπινη αντίληψη, το οποίο χρησιμοποιήθηκε και αξιολογήθηκε στα χωροχρονικά προβλήματα της οπτικής προσοχής (μέσω της πρόβλεψης των σημείων εστίασης των ματιών), της αναγνώρισης δράσεων αλλά και της δημιουργίας περιλήψεων από βίντεο. Το χωροχρονικό αυτό μοντέλο μπορεί να παρέχει πληροφορία σχετικά με την κίνηση σε διαφορετικές κλίμακες και κατευθύνσεις χωρίς να χρειάζεται να την επεξεργαστεί σαν μια ξεχωριστή ροή πληροφορίας υπολογισμένη από έναν μικρό αριθμό καρέ του βίντεο. Με αυτό τον τρόπο η προσέγγιση αυτή επιτυγχάνει να εντοπίζει τόσο τις πολύ γρήγορες αλλαγές του βίντεο όσο και τις πιο αργές αλλαγές στην κίνηση που σχετίζονται με την αναγνώριση δράσεων ή προεξεχόντων γεγονότων. Πρόσφατα, η ευρεία χρήση τεχνικών βαθιάς μάθησης, όπως τα συνελικτικά νευρωνικά δίκτυα (Convolutional Neural Networks - CNNs), έχει ενισχύσει σημαντικά την απόδοση στην πλειοψηφία των στατικών προβλημάτων της όρασης υπολογιστών, όπως ο εντοπισμός αντικειμένων ή η σημασιολογική κατάτμηση. Αντίθετα η έρευνα σχετικά με τη σχεδίαση και εκμάθηση αναπαραστάσεων για τα προβλήματα της όρασης υπολογιστών που σχετίζονται με το χρόνο, είναι αρκετά μικρότερη και η απόδοση των δυναμικών μεθόδων και αλγορίθμων παραμένει σε αρκετές περιπτώσεις συγκρίσιμη με την εφαρμογή των στατικών προσεγγίσεων μεμονωμένα σε κάθε καρέ του βίντεο. Για το σκοπό αυτό προτάθηκε ένα χωροχρονικό βαθύ νευρωνικό δίκτυο πολλαπλών εργασιών, το οποίο μπορεί να αντιμετωπίσει από κοινού τα χωροχρονικά προβλήματα της εκτίμησης της προσοχής, της αναγνώρισης δράσεων και της δημιουργίας περιλήψεων από βίντεο. Η προτεινόμενη προσέγγιση χρησιμοποιεί ένα ενιαίο βαθύ νευρωνικό δίκτυο που εκπαιδεύεται ενιαία και από κοινού για όλες τις εργασίες με τη χρήση πολλαπλών και διαφορετικών βάσεων δεδομένων που σχετίζονται με τις εργασίες που εξετάζονται. Το προτεινόμενο δίκτυο χρησιμοποιεί μια ενοποιημένη αρχιτεκτονική που περιλαμβάνει επίπεδα γενικού σκοπού αλλά και επίπεδα που σχετίζονται με μια συγκεκριμένη εργασία και παράγει εξόδους πολλαπλών τύπων, δηλαδή χάρτες προσοχής ή ετικέτες ταξινόμησης, χρησιμοποιώντας σαν είσοδο το ίδιο βίντεο. Από την εκτεταμένη αξιολόγηση, σε επτά διαφορετικές βάσεις δεδομένων, παρατηρούμε ότι το δίκτυο πολλαπλών εργασιών αποδίδει το ίδιο καλά (ή σε ορισμένες περιπτώσεις καλύτερα) με τις τελευταίες (state-of-the-art) μεθόδους που σχεδιάστηκαν για μια μόνο εργασία, ενώ απαιτεί λιγότερους υπολογιστικούς πόρους σε αντίθεση με το έχουμε ένα ανεξάρτητο δίκτυο ανά κάθε μια εργασία. Παράλληλα με τα προτεινόμενα μοντέλα εκμάθησης χωροχρονικών αναπαραστάσεων, διερευνήθηκαν και προτάθηκαν επιπρόσθετες μέθοδοι για την επίλυση καθενός από τα παραπάνω χωροχρονικά προβλήματα οι οποίες ξεπέρασαν σε απόδοση τις τότε υπάρχουσες μεθόδους της βιβλιογραφίας σε αρκετές βάσεις αξιολόγησης. Για το σκοπό αυτό, αναπτύχθηκε ένα πολυτροπικό σύστημα ανίχνευσης προεξεχόντων γεγονότων και δημιουργίας περιλήψεων βασισμένο στις τροπικότητες εικόνας, ήχου και κειμένου. Η απόδοση του συστήματος αξιολογήθηκε με βάση επισημειώσεις χρηστών σε βίντεο ταινιών και ντοκιμαντέρ και κατόρθωσε να βελτιώσει σημαντικά τα υπάρχοντα συστήματα δημιουργίας περιλήψεων. Στα πλαίσια μελέτης των προβλημάτων που σχετίζονται με το χρόνο, έγινε επέκταση και ενσωμάτωση μεθόδων της όρασης υπολογιστών σε προβλήματα της ρομποτικής και ιδιαίτερα σε εφαρμογές που σχετίζονται με την επικοινωνία και αλληλεπίδραση των ρομπότ με ειδικές ηλικιακές ομάδες και συγκεκριμένα με ηλικιωμένους και παιδιά. Πιο συγκεκριμένα αναπτύχθηκαν μέθοδοι και μοντέλα αναγνώρισης ανθρώπινων δράσεων και χειρονομιών αξιοποιώντας την πληροφορία από πολλαπλές κάμερες. Τα αποτελέσματα τόσο σε βάσεις δεδομένων όσο και με πραγματικούς χρήστες αναδεικνύουν την αποτελεσματικότητα και καταλληλότητα των μεθόδων στα προβλήματα επικοινωνίας ανθρώπου-ρομπότ. Τέλος, προτάθηκε και υλοποιήθηκε ένα σύστημα αναγνώρισης δράσεων και χειρονομιών για προβλήματα αλληλεπίδρασης ανθρώπου-ρομπότ βασισμένο στην τεχνολογία των νευρωνικών δικτύων. Το προτεινόμενο σύστημα αξιοποιεί την πληροφορία υψηλού επιπέδου, όπως η πόζα του σώματος και των χεριών, που προκύπτει από την επεξεργασία της αρχικής οπτικής πληροφορίας από state-of-the-art μεθόδους βαθιάς εκμάθησης. Τα πειραματικά αποτελέσματα σε πολλαπλές βάσεις, τόσο με υγιείς χρήστες όσο και με ασθενείς, έδειξαν ότι το προτεινόμενο σύστημα μπορεί να επιτύχει αρκετά υψηλά επίπεδα αναγνώρισης ενώ η ενσωμάτωση του σε ρομποτικές πλατφόρμες δίνει τη δυνατότητα παρακολούθησης και αναγνώρισης των ανθρώπινων δραστηριοτήτων σε πραγματικό χρόνο.
URI: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/17653
Appears in Collections:Διδακτορικές Διατριβές - Ph.D. Theses

Files in This Item:
File Description SizeFormat 
PetrosKoutras_PhDthesis_final_official_for_artemis.pdf53.41 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.