Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/17653
Full metadata record
DC FieldValueLanguage
dc.contributor.authorKούτρας, Πέτρος-
dc.date.accessioned2020-08-25T18:52:03Z-
dc.date.available2020-08-25T18:52:03Z-
dc.date.issued2019-12-19-
dc.identifier.urihttp://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/17653-
dc.description.abstractΣτα πλαίσια της διδακτορικής διατριβής αρχικά αναπτύχθηκε και προτάθηκε ένα χωροχρονικό μοντέλο για την ανάλυση βίντεο και την οπτική προσοχή εμπνευσμένο από την ανθρώπινη αντίληψη, το οποίο χρησιμοποιήθηκε και αξιολογήθηκε στα χωροχρονικά προβλήματα της οπτικής προσοχής (μέσω της πρόβλεψης των σημείων εστίασης των ματιών), της αναγνώρισης δράσεων αλλά και της δημιουργίας περιλήψεων από βίντεο. Το χωροχρονικό αυτό μοντέλο μπορεί να παρέχει πληροφορία σχετικά με την κίνηση σε διαφορετικές κλίμακες και κατευθύνσεις χωρίς να χρειάζεται να την επεξεργαστεί σαν μια ξεχωριστή ροή πληροφορίας υπολογισμένη από έναν μικρό αριθμό καρέ του βίντεο. Με αυτό τον τρόπο η προσέγγιση αυτή επιτυγχάνει να εντοπίζει τόσο τις πολύ γρήγορες αλλαγές του βίντεο όσο και τις πιο αργές αλλαγές στην κίνηση που σχετίζονται με την αναγνώριση δράσεων ή προεξεχόντων γεγονότων. Πρόσφατα, η ευρεία χρήση τεχνικών βαθιάς μάθησης, όπως τα συνελικτικά νευρωνικά δίκτυα (Convolutional Neural Networks - CNNs), έχει ενισχύσει σημαντικά την απόδοση στην πλειοψηφία των στατικών προβλημάτων της όρασης υπολογιστών, όπως ο εντοπισμός αντικειμένων ή η σημασιολογική κατάτμηση. Αντίθετα η έρευνα σχετικά με τη σχεδίαση και εκμάθηση αναπαραστάσεων για τα προβλήματα της όρασης υπολογιστών που σχετίζονται με το χρόνο, είναι αρκετά μικρότερη και η απόδοση των δυναμικών μεθόδων και αλγορίθμων παραμένει σε αρκετές περιπτώσεις συγκρίσιμη με την εφαρμογή των στατικών προσεγγίσεων μεμονωμένα σε κάθε καρέ του βίντεο. Για το σκοπό αυτό προτάθηκε ένα χωροχρονικό βαθύ νευρωνικό δίκτυο πολλαπλών εργασιών, το οποίο μπορεί να αντιμετωπίσει από κοινού τα χωροχρονικά προβλήματα της εκτίμησης της προσοχής, της αναγνώρισης δράσεων και της δημιουργίας περιλήψεων από βίντεο. Η προτεινόμενη προσέγγιση χρησιμοποιεί ένα ενιαίο βαθύ νευρωνικό δίκτυο που εκπαιδεύεται ενιαία και από κοινού για όλες τις εργασίες με τη χρήση πολλαπλών και διαφορετικών βάσεων δεδομένων που σχετίζονται με τις εργασίες που εξετάζονται. Το προτεινόμενο δίκτυο χρησιμοποιεί μια ενοποιημένη αρχιτεκτονική που περιλαμβάνει επίπεδα γενικού σκοπού αλλά και επίπεδα που σχετίζονται με μια συγκεκριμένη εργασία και παράγει εξόδους πολλαπλών τύπων, δηλαδή χάρτες προσοχής ή ετικέτες ταξινόμησης, χρησιμοποιώντας σαν είσοδο το ίδιο βίντεο. Από την εκτεταμένη αξιολόγηση, σε επτά διαφορετικές βάσεις δεδομένων, παρατηρούμε ότι το δίκτυο πολλαπλών εργασιών αποδίδει το ίδιο καλά (ή σε ορισμένες περιπτώσεις καλύτερα) με τις τελευταίες (state-of-the-art) μεθόδους που σχεδιάστηκαν για μια μόνο εργασία, ενώ απαιτεί λιγότερους υπολογιστικούς πόρους σε αντίθεση με το έχουμε ένα ανεξάρτητο δίκτυο ανά κάθε μια εργασία. Παράλληλα με τα προτεινόμενα μοντέλα εκμάθησης χωροχρονικών αναπαραστάσεων, διερευνήθηκαν και προτάθηκαν επιπρόσθετες μέθοδοι για την επίλυση καθενός από τα παραπάνω χωροχρονικά προβλήματα οι οποίες ξεπέρασαν σε απόδοση τις τότε υπάρχουσες μεθόδους της βιβλιογραφίας σε αρκετές βάσεις αξιολόγησης. Για το σκοπό αυτό, αναπτύχθηκε ένα πολυτροπικό σύστημα ανίχνευσης προεξεχόντων γεγονότων και δημιουργίας περιλήψεων βασισμένο στις τροπικότητες εικόνας, ήχου και κειμένου. Η απόδοση του συστήματος αξιολογήθηκε με βάση επισημειώσεις χρηστών σε βίντεο ταινιών και ντοκιμαντέρ και κατόρθωσε να βελτιώσει σημαντικά τα υπάρχοντα συστήματα δημιουργίας περιλήψεων. Στα πλαίσια μελέτης των προβλημάτων που σχετίζονται με το χρόνο, έγινε επέκταση και ενσωμάτωση μεθόδων της όρασης υπολογιστών σε προβλήματα της ρομποτικής και ιδιαίτερα σε εφαρμογές που σχετίζονται με την επικοινωνία και αλληλεπίδραση των ρομπότ με ειδικές ηλικιακές ομάδες και συγκεκριμένα με ηλικιωμένους και παιδιά. Πιο συγκεκριμένα αναπτύχθηκαν μέθοδοι και μοντέλα αναγνώρισης ανθρώπινων δράσεων και χειρονομιών αξιοποιώντας την πληροφορία από πολλαπλές κάμερες. Τα αποτελέσματα τόσο σε βάσεις δεδομένων όσο και με πραγματικούς χρήστες αναδεικνύουν την αποτελεσματικότητα και καταλληλότητα των μεθόδων στα προβλήματα επικοινωνίας ανθρώπου-ρομπότ. Τέλος, προτάθηκε και υλοποιήθηκε ένα σύστημα αναγνώρισης δράσεων και χειρονομιών για προβλήματα αλληλεπίδρασης ανθρώπου-ρομπότ βασισμένο στην τεχνολογία των νευρωνικών δικτύων. Το προτεινόμενο σύστημα αξιοποιεί την πληροφορία υψηλού επιπέδου, όπως η πόζα του σώματος και των χεριών, που προκύπτει από την επεξεργασία της αρχικής οπτικής πληροφορίας από state-of-the-art μεθόδους βαθιάς εκμάθησης. Τα πειραματικά αποτελέσματα σε πολλαπλές βάσεις, τόσο με υγιείς χρήστες όσο και με ασθενείς, έδειξαν ότι το προτεινόμενο σύστημα μπορεί να επιτύχει αρκετά υψηλά επίπεδα αναγνώρισης ενώ η ενσωμάτωση του σε ρομποτικές πλατφόρμες δίνει τη δυνατότητα παρακολούθησης και αναγνώρισης των ανθρώπινων δραστηριοτήτων σε πραγματικό χρόνο.en_US
dc.languageelen_US
dc.subjectΌραση υπολογιστώνen_US
dc.subjectComputer visionen_US
dc.subjectΜηχανική μάθησηen_US
dc.subjectMachine learningen_US
dc.subjectΧωροχρονικές αναπαραστάσειςen_US
dc.subjectSpatio-temporal representationsen_US
dc.subjectΟπτική προσοχήen_US
dc.subjectVisual attentionen_US
dc.subjectΑναγνώριση δράσεωνen_US
dc.subjectAction recognitionen_US
dc.subjectΔημιουργία περιλήψεωνen_US
dc.subjectSummarizationen_US
dc.subjectΝευρωνικά δίκτυαen_US
dc.subjectNeural networksen_US
dc.subjectΑλληλεπίδραση ανθρώπου-ρομπότen_US
dc.subjectHuman-robot interactionen_US
dc.titleΕκμάθηση χωροχρονικών αναπαραστάσεων και μοντελοποίηση οπτικής προσοχής σε προβλήματα όρασης υπολογιστώνen_US
dc.description.pages192en_US
dc.contributor.supervisorΜαραγκός Πέτροςen_US
dc.departmentΤομέας Σημάτων, Ελέγχου και Ρομποτικήςen_US
Appears in Collections:Διδακτορικές Διατριβές - Ph.D. Theses

Files in This Item:
File Description SizeFormat 
PetrosKoutras_PhDthesis_final_official_for_artemis.pdf53.41 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.