Μη-γραμμική Διάχυση Στην Όραση Υπολογιστών Και Στατιστικά Μοντέλα Σχήματος Με Εφαρμογές Στην Ανάλυση Εικόνων Αρθρωτών Φωνητικού Και Νοηματικού Λόγου

Αναστάσιος Ρούσσος

Εθνικό Μετσόβιο Πολυτεχνείο

Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών

Καλώς ήρθατε στο Άρτεμις

Σκοπός του Άρτεμις είναι η συστηματική αρχειοθέτηση και διαδοση της πνευματικής παραγωγής της Σχολής Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών του Εθνικού Μετσόβιου Πολυτεχνείου, με τη βοήθεια της τεχνολογίας των ψηφιακών βιβλιοθηκών.

Παρακαλώ χρησιμοποιήστε αυτό το αναγνωριστικό για να παραπέμψετε ή να δημιουργήσετε σύνδεσμο προς αυτό το τεκμήριο: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/8852

Τίτλος:	Μη-γραμμική Διάχυση Στην Όραση Υπολογιστών Και Στατιστικά Μοντέλα Σχήματος Με Εφαρμογές Στην Ανάλυση Εικόνων Αρθρωτών Φωνητικού Και Νοηματικού Λόγου
Συγγραφείς:	Αναστάσιος Ρούσσος Μαραγκός Πέτρος
Λέξεις κλειδιά:	όραση υπολογιστών; ανάλυση εικόνων; επεξεργασία εικόνων; μη-γραμμική διάχυση; μερικές διαφορικές εξισώσεις; στατιστικά μοντέλα σχήματος; αυτόματη αναγνώριση νοηματικής γλώσσας; αρθρωτή σύνθεση φωνής; οπτικοακουστική αντιστροφή φωνής; παρεμβολή εικόνων; αποθορυβοποίηση εικόνων; μοντέλο ανισοτροπικής διάχυσης - προβολής; γενικευμένη ροή beltrami; τανυστική ολική μεταβολή; παρακολούθηση της γλώσσας; εικόνες υπερήχων; ενεργά μοντέλα εμφάνισης; φωνητική οδός; χειρομορφές νοηματικής γλώσσας; αφινικά αναλλοίωτη μοντελοποίηση σχήματος - εμφάνισης
Ημερομηνία έκδοσης:	31-Αυγ-2011
Περίληψη:	(Περίληψη στα Ελληνικά:)Στην παρούσα έρευνα, αναπτύσσονται μοντέλα Μερικών Διαφορικών Εξισώσεων τύπου Μη-γραμμικής Διάχυσης για την απλοποίηση και την βελτίωση της ποιότητας εικόνων. Χρησιμοποιούνται επίσης μεθοδολογίες Στατιστικών Μοντέλων Σχήματος για τον οπτικό εντοπισμό και αναγνώριση αντικειμένων. Οι κύριες εφαρμογές που μελετώνται αφορούν την ανάλυση οπτικών δεδομένων των αρθρωτών λόγου, σε δύο διαφορετικές μορφές του: τον φωνητικό λόγο, του οποίου οι αρθρωτές βρίσκονται στην φωνητική οδό, και τον νοηματικό λόγο, του οποίου οι αρθρωτές είναι κυρίως τα χέρια, τα χείλη και τα μάτια. Η ανάλυση τέτοιων οπτικών δεδομένων συνεισφέρει στην έρευνα και την τεχνολογία που σχετίζονται με την ομιλία και την νοηματική γλώσσα.Πιο συγκεκριμένα, σχεδιάζεται μία μέθοδος μη-γραμμικής διάχυσης για την βελτίωση της ευκρίνειας διανυσματικών εικόνων, η οποία αποδίδει αποτελέσματα υψηλής ακρίβειας, με περιορισμένα ανεπιθύμητα ψεύδεργα (artifacts). Επίσης, εισάγεται ένα θεωρητικό πλαίσιο το οποίο βασίζεται στον δομικό τανυστή της εικόνας και γενικεύει διάφορες μεταβολικές μεθόδους μη-γραμμικής διάχυσης για την αποκατάσταση εικόνων. Με βάση το πλαίσιο αυτό, προτείνονται νέες μέθοδοι διάχυσης, οι οποίες συνδυάζουν τα πλεονεκτήματα διαφόρων προηγούμενων προσεγγίσεων.Ακόμα, σχεδιάζεται ένα στατιστικό μοντέλο για την καμπύλη της γλώσσας ομιλητή, το οποίο ενσωματώνει πρότερη γνώση σχήματος και μπορεί να εκτιμήσει ολόκληρη την καμπύλη της γλώσσας σε ακολουθίες εικόνων υπερήχων. Τέλος, παρουσιάζεται μία νέα μοντελοποίηση χειρομορφών νοηματικής γλώσσας, η οποία προσφέρει μία περιγραφική και συμπαγή αναπαράσταση των διαμορφώσεων του χεριού του νοηματιστή και έχει εφαρμοστεί με επιτυχία στην ταξινόμηση χειρομορφών. Αναπτύσσεται μία διαδικασία εύρωστου ταιριάσματος του μοντέλου αυτού σε βίντεο συνεχούς νοηματισμού, ενσωματώνοντας πρότερη στατική και δυναμική πληροφορία σχετικά με τις χειρομορφές.(Abstract in English:)In this work, Nonlinear Diffusion models for image simplification and image restoration are developed. In addition, the framework of Statistical Shape Models is used for object detection and recognition. The main applications that are studied are related to the image analysis of speech articulators, for two different speech types: voiced speech, whose articulators are located in the vocal tract, and signed speech, whose main articulators are the hands, lips and eyes. This kind of image analysis contributes to the voiced and signed speech research and technology. More precisely, we design a nonlinear diffusion method for vector-valued image interpolation, which yields accurate results with reduced artifacts. In addition, we introduce a theoretical framework that is based on the image structure tensor and generalizes several variational methods of nonlinear diffusion for image restoration. Based on this framework, we propose some new diffusion methods that combine the advantages of various existing approaches. Furthermore, we design a statistical model for the tongue contour of a speaker, model which incorporates prior shape knowledge and is able to robustly estimate the tongue contour in ultra-sound image sequences. Finally, we present a new modeling of sign language handshapes, which offers a descriptive and compact representation of hand configurations and has been successfully applied on the handshape classification. We develop a robust model fitting process in continuous signing videos, by incorporating static and dynamic prior handshape information.
URI:	http://artemis-new.cslab.ece.ntua.gr:8080/jspui/handle/123456789/8852
Εμφανίζεται στις συλλογές:	Διδακτορικές Διατριβές - Ph.D. Theses

Αρχεία σε αυτό το τεκμήριο:

Αρχείο	Μέγεθος	Μορφότυπος
PD2011-0039.pdf	9.65 MB	Adobe PDF	Εμφάνιση/Άνοιγμα

Δείξε την πλήρη περιγραφή του τεκμηρίου

Όλα τα τεκμήρια του δικτυακού τόπου προστατεύονται από πνευματικά δικαιώματα.