Μη-γραμμική Υπολογιστική Μοντελοποίηση Φωνής Με Στοιχεία Αεροδυναμικής Του Φωνητικού Σωλήνα

Αθανάσιος Κατσαμάνης

Εθνικό Μετσόβιο Πολυτεχνείο

Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών

Καλώς ήρθατε στο Άρτεμις

Σκοπός του Άρτεμις είναι η συστηματική αρχειοθέτηση και διαδοση της πνευματικής παραγωγής της Σχολής Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών του Εθνικού Μετσόβιου Πολυτεχνείου, με τη βοήθεια της τεχνολογίας των ψηφιακών βιβλιοθηκών.

Παρακαλώ χρησιμοποιήστε αυτό το αναγνωριστικό για να παραπέμψετε ή να δημιουργήσετε σύνδεσμο προς αυτό το τεκμήριο: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/8725

Τίτλος:	Μη-γραμμική Υπολογιστική Μοντελοποίηση Φωνής Με Στοιχεία Αεροδυναμικής Του Φωνητικού Σωλήνα
Συγγραφείς:	Αθανάσιος Κατσαμάνης Μαραγκός Πέτρος
Λέξεις κλειδιά:	μοντελοποίηση φωνής; αεροδυναμική; αεροακουστική; σύνθεση φωνής με αρθρωτές; επεξεργασία φωνής; οπτικο-ακουστική αντιστροφή φωνής; μίμηση φωνής; επεξεργασία πολυτροπικών δεδομενών άρθρωσης
Ημερομηνία έκδοσης:	22-Οκτ-2009
Περίληψη:	Πολλά συμβατικά υπολογιστικά μοντέλα φωνής συνήθως παρακάμπτουν την αεροδυναμική μοντελοποίηση ακολουθώντας φαινομενολογική προσέγγιση για τον προσδιορισμό των ακουστικών πηγών στη φωνητική οδό. Αξιοποιώντας την επικρατούσα θεώρηση για το πεδίο ροής στο φωνητικό σωλήνα και συνδυάζοντας συμπεράσματα που προκύπτουν από τη μελέτη της αεροδυναμικής τόσο στη γλωττίδα όσο και στο υπερλαρύγγειο τμήμα, στα πλαίσια της διδακτορικής διατριβής αναπτύχθηκε ένα μοντέλο που επιτρέπει την υπολογιστική προσομοίωση σημαντικών αεροδυναμικών χαρακτηριστικών που επιδρούν στον παραγόμενο ήχο. Το αεροδυναμικό μοντέλο συνδυάστηκε με ένα βελτιωμένο σύστημα προσομοίωσης του ακουστικού πεδίου μέσα στη φωνητική οδό για σύνθεση φωνής με τη χρήση αρθρωτών. Ο συνδυασμός επιτεύχθηκε μέσω κατάλληλης αεροακουστικής μοντελοποίησης στη γλωττίδα και σε ενδεχόμενες στενώσεις της φωνητικής οδού.Για τον έλεγχο του συνθέτη φωνής, αναπτύχθηκε σύστημα ταυτοποίησης του ανθρώπινου φωνητικού συστήματος με βάση ένα παρατηρούμενο σήμα φωνής. Το εν λόγω πρόβλημα συχνά αναφέρεται ως αντιστροφή φωνής. Αναπτύχθηκε ένα σύστημα αντιστροφής φωνής το οποίο βασίζεται σε οπτικακουστική θεώρηση της φωνής. Η σύνθετη σχέση μεταξύ της οπτικοακουστικής πληροφορίας και των χαρακτηριστικών της φωνητικής οδού προσεγγίζεται μέσω ενός διακοπτόμενου γραμμικού δυναμικού μοντέλου. Κάθε επιμέρους τμηματικό μοντέλο υπολογίζεται αποδοτικά μέσω στατιστικών τεχνικών όπως είναι η μεγιστοποίηση της πιθανοφάνειας και η ανάλυση κανονικής συσχέτισης. Η εναλλαγή μεταξύ των επιμέρους μοντέλων καθορίζεται από μια διακριτή διαδικασία Markov. Μελετήθηκαν εναλλακτικά συνδυαστικά σχήματα που επιτρέπουν αλληλεπίδραση μεταξύ της ακουστικής και της οπτικής ροής πληροφορίας σε διάφορα επίπεδα συγχρονισμού. Χρησιμοποιώντας τα οπτικά σε συνδυασμό με τα ακουστικά χαρακτηριστικά επιτυγχάνεται η αποδοτική εκτίμηση των τροχιών που ακολουθούνται από διάφορα σημεία ενδιαφέροντος του συστήματος παραγωγής φωνής. Τα πειραματικά αποτελέσματα δείχνουν ότι με την αξιοποίηση της πολυτροπικής πληροφορίας στο προτεινόμενο σύστημα βελτιώνεται η αποτελεσματικότητα της αντιστροφής της φωνής σε σχέση με αντίστοιχα συστήματα που χρησιμοποιούν αποκλειστικά τη μία ή την άλλη πηγή πληροφορίας. Με βάση το προτεινόμενο υπολογιστικό μοντέλο φωνής και πληθώραδεδομένων άρθρωσης γίνεται δυνατή η μίμηση του ανθρώπινου φωνητικού συστήματος. Συγκεκριμένα, η ακολουθία καταστάσεων άρθρωσης μοντελοποιείται ως διαδικασία Markov και τα χαρακτηριστικά της ταυτοποιούνται μέσω οπτικοακουστικής αντιστροφής της φωνής. Σε κάθε κατάσταση άρθρωσης, με δεδομένη την αντίστοιχη περιγραφή της γεωμετρίας της φωνητικής οδού είναι δυνατή η σύνθεση φωνής με τη συνδυασμένη εφαρμογή των μοντέλων αεροδυναμικής και ακουστικής. Η γεωμετρία της φωνητικής οδού περιγράφεται μέσω παραμετρικού μοντέλου άρθρωσης που εκπαιδεύεται με την αξιοποίηση δεδομένων άρθρωσης από εικόνες ακτίνων-Χ και προσαρμόζεται κατάλληλα στο ορατό τμήμα της γλώσσας σε εικόνες υπερήχων της στοματικής κοιλότητας. Το προτεινόμενο πλαίσιο επιτρέπει την ευρύτερη εφαρμογή και αξιολόγηση του συστήματος αεροδυναμικής και ακουστικής προσομοίωσης αλλά και της διαδικασίας αντιστροφής φωνής.
URI:	http://artemis-new.cslab.ece.ntua.gr:8080/jspui/handle/123456789/8725
Εμφανίζεται στις συλλογές:	Διδακτορικές Διατριβές - Ph.D. Theses

Αρχεία σε αυτό το τεκμήριο:

Αρχείο	Μέγεθος	Μορφότυπος
PD2009-0054.pdf	7.6 MB	Adobe PDF	Εμφάνιση/Άνοιγμα

Δείξε την πλήρη περιγραφή του τεκμηρίου

Όλα τα τεκμήρια του δικτυακού τόπου προστατεύονται από πνευματικά δικαιώματα.