Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/8725
Title: Μη-γραμμική Υπολογιστική Μοντελοποίηση Φωνής Με Στοιχεία Αεροδυναμικής Του Φωνητικού Σωλήνα
Authors: Αθανάσιος Κατσαμάνης
Μαραγκός Πέτρος
Keywords: μοντελοποίηση φωνής; αεροδυναμική; αεροακουστική; σύνθεση φωνής με αρθρωτές; επεξεργασία φωνής; οπτικο-ακουστική αντιστροφή φωνής; μίμηση φωνής; επεξεργασία πολυτροπικών δεδομενών άρθρωσης
Issue Date: 22-Oct-2009
Abstract: Πολλά συμβατικά υπολογιστικά μοντέλα φωνής συνήθως παρακάμπτουν την αεροδυναμική μοντελοποίηση ακολουθώντας φαινομενολογική προσέγγιση για τον προσδιορισμό των ακουστικών πηγών στη φωνητική οδό. Αξιοποιώντας την επικρατούσα θεώρηση για το πεδίο ροής στο φωνητικό σωλήνα και συνδυάζοντας συμπεράσματα που προκύπτουν από τη μελέτη της αεροδυναμικής τόσο στη γλωττίδα όσο και στο υπερλαρύγγειο τμήμα, στα πλαίσια της διδακτορικής διατριβής αναπτύχθηκε ένα μοντέλο που επιτρέπει την υπολογιστική προσομοίωση σημαντικών αεροδυναμικών χαρακτηριστικών που επιδρούν στον παραγόμενο ήχο. Το αεροδυναμικό μοντέλο συνδυάστηκε με ένα βελτιωμένο σύστημα προσομοίωσης του ακουστικού πεδίου μέσα στη φωνητική οδό για σύνθεση φωνής με τη χρήση αρθρωτών. Ο συνδυασμός επιτεύχθηκε μέσω κατάλληλης αεροακουστικής μοντελοποίησης στη γλωττίδα και σε ενδεχόμενες στενώσεις της φωνητικής οδού.Για τον έλεγχο του συνθέτη φωνής, αναπτύχθηκε σύστημα ταυτοποίησης του ανθρώπινου φωνητικού συστήματος με βάση ένα παρατηρούμενο σήμα φωνής. Το εν λόγω πρόβλημα συχνά αναφέρεται ως αντιστροφή φωνής. Αναπτύχθηκε ένα σύστημα αντιστροφής φωνής το οποίο βασίζεται σε οπτικακουστική θεώρηση της φωνής. Η σύνθετη σχέση μεταξύ της οπτικοακουστικής πληροφορίας και των χαρακτηριστικών της φωνητικής οδού προσεγγίζεται μέσω ενός διακοπτόμενου γραμμικού δυναμικού μοντέλου. Κάθε επιμέρους τμηματικό μοντέλο υπολογίζεται αποδοτικά μέσω στατιστικών τεχνικών όπως είναι η μεγιστοποίηση της πιθανοφάνειας και η ανάλυση κανονικής συσχέτισης. Η εναλλαγή μεταξύ των επιμέρους μοντέλων καθορίζεται από μια διακριτή διαδικασία Markov. Μελετήθηκαν εναλλακτικά συνδυαστικά σχήματα που επιτρέπουν αλληλεπίδραση μεταξύ της ακουστικής και της οπτικής ροής πληροφορίας σε διάφορα επίπεδα συγχρονισμού. Χρησιμοποιώντας τα οπτικά σε συνδυασμό με τα ακουστικά χαρακτηριστικά επιτυγχάνεται η αποδοτική εκτίμηση των τροχιών που ακολουθούνται από διάφορα σημεία ενδιαφέροντος του συστήματος παραγωγής φωνής. Τα πειραματικά αποτελέσματα δείχνουν ότι με την αξιοποίηση της πολυτροπικής πληροφορίας στο προτεινόμενο σύστημα βελτιώνεται η αποτελεσματικότητα της αντιστροφής της φωνής σε σχέση με αντίστοιχα συστήματα που χρησιμοποιούν αποκλειστικά τη μία ή την άλλη πηγή πληροφορίας. Με βάση το προτεινόμενο υπολογιστικό μοντέλο φωνής και πληθώραδεδομένων άρθρωσης γίνεται δυνατή η μίμηση του ανθρώπινου φωνητικού συστήματος. Συγκεκριμένα, η ακολουθία καταστάσεων άρθρωσης μοντελοποιείται ως διαδικασία Markov και τα χαρακτηριστικά της ταυτοποιούνται μέσω οπτικοακουστικής αντιστροφής της φωνής. Σε κάθε κατάσταση άρθρωσης, με δεδομένη την αντίστοιχη περιγραφή της γεωμετρίας της φωνητικής οδού είναι δυνατή η σύνθεση φωνής με τη συνδυασμένη εφαρμογή των μοντέλων αεροδυναμικής και ακουστικής. Η γεωμετρία της φωνητικής οδού περιγράφεται μέσω παραμετρικού μοντέλου άρθρωσης που εκπαιδεύεται με την αξιοποίηση δεδομένων άρθρωσης από εικόνες ακτίνων-Χ και προσαρμόζεται κατάλληλα στο ορατό τμήμα της γλώσσας σε εικόνες υπερήχων της στοματικής κοιλότητας. Το προτεινόμενο πλαίσιο επιτρέπει την ευρύτερη εφαρμογή και αξιολόγηση του συστήματος αεροδυναμικής και ακουστικής προσομοίωσης αλλά και της διαδικασίας αντιστροφής φωνής.
URI: http://artemis-new.cslab.ece.ntua.gr:8080/jspui/handle/123456789/8725
Appears in Collections:Διδακτορικές Διατριβές - Ph.D. Theses

Files in This Item:
File SizeFormat 
PD2009-0054.pdf7.6 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.