Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/8835
Title: Σύνθεση Φωνής Με Υπολογιστική Αεροδυναμική Ανάλυση Του Ανθρωπινού Ηχητικού Σωλήνα Και Σύγκριση Με Κλασσικές Μεθόδους
Authors: Πύρρος Τσιάκουλης
Καραγιάννης Γεώργιος
Keywords: σύνθεση φωνής
αναγνώριση φωνής
ανάλυση φωνής
μοντέλο φωνής am-fm
ακουστικά χαρακτηριστικά
φασματικές ροπές
Issue Date: 13-May-2011
Abstract: Η διατριβή έχει ως αντικείμενο την μελέτη των μη-γραμμικών φαινομένων στον ανθρώπινο ηχητικό σωλήνα και στην γλωττιδική πηγή κατά την παραγωγή φωνής, με σκοπό την βελτίωση της απόδοσης των εφαρμογών σύνθεσης και αναγνώρισης φωνής. Η ερευνητική συνεισφορά της διατριβής κινείται σε τρεις βασικούς άξονες. Πρώτον, πραγματοποιείται μια ανάλυση και καταγραφή των μη-γραμμικών φαινομένων στο ακουστικό σήμα της φωνής, δεύτερον, προτείνονται καινοτόμες ακουστικές αναπαραστάσεις για εφαρμογές αναγνώρισης φωνής, και τρίτον, περιγράφεται ένα ολοκληρωμένο σύστημα σύνθεσης φωνής τρέχουσας τεχνολογικής στάθμης. Υιοθετείται το μη γραμμικό μοντέλο φωνής AM-FM, το οποίο συλλαμβάνει τα μη-γραμμικά φαινόμενα ως διαμορφώσεις πλάτους και συχνότητας στο ακουστικό σήμα φωνής. Ορίζονται οι Δείκτες Διαμόρφωσης Πλάτους και Διαμόρφωσης Συχνότητας, οι οποίοι μετρούν τα ποσοστά διαμόρφωσης πλάτους και συχνότητας αντίστοιχα. Οι δείκτες μετρώνται σε ένα μεγάλο σώμα φωνής, και εντοπίζεται η συσχέτισή τους με βασικές παραμέτρους. Διαπιστώνεται σημαντική επίδραση της θεμελιώδους συχνότητας στην εμφάνιση μη-γραμμικών φαινομένων, και εμφανής εξάρτηση τους από το φύλο του ομιλητή και από τον τρόπο άρθρωσης. Τα αποτελέσματα της ανάλυσης αξιοποιούνται στην συνέχεια για την εξαγωγή μιας βελτιωμένης ακουστικής αναπαράστασης. Συγκεκριμένα, προτείνεται μια αναπαράσταση που βασίζεται κατά κύριο λόγο σε χαρακτηριστικά συχνότητας, η οποία έχει σημαντικά πλεονεκτήματα έναντι κλασσικών αναπαραστάσεων. Η προτεινόμενη αναπαράσταση συχνότητας υπολογίζεται στο πεδίο του χρόνου ως η μέση στιγμιαία συχνότητα με στάθμιση ενέργειας, ενώ στο πεδίο της συχνότητας υπολογίζεται ως η πρώτη φασματική ροπή επίσης με κανονικοποίηση ως προς την ενέργεια. Επιπλέον, εντοπίζεται η βέλτιστη αλγοριθμική παραμετροποίηση για την προτεινόμενη αναπαράσταση, αφενός σε ότι αφορά την συστοιχία των φίλτρων, και αφετέρου σχετικά με την αποσυσχέτιση του ακουστικού διανύσματος Τέλος, παρουσιάζεται ένα ολοκληρωμένο σύστημα σύνθεσης που ενσωματώνει τεχνολογία τρέχουσας τεχνολογικής στάθμης. Συγκεκριμένα, πρόκειται για ένα σύστημα σύνθεσης φωνής που βασίζεται στην επιλογή στοιχειωδών μονάδων φωνής από ένα ηχογραφημένο σώμα κειμένων, ενώ ενσωματώνει ένα σύστημα κανονικοποίησης κειμένου που λαμβάνει υπόψη την μορφολογία της Ελληνικής γλώσσας. Προτείνονται επίσης μεθόδοι για την βελτιστοποίηση του συστήματος ως προς το υπολογιστικό φορτίο του αλγορίθμου επιλογής, και ως προς τις απαιτήσεις σε αποθηκευτικούς πόρους.
URI: http://artemis-new.cslab.ece.ntua.gr:8080/jspui/handle/123456789/8835
Appears in Collections:Διδακτορικές Διατριβές - Ph.D. Theses

Files in This Item:
File SizeFormat 
PD2011-0021.pdf4.08 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.