Παρακαλώ χρησιμοποιήστε αυτό το αναγνωριστικό για να παραπέμψετε ή να δημιουργήσετε σύνδεσμο προς αυτό το τεκμήριο: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/8835
Τίτλος: Σύνθεση Φωνής Με Υπολογιστική Αεροδυναμική Ανάλυση Του Ανθρωπινού Ηχητικού Σωλήνα Και Σύγκριση Με Κλασσικές Μεθόδους
Συγγραφείς: Πύρρος Τσιάκουλης
Καραγιάννης Γεώργιος
Λέξεις κλειδιά: σύνθεση φωνής
αναγνώριση φωνής
ανάλυση φωνής
μοντέλο φωνής am-fm
ακουστικά χαρακτηριστικά
φασματικές ροπές
Ημερομηνία έκδοσης: 13-Μαΐ-2011
Περίληψη: Η διατριβή έχει ως αντικείμενο την μελέτη των μη-γραμμικών φαινομένων στον ανθρώπινο ηχητικό σωλήνα και στην γλωττιδική πηγή κατά την παραγωγή φωνής, με σκοπό την βελτίωση της απόδοσης των εφαρμογών σύνθεσης και αναγνώρισης φωνής. Η ερευνητική συνεισφορά της διατριβής κινείται σε τρεις βασικούς άξονες. Πρώτον, πραγματοποιείται μια ανάλυση και καταγραφή των μη-γραμμικών φαινομένων στο ακουστικό σήμα της φωνής, δεύτερον, προτείνονται καινοτόμες ακουστικές αναπαραστάσεις για εφαρμογές αναγνώρισης φωνής, και τρίτον, περιγράφεται ένα ολοκληρωμένο σύστημα σύνθεσης φωνής τρέχουσας τεχνολογικής στάθμης. Υιοθετείται το μη γραμμικό μοντέλο φωνής AM-FM, το οποίο συλλαμβάνει τα μη-γραμμικά φαινόμενα ως διαμορφώσεις πλάτους και συχνότητας στο ακουστικό σήμα φωνής. Ορίζονται οι Δείκτες Διαμόρφωσης Πλάτους και Διαμόρφωσης Συχνότητας, οι οποίοι μετρούν τα ποσοστά διαμόρφωσης πλάτους και συχνότητας αντίστοιχα. Οι δείκτες μετρώνται σε ένα μεγάλο σώμα φωνής, και εντοπίζεται η συσχέτισή τους με βασικές παραμέτρους. Διαπιστώνεται σημαντική επίδραση της θεμελιώδους συχνότητας στην εμφάνιση μη-γραμμικών φαινομένων, και εμφανής εξάρτηση τους από το φύλο του ομιλητή και από τον τρόπο άρθρωσης. Τα αποτελέσματα της ανάλυσης αξιοποιούνται στην συνέχεια για την εξαγωγή μιας βελτιωμένης ακουστικής αναπαράστασης. Συγκεκριμένα, προτείνεται μια αναπαράσταση που βασίζεται κατά κύριο λόγο σε χαρακτηριστικά συχνότητας, η οποία έχει σημαντικά πλεονεκτήματα έναντι κλασσικών αναπαραστάσεων. Η προτεινόμενη αναπαράσταση συχνότητας υπολογίζεται στο πεδίο του χρόνου ως η μέση στιγμιαία συχνότητα με στάθμιση ενέργειας, ενώ στο πεδίο της συχνότητας υπολογίζεται ως η πρώτη φασματική ροπή επίσης με κανονικοποίηση ως προς την ενέργεια. Επιπλέον, εντοπίζεται η βέλτιστη αλγοριθμική παραμετροποίηση για την προτεινόμενη αναπαράσταση, αφενός σε ότι αφορά την συστοιχία των φίλτρων, και αφετέρου σχετικά με την αποσυσχέτιση του ακουστικού διανύσματος Τέλος, παρουσιάζεται ένα ολοκληρωμένο σύστημα σύνθεσης που ενσωματώνει τεχνολογία τρέχουσας τεχνολογικής στάθμης. Συγκεκριμένα, πρόκειται για ένα σύστημα σύνθεσης φωνής που βασίζεται στην επιλογή στοιχειωδών μονάδων φωνής από ένα ηχογραφημένο σώμα κειμένων, ενώ ενσωματώνει ένα σύστημα κανονικοποίησης κειμένου που λαμβάνει υπόψη την μορφολογία της Ελληνικής γλώσσας. Προτείνονται επίσης μεθόδοι για την βελτιστοποίηση του συστήματος ως προς το υπολογιστικό φορτίο του αλγορίθμου επιλογής, και ως προς τις απαιτήσεις σε αποθηκευτικούς πόρους.
URI: http://artemis-new.cslab.ece.ntua.gr:8080/jspui/handle/123456789/8835
Εμφανίζεται στις συλλογές:Διδακτορικές Διατριβές - Ph.D. Theses

Αρχεία σε αυτό το τεκμήριο:
Αρχείο ΜέγεθοςΜορφότυπος 
PD2011-0021.pdf4.08 MBAdobe PDFΕμφάνιση/Άνοιγμα


Όλα τα τεκμήρια του δικτυακού τόπου προστατεύονται από πνευματικά δικαιώματα.