Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/8835
Full metadata record
DC FieldValueLanguage
dc.contributor.authorΠύρρος Τσιάκουλης
dc.date.accessioned2018-07-22T22:42:45Z-
dc.date.available2018-07-22T22:42:45Z-
dc.date.issued2011-5-13
dc.date.submitted2010-12-6
dc.identifier.urihttp://artemis-new.cslab.ece.ntua.gr:8080/jspui/handle/123456789/8835-
dc.description.abstractΗ διατριβή έχει ως αντικείμενο την μελέτη των μη-γραμμικών φαινομένων στον ανθρώπινο ηχητικό σωλήνα και στην γλωττιδική πηγή κατά την παραγωγή φωνής, με σκοπό την βελτίωση της απόδοσης των εφαρμογών σύνθεσης και αναγνώρισης φωνής. Η ερευνητική συνεισφορά της διατριβής κινείται σε τρεις βασικούς άξονες. Πρώτον, πραγματοποιείται μια ανάλυση και καταγραφή των μη-γραμμικών φαινομένων στο ακουστικό σήμα της φωνής, δεύτερον, προτείνονται καινοτόμες ακουστικές αναπαραστάσεις για εφαρμογές αναγνώρισης φωνής, και τρίτον, περιγράφεται ένα ολοκληρωμένο σύστημα σύνθεσης φωνής τρέχουσας τεχνολογικής στάθμης. Υιοθετείται το μη γραμμικό μοντέλο φωνής AM-FM, το οποίο συλλαμβάνει τα μη-γραμμικά φαινόμενα ως διαμορφώσεις πλάτους και συχνότητας στο ακουστικό σήμα φωνής. Ορίζονται οι Δείκτες Διαμόρφωσης Πλάτους και Διαμόρφωσης Συχνότητας, οι οποίοι μετρούν τα ποσοστά διαμόρφωσης πλάτους και συχνότητας αντίστοιχα. Οι δείκτες μετρώνται σε ένα μεγάλο σώμα φωνής, και εντοπίζεται η συσχέτισή τους με βασικές παραμέτρους. Διαπιστώνεται σημαντική επίδραση της θεμελιώδους συχνότητας στην εμφάνιση μη-γραμμικών φαινομένων, και εμφανής εξάρτηση τους από το φύλο του ομιλητή και από τον τρόπο άρθρωσης. Τα αποτελέσματα της ανάλυσης αξιοποιούνται στην συνέχεια για την εξαγωγή μιας βελτιωμένης ακουστικής αναπαράστασης. Συγκεκριμένα, προτείνεται μια αναπαράσταση που βασίζεται κατά κύριο λόγο σε χαρακτηριστικά συχνότητας, η οποία έχει σημαντικά πλεονεκτήματα έναντι κλασσικών αναπαραστάσεων. Η προτεινόμενη αναπαράσταση συχνότητας υπολογίζεται στο πεδίο του χρόνου ως η μέση στιγμιαία συχνότητα με στάθμιση ενέργειας, ενώ στο πεδίο της συχνότητας υπολογίζεται ως η πρώτη φασματική ροπή επίσης με κανονικοποίηση ως προς την ενέργεια. Επιπλέον, εντοπίζεται η βέλτιστη αλγοριθμική παραμετροποίηση για την προτεινόμενη αναπαράσταση, αφενός σε ότι αφορά την συστοιχία των φίλτρων, και αφετέρου σχετικά με την αποσυσχέτιση του ακουστικού διανύσματος Τέλος, παρουσιάζεται ένα ολοκληρωμένο σύστημα σύνθεσης που ενσωματώνει τεχνολογία τρέχουσας τεχνολογικής στάθμης. Συγκεκριμένα, πρόκειται για ένα σύστημα σύνθεσης φωνής που βασίζεται στην επιλογή στοιχειωδών μονάδων φωνής από ένα ηχογραφημένο σώμα κειμένων, ενώ ενσωματώνει ένα σύστημα κανονικοποίησης κειμένου που λαμβάνει υπόψη την μορφολογία της Ελληνικής γλώσσας. Προτείνονται επίσης μεθόδοι για την βελτιστοποίηση του συστήματος ως προς το υπολογιστικό φορτίο του αλγορίθμου επιλογής, και ως προς τις απαιτήσεις σε αποθηκευτικούς πόρους.
dc.languageGreek
dc.subjectσύνθεση φωνής
dc.subjectαναγνώριση φωνής
dc.subjectανάλυση φωνής
dc.subjectμοντέλο φωνής am-fm
dc.subjectακουστικά χαρακτηριστικά
dc.subjectφασματικές ροπές
dc.titleΣύνθεση Φωνής Με Υπολογιστική Αεροδυναμική Ανάλυση Του Ανθρωπινού Ηχητικού Σωλήνα Και Σύγκριση Με Κλασσικές Μεθόδους
dc.typePhD Thesis
dc.description.pages168
dc.contributor.supervisorΚαραγιάννης Γεώργιος
dc.departmentΤομέας Σημάτων, Ελέγχου & Ρομποτικής
dc.organizationΕΜΠ, Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών
Appears in Collections:Διδακτορικές Διατριβές - Ph.D. Theses

Files in This Item:
File SizeFormat 
PD2011-0021.pdf4.08 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.