Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/18919
Title: Μη Παράλληλη, από Πολλά σε Πολλά, Μετατροπή Συναισθηματικής Ομιλίας
Authors: Κλάψας Πουλογιάννης, Κωνσταντίνος
Ποταμιάνος Αλέξανδρος
Keywords: Συναισθηματική μετατροπή φωνής
Συναισθηματική ομιλία
Μοντελοποίηση ομιλίας
Generative Adversarial Networks
Μηχανική Μάθηση
Βαθιά Νευρωνικά Δίκτυα
Autoencoders
Μετατροπή φωνής
Μη παράλληλη μετατροπή
Issue Date: 1-Nov-2023
Abstract: Η παρούσα διπλωματική εργασία ασχολείται με το πρόβλημα της μετατροπής συναισθηματικής φωνής, όπου το ζητούμενο είναι να μετατραπεί μία εκφώνηση που ειπώθηκε με ένα δεδομένο συναίσθημα σε μία εκφώνηση που ακούγεται σαν να ειπώθηκε με ένα άλλο δεδομένο συναίσθημα, χωρίς να παραμορφωθεί το περιεχόμενο της πρότασης. Επιπλέον, το μοντέλο που επιλύει αυτό το πρόβλημα εκπαιδεύεται χωρίς τη βοήθεια ενός παράλληλου συνόλου δεδομένων, όπου η ίδια έκφραση έχει ειπωθεί με διαφορετικά συναισθήματα, και χωρίς καμία πληροφορία κειμένου. Επομένως, η μόνη απαίτηση για την εργασία αυτή είναι ένα σύνολο δεδομένων συναισθηματικής ομιλίας, όχι κατ' ανάγκη μεταγραμμένο, αλλά με επισημειωμένα τα συναισθήματα. Η αρχιτεκτονική που χρησιμοποιήθηκε ως βάση για την παρούσα εργασία βασίζεται στο StarGAN-VC, ένα μοντέλο βαθύ νευρωνικού δικτύου που μαθαίνει από πολλά σε πολλά αντιστοιχίσεις μεταξύ των φασματικών χαρακτηριστικών των πεδίων του συνόλου δεδομένων. Η εκπαίδευση γίνεται χρησιμοποιώντας το πλαίσιο των GAN, όπου το μοντέλο μετατροπής προσπαθεί να ξεγελάσει ένα μοντέλο διάκρισης ώστε να αντιληφθεί την έξοδό του ως διαφορετικό πεδίο από αυτό της εισόδου. Η αρχική χρήση αυτού του μοντέλου ήταν στην μετατροπή χροιάς φωνής του ομιλητή αλλά εμείς το εφαρμόζουμε στη μετατροπή συναισθήματος. Στην συνέχεια, προτείνεται μια τροποποίηση αυτής της αρχιτεκτονικής, στην οποία η ομιλία εισόδου μετασχηματίζεται πρώτα σε έναν ανεξάρτητο από το συναίσθημα χώρο, διατηρώντας όμως όλο το περιεχόμενο της ομιλίας, πριν από την αποκωδικοποίηση στο συναίσθημα-στόχο. Ο μετασχηματισμός σε αυτόν τον ουδέτερο χώρο γίνεται με την βοήθεια ανταγωνιστικής εκπαίδευσης. Δεδομένου ότι η θεμελιώδης συχνότητα είναι σημαντικό χαρακτηριστικό της συναισθηματικής ομιλίας, και επειδή και στα δύο προηγούμενα μοντέλα ο μετασχηματισμός της γίνεται από απλή κανονικοποίηση στο ζητούμενο συναίσθημα, δοκιμάζεται και μια περαιτέρω προσαρμογή, στην οποία η θεμελιώδης συχνότητα του σήματος μετασχηματίζεται με νευρωνικά δίκτυα. Διεξάγουμε αντικειμενική αξιολόγηση στα μοντέλα, σε δύο βάσεις δεδομένων, μια ελληνική και μια αγγλική, με πέντε και επτά συναισθήματα αντίστοιχα. Η αξιολόγηση αποτελείται από μετρικές ανακατασκευής καθώς και την αξιολόγηση της ποιότητας και την ταξινόμηση συναισθήματος από προεκπαιδευμένα νευρωνικά μοντέλα. Επίσης, διεξάγουμε υποκειμενική αξιολόγηση στην ελληνική βάση δεδομένων, για την οποία χρησιμοποιούμε 25 ακροατές οι οποίοι βαθμολογούν την ποιότητα των συνθετικών προτάσεων καθώς και το συναίσθημα με το οποίο πιστεύουν ότι ειπώθηκε. Με βάση τις αντικειμενικές αξιολογήσεις και στις δύο βάσεις δεδομένων, η ικανότητα μετατροπής συναισθημάτων του προτεινόμενου μοντέλου φαίνεται να υπερέχει του βασικού μοντέλου, όμως με ταυτόχρονη μικρή μείωση της ποιότητας. Αντίστοιχα, το μοντέλο που αξιοποιεί την θεμελιώδη συχνότητα έχει ακόμα καλύτερη ικανότητα μετατροπής, με αντίστοιχα μεγαλύτερη πτώση ποιότητας. Οι υποκειμενικές αξιολογήσεις φαίνεται να υποστηρίζουν αυτά τα συμπεράσματα, με την διαφορά ότι δεν δείχνουν σημαντική διαφορά μεταξύ του βασικού μοντέλου και του προτεινόμενου σε ό,τι αφορά την ποιότητα.
URI: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/18919
Appears in Collections:Διπλωματικές Εργασίες - Theses

Files in This Item:
File Description SizeFormat 
thesis_konstantinos_klapsas.pdf4.02 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.