Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/18047
Title: Emotion Driven Speaker Verification
Authors: Δημήτρης Κατσίρος
Ποταμιάνος Αλέξανδρος
Keywords: Επαλήθευση Ομιλητή, Επαλήθευση Ομιλητή Ανεξαρτήτως Κειμένου , Αναγνώριση Συναι- σθημάτων Ομιλίας, Επαλήθευση Ομιλητή με Χρήση Συναισθήματος
Speaker Verification (SV), Text-Independent Speaker Verification (TISV), Speech E- motion Recognition (SER) , Emotion Driven Speaker Verification
Issue Date: 19-Jul-2021
Abstract: Η Επαλήθευση Ομιλητή επιτρέπει την ταυτοποίηση μιας ισχυριζόμενης ταυτότητας από μετρήσεις σε ένα φωνητικό σήμα. Το συναίσθημα ωστόσο, ως ένας φυσικός και συχνά ακούσιος κωδικοποιητής της φωνής, διαθέτει μηχανισμούς υπεύθυνους για τη φωνητική διαμόρφωση της. Παρά την προσοχή που έχει κερδίσει το πεδίο όλα αυτά τα χρόνια, δεν έχει υπάρξει μεγάλη προσπάθεια προκειμένου να προσδιοριστούν οι σχέσεις μεταξύ των δύο αυτών αντικειμένων. Αν και φαινομενικά μακριά, το συναισθηματικό περιεχόμενο θα μπορούσε να έχει ένα τεράστιες επιπτώσεις στη διαδικασία διάκρισης ομιλητών. Σε αυτή τη διπλωματική, διερευνούμε τη συσχέτιση μεταξύ επαλήθευσης ομιλητή και αναγνώρισης συναισθηματικού λόγου. Πρώτα απ ́όλα, δημιουργούμε διάφορα σετ συναισθηματικής αξιολόγησης, με στόχο το καθένα να παρακολουθεί διαφορετικά την επίδραση του συναισθήματος στο αντικείμενο επαλήθευσης ομιλητή. Σε μια προσπάθεια μείωσης ή ακόμη και εξάλειψης του αποτελέσματος προσπαθούμε να μεταφέρουμε συναισθηματική γνώση στο αντικείμενο. Για το σκοπό αυτό, εφαρμόζουμε τέσσερις διαφορετικές αρχιτεκτονικές, όπου η καθεμία από αυτές, χειρίζεται τη συναισθηματική πληροφορία με διαφορετικό τρόπο. Κατόπιν, εξετάζουμε την απόδοση των μοντέλων μας στα σετ συναισθηματικής αξιολόγησης. Τα αποτελέσματά μας υποδηλώνουν ότι η συναισθηματική πληροφορία έχει καθοριστικό ρόλο στην επαλήθευση ομιλητών. Ακόμη και σε χαμηλή ένταση, το συναίσθημα τόσο στην πρόταση εγγραφής όσο και στην πρόταση επαλήθευσης μπορεί να υποβαθμίσει σημαντικά την απόδοση ενός συστήματος. Επιπλέον, τα συναισθήματα έντονης έντασης, φαίνεται να επιδεινώνουν το αποτέλεσμα οδηγώντας σε πολύ φτωχά αποτελέσματα. Μεταξύ των επτά συναισθημάτων που εξετάστηκαν, διαπιστώνουμε ότι ο θυμός και ο φόβος είχαν το πιο αξιοσημείωτο αντίκτυπο. Σε μια προσπάθεια αντιμετώπισης των προαναφερθέντων ζητημάτων εξετάζουμε την απόδοση των αρχιτεκτονικών μας με γνώση συναισθήματος. Τα αποτελέσματά μας δείχνουν ότι με την εφαρμογή κλασικών τεχνικών μεταφοράς μάθησης, μπορούμε να παρέχουμε μοντέλα ανθεκτικά σε συναισθηματικά φορτισμένο περιεχόμενο και ταυτόχρονα να αποδίδουμε πολύ καλύτερα στην ίδια τη διαδικασία της επαλήθευσης ομιλητή. Τελος, δοκιμάζουμε την υπόθεσή μας σχετικά με την παροχή ίδιου συναισθήματος κατά την πρόταση εγγραφής και επαλήθευσης και παρατηρούμε σημαντική σχετική αύξηση περίπου 20%, ανεξάρτητα από τη συναισθηματική προ-εκπαίδευση. Συνολικά, μπορούμε να αποτυπώσουμε μια ισχυρή σχέση μεταξύ διάκρισης ομιλητών και συναισθηματικού περιεχομένου. Υποστηρίζουμε ότι ο έλεγχος του συναισθηματικού περιεχομένου είναι απαραίτητος για την καλή απόδοση ενός μοντέλου, ειδικά για πραγματικά σενάρια, όπου το συναίσθημα είναι ενεργά παρόν. Συνεπώς, μπορούμε εφαρμόζοντας παραδοσιακές τεχνικές εκμάθησης μεταφοράς από το αντικείμενο αναγνώρισης συναισθημάτων ομιλίας στο αντικείμενο της επαλήθευσης ομιλητή, να μειώσουμε τη συναισθηματική επιρροή και να βελτιώσουμε την συνολική αποτελεσματικότητα των μοντέλων μας .
URI: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/18047
Appears in Collections:Διπλωματικές Εργασίες - Theses

Files in This Item:
File Description SizeFormat 
Diploma_Thesis__Dimitris_Katsiros.pdf2.75 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.