Παρακαλώ χρησιμοποιήστε αυτό το αναγνωριστικό για να παραπέμψετε ή να δημιουργήσετε σύνδεσμο προς αυτό το τεκμήριο: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/18381
Τίτλος: Ημι-Επιβλεπόμενη Αποθορυβοποίηση Σήματος Φωνής μέσω Τεχνικών Διαχωρισμού Πηγών
Συγγραφείς: Μπράλιος, Δημήτριος
Μαραγκός Πέτρος
Λέξεις κλειδιά: Αποθορυβοποίηση Σήματος Φωνής
Διαχωρισμός Πηγών
Μη-Αρνητικοί Αυτοκωδικοποιητές
Μη-Αρνητική Παραγοντοποίηση Πίνακα
Ημι-Επιβλεπόμενη Μάθηση
Διαχωρισμός Σημάτων Φωνής
Ημερομηνία έκδοσης: 14-Ιου-2022
Περίληψη: Στην παρούσα διπλωματική εργασία εξετάζουμε το πρόβλημα της Αποθορυβοποίησης Σήματος Φωνής μέσω του Διαχωρισμού Πηγών. Η εξαγωγή σήματος φωνής από θορυβώδες σήμα έχει πληθώρα εφαρμογών και αποτελεί θεμελιώδες κομμάτι άλλων συστημάτων, όπως βοηθήματα ακοής και συστήματα αναγνώρισης ομιλίας. Επομένως, είναι σημαντικό να διαθέτουμε μεθόδους οι οποίες λειτουργούν αξιόπιστα σε μεγάλο εύρος καταστάσεων. Η ραγδαία ανάπτυξη των τεχνικών Βαθιάς Μάθησης έχει οδηγήσει στην ανάπτυξη κυρίως πλήρως επιβλεπόμενων μεθόδων που επιτυγχάνουν εντυπωσιακή απόδοση στο πρόβλημα. Θεωρούμε όμως το πρόβλημα στην ημι-επιβλεπόμενη περίπτωση όπου τα δεδομένα εκπαίδευσης αποτελούνται από καθαρά σήματα ομιλίας, ενώ κατά την αξιολόγηση οι θόρυβοι είναι άγνωστοι. Θέτουμε το πρόβλημα σε αυτή τη μορφή ώστε η μέθοδος επίλυσης που θα αναπτύξουμε να μην υποφέρει από προβλήματα γενίκευσης ως προς το είδος και το περιβάλλον θορύβου. Επικεντρωνόμαστε στις μεθόδους των Μη Αρνητικών Αυτοκωδικοποιητών (Non Negative Autoencoders - NAE) και τις παλαιότερες μεθόδους Μη Αρνητικής Παραγοντοποίησης Πίνακα (Non Negative Matrix Factorization - NMF), τις οποίες μελετάμε διεξοδικά. Με βάση την ημι-επιβλεπόμενη μεθοδολογία με NMF για το πρόβλημα και παλαιότερη έρευνα για τα μοντέλα NAE σχεδιάζουμε και προτείνουμε ημι-επιβλεπόμενη μεθοδολογία για μοντέλα NAE. Συγκεκριμένα, η μεθοδολογία αυτή αποτελείται από δυο στάδια. Στο πρώτο στάδιο εκπαιδεύουμε ένα μοντέλο NAE σε καθαρά σήματα ομιλίας με στόχο την ανακατασκευή τους μέσω μιας ενδιάμεσης αναπαράστασης μικρότερης διαστατικότητας. Έπειτα, συνδυάζουμε τον αποκωδικοποιητή ομιλίας του εκπαιδευμένου μοντέλου με έναν τυχαία αρχικοποιημένο αποκωδικοποιητή θορύβου για τον διαχωρισμό, κατά τον οποίον προσαρμόζουμε κατάλληλα, μέσω ενός επαναληπτικού αλγορίθμου, τις παραμέτρους του αποκωδικοποιητή θορύβου καθώς και τις εισόδους των δυο αποκωδικοποιητών. Στο πειραματικό μέρος της εργασίας, πρώτα εκπαιδεύουμε μοντέλα NMF και μοντέλα NAE με διάφορες μορφές, σε καθαρά σήματα ομιλίας και έπειτα τα συγκρίνουμε. Για την αξιολόγηση των μεθόδων χρησιμοποιούμε δυο σύνολα δεδομένων που καλύπτουν ένα μεγάλο εύρος τύπων θορύβου, με μεταβαλλόμενα επίπεδα θορύβου. Αφού αξιολογήσουμε την ημι-επιβλεπόμενη μέθοδο NMF, πραγματοποιούμε τροποποιήσεις σε αυτή που έχουν ως αποτέλεσμα την αύξηση της απόδοσης σε ορισμένες περιπτώσεις, αλλά με αυξημένο υπολογιστικό κόστος. Στη συνέχεια, πραγματοποιούμε πειράματα ώστε να ρυθμίσουμε την ημι-επιβλεπόμενη μέθοδο NAE, καταλήγοντας σε ένα συνδυασμό από ρυθμίσεις οι οποίες μεγιστοποιούν την απόδοση. Καταφέρνουμε έτσι να ρυθμίσουμε τη μέθοδο NAE ώστε να λειτουργεί ικανοποιητικά στο πρόβλημα και να φτάνει την απόδοση της NMF στο πρώτο σύνολο δεδομένων. Όμως, στο δεύτερο σύνολο δεδομένων η απόδοση της προτεινόμενης μεθόδου υστερεί σε σχέση με την NMF.
URI: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/18381
Εμφανίζεται στις συλλογές:Διπλωματικές Εργασίες - Theses

Αρχεία σε αυτό το τεκμήριο:
Αρχείο Περιγραφή ΜέγεθοςΜορφότυπος 
thesis_bralios_final.pdf5.86 MBAdobe PDFΕμφάνιση/Άνοιγμα


Όλα τα τεκμήρια του δικτυακού τόπου προστατεύονται από πνευματικά δικαιώματα.