Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/18381
Title: Ημι-Επιβλεπόμενη Αποθορυβοποίηση Σήματος Φωνής μέσω Τεχνικών Διαχωρισμού Πηγών
Authors: Μπράλιος, Δημήτριος
Μαραγκός Πέτρος
Keywords: Αποθορυβοποίηση Σήματος Φωνής
Διαχωρισμός Πηγών
Μη-Αρνητικοί Αυτοκωδικοποιητές
Μη-Αρνητική Παραγοντοποίηση Πίνακα
Ημι-Επιβλεπόμενη Μάθηση
Διαχωρισμός Σημάτων Φωνής
Issue Date: 14-Jul-2022
Abstract: Στην παρούσα διπλωματική εργασία εξετάζουμε το πρόβλημα της Αποθορυβοποίησης Σήματος Φωνής μέσω του Διαχωρισμού Πηγών. Η εξαγωγή σήματος φωνής από θορυβώδες σήμα έχει πληθώρα εφαρμογών και αποτελεί θεμελιώδες κομμάτι άλλων συστημάτων, όπως βοηθήματα ακοής και συστήματα αναγνώρισης ομιλίας. Επομένως, είναι σημαντικό να διαθέτουμε μεθόδους οι οποίες λειτουργούν αξιόπιστα σε μεγάλο εύρος καταστάσεων. Η ραγδαία ανάπτυξη των τεχνικών Βαθιάς Μάθησης έχει οδηγήσει στην ανάπτυξη κυρίως πλήρως επιβλεπόμενων μεθόδων που επιτυγχάνουν εντυπωσιακή απόδοση στο πρόβλημα. Θεωρούμε όμως το πρόβλημα στην ημι-επιβλεπόμενη περίπτωση όπου τα δεδομένα εκπαίδευσης αποτελούνται από καθαρά σήματα ομιλίας, ενώ κατά την αξιολόγηση οι θόρυβοι είναι άγνωστοι. Θέτουμε το πρόβλημα σε αυτή τη μορφή ώστε η μέθοδος επίλυσης που θα αναπτύξουμε να μην υποφέρει από προβλήματα γενίκευσης ως προς το είδος και το περιβάλλον θορύβου. Επικεντρωνόμαστε στις μεθόδους των Μη Αρνητικών Αυτοκωδικοποιητών (Non Negative Autoencoders - NAE) και τις παλαιότερες μεθόδους Μη Αρνητικής Παραγοντοποίησης Πίνακα (Non Negative Matrix Factorization - NMF), τις οποίες μελετάμε διεξοδικά. Με βάση την ημι-επιβλεπόμενη μεθοδολογία με NMF για το πρόβλημα και παλαιότερη έρευνα για τα μοντέλα NAE σχεδιάζουμε και προτείνουμε ημι-επιβλεπόμενη μεθοδολογία για μοντέλα NAE. Συγκεκριμένα, η μεθοδολογία αυτή αποτελείται από δυο στάδια. Στο πρώτο στάδιο εκπαιδεύουμε ένα μοντέλο NAE σε καθαρά σήματα ομιλίας με στόχο την ανακατασκευή τους μέσω μιας ενδιάμεσης αναπαράστασης μικρότερης διαστατικότητας. Έπειτα, συνδυάζουμε τον αποκωδικοποιητή ομιλίας του εκπαιδευμένου μοντέλου με έναν τυχαία αρχικοποιημένο αποκωδικοποιητή θορύβου για τον διαχωρισμό, κατά τον οποίον προσαρμόζουμε κατάλληλα, μέσω ενός επαναληπτικού αλγορίθμου, τις παραμέτρους του αποκωδικοποιητή θορύβου καθώς και τις εισόδους των δυο αποκωδικοποιητών. Στο πειραματικό μέρος της εργασίας, πρώτα εκπαιδεύουμε μοντέλα NMF και μοντέλα NAE με διάφορες μορφές, σε καθαρά σήματα ομιλίας και έπειτα τα συγκρίνουμε. Για την αξιολόγηση των μεθόδων χρησιμοποιούμε δυο σύνολα δεδομένων που καλύπτουν ένα μεγάλο εύρος τύπων θορύβου, με μεταβαλλόμενα επίπεδα θορύβου. Αφού αξιολογήσουμε την ημι-επιβλεπόμενη μέθοδο NMF, πραγματοποιούμε τροποποιήσεις σε αυτή που έχουν ως αποτέλεσμα την αύξηση της απόδοσης σε ορισμένες περιπτώσεις, αλλά με αυξημένο υπολογιστικό κόστος. Στη συνέχεια, πραγματοποιούμε πειράματα ώστε να ρυθμίσουμε την ημι-επιβλεπόμενη μέθοδο NAE, καταλήγοντας σε ένα συνδυασμό από ρυθμίσεις οι οποίες μεγιστοποιούν την απόδοση. Καταφέρνουμε έτσι να ρυθμίσουμε τη μέθοδο NAE ώστε να λειτουργεί ικανοποιητικά στο πρόβλημα και να φτάνει την απόδοση της NMF στο πρώτο σύνολο δεδομένων. Όμως, στο δεύτερο σύνολο δεδομένων η απόδοση της προτεινόμενης μεθόδου υστερεί σε σχέση με την NMF.
URI: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/18381
Appears in Collections:Διπλωματικές Εργασίες - Theses

Files in This Item:
File Description SizeFormat 
thesis_bralios_final.pdf5.86 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.