Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/13084
Title: Εύρωστα Ακουστικά Χαρακτηριστικά Για Αυτόματη Αναγνώριση Φωνής Από Απόσταση
Authors: Νικόλαος Φλεμοτόμος
Μαραγκός Πέτρος
Keywords: αναγνώριση φωνής από απόσταση
εξαγωγή ακουστικών χαρακτηριστικών
συντελεστές αναφάσματος στις mel συχνότητες
γραμμική πρόβλεψη βασισμένη στην αντίληψη
am-fm χαρακτηριστικά
ευρωστία
teager ενέργεια
φάσμα teager ισχύος
μείωση διαστασιμότητας
μετατροπείς πεπερασμένης κατάστασης με βάρη
Issue Date: 31-Mar-2016
Abstract: Σκοπός της παρούσης Διπλωματικής εργασίας είναι η συγκριτική μελέτη διαφόρων μεθόδων εξαγωγής χαρακτηριστικών για χρήση στο πεδίο της Αναγνώρισης Φωνής από Απόσταση, με χρήση ενός μικροφώνου. Παρόλο που τις τελευταίες λίγες δεκαετίες υπάρχουν και εφαρμόζονται επιτυχημένα σύνολα χαρακτηριστικών στην περιοχή της Αυτόματης Αναγνώρισης Φωνής, με την απόδοση των συστημάτων να είναι ικανοποιητική σε καθαρές συνθήκες, στην περίπτωση που το μικρόφωνο απομακρύνεται από το στόμα του ομιλητή, η απόδοση πέφτει σε πολύ χαμηλά επίπεδα, καθώς εισάγονται παραμορφώσεις που οφείλονται σε μία ποικιλία παραγόντων, όπως είναι ο θόρυβος υποβάθρου και η αντήχηση.Σημαντικό μέρος της εργασίας αφιερώνεται στη διεξοδική μελέτη, σε θεωρητικό και πειραματικό επίπεδο, των πλέον συχνά χρησιμοποιούμενων συνόλων χαρακτηριστικών που βασίζονται στην ενέργεια βραχέος χρόνου, των Αναφασματικών Χαρακτηριστικών στις Mel Συχνότητες (MFCCs), των συντελεστών Γραμμικής Πρόβλεψης βασισμένων στην Αντίληψη (PLPs), καθώς και παραλλαγών τους. Μέσω μιας σειράς πειραμάτων αναδεικνύεται η επίδραση που έχουν στην αναγνώριση διαφορετικές παραμετροποιήσεις κατά την εξαγωγή τους.Ακόμα, μελετώνται οι πιο συνήθεις μέθοδοι μείωσης της διαστασιμότητας· η Ανάλυση Κύριων Συνιστωσών (PCA), η Γραμμική Διακριτική Ανάλυση (LDA) και η Ετεροσκεδαστική Γραμμική Διακριτική Ανάλυση (HLDA), όπως εφαρμόζονται μετά την ένωση διαδοχικών πλαισίων χαρακτηριστικών για την καλύτερη ανάδειξη της δυναμικής του σήματος.Τέλος, εξετάζεται ο Τελεστής Teager Ενέργειας (TEO) υπό δύο σκοπιές. Πρώτον, προτείνεται ένα νέο πλαίσιο εργασίας όπου ο TEO χρησιμοποιείται στο πεδίο της συχνότητας για μείωση της υπολογιστικής πολυπλοκότητας και εισάγεται η έννοια του Φάσματος Teager Ισχύος (TPS), το οποίο μπορεί να χρησιμοποιηθεί στη ροή εργασίας γνωστών μεθόδων εξαγωγής χαρακτηριστικών, αντί του κλασικού Φάσματος Ισχύος ή σε συνδυασμό με αυτό, δίνοντας υποσχόμενα αποτελέσματα. Δεύτερον, χρησιμοποιείται στα πλαίσια του αλγορίθμου Gabor ESA για την εκτίμηση του στιγμιαίου πλάτους και της στιγμιαίας συχνότητας ενός σήματος και τη μετέπειτα εξαγωγή ποικίλων AM-FM χαρακτηριστικών. Όταν τα εν λόγω χαρακτηριστικά χρησιμοποιούνται σε συνδυασμό με τα MFCCs ή με τους Δέλτα-Φασματικούς Αναφασματικούς Συντελεστές (DSCCs) οδηγούν σε βελτιωμένα αποτελέσματα αναγνώρισης.Όλα τα πειράματα στηρίζονται σε έναν αναγνωριστή χτισμένο στο σύστημα Kaldi, ενώ χρησιμοποιούνται πραγματικά δεδομένα για αναγνώριση από απόσταση. Για την αξιολόγηση των AM-FM χαρακτηριστικών γίνεται, ακόμα, χρήση προσομοιωμένων δεδομένων με ελεγχόμενες συνθήκες θορύβου.
URI: http://artemis-new.cslab.ece.ntua.gr:8080/jspui/handle/123456789/13084
Appears in Collections:Διπλωματικές Εργασίες - Theses

Files in This Item:
File SizeFormat 
DT2016-0064.pdf2.9 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.