Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/13084
Full metadata record
DC FieldValueLanguage
dc.contributor.authorΝικόλαος Φλεμοτόμος
dc.date.accessioned2018-07-23T08:54:09Z-
dc.date.available2018-07-23T08:54:09Z-
dc.date.issued2016-3-31
dc.date.submitted2016-3-29
dc.identifier.urihttp://artemis-new.cslab.ece.ntua.gr:8080/jspui/handle/123456789/13084-
dc.description.abstractΣκοπός της παρούσης Διπλωματικής εργασίας είναι η συγκριτική μελέτη διαφόρων μεθόδων εξαγωγής χαρακτηριστικών για χρήση στο πεδίο της Αναγνώρισης Φωνής από Απόσταση, με χρήση ενός μικροφώνου. Παρόλο που τις τελευταίες λίγες δεκαετίες υπάρχουν και εφαρμόζονται επιτυχημένα σύνολα χαρακτηριστικών στην περιοχή της Αυτόματης Αναγνώρισης Φωνής, με την απόδοση των συστημάτων να είναι ικανοποιητική σε καθαρές συνθήκες, στην περίπτωση που το μικρόφωνο απομακρύνεται από το στόμα του ομιλητή, η απόδοση πέφτει σε πολύ χαμηλά επίπεδα, καθώς εισάγονται παραμορφώσεις που οφείλονται σε μία ποικιλία παραγόντων, όπως είναι ο θόρυβος υποβάθρου και η αντήχηση.Σημαντικό μέρος της εργασίας αφιερώνεται στη διεξοδική μελέτη, σε θεωρητικό και πειραματικό επίπεδο, των πλέον συχνά χρησιμοποιούμενων συνόλων χαρακτηριστικών που βασίζονται στην ενέργεια βραχέος χρόνου, των Αναφασματικών Χαρακτηριστικών στις Mel Συχνότητες (MFCCs), των συντελεστών Γραμμικής Πρόβλεψης βασισμένων στην Αντίληψη (PLPs), καθώς και παραλλαγών τους. Μέσω μιας σειράς πειραμάτων αναδεικνύεται η επίδραση που έχουν στην αναγνώριση διαφορετικές παραμετροποιήσεις κατά την εξαγωγή τους.Ακόμα, μελετώνται οι πιο συνήθεις μέθοδοι μείωσης της διαστασιμότητας· η Ανάλυση Κύριων Συνιστωσών (PCA), η Γραμμική Διακριτική Ανάλυση (LDA) και η Ετεροσκεδαστική Γραμμική Διακριτική Ανάλυση (HLDA), όπως εφαρμόζονται μετά την ένωση διαδοχικών πλαισίων χαρακτηριστικών για την καλύτερη ανάδειξη της δυναμικής του σήματος.Τέλος, εξετάζεται ο Τελεστής Teager Ενέργειας (TEO) υπό δύο σκοπιές. Πρώτον, προτείνεται ένα νέο πλαίσιο εργασίας όπου ο TEO χρησιμοποιείται στο πεδίο της συχνότητας για μείωση της υπολογιστικής πολυπλοκότητας και εισάγεται η έννοια του Φάσματος Teager Ισχύος (TPS), το οποίο μπορεί να χρησιμοποιηθεί στη ροή εργασίας γνωστών μεθόδων εξαγωγής χαρακτηριστικών, αντί του κλασικού Φάσματος Ισχύος ή σε συνδυασμό με αυτό, δίνοντας υποσχόμενα αποτελέσματα. Δεύτερον, χρησιμοποιείται στα πλαίσια του αλγορίθμου Gabor ESA για την εκτίμηση του στιγμιαίου πλάτους και της στιγμιαίας συχνότητας ενός σήματος και τη μετέπειτα εξαγωγή ποικίλων AM-FM χαρακτηριστικών. Όταν τα εν λόγω χαρακτηριστικά χρησιμοποιούνται σε συνδυασμό με τα MFCCs ή με τους Δέλτα-Φασματικούς Αναφασματικούς Συντελεστές (DSCCs) οδηγούν σε βελτιωμένα αποτελέσματα αναγνώρισης.Όλα τα πειράματα στηρίζονται σε έναν αναγνωριστή χτισμένο στο σύστημα Kaldi, ενώ χρησιμοποιούνται πραγματικά δεδομένα για αναγνώριση από απόσταση. Για την αξιολόγηση των AM-FM χαρακτηριστικών γίνεται, ακόμα, χρήση προσομοιωμένων δεδομένων με ελεγχόμενες συνθήκες θορύβου.
dc.languageGreek
dc.subjectαναγνώριση φωνής από απόσταση
dc.subjectεξαγωγή ακουστικών χαρακτηριστικών
dc.subjectσυντελεστές αναφάσματος στις mel συχνότητες
dc.subjectγραμμική πρόβλεψη βασισμένη στην αντίληψη
dc.subjectam-fm χαρακτηριστικά
dc.subjectευρωστία
dc.subjectteager ενέργεια
dc.subjectφάσμα teager ισχύος
dc.subjectμείωση διαστασιμότητας
dc.subjectμετατροπείς πεπερασμένης κατάστασης με βάρη
dc.titleΕύρωστα Ακουστικά Χαρακτηριστικά Για Αυτόματη Αναγνώριση Φωνής Από Απόσταση
dc.typeDiploma Thesis
dc.description.pages174
dc.contributor.supervisorΜαραγκός Πέτρος
dc.departmentΤομέας Σημάτων, Ελέγχου & Ρομποτικής
dc.organizationΕΜΠ, Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών
Appears in Collections:Διπλωματικές Εργασίες - Theses

Files in This Item:
File SizeFormat 
DT2016-0064.pdf2.9 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.