Please use this identifier to cite or link to this item:
http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/13439
Full metadata record
DC Field | Value | Language |
---|---|---|
dc.contributor.author | Δούρος Ιωάννης | |
dc.date.accessioned | 2018-07-23T09:10:52Z | - |
dc.date.available | 2018-07-23T09:10:52Z | - |
dc.date.issued | 2017-6-11 | |
dc.date.submitted | 2017-5-29 | |
dc.identifier.uri | http://artemis-new.cslab.ece.ntua.gr:8080/jspui/handle/123456789/13439 | - |
dc.description.abstract | Σε αυτήν τη διπλωματική εργασία ερευνούμε τη χρήση πληροφοριών άρθρωσης, καιπιο συγκεκριμένα δεδομένων rt-MRI της φωνητικής οδού, για τη βελτίωσητης απόδοσης αναγνώρισης ομιλίας. Για τον σκοπό των πειραμάτων μαςχρησιμοποιούμε δεδομένα από τη βάση δεδομένων rtMRI-TIMIT. Αρχικά, ταχαρακτηριστικά SIFT εξάγονται για κάθε πλαίσιο του βίντεο. Έπειτα οιSIFT περιγραφείς του κάθε πλασίου μετασχηματίζονται σε ένα μεμονωμένοιστόγραμμα ανά εικόνα, με χρήση της μεθοδολογίας Bag of Visual Words.Εφόσον αυτό το είδος πληροφοριών άρθρωσης είναι δύσκολο να εξαχθεί σε μιατυπική εγκατάσταση αναγνώρισης ομιλίας, θεωρούμε ότι είναι διαθέσιμο μόνο στοστάδιο της εκπαίδευσης. Συνεπώς χρησιμοποιούμε μια προσέγγιση πολλαπλών όψεωνμε εφαρμογή canonical correlation analysis (CCA) σε οπτικά και ηχητικάδεδομένα. Με χρήση του πίνακα μετασχηματισμού που εξήχθη κατά τη διάρκεια τουσταδίου εκπαίδευσης, μετασχηματίζουμε τα ηχητικά δεδομένα της εκπαίδευσης καιτης δοκιμής για να παράγουμε τα τελικά χαρακτηριστικά (συνδυασμός ακουστικώνχαρακτηριστικών με χαρακτηριστικά του συστήματος παραγωγής ομιλίας) τα οποίααποτελούν την είσοδο του συστήματος αναγνώρισης. Τα πειραματικά αποτελέσματαεπιδεικνύουν βελτιώσεις στην αναγνώριση φωνής συγκριτικά με την χρήση μόνοακουστικών χαρακτηριστικών. | |
dc.language | Greek | |
dc.subject | χαρακτηριστικά παραγωγής ομιλίας | |
dc.subject | προσέγγιση πολλαπλών όψε- ων | |
dc.subject | αναγνώριση φωνημάτων | |
dc.subject | κρυφά μαρκοβιανά μοντέλα | |
dc.subject | ανάλυση κανονικής συσχέτισης | |
dc.subject | μηχανές διανυσματικής υποστήριξης | |
dc.subject | χαρακτηριστικά sift | |
dc.subject | βάση δεδομένων rtmri-timit | |
dc.subject | bag of visual words | |
dc.subject | smote | |
dc.title | Πολλαπλών Όψεων Συνδυασμός Ακουστικών Χαρακτηριστικών Με Χαρακτηριστικά Παραγωγής Ομιλίας Για Αναγνώριση Φωνημάτων Στη Βάση Δεδομένων Rtmri-timit | |
dc.type | Diploma Thesis | |
dc.description.pages | 141 | |
dc.contributor.supervisor | Μαραγκός Πέτρος | |
dc.department | Τομέας Σημάτων, Ελέγχου & Ρομποτικής | |
dc.organization | ΕΜΠ, Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών | |
Appears in Collections: | Διπλωματικές Εργασίες - Theses |
Files in This Item:
File | Size | Format | |
---|---|---|---|
DT2017-0097.pdf | 3.64 MB | Adobe PDF | View/Open |
Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.