Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/13439
Full metadata record
DC FieldValueLanguage
dc.contributor.authorΔούρος Ιωάννης
dc.date.accessioned2018-07-23T09:10:52Z-
dc.date.available2018-07-23T09:10:52Z-
dc.date.issued2017-6-11
dc.date.submitted2017-5-29
dc.identifier.urihttp://artemis-new.cslab.ece.ntua.gr:8080/jspui/handle/123456789/13439-
dc.description.abstractΣε αυτήν τη διπλωματική εργασία ερευνούμε τη χρήση πληροφοριών άρθρωσης, καιπιο συγκεκριμένα δεδομένων rt-MRI της φωνητικής οδού, για τη βελτίωσητης απόδοσης αναγνώρισης ομιλίας. Για τον σκοπό των πειραμάτων μαςχρησιμοποιούμε δεδομένα από τη βάση δεδομένων rtMRI-TIMIT. Αρχικά, ταχαρακτηριστικά SIFT εξάγονται για κάθε πλαίσιο του βίντεο. Έπειτα οιSIFT περιγραφείς του κάθε πλασίου μετασχηματίζονται σε ένα μεμονωμένοιστόγραμμα ανά εικόνα, με χρήση της μεθοδολογίας Bag of Visual Words.Εφόσον αυτό το είδος πληροφοριών άρθρωσης είναι δύσκολο να εξαχθεί σε μιατυπική εγκατάσταση αναγνώρισης ομιλίας, θεωρούμε ότι είναι διαθέσιμο μόνο στοστάδιο της εκπαίδευσης. Συνεπώς χρησιμοποιούμε μια προσέγγιση πολλαπλών όψεωνμε εφαρμογή canonical correlation analysis (CCA) σε οπτικά και ηχητικάδεδομένα. Με χρήση του πίνακα μετασχηματισμού που εξήχθη κατά τη διάρκεια τουσταδίου εκπαίδευσης, μετασχηματίζουμε τα ηχητικά δεδομένα της εκπαίδευσης καιτης δοκιμής για να παράγουμε τα τελικά χαρακτηριστικά (συνδυασμός ακουστικώνχαρακτηριστικών με χαρακτηριστικά του συστήματος παραγωγής ομιλίας) τα οποίααποτελούν την είσοδο του συστήματος αναγνώρισης. Τα πειραματικά αποτελέσματαεπιδεικνύουν βελτιώσεις στην αναγνώριση φωνής συγκριτικά με την χρήση μόνοακουστικών χαρακτηριστικών.
dc.languageGreek
dc.subjectχαρακτηριστικά παραγωγής ομιλίας
dc.subjectπροσέγγιση πολλαπλών όψε- ων
dc.subjectαναγνώριση φωνημάτων
dc.subjectκρυφά μαρκοβιανά μοντέλα
dc.subjectανάλυση κανονικής συσχέτισης
dc.subjectμηχανές διανυσματικής υποστήριξης
dc.subjectχαρακτηριστικά sift
dc.subjectβάση δεδομένων rtmri-timit
dc.subjectbag of visual words
dc.subjectsmote
dc.titleΠολλαπλών Όψεων Συνδυασμός Ακουστικών Χαρακτηριστικών Με Χαρακτηριστικά Παραγωγής Ομιλίας Για Αναγνώριση Φωνημάτων Στη Βάση Δεδομένων Rtmri-timit
dc.typeDiploma Thesis
dc.description.pages141
dc.contributor.supervisorΜαραγκός Πέτρος
dc.departmentΤομέας Σημάτων, Ελέγχου & Ρομποτικής
dc.organizationΕΜΠ, Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών
Appears in Collections:Διπλωματικές Εργασίες - Theses

Files in This Item:
File SizeFormat 
DT2017-0097.pdf3.64 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.