Παρακαλώ χρησιμοποιήστε αυτό το αναγνωριστικό για να παραπέμψετε ή να δημιουργήσετε σύνδεσμο προς αυτό το τεκμήριο:
http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/18008
Τίτλος: | Μηχανική Μάθηση για την Εκτίμηση της Ποιότητας της Ομιλίας με Συνδυασμό Πληροφορίας Ήχου και Κειμένου |
Συγγραφείς: | Ελευθερίου, Σοφία Κόλλιας Στέφανος |
Λέξεις κλειδιά: | Μηχανική Μάθηση, Αυτόματη Αξιολόγηση, Ποιότητα Ομιλίας, Ηχητικό Σήμα, Κείμενο |
Ημερομηνία έκδοσης: | 8-Ιου-2021 |
Περίληψη: | To θέμα της παρούσας διπλωματικής εργασίας είναι η αυτόματη αξιολόγηση της ποιότητας της ομιλίας μέσω τεχνικών μηχανική μάθησης. Για τον σκοπό αυτό γίνεται ανάλυση τόσο του ηχητικού σήματος της ομιλίας, όσο και του κειμένου της. Οι δυο αυτές προσεγγίσεις αποδίδουν διαφορετικού είδους πληροφορίες, οι οποίες στην συνέχεια μπορούν να χρησιμοποιηθούν αυτοτελώς ή και να συνδυαστούν ώστε να επιτευχθεί ο τελικός στόχος της αξιολόγησης. Η ποιότητα της ομιλίας είναι μια υποκειμενική γνώμη, βασισμένη στην αίσθηση του ακροατή πάνω στην ομιλία που άκουσε. Επομένως, η αντικειμενική αξιολόγηση της ποιότητας της ομιλίας αποτελεί μία πρόκληση, ιδίως όταν δεν υπάρχει καθαρή αναφορά (που ονομάζεται επίσης μη παρεμβατική ή μεμονωμένη αξιολόγηση ποιότητας ομιλίας). Η ανάγκη για «χρυσή» αναφορά περιορίζει σημαντικά τη δυνατότητα εφαρμογής τέτοιων εργαλείων αξιολόγησης σε σενάρια του πραγματικού κόσμου. Ωστόσο, τα ανθρώπινα όντα μπορούν εύκολα να αξιολογήσουν την ποιότητα της ομιλίας χωρίς καμία αναφορά. Με άλλα λόγια, η ανθρώπινη αντίληψη ακρόασης μπορεί να αντιμετωπιστεί ως λειτουργία χαρτογράφησης για να αντιστοιχίσει οποιαδήποτε ομιλία σε αντίστοιχο δείκτη ποιότητας. Για την εξαγωγή των χαρακτηριστικών χρησιμοποιούνται τόσο χαρακτηριστικά υψηλού επιπέδου, όπως ο αριθμός παύσεων, οι λέξεις ανά δευτερόλεπτο, η μέση διάρκεια σιωπής κ.α., όσο και χαρακτηριστικά που προκύπτουν από μοντέλα-ταξινομητές τμημάτων ήχου ή κειμένου, οι οποίοι προβλέπουν ετικέτες όπως το συναίσθημα, το σθένος και την διέγερση. Στην συνέχεια, λαμβάνοντας τον μέσο όρο των προβλέψεων αυτών για όλα τα τμήματα, καταλήγουμε σε χαρακτηριστικά που αφορούν τον συνολικό ήχο ή κείμενο (δηλαδή την συνολική ομιλία). Συνδυάζοντας τα παραπάνω χαρακτηριστικά από ήχο και κείμενο, χρησιμοποιούμε τελικούς ταξινομητές επιπέδου εγγραφής, οι οποίοι αξιολογούν την ομιλία σε διαφορετικούς άξονες (εκφραστικότητα, ευκολία παρακολούθησης και διασκέδαση). Για τους ταξινομητές τμημάτων χρησιμοποιήθησαν ανοιχτού τύπου σύνολα δεδομένων, ενώ για τους τελικούς ταξινομητές εγγραφής, ακολουθήθηκε διαδικασία συλλογής και επισημείωσης δεδομένων, καθώς επίσης και συνάθροισης/συμφωνίας των επισημειώσεων. |
URI: | http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/18008 |
Εμφανίζεται στις συλλογές: | Διπλωματικές Εργασίες - Theses |
Αρχεία σε αυτό το τεκμήριο:
Αρχείο | Περιγραφή | Μέγεθος | Μορφότυπος | |
---|---|---|---|---|
Sofia_Thesis.pdf | 7.96 MB | Adobe PDF | Εμφάνιση/Άνοιγμα |
Όλα τα τεκμήρια του δικτυακού τόπου προστατεύονται από πνευματικά δικαιώματα.