Παρακαλώ χρησιμοποιήστε αυτό το αναγνωριστικό για να παραπέμψετε ή να δημιουργήσετε σύνδεσμο προς αυτό το τεκμήριο: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/18733
Πλήρες αρχείο μεταδεδομένων
Πεδίο DC ΤιμήΓλώσσα
dc.contributor.authorΚυπραίου, Χριστίνα-
dc.date.accessioned2023-07-14T11:05:17Z-
dc.date.available2023-07-14T11:05:17Z-
dc.date.issued2023-07-06-
dc.identifier.urihttp://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/18733-
dc.description.abstractΗ παρούσα διπλωματική εργασία αποσκοπεί στην επίλυση του προβλήματος της μεταγραφής και ευθυγράμμισης στίχων με χρήση σύγχρονων μεθόδων βαθιάς μάθησης και στην σύγκριση των μοντέλων αυτών με κλασικά στατιστικά μοντέλα. ΄Οσον αφορά τον τομέα Ανάκτησης Μουσικής Πληροφορίας (Music Information Retrieval) οι περισσότερες υπάρχουσες εφαρμογές επικεντρώνονται στη μεταγραφή του τόνου της φωνής του τραγουδιού, ελάχιστη έρευνα έχει γίνει για τη μεταγραφή των στίχων και την χρονική ευθυγράμμισή τους με το ηχητικό σήμα. Η αυτόματη ανάκτηση των στίχων τραγουδιών μπορεί να έχει σημαντικό αντίκτυπο στα εργαλεία σύνθεσης τραγουδιών, στις λεζάντες ήχου/βίντεο, στις εφαρμογές καραόκε, στη δημιουργία μουσικών καταλόγων, στη σύνθεση μουσικής, στη δημιουργία λιστών αναπαραγωγής και στην εκτίμηση πνευματικών δικαιωμάτων. Το πρόβλημα της αυτόματης μεταγραφής στίχων είναι αντίστοιχο με το πρόβλημα της αυτόματης αναγνώρισης ομιλίας (ASR). Οι είσοδοι και των δύο συστημάτων είναι η ανθρώπινη φωνή και η αναμενόμενη έξοδος είναι οι μεταγραφές τους, ωστόσο το τραγούδι έχει συγκεκριμένα χαρακτηριστικά σε σύγκριση με τη φυσική ομιλία, τα οποία εισάγουν διάφορες προκλήσεις. Σε σύγκριση με την ευθυγράμμιση από κείμενο σε ομιλία, η ευθυγράμμιση στίχων παραμένει εξαιρετικά δύσκολη, παρά τις πολλές προσπάθειες να συνδυαστούν πλήθος επιμέρους μοντέλων, συμπεριλαμβανομένου του διαχωρισμού και της ανίχνευσης φωνής. Επιπλέον, η εκπαίδευση απαιτεί τη διαθεσιμότητα λεπτομερών επισημάνσεων σε συγκεκριμένη μορφή. Η αυτόματη αναγνώριση ομιλίας έχει σημειώσει σημαντική πρόοδο τα τελευταία χρόνια, ωστόσο το αντίστοιχο πρόβλημα στον τομέα του τραγουδιού πάσχει από περιορισμένα δεδομένα και υποβαθμισμένη κατανοησιμότητα των τραγουδισμένων στίχων. Στην παρούσα διπλωματική εργασία επιχειρούμε να εκμεταλλευτούμε τις ομοιότητες μεταξύ ομιλίας και τραγουδιού. Πειραματιζόμαστε αρχικά με στατιστικά μοντέλα όπως τα Κρυφά Μοντέλα Markov (HMM). Στην συνέχεια δοκιμάζονται αρχιτεκτονικές νευρωνικών δικτύων όπως το Transformer που συνδυάζουν τον μηχανισμό προσοχής και την μοντελοποίηση από άκρο σε άκρο και αποτελούν τεχνικές της σύγχρονης ερευνητικής στάθμης (SOTA) στην Αυτόματη Αναγνώριση Ομιλίας. Επίσης εξετάζεται η επιρροή που ασκεί το πλήθος και η προέλευση των δεδομένων εκπαίδευσης.en_US
dc.languageelen_US
dc.subjectΑυτόματη μεταγραφή στίχωνen_US
dc.subjectΕυθυγράμμιση ήχου με στίχουςen_US
dc.subjectΑυτόματη αναγνώριση ομιλίαςen_US
dc.subjectΜηχανική μάθησηen_US
dc.subjectΒαθιά νευρωνικά δίκτυαen_US
dc.subjectTransformersen_US
dc.titleΜεταγραφή και Ευθυγράμμιση Στίχων με Σύγχρονες Τεχνικές Βαθιάς Μάθησηςen_US
dc.description.pages93en_US
dc.contributor.supervisorΣτάμου Γιώργοςen_US
dc.departmentΤομέας Τεχνολογίας Πληροφορικής και Υπολογιστώνen_US
Εμφανίζεται στις συλλογές:Διπλωματικές Εργασίες - Theses

Αρχεία σε αυτό το τεκμήριο:
Αρχείο Περιγραφή ΜέγεθοςΜορφότυπος 
Thesis_Christina_Kypraiou.pdf4.53 MBAdobe PDFΕμφάνιση/Άνοιγμα


Όλα τα τεκμήρια του δικτυακού τόπου προστατεύονται από πνευματικά δικαιώματα.