Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/18733
Full metadata record
DC FieldValueLanguage
dc.contributor.authorΚυπραίου, Χριστίνα-
dc.date.accessioned2023-07-14T11:05:17Z-
dc.date.available2023-07-14T11:05:17Z-
dc.date.issued2023-07-06-
dc.identifier.urihttp://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/18733-
dc.description.abstractΗ παρούσα διπλωματική εργασία αποσκοπεί στην επίλυση του προβλήματος της μεταγραφής και ευθυγράμμισης στίχων με χρήση σύγχρονων μεθόδων βαθιάς μάθησης και στην σύγκριση των μοντέλων αυτών με κλασικά στατιστικά μοντέλα. ΄Οσον αφορά τον τομέα Ανάκτησης Μουσικής Πληροφορίας (Music Information Retrieval) οι περισσότερες υπάρχουσες εφαρμογές επικεντρώνονται στη μεταγραφή του τόνου της φωνής του τραγουδιού, ελάχιστη έρευνα έχει γίνει για τη μεταγραφή των στίχων και την χρονική ευθυγράμμισή τους με το ηχητικό σήμα. Η αυτόματη ανάκτηση των στίχων τραγουδιών μπορεί να έχει σημαντικό αντίκτυπο στα εργαλεία σύνθεσης τραγουδιών, στις λεζάντες ήχου/βίντεο, στις εφαρμογές καραόκε, στη δημιουργία μουσικών καταλόγων, στη σύνθεση μουσικής, στη δημιουργία λιστών αναπαραγωγής και στην εκτίμηση πνευματικών δικαιωμάτων. Το πρόβλημα της αυτόματης μεταγραφής στίχων είναι αντίστοιχο με το πρόβλημα της αυτόματης αναγνώρισης ομιλίας (ASR). Οι είσοδοι και των δύο συστημάτων είναι η ανθρώπινη φωνή και η αναμενόμενη έξοδος είναι οι μεταγραφές τους, ωστόσο το τραγούδι έχει συγκεκριμένα χαρακτηριστικά σε σύγκριση με τη φυσική ομιλία, τα οποία εισάγουν διάφορες προκλήσεις. Σε σύγκριση με την ευθυγράμμιση από κείμενο σε ομιλία, η ευθυγράμμιση στίχων παραμένει εξαιρετικά δύσκολη, παρά τις πολλές προσπάθειες να συνδυαστούν πλήθος επιμέρους μοντέλων, συμπεριλαμβανομένου του διαχωρισμού και της ανίχνευσης φωνής. Επιπλέον, η εκπαίδευση απαιτεί τη διαθεσιμότητα λεπτομερών επισημάνσεων σε συγκεκριμένη μορφή. Η αυτόματη αναγνώριση ομιλίας έχει σημειώσει σημαντική πρόοδο τα τελευταία χρόνια, ωστόσο το αντίστοιχο πρόβλημα στον τομέα του τραγουδιού πάσχει από περιορισμένα δεδομένα και υποβαθμισμένη κατανοησιμότητα των τραγουδισμένων στίχων. Στην παρούσα διπλωματική εργασία επιχειρούμε να εκμεταλλευτούμε τις ομοιότητες μεταξύ ομιλίας και τραγουδιού. Πειραματιζόμαστε αρχικά με στατιστικά μοντέλα όπως τα Κρυφά Μοντέλα Markov (HMM). Στην συνέχεια δοκιμάζονται αρχιτεκτονικές νευρωνικών δικτύων όπως το Transformer που συνδυάζουν τον μηχανισμό προσοχής και την μοντελοποίηση από άκρο σε άκρο και αποτελούν τεχνικές της σύγχρονης ερευνητικής στάθμης (SOTA) στην Αυτόματη Αναγνώριση Ομιλίας. Επίσης εξετάζεται η επιρροή που ασκεί το πλήθος και η προέλευση των δεδομένων εκπαίδευσης.en_US
dc.languageelen_US
dc.subjectΑυτόματη μεταγραφή στίχωνen_US
dc.subjectΕυθυγράμμιση ήχου με στίχουςen_US
dc.subjectΑυτόματη αναγνώριση ομιλίαςen_US
dc.subjectΜηχανική μάθησηen_US
dc.subjectΒαθιά νευρωνικά δίκτυαen_US
dc.subjectTransformersen_US
dc.titleΜεταγραφή και Ευθυγράμμιση Στίχων με Σύγχρονες Τεχνικές Βαθιάς Μάθησηςen_US
dc.description.pages93en_US
dc.contributor.supervisorΣτάμου Γιώργοςen_US
dc.departmentΤομέας Τεχνολογίας Πληροφορικής και Υπολογιστώνen_US
Appears in Collections:Διπλωματικές Εργασίες - Theses

Files in This Item:
File Description SizeFormat 
Thesis_Christina_Kypraiou.pdf4.53 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.