Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/18744
Title: ΑΝΑΠΤΥΞΗ ΣΥΣΤΗΜΑΤΟΣ ΑΝΑΓΝΩΡΙΣΗΣ ΦΩΝΗΣ ΜΕ ΧΡΗΣΗ ΒΑΘΕΩΝ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ
Authors: Ουζούνογλου, Ανάργυρος
Σταφυλοπάτης Ανδρέας-Γεώργιος
Keywords: Σύστημα αναγνώρισης φωνής
Speech recognition system
Ακουστικό μοντέλο
Acoustic model
Γλωσσικό μοντέλο
Language model
Επεξεργασία φυσικής γλώσσας
Natural language processing
Μηχανική μάθηση
Machine learning
Στατιστική μάθηση
Statistical learning
Βαθιά νευρωνικά δίκτυα
Deep neural networks
Ομιλία
Speech
Issue Date: 11-Jul-2023
Abstract: Ένας από τους σημαντικότερους λόγους που ο άνθρωπος κατάφερε να επιβιώσει, να χτίσει πολύπλοκες κοινωνίες και εν τέλει να δαμάσει την φύση είναι η γλώσσα. Ο άνθρωπος από την φύση του κοινωνικό ων, έχει δημιουργήσει διαφόρους τρόπους επικοινωνίας ανά τους αιώνες, ο πιο σύνθετος όμως είναι αυτός της ομιλίας, μέσω της φωνής μπορεί και εκφράζει τα πολύπλοκα συναισθήματα του και τις ιδέες του. Από την κατασκευή των πρώτων υπολογιστών δημιουργήθηκε η ανάγκη για ανάπτυξη ενός τρόπου επικοινωνίας ανθρώπου μηχανής. Αρχικά αυτού του τύπου η επικοινωνία στηριζόταν περισσότερο στις “ανάγκες” της μηχανής, δηλαδή οι χρήστες έπρεπε να εκπαιδευτούν στην γλώσσα μηχανής. Με την πάροδο του χρόνου δημιουργήθηκαν τρόποι επικοινωνίας πιο κοντά σε αυτήν που χρησιμοποιούν οι άνθρωποι για να επικοινωνήσουν μεταξύ τους. Η εξέλιξη των υπολογιστών τόσο σε επίπεδο λογισμικού όσο και σε επίπεδο υλικού, οδήγησε στην ανάπτυξη των τομέων της μηχανικής μάθησης και της επεξεργασίας φυσικής γλώσσας. Σήμερα, λόγο των παραπάνω, ο άνθρωπος μπορεί να επικοινωνήσει με την μηχανή χρησιμοποιώντας τον πιο εκφραστικό και συνηθισμένο από τον ίδιο τρόπο επικοινωνίας, την ομιλία. Τα τελευταία χρόνια η έρευνα στην ανάπτυξη συστημάτων αναγνώρισης ομιλίας είναι αξιοσημείωτη. Όμως, η εξέλιξη των γλωσσών και η ολοένα αυξανόμενη ανάγκη του ανθρώπου για επικοινωνία με την μηχανή (με σκοπό φυσικά την διευκόλυνση της ζωής του) δημιουργούν προκλήσεις. Ένα σύστημα αναγνώρισης φωνής δέχεται ως είσοδο μία έκφραση δοσμένη ως ήχο και έχει στόχο την μετάφραση αυτής σε μορφή κειμένου. Η κατασκευή ενός τέτοιου συστήματος προϋποθέτει την ανάπτυξη δύο επιμέρους μοντέλων του ακουστικού που ανταποκρίνεται στο πώς ηχεί μία λέξη/έκφραση και του γλωσσικού που ανταποκρίνεται στο συντακτικό και στην γραμματική μίας γλώσσας, δηλαδή στην δομή, που επιτρέπει η γλώσσα, να έχει μία έκφραση. Για την εκπόνηση της παρούσας διπλωματικής εργασίας, μελετήθηκαν και θα παρουσιαστούν τόσο τεχνικές στατιστικής μάθησης όσο και μηχανικής μάθησης, και για τα δύο μοντέλα. Ενώ για την βελτίωση του συστήματος χρησιμοποιήθηκαν τεχνικές που εξάγουν τα χαρακτηριστικά του ομιλητή. Τέλος, χρησιμοποιήθηκε σύνολο δεδομένων από διαλόγους στην αγγλική γλώσσα σε πραγματικό περιβάλλον (δηλαδή, όχι σε χώρο κατάλληλο για ηχογραφήσεις).
URI: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/18744
Appears in Collections:Διπλωματικές Εργασίες - Theses

Files in This Item:
File Description SizeFormat 
Thesis_Ouzounoglou_Anargyros.pdf1.87 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.