Αλγόριθμοι Εφαρμογής Των Ν-grams Στην Αναγνώριση Συναισθηματικού Λόγου Και Στην Διόρθωση Κειμένων

Θεολόγος Δ. Αθανασέλης

National Technical University of Athens

School of Electrical and Computer Engineering

Artemis is Live!

Welcome to our digital repository! The aim of Artemis is the systematic archiving and dissemination of the scientific work produced in the School of Electrical and Computer Engineering, National Technical University of Athens, Greece, using the technology of digital libraries.

Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/8585

Title:	Αλγόριθμοι Εφαρμογής Των Ν-grams Στην Αναγνώριση Συναισθηματικού Λόγου Και Στην Διόρθωση Κειμένων
Authors:	Θεολόγος Δ. Αθανασέλης Καραγιάννης Γεώργιος
Keywords:	αναγνώριση φωνής συναισθηματικού λόγου συναισθηματικά εμπλουτισμένο γλωσσικό μοντέλο λεξικό με συναισθηματικούς όρους διόρθωση κειμένων μη ορθή σειρά λέξεων μέθοδος γρήγορης αναζήτησης βέλτιστης λύσης φιλτράρισμα αντιμεταθέσεων πίνακας αντιστοίχισης.
Issue Date:	16-May-2007
Abstract:	Το στατιστικό γλωσσικό μοντέλο, χρησιμοποιεί τεχνικές στατιστικής εκτίμησης γλωσσικών δεδομένων εκπαίδευσης, που εφαρμόζονται σε εκτεταμένα κείμενα, με σκοπό την μοντελοποίηση της γλώσσας. Ανάμεσα στις πιο δημοφιλείς τεχνικές στατιστικής εκτίμησης είναι και τα μοντέλα N-grams. Ο ρόλος τους είναι πολύ σημαντικός για μια σειρά από εφαρμογές της γλωσσικής τεχνολογίας, όπως η αναγνώριση φωνής, η οπτική αναγνώριση χαρακτήρων, η μηχανική μετάφραση και ακόμη η ορθογραφική διόρθωση. Με την παρούσα εργασία προτείνονται δυο νέοι αλγόριθμοι εφαρμογής των N-grams μοντέλων στην αναγνώριση φωνής συναισθηματικού λόγου και στην διόρθωση κειμένων.Με αυτόν τον τρόπο η εργασία χωρίζεται σε δυο ενότητες. Στην πρώτη παρουσιάζεται ο αλγόριθμος εφαρμογής των Ν-grams μοντέλων στην αναγνώριση συναισθηματικού λόγου. Η αναγνώριση της γλωσσικής πληροφορίας του συναισθηματικού λόγου εκτός του ενδιαφέροντος που προκαλεί, παρουσιάζει και σημαντικά προβλήματα. Τα ποσοστά επιτυχίας των υπαρχόντων συστημάτων αναγνώρισης φωνής είναι αρκετά χαμηλά για εκφράσεις που έχουν έντονο συναισθηματικό χρώμα. Για αυτόν τον λόγο αναπτύχθηκε ένας αλγόριθμος που δημιουργεί ένα σώμα κειμένου με έντονο συναισθηματικό χαρακτήρα με την χρήση ενός συναισθηματικού λεξικού. Το επαυξημένο γλωσσικό μοντέλο υπολογίζεται από τον συνδυασμό ενός απλού σώματος κειμένου και του σώματος κειμένου με έντονο συναισθηματικό χαρακτήρα. Η ενσωμάτωση του επαυξημένου γλωσσικού μοντέλου σε ένα κλασσικό σύστημα αναγνώρισης φωνής έχει σαν αποτέλεσμα την βελτίωση της απόδοσης του κατά 20%. Η δεύτερη ενότητα της εργασίας αυτής αφορά την χρήση των μοντέλων Ν-grams στην διόρθωση κείμενων που εμφανίζουν λάθη στην σειρά των λέξεων. Ο αλγόριθμος που αναπτύχθηκε έχει σαν στόχο την διόρθωση μιας πρότασης με λέξεις που βρίσκονται σε μη κατάλληλη θέση. Για αυτόν το λόγο λαμβάνονται υπόψη όλοι οι πιθανοί συνδυασμοί αντιμεταθέσεων των λέξεων της πρότασης εισόδου. Όμως για προτάσεις με Ν λέξεις έχουμε Ν! συνδυασμούς αντιμεταθέσεων και γίνεται κατανοητό ότι ο χώρος αναζήτησης είναι πολύ μεγάλος. Έτσι προτείνεται μια νέα μέθοδος γρήγορης αναζήτησης για τον περιορισμό των αντιμεταθέσεων που στηρίζεται στα έγκυρα διγράμματα. Οι παραγόμενες προτάσεις-αντιμεταθέσεις εξετάζονται και αξιολογούνται βάσει του αριθμού των έγκυρων τριγραμμάτων. Αποτέλεσμα αυτής της μεθόδου είναι η ανίχνευση και η διόρθωση προτάσεων με λάθη στην σειρά των λέξεων.
URI:	http://artemis-new.cslab.ece.ntua.gr:8080/jspui/handle/123456789/8585
Appears in Collections:	Διδακτορικές Διατριβές - Ph.D. Theses

Files in This Item:

File	Size	Format
PD2007-0009.pdf	2.26 MB	Adobe PDF	View/Open

Show full item record