Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/17831
Title: ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΤΗΣ ΕΛΛΗΝΙΚΗΣ ΝΟΗΜΑΤΙΚΗΣ ΓΛΩΣΣΑΣ ΓΙΑ ΣΥΣΤΗΜΑΤΑ ΣΤΑΤΙΣΤΙΚΗΣ ΜΗΧΑΝΙΚΗΣ ΜΕΤΑΦΡΑΣΗΣ
Authors: Κουρεμένος, Δημήτριος
Κόλλιας Στέφανος
Keywords: machine translation, Greek, Greek Sign Language, GSL, Deaf people communication, SMT, Moses, Phrase model, BLUE, glosses, language models.
Issue Date: 8-Jul-2020
Abstract: Η παρούσα διατριβή τοποθετείται στο πεδίο της αυτόματης Μηχανικής Μετάφρασης και της διαπροσωπείας ανθρώπου-μηχανής στην περίπτωση των ατόμων με προβλήματα ακοής, κάνοντας χρήση της γλώσσας των κωφών και της Ελληνικής Νοηματικής Γλώσσας. Αξιοποιεί, μελετά, δοκιμάζει και προτείνει νέες μεθοδολογίες Μηχανικής Μετάφρασης μεταξύ της Ελληνικής Γλώσσας και της Ελληνικής Νοηματικής Γλώσσας. Η Μηχανική Μετάφραση αποτελεί μέρος του ευρύτερου πεδίου της Γλωσσικής Τεχνολογίας που μελετά την επεξεργασία της ανθρώπινης γλώσσας από υπολογιστή, με σκοπό την επικοινωνία μεταξύ ανθρώπου και μηχανής, αλλά και ως βοηθητικό εργαλείο για την επικοινωνία μεταξύ ανθρώπων που μιλούν διαφορετικές γλώσσες. Με τη βοήθεια της τεχνολογίας και της επιστήμης της πληροφορικής ανοίγονται νέοι ορίζοντες που θα αλλάξουν τον τρόπο με τον οποίο λειτουργούμε καθημερινά. Όταν θα μπορεί μια μηχανή, ένας υπολογιστής, να αναγνωρίζει τις εκφωνούμενες γλώσσες (προφορικό και γραπτό λόγο) και τις Νοηματικές γλώσσες (φυσικές γλώσσες των κοινοτήτων των κωφών), τότε θα έχουμε πιο εύκολη πρόσβαση στην πληροφορία και κατ’ επέκταση στα οφέλη που θα προκύψουν από ένα ευρύτερο πλαίσιο νέων υπηρεσιών, αλλά και τη δυνατότητα να εκτελούμε επαγγελματικές συναλλαγές από απόσταση, με μεγάλη ευκολία και ταχύτητα. Όταν θα μπορεί μια μηχανή να κατανοεί τις φυσικές (ανθρώπινες) γλώσσες (εκφωνούμενες γλώσσες και νοηματικές γλώσσες), να τις μεταφράζει σε άλλες γλώσσες και να τις αναπαράγει, τότε θα υπάρχει διαθέσιμο ένα ισχυρό μέσο επικοινωνίας ανθρώπουμηχανής, χρήσιμο όχι μόνο για τους ακούοντες, αλλά και για τα άτομα με προβλήματα ακοής, σε πολλούς τομείς της ανθρώπινης δραστηριότητας. Η παρούσα διατριβή προτείνει ένα πρωτότυπο σύστημα βασισμένο σε κανόνες μηχανικής μετάφρασης που έχει ως στόχο τη δημιουργία μεγάλων παράλληλων εύρωστων γραπτών σωμάτων κειμένων της ελληνικής και της Ελληνικής Νοηματικής Γλώσσας, με χρήση της Σύντομης Μεταγραφής της Ελληνικής Νοηματικής Γλώσσας (ΣΜΕΝΓ) (text glosses) που αναπτύχθηκε για τις ανάγκες της διατριβής. Τα σώματα κειμένων χρησιμοποιούνται ως δεδομένα κατάρτισης για τη δημιουργία γλωσσικών μοντέλων ν-γραμμάτων (n-gram Language Model). Επιπλέον, χρησιμοποιούνται και ως δεδομένα εκπαίδευσης για το σύστημα MOSES Στατιστικής Μηχανικής Μετάφρασης. Πρέπει να σημειωθεί ότι όλη η διαδικασία είναι ισχυρή και ευέλικτη, καθώς δεν απαιτεί βαθιά γνώση γραμματικής της ΕΝΓ. Τέλος, πρέπει να τονιστεί η έλλειψη γλωσσικών πόρων στην ΕΝΓ. Για τον λόγο αυτό, η παρούσα διατριβή προτείνει μια καινοτόμο μεθοδολογία για τη δημιουργία γλωσσικών πόρων που εκλείπουν από την επιστημονική βιβλιογραφία, με σκοπό τη μοντελοποίηση της ΕΝΓ και την εφαρμογή της σε συστήματα στατιστικής μηχανικής μετάφρασης. Η αξιολόγηση του προτεινόμενου συστήματος μετάφρασης πραγματοποιείται στο πεδίο των καιρικών προγνώσεων, από όπου έχουν παραχθεί 20.284 λέξεις (tokens) και 1.000 προτάσεις. Παρουσιάζονται μετρήσεις και χρονικές εκτιμήσεις για τη δημιουργία γλωσσικών πόρων και αξιολογούνται τα γλωσσικά μοντέλα της ΕΝΓ μέσω της περιπλοκής. Τέλος, το πρωτότυπο σύστημα MΜ που παρουσιάζεται επιτυγχάνει ελπιδοφόρες επιδόσεις, χρησιμοποιώντας τη μετρική βαθμολογία BiLingual Understudy Assessment (BLEU) για την αξιολόγηση της μετάφρασης.
URI: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/17831
Appears in Collections:Διδακτορικές Διατριβές - Ph.D. Theses

Files in This Item:
File Description SizeFormat 
dkouremenos_phd_thesis.pdf3.58 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.