Please use this identifier to cite or link to this item:
http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/14661
Title: | Ανάπτυξη Λογισμικού Για Την Εύρεση Και Παρουσίαση Σημασιο-συντακτικών Δένδρων Στην Νεα Ελληνική Γλώσσα |
Authors: | Αλεξάκης Μιχάλης Κατζαγιαννάκης Αριστομένης Μαΐστρος Γιάννης |
Keywords: | natural language processing nlp unification grammar x-bar syntactic parser syntax semantics generative transformational grammar |
Issue Date: | 20-Sep-2006 |
Abstract: | To συντακτικό είναι ένα από τα επίπεδα της επεξεργασίας φυσικής γλώσσας. Η συντακτική παραγωγή (σύνθεση) είναι η διαδικασία κατά την οποία έχοντας μια γραμματική (δηλαδή ένα σύνολο συντακτικών (μη τερματικών) κατηγοριών, ένα σύνολο λεξικών (τερματικών) κατηγοριών, και ένα σύνολο κανόνων παραγωγής) συνθέτουμε προτάσεις και φράσεις της γλώσσας. Η ανάλυση (τεχνολόγηση) είναι η αντίστροφη διαδικασία κατά την οποία, ξεκινώντας από τα τερματικά σύμβολα που απαρτίζουν μία πρόταση ή φράση, βρίσκουμε τις συντακτικές κατηγορίες που τη συγκροτούν σε διάφορα επίπεδα, ενώ αποκαλύπτουμε και το πώς σχετίζονται μεταξύ τους οι κατηγορίες αυτές (πληροφορία σχετιζόμενη και με τη συνολική σημασιολογία της πρότασης ή της φράσης)Για τη φυσική γλώσσα, όπως είναι η Νέα Ελληνική (ΝΕ), η οποία είναι γλώσσα με συμφραζόμενα (context sensitive - c.s.), η απόπειρα μηχανικής συντακτικής ανάλυσης με χρήση c.s. κανόνων θα έδινε τα καλύτερα δυνατά αποτελέσματα, αλλά έχει πολύ μεγάλο (μη-πολυωνυμικό) κόστος σε χρόνο. Αν χρησιμοποιηθούν ωστόσο κανόνες χωρίς συμφραζόμενα που να παράγουν καλή προσέγγιση της φυσικής γλώσσας είναι δυνατόν, με έναν αλγόριθμο όπως ο CYK, να έχουμε πολυωνυμικό χρόνο ανάλυσης.Στη διπλωματική εργασία μας υλοποιήσαμε έναν συντακτικό αναλυτή. Ένα λογισμικό εργαλείο το οποίο περιμένει ως δεδομένα εισόδου: ένα σύνολο λεξικώνκατηγοριών εμπλουτισμένων με πεδία (τα οποία μπορεί να φέρουν πληροφορία είτε μορφολογική είτε σημασιολογική), ένα σύνολο από κανόνες c.f. , ένα λεξικό με σημασιολογικά χαρακτηριστικά για λήμματα λεξικών κατηγοριών και προτάσεις της ΝΕ μορφολογικά επισημειωμένες. Εμπλουτίζει την επισημείωση με σημασιολογικά στοιχεία και, με χρήση μιας τροποποιημένης εκδοχής του αλγορίθμου CYK, δημιουργεί τα υποψήφια συντακτικά δέντρα για την πρόταση. Στην έξοδο ο χρήστης έχει να επιλέξει μεταξύ διαφορετικών μορφών απεικόνισης και αποθήκευσης ανάλογα με τη χρήση των αποτελεσμάτων που θέλει νακάνει.Οι κανόνες που εισαγάγαμε βασίζονται στο πρότυπο της γενετικής γραμματικής -συγκεκριμένα στους κανόνες φραστικής δομής της σύνταξης του Χ-τονούμενου. Ωστόσο ο χρήστης δεν δεσμεύεται από αυτούς αλλά μπορεί να τους τροποποιήσει ή να εισάγει δικούς του c.f. κανόνες χρησιμοποιώντας το φορμαλισμό της ενοποιητικής γραμματικής |
URI: | http://artemis-new.cslab.ece.ntua.gr:8080/jspui/handle/123456789/14661 |
Appears in Collections: | Διπλωματικές Εργασίες - Theses |
Files in This Item:
File | Size | Format | |
---|---|---|---|
DT2006-0180.pdf | 1.76 MB | Adobe PDF | View/Open |
Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.