Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/16373
Title: Εξαγωγή Ονοματικών Οντοτήτων Και Εμπλουτισμός Κειμένου Με Χρήση Σημασιολογικού Ιστού
Authors: Χρυσούλα Ζέρβα
Αλίκη Κοπανέλη
Σταφυλοπάτης Ανδρέας-Γεώργιος
Keywords: σημασιολογικός ιστός
γραμματική επισημείωση όρων
σημασιολογική επισημείωση όρων
διασυνδεδεμένα δεδομένα
γνωσιακή βάση δεδομένων
ταυτοποίηση προσώπων
ονοματική οντότητα
εξαγωγή ονοματικών οντοτήτων
rdf
dbpedia
wikipedia
Issue Date: 23-Jul-2012
Abstract: Η παρούσα διπλωματική εργασία έχει ως αντικείμενο τη μελέτη και την ανάπτυξη δύο συστημάτων τα οποία επιδιώκουν τον εμπλουτισμό ακατέργαστων και αδόμητων κειμένων, γραμμένων σε φυσική γλώσσα, με χρήση Σημασιολογικού Ιστού και συγκεκριμένα των διασυνδεδεμένων δεδομένων της DBpedia. Καθοριστικής σημασίας κρίνεται ο εντοπισμός και η επιλογή μέσα από το κείμενο, μόνο εκείνων των φράσεων που αντιστοιχούν σε ονοματικές οντότητες της DBpedia και φέρουν την ανά περίπτωση επιθυμητή πληροφορία. Η εξαγωγή των οντοτήτων αυτών, δίνουν τη δυνατότητα άντλησης επιπρόσθετης πληροφορίας η οποία εμπλουτίζει το κείμενο με τον τρόπο που υπαγορεύει ο στόχος του κάθε συστήματος.Το πρώτο σύστημα ονομάζεται "Σύστημα Σημασιολογικής Επισημείωσης και Εξαγωγής Συνοπτικής Αναπαράστασης Κειμένου" και προσανατολίζεται στην εξαγωγή των ονοματικών οντοτήτων από ένα δεδομένο κείμενο, το σύνολο των οποίων είναι ικανό να αποτελέσει μία επαρκή αναπαράστασή του. Συγκεκριμένα, μία αναπαράσταση θεωρείται αποδεκτή όταν συνοψίζει τις βασικές έννοιες του κειμένου και αρκεί για να το διαχωρίσει με σημασιολογικά κριτήρια από άλλα κείμενα. Μάλιστα, οι οντότητες που συνθέτουν την εν λόγω αναπαράσταση, παρέχονται από το σύστημα ταξινομημένες με βάση τη νοηματική βαρύτητα που θεωρείται πως έχει η κάθε μία για το εκάστοτε κείμενο. Για την ταξινόμηση και τη διαλογή των εντοπισμένων οντοτήτων χρησιμοποιούνται κριτήρια που βασίζονται σε δεδομένα αντλούμενα από τη Wikipedia και τη DBpedia. Η τελική αξιολόγηση των αποτελεσμάτων γίνεται με χρήση προσημειωμένων συνόλων κειμένων και των στατιστικών μεγεθών ακρίβειας και ανάκλησης.Το δεύτερο σύστημα ονομάζεται "Σύστημα Ταυτοποίσης Προσώπων με χρήση Σημασιολογικού Ιστού" και αφορά τον εντοπισμό αναφορών σε πρόσωπα του πραγματικού κόσμου εντός ενός κειμένου. Στη συγκεκριμένη περίπτωση, γίνεται αναζήτηση στη γνωσιακή βάση της DBpedia προκειμένου να προσδιοριστεί ποιές από τις εντοπισμένες ονοματικές οντότητες πληρούν την παραπάνω συνθήκη με βάση τον τύπο δεδομένων που υποδηλώνει η σημασιολογία της κάθε μίας. Τα αποτελέσματα είναι ικανοποιητικά ως προς την ακρίβειά τους, σε σύγκριση και με υπάρχοντα συστήματα, ωστόσο περιορίζονται στον εντοπισμό οντοτήτων που είναι καταχωρημένες στη γνωσιακή βάση που χρησιμοποιήθηκε.
URI: http://artemis-new.cslab.ece.ntua.gr:8080/jspui/handle/123456789/16373
Appears in Collections:Διπλωματικές Εργασίες - Theses

Files in This Item:
File SizeFormat 
DT2012-0164.pdf1.84 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.