Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/17330
Title: Ταξινόμηση κειμένων με χρήση γράφων λέξεων
Authors: Voulgaris, Sotiris
Στάμου Γιώργος
Keywords: γραφός λέξεων, graph of words, ταξινόμηση κειμένου, coreference resolution, collocation detection, ενίσχυση κόμβων, word embeddings, μεταβλητό μέγεθος παραθύρου, ensembles
graph of words, GoW, text classification, coreference resolution, collocation detection, node reinforcement, word embeddings, variable window size, ensemble
Issue Date: 10-Jul-2019
Abstract: Οι γράφοι λέξεων αναπαριστούν ένα κείμενο ως ένα γράφο, οι κόμβοι του οποίου είναι οι ξεχωριστοί όροι του κειμένου και οι ακμές συμβολίζουν τη συνύπαρξη δύο όρων σε ένα κινούμενο παράθυρο. Το μοντέλο εκμεταλλεύεται τη σχέση που έχουν μεταξύ τους οι κοντινοί όροι και τη σειρά τους, για να αποδώσει κατάλληλο βάρος στους όρους του κειμένου, το οποίο προκύπτει από το βαθμό που έχει ο αντίστοιχος κόμβος στο γράφο. Το βάρος του όρου μπορεί να αντικαταστήσει τη συχνότητα στη διανυσματική αναπαράσταση TF-IDF, οπότε και προκύπτει το TW-IDF, το οποίο μπορεί να χρησιμοποιηθεί μεταξύ άλλων για την ταξινόμηση κειμένων. Στην παρούσα εργασία, στόχος είναι η μελέτη και η βελτίωση του μοντέλου γράφων λέξεων στην ταξινόμηση κειμένου. Για το σκοπό αυτό προτείνονται διάφορες τροποποιήσεις του μοντέλου, οι οποίες αφορούν τόσο την προεπεξεργασία του κειμένου όσο και την κατασκευή του γράφου. Πιο συγκεκριμένα, οι μέθοδοι coreference resolution και collocation detection έχουν στόχο τη δημιουργία πιο αντιπροσωπευτικών ακμών και κόμβων αντίστοιχα, μέσω κατάλληλης προεπεξεργασίας του κειμένου. Έπειτα, εξετάστηκε η χρήση της απόστασης ομοιότητας των word embeddings των όρων για τα βάρη των ακμών. Παράλληλα, εντοπίστηκε μια αδυναμία των γράφων λέξεων να δώσουν κατάλληλο βάρος στους όρους που βρίσκονται στα άκρα του κειμένου και για το λόγο αυτό αναπτύχθηκαν οι μέθοδοι ενίσχυσης του βάρους των κόμβων, Rebase και Boost. Η μέθοδος Rebase θέτει ένα κάτω όριο στο βάρος που επιτρέπεται να έχει κάθε όρος , ενώ η Boost τροποποιεί επιλεκτικά τα βάρη μόνο των προβληματικών όρων. Μια άλλη τροποποίηση που εξετάστηκε είναι το μεταβλητό μήκος παραθύρου, στην οποία κάθε όρος έχει το δικό του μέγεθος παραθύρου. Το μέγεθος του παραθύρου καθορίζει το πλήθος των συνδέσεων που έχει ένας κόμβος και ως αποτέλεσμα τη σημασία του αντίστοιχου όρου, οπότε η αλλαγή του μπορεί να επηρεάσει σημαντικά το βάρος που αποδίδει το μοντέλο σε κάθε όρο. Τέλος, προτείνεται η χρήση ensembles γράφων λέξεων. για να εκμεταλλευτούμε τις διάφορες επιλογές που υπάρχουν για την κατασκευή των γράφων και να βελτιώσουμε περαιτέρω την απόδοση της ταξινόμησης. Η χρησιμότητα των μεθόδων αξιολογείται σε δύο διαφορετικές συλλογές κειμένων, απ΄ όπου προκύπτουν χρήσιμα συμπεράσματα για το μοντέλο γράφου λέξεων, ενώ προτείνονται και κατευθύνσεις για μελλοντική επέκταση και βελτίωση των προτεινόμενων τροποποιήσεων.
URI: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/17330
Appears in Collections:Διπλωματικές Εργασίες - Theses

Files in This Item:
File Description SizeFormat 
Voulgaris_Sotiris_thesis.pdf1.38 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.