Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/13910
Title: Αναγνώριση Συγγραφέων Από Κείμενα Με Χρήση Τεχνητών Νευρωνικών Δικτύων
Authors: Τσιμπουκάκης Νικόλαος
Καραγιάννης Γεώργιος
Keywords: νευρωνικά δίκτυα
υφολογική ανάλυση
επιλογή γλωσσολογικών χαρακτηριστικών
ταξινόμηση κειμένων
som
rbf
mlp
neural networks
neural nets
stylometry
stylistic analysis
linguistic features selection
text categorization
som
rbf
mlp
multi-layer perceptron
radial basis function
self-organizing map
self-organizing feature map
Issue Date: 17-Oct-2003
Abstract: Αντικείμενο της διπλωματικής αυτής εργασίας είναι η κατηγοριοποίηση κειμένων με βάση το συγγραφέα από τον οποίον προήλθαν. Η κατηγοριοποίηση αυτή επιτυγχάνεται με τη χρήση τεχνητών νευρωνικών δικτύων. Τα πειράματα έγιναν πάνω σε ομιλίες πέντε ομιλητών - μελών του Ελληνικού Κοινοβουλίου. Για την κατηγοριοποίηση των κειμένων έγινε υφολογική ανάλυση βασισμένη στην μέτρηση κάποιων χαρακτηριστικών. Αρχικά, δημιουργήθηκε ένα προγράμμα που έδειχνε στην έξοδό του τις τιμές αρκετών γλωσσικών χαρακτηριστικών. Με τη βοήθεια αυτού του εργαλείου επιλέχτηκαν τα γλωσσικά χαρακτηριστικά εκείνα που, όπως φαινόταν από την έξοδο του προγράμματος, θα μπορούσαν να διαχωρίσουν καλύτερα τα δεδομένα μας. Αφού επιλέχτηκαν τα χαρακτηριστικά, στη συνέχεια, με κάποιο άλλο πρόγραμμα, μετρήθηκαν με αυτόματο τρόπο οι τιμές των χαρακτηριστικών αυτών στα κείμενα. Με τη διαδικασία αυτή κάθε κείμενο αναπαριστάται με ένα διάνυσμα που αποτελείται από τις τιμές των επιλεχθέντων χαρακτηριστικών.Έπειτα τα διανύσματα των χαρακτηριστικών χρησιμοποιήθηκαν ως είσοδοι για διάφορα μοντέλα νευρωνικών δικτύων. Πιο αναλυτικά τα δεδομένα χωρίστηκαν σε επιμέρους σύνολα που χρησιμοποιήθηκαν για την εκπαίδευση και την δοκιμή, δηλαδή εκτίμηση της απόδοσης των δικτύων στην κατηγοριοποίηση με βάση τον συγγραφέα. Για κάθε μοντέλο νευρωνικού δικτύου δοκιμάστηκαν διάφορα δίκτυα με διαφορετικές τιμές παραμέτρων το καθένα ώστε να βρεθούν οι πιο κατάλληλες παράμετροι για κάθε μοντέλο για το πρόβλημά μας. Τα μοντέλα που δοκιμάστηκαν είναι το πολυστρωματικό δίκτυο (MLP), το δίκτυο ακτινικών συναρτήσεων βάσης (RBF) και το δίκτυο αυτοοργανούμενου τύπου (SOM).Τέλος συγκρίναμε τα μοντέλα που χρησιμοποιήθηκαν μεταξύ τους και καταλήξαμε σε διάφορα συμπεράσματα για την ακρίβειά τους, την αποδοτικότητά τους και γενικότερα τη χρησιμότητά τους στο συγκεκριμένο πρόβλημα.The aim of this thesis was the categorization of speeches according to the author, with the use of neural networks. For our experiments we used a set of speeches that were written and presented by five members of the Greek Parliament.For the categorization of the texts, first we had to do some sort of stylistic analysis. Firstly we created a utility that represented values of many linguistic features. With the use of this utility we selected some linguistic features that could best distinguish our data. After had selected those features, with the use of a different utility we counted the values of the selected features in our set of speeches. Finally every speech was represented by a vector of the selected features values.Then we used these vectors as an input for different neural networks models. In our experiments we separated our data in sets so as to use them for training the neural networks and testing their ability to categorize with regard to the speechmaker. For every neural network model, we tested many models with different parameter values in order to find which are the best for each model, with reference to our problem. The models we tried are the multilayer perceptron (MLP), the radial basis function network (RBF) and the self-organizing feature map (SOM).Finally we compared the models that we used and we came to conclusions about their precision, their efficiency and how useful they could be in the author classification task.
URI: http://artemis-new.cslab.ece.ntua.gr:8080/jspui/handle/123456789/13910
Appears in Collections:Διπλωματικές Εργασίες - Theses

Files in This Item:
File SizeFormat 
DT2003-0136.doc7.12 MBMicrosoft WordView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.