Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/8737
Title: Συστήματα Αυτόματης Οργάνωσης Κειμένων Με Βάση Το Περιεχόμενο Και Το Ύφος
Authors: Τσιμπουκάκης Κ. Νικόλαος
Καραγιάννης Γεώργιος
Keywords: νευρωνικά δίκτυα
δίκτυα αυτοοργανούμενου χάρτη (som)
κατηγοριοποίηση κειμένων
κρυφά μαρκοβιανά μοντέλα
τεχνική βελτιστοποίηση σμήνους
μηχανές του διανύσματος υποστήριξης (som)
Issue Date: 27-Nov-2009
Abstract: Στα πλαίσια της Διδακτορικής Διατριβής αναπτύχθηκαν συστήματα αυτόματης οργάνωσης κειμένων σε κατηγορίες με βάση το ύφος στο οποίο είναι γραμμένα και το περιεχόμενό τους. Το σύνολο των πειραμάτων αξιολόγησης των συστημάτων πραγματοποιήθηκε σε μεγάλες συλλογές κειμένων σε κείμενα γραμμένα στα Ελληνικά.Το σύστημα οργάνωσης κειμένων με βάση το ύφος βασίζεται σε γλωσσικά χαρακτηριστικά τα οποία ανήκουν στις εξής κατηγορίες: μέρη του λόγου, δομικά χαρακτηριστικά, μορφολογικά χαρακτηριστικά, συχνότητες λημμάτων και αρνητικές λέξεις. Στη συνέχεια, χρησιμοποιώντας τις μετρήσεις των χαρακτηριστικών αυτών εξετάσθηκαν αλγόριθμοι κατηγοριοποίησης με επίβλεψη οι οποίοι κατόπιν της εκπαίδευσης ήταν ικανοί να αντιστοιχήσουν άγνωστα κείμενα σε προκαθορισμένες κατηγορίες με υψηλή ακρίβεια. Οι αλγόριθμοι κατηγοριοποίησης που εξετάσθηκαν ανήκουν στην κατηγορία των πολυστρωματικών νευρωνικών δικτύων (MLP) ενώ έγιναν συγκριτικά πειράματα με στατιστικούς αλγορίθμους και με μηχανές διανύσματος υποστήριξης (SVM). Επιπλέον χρησιμοποιώντας την τελική δομή των εκπαιδευμένων δικτύων έγινε μία προσπάθεια αξιολόγησης των χαρακτηριστικών ανάλογα με τη συμβολή τους στο τελικό αποτέλεσμα.Το σύστημα οργάνωσης κειμένων ανάλογα με το περιεχόμενό τους βασίστηκε κυρίως σε συχνότητες λημμάτων. Ο μεγάλος αριθμός λημμάτων που εμφανίζονται σε συλλογές κειμένων επιφέρει υπολογιστικές δυσκολίες και για το λόγο αυτό αναζητήθηκαν τρόποι αποτελεσματικής μείωσης των χαρακτηριστικών αυτών. Στην εργασία αυτή προτάθηκε η χρήση ενός ενδιάμεσου χάρτη ο οποίος ομαδοποιεί τα λήμματα σε ομάδες ώστε στη συνέχεια οι ομάδες αυτές να αποτελέσουν τα ικανά εκείνα χαρακτηριστικά που θα βοηθήσουν στην οργάνωση των δεδομένων. Για τη δημιουργία του χάρτη αυτού προτάθηκαν τρεις διαφορετικοί αλγόριθμοι οι οποίοι έχουν το κοινό χαρακτηριστικό ότι προσαρμόζονται στα δεδομένα χωρίς επίβλεψη. Οι αλγόριθμοι που εξετάσθηκαν βασίστηκαν σε νευρωνικά δίκτυα τύπου αυτοοργανούμενου χάρτη (SOM), σε κρυφά Μαρκοβιανά μοντέλα (HMM) και σε τεχνικές βελτιστοποίησης σμήνους (ACO). Μετά το στάδιο της δημιουργία του χάρτη των λέξεων εφαρμόσθηκε ένας αλγόριθμος κατηγοριοποίησης με επίβλεψη τύπου MLP αντίστοιχος με αυτόν που χρησιμοποιήθηκε στα πειράματα αναγνώρισης ύφους. Στη συνέχεια έγιναν συγκριτικά πειράματα με μηχανές διανύσματος υποστήριξης (SVM) σε συνδυασμό με τα ευρέως διαδεδομένα TF-IDF χαρακτηριστικά. Τα πειραματικά αποτελέσματα που παρατηρήθηκαν και για τα δύο συστήματα ήταν πολύ ικανοποιητικά και δείχνουν την αποτελεσματικότητα των συστημάτων αυτών σε συνθήκες που ομοιάζουν με αυτές των πραγματικών προβλημάτων. Επιπλέον τα συγκριτικά αποτελέσματα έδειξαν σε πολλές περιπτώσεις ότι τα προτεινόμενα συστήματα μπορούν να ξεπεράσουν σε απόδοση υπάρχουσες ευρέως χρησιμοποιούμενες τεχνικές και να αποτελέσουν χρήσιμες εναλλακτικές.
URI: http://artemis-new.cslab.ece.ntua.gr:8080/jspui/handle/123456789/8737
Appears in Collections:Διδακτορικές Διατριβές - Ph.D. Theses

Files in This Item:
File SizeFormat 
PD2009-0068.pdf11.52 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.