Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/8737
Full metadata record
DC FieldValueLanguage
dc.contributor.authorΤσιμπουκάκης Κ. Νικόλαος
dc.date.accessioned2018-07-22T22:40:14Z-
dc.date.available2018-07-22T22:40:14Z-
dc.date.issued2009-11-27
dc.date.submitted2009-12-23
dc.identifier.urihttp://artemis-new.cslab.ece.ntua.gr:8080/jspui/handle/123456789/8737-
dc.description.abstractΣτα πλαίσια της Διδακτορικής Διατριβής αναπτύχθηκαν συστήματα αυτόματης οργάνωσης κειμένων σε κατηγορίες με βάση το ύφος στο οποίο είναι γραμμένα και το περιεχόμενό τους. Το σύνολο των πειραμάτων αξιολόγησης των συστημάτων πραγματοποιήθηκε σε μεγάλες συλλογές κειμένων σε κείμενα γραμμένα στα Ελληνικά.Το σύστημα οργάνωσης κειμένων με βάση το ύφος βασίζεται σε γλωσσικά χαρακτηριστικά τα οποία ανήκουν στις εξής κατηγορίες: μέρη του λόγου, δομικά χαρακτηριστικά, μορφολογικά χαρακτηριστικά, συχνότητες λημμάτων και αρνητικές λέξεις. Στη συνέχεια, χρησιμοποιώντας τις μετρήσεις των χαρακτηριστικών αυτών εξετάσθηκαν αλγόριθμοι κατηγοριοποίησης με επίβλεψη οι οποίοι κατόπιν της εκπαίδευσης ήταν ικανοί να αντιστοιχήσουν άγνωστα κείμενα σε προκαθορισμένες κατηγορίες με υψηλή ακρίβεια. Οι αλγόριθμοι κατηγοριοποίησης που εξετάσθηκαν ανήκουν στην κατηγορία των πολυστρωματικών νευρωνικών δικτύων (MLP) ενώ έγιναν συγκριτικά πειράματα με στατιστικούς αλγορίθμους και με μηχανές διανύσματος υποστήριξης (SVM). Επιπλέον χρησιμοποιώντας την τελική δομή των εκπαιδευμένων δικτύων έγινε μία προσπάθεια αξιολόγησης των χαρακτηριστικών ανάλογα με τη συμβολή τους στο τελικό αποτέλεσμα.Το σύστημα οργάνωσης κειμένων ανάλογα με το περιεχόμενό τους βασίστηκε κυρίως σε συχνότητες λημμάτων. Ο μεγάλος αριθμός λημμάτων που εμφανίζονται σε συλλογές κειμένων επιφέρει υπολογιστικές δυσκολίες και για το λόγο αυτό αναζητήθηκαν τρόποι αποτελεσματικής μείωσης των χαρακτηριστικών αυτών. Στην εργασία αυτή προτάθηκε η χρήση ενός ενδιάμεσου χάρτη ο οποίος ομαδοποιεί τα λήμματα σε ομάδες ώστε στη συνέχεια οι ομάδες αυτές να αποτελέσουν τα ικανά εκείνα χαρακτηριστικά που θα βοηθήσουν στην οργάνωση των δεδομένων. Για τη δημιουργία του χάρτη αυτού προτάθηκαν τρεις διαφορετικοί αλγόριθμοι οι οποίοι έχουν το κοινό χαρακτηριστικό ότι προσαρμόζονται στα δεδομένα χωρίς επίβλεψη. Οι αλγόριθμοι που εξετάσθηκαν βασίστηκαν σε νευρωνικά δίκτυα τύπου αυτοοργανούμενου χάρτη (SOM), σε κρυφά Μαρκοβιανά μοντέλα (HMM) και σε τεχνικές βελτιστοποίησης σμήνους (ACO). Μετά το στάδιο της δημιουργία του χάρτη των λέξεων εφαρμόσθηκε ένας αλγόριθμος κατηγοριοποίησης με επίβλεψη τύπου MLP αντίστοιχος με αυτόν που χρησιμοποιήθηκε στα πειράματα αναγνώρισης ύφους. Στη συνέχεια έγιναν συγκριτικά πειράματα με μηχανές διανύσματος υποστήριξης (SVM) σε συνδυασμό με τα ευρέως διαδεδομένα TF-IDF χαρακτηριστικά. Τα πειραματικά αποτελέσματα που παρατηρήθηκαν και για τα δύο συστήματα ήταν πολύ ικανοποιητικά και δείχνουν την αποτελεσματικότητα των συστημάτων αυτών σε συνθήκες που ομοιάζουν με αυτές των πραγματικών προβλημάτων. Επιπλέον τα συγκριτικά αποτελέσματα έδειξαν σε πολλές περιπτώσεις ότι τα προτεινόμενα συστήματα μπορούν να ξεπεράσουν σε απόδοση υπάρχουσες ευρέως χρησιμοποιούμενες τεχνικές και να αποτελέσουν χρήσιμες εναλλακτικές.
dc.languageGreek
dc.subjectνευρωνικά δίκτυα
dc.subjectδίκτυα αυτοοργανούμενου χάρτη (som)
dc.subjectκατηγοριοποίηση κειμένων
dc.subjectκρυφά μαρκοβιανά μοντέλα
dc.subjectτεχνική βελτιστοποίηση σμήνους
dc.subjectμηχανές του διανύσματος υποστήριξης (som)
dc.titleΣυστήματα Αυτόματης Οργάνωσης Κειμένων Με Βάση Το Περιεχόμενο Και Το Ύφος
dc.typePhD Thesis
dc.description.pages156
dc.contributor.supervisorΚαραγιάννης Γεώργιος
dc.departmentΤομέας Σημάτων, Ελέγχου & Ρομποτικής
dc.organizationΕΜΠ, Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών
Appears in Collections:Διδακτορικές Διατριβές - Ph.D. Theses

Files in This Item:
File SizeFormat 
PD2009-0068.pdf11.52 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.