Παρακαλώ χρησιμοποιήστε αυτό το αναγνωριστικό για να παραπέμψετε ή να δημιουργήσετε σύνδεσμο προς αυτό το τεκμήριο: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/15129
Πλήρες αρχείο μεταδεδομένων
Πεδίο DC ΤιμήΓλώσσα
dc.contributor.authorΣτυλιανή Παχίδη
dc.date.accessioned2018-07-23T15:24:17Z-
dc.date.available2018-07-23T15:24:17Z-
dc.date.issued2008-7-20
dc.date.submitted2008-12-18
dc.identifier.urihttp://artemis-new.cslab.ece.ntua.gr:8080/jspui/handle/123456789/15129-
dc.description.abstractΟ σκοπός της διπλωματικής εργασίας ήταν η ανάπτυξη μεθόδων του τομέα της εξόρυξης κειμένου καθώς και της επεξεργασίας φυσικής γλώσσας, προκειμένου να υλοποιηθεί ένα εργαλείο ομαδοποίησης αρχείων κειμένου. Η ανάγκη για την υλοποίηση ενός τέτοιου εργαλείου προέκυψε από την ανάγκη για ομαδοποίηση των ιδεών που εισάγουν οι χρήστες στο IDeM, ένα σύστημα διαχείρισης ιδεών με τη χρήση προγνωστικών αγορών. Το σύστημα της ομαδοποίησης κειμένου υλοποιήθηκε πάνω στον κώδικα του Weka, ενός εργαλείου εξόρυξης γνώσης από δεδομένα ανοιχτού κώδικα, υλοποιημένο σε Java. Στη διαδικασία της ομαδοποίησης, όπως αυτή ορίζεται στις τεχνικές εξόρυξης κειμένου (αναπαράσταση των αρχείων κειμένου, ορισμός μέτρου ομοιότητας, εφαρμογή αλγορίθμου ομαδοποίησης, προσδιορισμός και εκτίμηση του αποτελέσματος), προστέθηκαν λειτουργίες βασισμένες σε μεθόδους της επεξεργασίας φυσικής γλώσσας για τη βελτίωση της αποτελεσματικότητας της ομαδοποίησης: γλωσσική επεξεργασία, αφαίρεση stopwords, εύρεση της ρίζας των λέξεων, επισημείωση των μερών του λόγου, αποσαφήνιση της έννοιας των λέξεων, εύρεση και συγχώνευση συνώνυμων όρων. Το σύστημα που αναπτύχθηκε ενσωματώθηκε στην αρχιτεκτονική του IDeM, ώστε να μπορούν οι χρήστες να εκτελούν την ομαδοποίηση ιδεών ως μία λειτουργία του συστήματος. Επιπλέον, το σύστημα μπορεί να λειτουργήσει και αυτόνομα, γεγονός το οποίο μας βοήθησε στη διεξαγωγή ελέγχων για την αξιολόγηση του συστήματος και τη μέτρηση της ακρίβειας των αποτελεσμάτων ομαδοποίησης, καθώς και τη σύγκρισή τους με άλλες υλοποιήσεις.
dc.languageGreek
dc.subjectεξόρυξη κειμένου
dc.subjectεπεξεργασία φυσικής γλώσσας
dc.subjectομαδοποίηση αρχείων κειμένου
dc.subjectδιαχείριση ιδεών
dc.titleΜέθοδοι Εξόρυξης Κειμένου Για Ομαδοποίηση Ιδεών
dc.typeDiploma Thesis
dc.description.pages130
dc.contributor.supervisorΜέντζας Γρηγόριος
dc.departmentΤομέας Ηλεκτρικών Βιομηχανικών Διατάξεων & Συστημάτων Αποφάσεων
dc.organizationΕΜΠ, Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών
Εμφανίζεται στις συλλογές:Διπλωματικές Εργασίες - Theses

Αρχεία σε αυτό το τεκμήριο:
Αρχείο ΜέγεθοςΜορφότυπος 
DT2008-0136.pdf3.14 MBAdobe PDFΕμφάνιση/Άνοιγμα


Όλα τα τεκμήρια του δικτυακού τόπου προστατεύονται από πνευματικά δικαιώματα.