Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/16923
Title: Ανάλυση Συναισθήματος Σε Μεγάλο Όγκο Δεδομένων Κειμένου Με Χρήση Κατανεμημένων Τεχνικών Μηχανικής Εκμάθησης
Authors: Ιωάννης Ιωάννου
Κοζύρης Νεκτάριος
Keywords: ανάλυση συναισθήματος
μεγάλος όγκος δεδομένων
mahout
hadoop
κατανεμημένοι ταξινομητές
ταξινόμηση
naive bayes
random forests
βελτίωση ακρίβειας
προεπεξεργασία δεδομένων
επιλογή χαρακτηριστικών
βελτιστοποιήσεις
κλιμακωσιμότητα
Issue Date: 7-Jul-2014
Abstract: Αντικείμενο της συγκεκριμένης διπλωματικής εργασίας είναι η ανάλυση συναισθήματος σε μεγάλο όγκο δεδομένων κειμένου με τη χρήση κατανεμημένων τεχνικών μηχανικής εκμάθησης. Για το σκοπό αυτό μελετάται το Hadoop, το οποίο αποτελεί το πλέον διαδεδομένο framework για κατανεμημένη επεξεργασία και το Mahout, το οποίο προσφέρει μια βιβλιοθήκη για αλγόριθμους μηχανικής εκμάθησης πάνω από το Hadoop. Στη συνέχεια μελετούνται οι κατανεμημένοι αλγόριθμοι που προσφέρονται από το Mahout, ο Naive Bayes και ο Random Forests, και επιλέγεται ο καταλληλότερος γι’ αυτήν την εργασία. Κατόπιν, γνωρίζοντας πως η ακρίβεια εξαγωγής του συναισθήματος διαδραματίζει καθοριστικό παράγοντα σε μια εφαρμογή, μελετούνται πολλές διαδεδομένες μέθοδοι βελτίωσης της ακρίβειας. Ακολούθως, γίνεται παρουσίαση της εφαρμογή εξαγωγής συναισθήματος που μελετάται στην εργασία αυτήν, καθώς επίσης και εφαρμογή του επιλεγμένου αλγορίθμου και των διαφορετικών μεθόδων βελτίωσης της ακρίβειας, με σκοπό την επίτευξη της καλύτερης δυνατής ακρίβειας ταξινόμησης και την εξαγωγή συμπερασμάτων. Έπειτα, εξηγείται η απαίτηση των σύγχρονων εφαρμογών για χρήση μεγάλου όγκου δεδομένων και πως αυτή καθιστά υποχρεωτική τη χρήση κατανεμημένων αλγορίθμων. Στη συνέχεια, θέλοντας να επιβεβαιώσουμε τη χρησιμότητα των κατανεμημένων αλγορίθμων ταξινόμησης, γίνεται αξιολόγηση της χρήσης τους όταν υπάρχει μεγάλος όγκος δεδομένων. Τέλος, μελετάται η επίδραση του αριθμού των εκπαιδευτικών εγγράφων (από μερικές εκατοντάδες, μέχρι μερικά εκατομμύρια) στην ακρίβεια της εφαρμογής που μελετήθηκε, με σκοπό την περαιτέρω βελτίωση της ακρίβειας ταξινόμησης.
URI: http://artemis-new.cslab.ece.ntua.gr:8080/jspui/handle/123456789/16923
Appears in Collections:Διπλωματικές Εργασίες - Theses

Files in This Item:
File SizeFormat 
DT2014-0161.pdf1.54 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.