Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/13134
Title: Ανάλυση Συναισθήματος Από Κείμενο Με Τεχνικές Μηχανικής Μάθησης Και Χρήση Λεξικού
Authors: Εμμανουήλ Παπαδάκης
Κόλλιας Στέφανος
Keywords: ανάλυση συναισθήματος
συναισθηματικό λεξικό
μηχανική μάθηση
βαθιά μάθηση
συνελικτικά νευρωνικά δίκτυα
συνολική μάθηση
Issue Date: 29-Jun-2016
Abstract: Η ανάπτυξη του διαδικτύου τα τελευταία χρόνια και η ανταλλαγή τεραστίων ποσοτήτων πληροφορίας μεταξύ των χρηστών σε όλο τον κόσμο καθιστά επιτακτική την μελέτη και ανάλυση αλγορίθμων που συμπεραίνουν αυτοματοποιημένα τα συναισθήματα, τις επιθυμίες και τις πεποιθήσεις των ανθρώπων με βάση το κείμενο. Το πρόβλημα αυτό μελετάται από το πεδίο της ανάλυσης συναισθήματος, το οποίο αναπτύσσεται ραγδαία λόγω του έντονου ενδιαφέροντος της επιστημονικής και βιομηχανικής κοινότητας. Στην παρούσα διπλωματική εξετάζεται το πρόβλημα της ταξινόμησης κριτικών ταινιών με βάση την πολικότητα της άποψης σε θετικές ή αρνητικές. Το σύνολο δεδομένων από κριτικές ταινιών που χρησιμοποιήθηκε είναι αυτό που εισηγήθηκε από τους Pang και Lee και χρησιμοποιείται έκτοτε ευρέως. Για την αντιμετώπιση του προβλήματος εξετάσαμε τη χρήση συν-αισθηματικού λεξικού και συγκεκριμένα του SenticNet, ένα συναισθηματικό λεξικό 30000 εννοιών της αγγλικής γλώσσας δίνοντας προσοχή στα φαινόμενα της άρνησης και της αντίθεσης. Εξετάσαμε επίσης τη χρήση αλγορίθμων παραδοσιακής επιβλεπόμενης μηχανικής μάθησης, όπως ο Naive Bayes, o Maximum Entropy, οι Μηχανές Διανυσμάτων Υποστήριξης (SVMs) και τα Τεχνητά Νευρωνικά Δίκτυα αλλά και αλγορίθμων βαθιάς μηχανικής μάθησης, όπως είναι τα Συνελικτικά Νευρωνικά Δίκτυα (ΣΝΔ). Στον αλγόριθμο Naive Bayes, πειραματιστήκαμε με την χρήση και των δύο βασικών εκδοχών του που χρησιμοποιούνται στην ταξινόμηση κειμένου, Multinomial Naive Bayes και Bernoulli Naive Bayes. Στην υλοποίηση με SVMs πειραματιστήκαμε με τον πυρήνα και σαν πυρήνες χρησιμοποιήθηκαν ο γραμμικός και ο rbf γκαουσιανός. Στην υλοποίηση με τεχνητά νευρωνικά δίκτυα επικεντρωθήκαμε σε αρχιτεκτονικές τριών επιπέδων και πειραματιστήκαμε με τον αριθμό των κρυφών νευρώνων. Σαν χαρακτηριστικά για τους αλγορίθμους μηχανικής μάθησης (πλην των ΣΝΔ που μαθαίνουν μόνα τους τα χαρακτηριστικά κάτι που αποτελεί πλεονέκτημά τους) χρησιμοποιήσαμε βασικά την Bag-of-Concepts αναπαράσταση του κειμένου και σαν έννοιες χρησιμοποιήσαμε ένα υποσύνολο των καταχωρήσεων του SenticNet. Στο τελικό στάδιο της εργασίας, επιχειρήσαμε να συνδυάσουμε τους επιμέρους ταξινομητές για να επωφεληθούμε από το συνδυασμό της γνώσης. Ο συνδυασμός αυτός καλείται συνολική μάθηση και πειραματιστήκαμε και με τους δύο κανόνες πραγμάτωσής της: τον κανόνα της πλειοψηφίας και τον κανόνα της σταθμισμένης ψηφοφορίας. Για την μελέτη της αποτελεσματικότητας των διάφορων μοντέλων μάθησης χρησιμοποιήσαμε κυρίως την μετρική της συνολικής ακρίβειας ή ορθότητας. Συμπεράναμε από την εργασία μας ότι ο ταξινομητής μας με βάση το λεξικό δίνει μέτρια αποτελέσματα κάτι που οφείλεται κυρίως στην απλότητα της ανάλυσής μας με την εξέταση λίγων γλωσσολογικών κανόνων. Ο αλγόριθμος Naive Bayes, παρά την απλότητά του, δίνει ικανοποιητικά αποτελέσματα ταξινόμησης κειμένου, εμφανώς ανώτερα από τον βασισμένο σε λεξικό ταξινομητή και σε πολλές περιπτώσεις ανώτερα από αυτά που πετυχαίνουν οι πολυπλοκότεροι αλγόριθμοι του ταξινομητή μέγιστης εντροπίας, των μηχανών διανυσμάτων υποστήριξης και των νευρωνικών δικτύων. Τα ΣΝΔ βέβαια πέτυχαν αρκετά καλύτερα αποτελέσματα από τον αλγόριθμο Naive Bayes, κατά ένα ποσοστό κοντά στο 10%, αλλά είχαν πολύ μεγαλύτερη πολυπλοκότητα υλοποίησης που αντιστοιχούσε σε πολύ μεγαλύτερο χρόνο εκπαίδευσης. Τέλος, ο συνδυασμός των επιμέρους ταξινομητών για την ενίσχυση της απόδοσης δεν βελτίωσε σημαντικά τα αποτελέσματα ταξινόμησης και αυτό οφείλεται στο ότι οι ταξινομητές έπαιρναν συσχετισμένες αποφάσεις κάνοντας παρόμοια λάθη.
URI: http://artemis-new.cslab.ece.ntua.gr:8080/jspui/handle/123456789/13134
Appears in Collections:Διπλωματικές Εργασίες - Theses

Files in This Item:
File SizeFormat 
DT2016-0114.pdf2.35 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.