Παρακαλώ χρησιμοποιήστε αυτό το αναγνωριστικό για να παραπέμψετε ή να δημιουργήσετε σύνδεσμο προς αυτό το τεκμήριο: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/13134
Τίτλος: Ανάλυση Συναισθήματος Από Κείμενο Με Τεχνικές Μηχανικής Μάθησης Και Χρήση Λεξικού
Συγγραφείς: Εμμανουήλ Παπαδάκης
Κόλλιας Στέφανος
Λέξεις κλειδιά: ανάλυση συναισθήματος
συναισθηματικό λεξικό
μηχανική μάθηση
βαθιά μάθηση
συνελικτικά νευρωνικά δίκτυα
συνολική μάθηση
Ημερομηνία έκδοσης: 29-Ιου-2016
Περίληψη: Η ανάπτυξη του διαδικτύου τα τελευταία χρόνια και η ανταλλαγή τεραστίων ποσοτήτων πληροφορίας μεταξύ των χρηστών σε όλο τον κόσμο καθιστά επιτακτική την μελέτη και ανάλυση αλγορίθμων που συμπεραίνουν αυτοματοποιημένα τα συναισθήματα, τις επιθυμίες και τις πεποιθήσεις των ανθρώπων με βάση το κείμενο. Το πρόβλημα αυτό μελετάται από το πεδίο της ανάλυσης συναισθήματος, το οποίο αναπτύσσεται ραγδαία λόγω του έντονου ενδιαφέροντος της επιστημονικής και βιομηχανικής κοινότητας. Στην παρούσα διπλωματική εξετάζεται το πρόβλημα της ταξινόμησης κριτικών ταινιών με βάση την πολικότητα της άποψης σε θετικές ή αρνητικές. Το σύνολο δεδομένων από κριτικές ταινιών που χρησιμοποιήθηκε είναι αυτό που εισηγήθηκε από τους Pang και Lee και χρησιμοποιείται έκτοτε ευρέως. Για την αντιμετώπιση του προβλήματος εξετάσαμε τη χρήση συν-αισθηματικού λεξικού και συγκεκριμένα του SenticNet, ένα συναισθηματικό λεξικό 30000 εννοιών της αγγλικής γλώσσας δίνοντας προσοχή στα φαινόμενα της άρνησης και της αντίθεσης. Εξετάσαμε επίσης τη χρήση αλγορίθμων παραδοσιακής επιβλεπόμενης μηχανικής μάθησης, όπως ο Naive Bayes, o Maximum Entropy, οι Μηχανές Διανυσμάτων Υποστήριξης (SVMs) και τα Τεχνητά Νευρωνικά Δίκτυα αλλά και αλγορίθμων βαθιάς μηχανικής μάθησης, όπως είναι τα Συνελικτικά Νευρωνικά Δίκτυα (ΣΝΔ). Στον αλγόριθμο Naive Bayes, πειραματιστήκαμε με την χρήση και των δύο βασικών εκδοχών του που χρησιμοποιούνται στην ταξινόμηση κειμένου, Multinomial Naive Bayes και Bernoulli Naive Bayes. Στην υλοποίηση με SVMs πειραματιστήκαμε με τον πυρήνα και σαν πυρήνες χρησιμοποιήθηκαν ο γραμμικός και ο rbf γκαουσιανός. Στην υλοποίηση με τεχνητά νευρωνικά δίκτυα επικεντρωθήκαμε σε αρχιτεκτονικές τριών επιπέδων και πειραματιστήκαμε με τον αριθμό των κρυφών νευρώνων. Σαν χαρακτηριστικά για τους αλγορίθμους μηχανικής μάθησης (πλην των ΣΝΔ που μαθαίνουν μόνα τους τα χαρακτηριστικά κάτι που αποτελεί πλεονέκτημά τους) χρησιμοποιήσαμε βασικά την Bag-of-Concepts αναπαράσταση του κειμένου και σαν έννοιες χρησιμοποιήσαμε ένα υποσύνολο των καταχωρήσεων του SenticNet. Στο τελικό στάδιο της εργασίας, επιχειρήσαμε να συνδυάσουμε τους επιμέρους ταξινομητές για να επωφεληθούμε από το συνδυασμό της γνώσης. Ο συνδυασμός αυτός καλείται συνολική μάθηση και πειραματιστήκαμε και με τους δύο κανόνες πραγμάτωσής της: τον κανόνα της πλειοψηφίας και τον κανόνα της σταθμισμένης ψηφοφορίας. Για την μελέτη της αποτελεσματικότητας των διάφορων μοντέλων μάθησης χρησιμοποιήσαμε κυρίως την μετρική της συνολικής ακρίβειας ή ορθότητας. Συμπεράναμε από την εργασία μας ότι ο ταξινομητής μας με βάση το λεξικό δίνει μέτρια αποτελέσματα κάτι που οφείλεται κυρίως στην απλότητα της ανάλυσής μας με την εξέταση λίγων γλωσσολογικών κανόνων. Ο αλγόριθμος Naive Bayes, παρά την απλότητά του, δίνει ικανοποιητικά αποτελέσματα ταξινόμησης κειμένου, εμφανώς ανώτερα από τον βασισμένο σε λεξικό ταξινομητή και σε πολλές περιπτώσεις ανώτερα από αυτά που πετυχαίνουν οι πολυπλοκότεροι αλγόριθμοι του ταξινομητή μέγιστης εντροπίας, των μηχανών διανυσμάτων υποστήριξης και των νευρωνικών δικτύων. Τα ΣΝΔ βέβαια πέτυχαν αρκετά καλύτερα αποτελέσματα από τον αλγόριθμο Naive Bayes, κατά ένα ποσοστό κοντά στο 10%, αλλά είχαν πολύ μεγαλύτερη πολυπλοκότητα υλοποίησης που αντιστοιχούσε σε πολύ μεγαλύτερο χρόνο εκπαίδευσης. Τέλος, ο συνδυασμός των επιμέρους ταξινομητών για την ενίσχυση της απόδοσης δεν βελτίωσε σημαντικά τα αποτελέσματα ταξινόμησης και αυτό οφείλεται στο ότι οι ταξινομητές έπαιρναν συσχετισμένες αποφάσεις κάνοντας παρόμοια λάθη.
URI: http://artemis-new.cslab.ece.ntua.gr:8080/jspui/handle/123456789/13134
Εμφανίζεται στις συλλογές:Διπλωματικές Εργασίες - Theses

Αρχεία σε αυτό το τεκμήριο:
Αρχείο ΜέγεθοςΜορφότυπος 
DT2016-0114.pdf2.35 MBAdobe PDFΕμφάνιση/Άνοιγμα


Όλα τα τεκμήρια του δικτυακού τόπου προστατεύονται από πνευματικά δικαιώματα.