Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/13672
Full metadata record
DC FieldValueLanguage
dc.contributor.authorΟρέστης Γιαννακόπουλος-καρακώντης
dc.date.accessioned2018-07-23T09:25:38Z-
dc.date.available2018-07-23T09:25:38Z-
dc.date.issued2017-12-29
dc.date.submitted2017-11-14
dc.identifier.urihttp://artemis-new.cslab.ece.ntua.gr:8080/jspui/handle/123456789/13672-
dc.description.abstractΤα μέσα κοινωνικής δικτύωσης παρουσιάζουν ιδιαίτερη αύξηση στη δημοτικότητα τους τα τελευταία χρόνια, με το Twitter να αποτελεί ένα από τα πιο δημοφιλή. Παρά την ελευθερία που παρέχεται από το Twitter για την πρόσβαση σε δεδομένα που παράγονται από τους χρήστες του, δεν υπάρχουν υποχρεωτικά πεδία στα προφίλ των χρηστών που να δηλώνουν τα δημογραφικά τους στοιχεία. Το γεγονός αυτό σε συνδυασμό με την χρησιμότητα των δημογραφικών στοιχείων για ερευνητικούς αλλά και εμπορικούς σκοπούς, έχει οδηγήσει σε πολυάριθμες έρευνες που προτείνουν έμμεσους τρόπους ανίχνευσης διαφόρων δημογραφικών στοιχείων χρηστών που διαθέτουν λογαρισμό στο Twitter. Ειδικότερα για την ανίχνευση του φύλου, έχουν προταθεί ποικίλες μεθοδολογίες που βασίζονται στη χρήση αλγορίθμων μηχανικής μάθησης. Οι περισσότερες από αυτές τις μεθοδολογίες εξαρτώνται από την γλώσσα των χρηστών και χρησιμοποιούν πολυάριθμα χαρακτηριστικά πραγματοποιώντας την εκπαίδευση των αλγορίθμων μηχανικής μάθησης σε χώρους υψηλών διαστάσεων. Για το λόγο αυτό, τέτοιες προσεγγίσεις περιορίζονται κυρίως σε συγκεκριμένες εθνικότητες χρηστών, είναι ιδιαίτερα χρονοβόρες και παρουσιάζουν υψηλή κατανάλωση υπολογιστικών πόρων με αποτέλεσμα να μην μπορούν να επεκταθούν αποδοτικά σε μεγάλους πληθυσμούς χρηστών του Twitter.Στην παρούσα εργασία προτείνεται ένας αποδοτικός τρόπος για την ανίχνευση του φύλου χρηστών του Twitter, χρησιμοποιώντας μόνο την φωτογραφία προφίλ, το όνομα και το χρώμα θέματος που είναι διαθέσιμα από τα προφίλ των χρηστών. Ο συνδυασμός αυτών των στοιχείων δεν έχει χρησιμοποιηθεί ξανά σε προηγούμενες εργασίες εν γνώση μας. Κατά τη διάρκεια της μελέτης, πραγματοποιήθηκαν πειράματα με αλγορίθμους Naive Bayes, Μηχανές Διανυσμάτων Υποστήριξης και Πιθανολογικά Νευρωνικά Δίκτυα ως ταξινομητές φύλου επιβλεπόμενης μάθησης. Η υλοποίηση τους έγινε στη γλώσσα Python με χρήση των βιβλιοθηκών scikit-learn και neupy. Επίσης χρησιμοποιήθηκαν οι υπηρεσίες δυο αξιόπιστων εξωτερικών πηγών: του Face++ για την ανάλυση των εικόνων και του Genderize για την ταξινόμηση των ονομάτων κατά φύλο. Στο πρώτο μέρος των πειραμάτων, παρουσιάζονται τρεις διακριτές προσεγγίσεις, η κάθε μια βασισμένη σε ένα από τα τρία προαναφερθέντα πεδία του προφίλ, και αξιολογείται η απόδοση τους. Επίσης εξάγονται συμπεράσματα για τις διαφορετικές συμπεριφορές των δυο φύλων στο Twitter, σύμφωνα με το κάθε πεδίο. Στη συνέχεια, κάθε διακριτή προσέγγιση συνδυάζεται σε έναν υβριδικό αλγόριθμο μηχανικής μάθησης. Χρησιμοποιώντας τρία Πιθανολογικά Νευρωνικά Δίκτυα και μια Μηχανή Διανυσμάτων Υποστήριξης σε διαφορετικά στάδια της διαδικασίας, επιτεύχθει 87.2% accuracy στις προβλέψεις φύλου χρησιμοποιώντας τη μέθοδο 5-fold cross-validation για κάθε μοντέλο επιβλεπόμενης μάθησης. Όλα τα πειράματα πραγματοποιήθηκαν σε δείγμα χρηστών αντιπροσωπευτικό του συνολικού πληθυσμού του Τwitter για να γίνει βέβαιο ότι η προτεινόμενη μέθοδος μπορεί να γενικευτεί αξιόπιστα.Η εργασία αυτή καταδεικνύει ότι χρησιμοποιώντας μόνο έναν πολύ μικρό αριθμό χαρακτηριστικών από τα προφίλ χρηστών στο Twitter, είναι δυνατή η ανίχνευση του φύλου τους πετυχαίνοντας έναν πολύ καλό συνδυασμό κλιμακωσιμότητας (scalability) και ακρίβειας (accuracy).
dc.languageGreek
dc.subjectκοινωνικά δίκτυα
dc.subjecttwitter
dc.subjectανίχνευση φύλου
dc.subjectμηχανική μάθηση
dc.subjectυβριδικός αλγόριθμος
dc.subjectεξόρυξη δεδομένων
dc.subjectανάλυση δεδομένων
dc.subjectχρώμα θέματος
dc.subjectφωτογραφία προφίλ χρήστη
dc.subjectόνομα χρήστη
dc.subjectμηχανές διανυσμάτων υποστήριξης
dc.subjectπιθανολογικά νευρωνικά δίκτυα
dc.subjectnaive bayes
dc.titleΑνίχνευση Φύλου Στο Twitter Μέσω Υβριδικού Αλγορίθμου Μηχανικής Μάθησης
dc.typeDiploma Thesis
dc.description.pages107
dc.contributor.supervisorΡουσσάκη Ιωάννα
dc.departmentΤομέας Επικοινωνιών, Ηλεκτρονικής & Συστημάτων Πληροφορικής
dc.organizationΕΜΠ, Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών
Appears in Collections:Διπλωματικές Εργασίες - Theses

Files in This Item:
File SizeFormat 
DT2017-0332.pdf1.35 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.