Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/13672
Title: Ανίχνευση Φύλου Στο Twitter Μέσω Υβριδικού Αλγορίθμου Μηχανικής Μάθησης
Authors: Ορέστης Γιαννακόπουλος-καρακώντης
Ρουσσάκη Ιωάννα
Keywords: κοινωνικά δίκτυα
twitter
ανίχνευση φύλου
μηχανική μάθηση
υβριδικός αλγόριθμος
εξόρυξη δεδομένων
ανάλυση δεδομένων
χρώμα θέματος
φωτογραφία προφίλ χρήστη
όνομα χρήστη
μηχανές διανυσμάτων υποστήριξης
πιθανολογικά νευρωνικά δίκτυα
naive bayes
Issue Date: 29-Dec-2017
Abstract: Τα μέσα κοινωνικής δικτύωσης παρουσιάζουν ιδιαίτερη αύξηση στη δημοτικότητα τους τα τελευταία χρόνια, με το Twitter να αποτελεί ένα από τα πιο δημοφιλή. Παρά την ελευθερία που παρέχεται από το Twitter για την πρόσβαση σε δεδομένα που παράγονται από τους χρήστες του, δεν υπάρχουν υποχρεωτικά πεδία στα προφίλ των χρηστών που να δηλώνουν τα δημογραφικά τους στοιχεία. Το γεγονός αυτό σε συνδυασμό με την χρησιμότητα των δημογραφικών στοιχείων για ερευνητικούς αλλά και εμπορικούς σκοπούς, έχει οδηγήσει σε πολυάριθμες έρευνες που προτείνουν έμμεσους τρόπους ανίχνευσης διαφόρων δημογραφικών στοιχείων χρηστών που διαθέτουν λογαρισμό στο Twitter. Ειδικότερα για την ανίχνευση του φύλου, έχουν προταθεί ποικίλες μεθοδολογίες που βασίζονται στη χρήση αλγορίθμων μηχανικής μάθησης. Οι περισσότερες από αυτές τις μεθοδολογίες εξαρτώνται από την γλώσσα των χρηστών και χρησιμοποιούν πολυάριθμα χαρακτηριστικά πραγματοποιώντας την εκπαίδευση των αλγορίθμων μηχανικής μάθησης σε χώρους υψηλών διαστάσεων. Για το λόγο αυτό, τέτοιες προσεγγίσεις περιορίζονται κυρίως σε συγκεκριμένες εθνικότητες χρηστών, είναι ιδιαίτερα χρονοβόρες και παρουσιάζουν υψηλή κατανάλωση υπολογιστικών πόρων με αποτέλεσμα να μην μπορούν να επεκταθούν αποδοτικά σε μεγάλους πληθυσμούς χρηστών του Twitter.Στην παρούσα εργασία προτείνεται ένας αποδοτικός τρόπος για την ανίχνευση του φύλου χρηστών του Twitter, χρησιμοποιώντας μόνο την φωτογραφία προφίλ, το όνομα και το χρώμα θέματος που είναι διαθέσιμα από τα προφίλ των χρηστών. Ο συνδυασμός αυτών των στοιχείων δεν έχει χρησιμοποιηθεί ξανά σε προηγούμενες εργασίες εν γνώση μας. Κατά τη διάρκεια της μελέτης, πραγματοποιήθηκαν πειράματα με αλγορίθμους Naive Bayes, Μηχανές Διανυσμάτων Υποστήριξης και Πιθανολογικά Νευρωνικά Δίκτυα ως ταξινομητές φύλου επιβλεπόμενης μάθησης. Η υλοποίηση τους έγινε στη γλώσσα Python με χρήση των βιβλιοθηκών scikit-learn και neupy. Επίσης χρησιμοποιήθηκαν οι υπηρεσίες δυο αξιόπιστων εξωτερικών πηγών: του Face++ για την ανάλυση των εικόνων και του Genderize για την ταξινόμηση των ονομάτων κατά φύλο. Στο πρώτο μέρος των πειραμάτων, παρουσιάζονται τρεις διακριτές προσεγγίσεις, η κάθε μια βασισμένη σε ένα από τα τρία προαναφερθέντα πεδία του προφίλ, και αξιολογείται η απόδοση τους. Επίσης εξάγονται συμπεράσματα για τις διαφορετικές συμπεριφορές των δυο φύλων στο Twitter, σύμφωνα με το κάθε πεδίο. Στη συνέχεια, κάθε διακριτή προσέγγιση συνδυάζεται σε έναν υβριδικό αλγόριθμο μηχανικής μάθησης. Χρησιμοποιώντας τρία Πιθανολογικά Νευρωνικά Δίκτυα και μια Μηχανή Διανυσμάτων Υποστήριξης σε διαφορετικά στάδια της διαδικασίας, επιτεύχθει 87.2% accuracy στις προβλέψεις φύλου χρησιμοποιώντας τη μέθοδο 5-fold cross-validation για κάθε μοντέλο επιβλεπόμενης μάθησης. Όλα τα πειράματα πραγματοποιήθηκαν σε δείγμα χρηστών αντιπροσωπευτικό του συνολικού πληθυσμού του Τwitter για να γίνει βέβαιο ότι η προτεινόμενη μέθοδος μπορεί να γενικευτεί αξιόπιστα.Η εργασία αυτή καταδεικνύει ότι χρησιμοποιώντας μόνο έναν πολύ μικρό αριθμό χαρακτηριστικών από τα προφίλ χρηστών στο Twitter, είναι δυνατή η ανίχνευση του φύλου τους πετυχαίνοντας έναν πολύ καλό συνδυασμό κλιμακωσιμότητας (scalability) και ακρίβειας (accuracy).
URI: http://artemis-new.cslab.ece.ntua.gr:8080/jspui/handle/123456789/13672
Appears in Collections:Διπλωματικές Εργασίες - Theses

Files in This Item:
File SizeFormat 
DT2017-0332.pdf1.35 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.