Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/17700
Title: Τεχνικές Μηχανικής Μάθησης για Εκτίμηση Τηλεθέασης με Δεδομένα από Μέσα Κοινωνικής Δικτύωσης και Μηχανές Αναζήτησης
Authors: Γιαννακοπούλου, Κωνσταντίνα-Μαρία
Ρουσσάκη Ιωάννα
Keywords: Επιστήμη Δεδομένων
Κοινωνικά δίκτυα
Μηχανές Αναζήτησης
Twitter
Google Trends
Εξόρυξη Δεδομένων
Εξαγωγή Γνώσης
Μηχανική Μάθηση
Παλινδρόμηση
Ανάλυση Συναισθήματος
Τηλεθέαση
Issue Date: 31-Aug-2020
Abstract: Η ραγδαία εξάπλωση των μέσων κοινωνικής δικτύωσης και γενικότερα του διαδικτύου και κυρίως των μηχανών αναζήτησης σε αυτό έχει συντελέσει στην παραγωγή ενός τεράστιου όγκου δεδομένων, ο οποίος μπορεί να αξιοποιηθεί αποδοτικά με τη βοήθεια του ταχέως αναπτυσσόμενου πεδίου της Μηχανικής Μάθησης για την εξαγωγή χρήσιμων συμπερασμάτων και προβλέψεων. Η προβλεπτική ικανότητα αυτών των δεδομένων έχει πλέον αναγνωριστεί μέσα από μελέτες σε διάφορους τομείς του επιστητού, όπως στην οικονομία, την υγεία και την πολιτική μεταξύ άλλων. Στην παρούσα διπλωματική εργασία αντιμετωπίζουμε το πρόβλημα της εκτίμησης της τηλεθέασης προγραμμάτων με δεδομένα που συλλέγονται από το μέσο κοινωνικής δικτύωσης Twitter και από την πλατφόρμα Google Trends, η οποία παρέχει στατιστικά στοιχεία για τις αναζητήσεις στη μηχανή αναζήτησης της Google. Από αυτά τα δεδομένα εξάγονται σε διάφορα χρονικά παράθυρα χαρακτηριστικά, τα οποία είτε αντιστοιχούν σε ποσοτικούς δείκτες, όπως ο όγκος των δημοσιεύσεων στο Twitter και ο όγκος των αναζητήσεων στη μηχανή αναζήτησης της Google είτε προκύπτουν από ανάλυση συναισθήματος στο κειμενικό περιεχόμενο των tweets. Με αυτά ή με κάποια από αυτά, αφού έχει προηγηθεί μείωση της διαστατικότητας, εκπαιδεύονται διάφορα μοντέλα παλινδρόμησης με πληθώρα διαφορετικών μεθόδων και αλγορίθμων Μηχανικής Μάθησης. Ενδεικτικά, χρησιμοποιούνται απλές τεχνικές γραμμικής και πολυωνυμικής παλινδρόμησης υλοποιημένες με τη μέθοδο των ελαχίστων τετραγώνων, τεχνικές κανονικοποίησης, όπως ridge, LASSO και elastic net, πιθανοτικά μοντέλα με γκαουσιανές διεργασίες, δέντρα αποφάσεων, μέθοδοι συλλογικής μάθησης, όπως τυχαία δάση και gradient boosting μηχανές, νευρωνικά δίκτυα, όπως πολυεπίπεδα perceptron και μηχανές διανυσμάτων υποστήριξης. Η αξιολόγηση των μοντέλων πραγματοποιείται με διάφορες μετρικές και τα αποτελέσματα συγκρίνονται με αυτά προηγούμενων εργασιών. Τόσο η διαδικασία της εκπαίδευσης όσο και η διαδικασία του ελέγχου βασίζονται συγκεκριμένα στα δεδομένα τηλεθέασης της ιταλικής σατιρικής εκπομπής Le Iene για δύο ημερολογιακά έτη. Τέλος, τα συμπεράσματα που εξάγονται ενισχύουν την αρχική υπόθεση ότι ο συνδυασμός δεδομένων από τις πλατφόρμες Twitter και Google Trends μπορεί να αποδειχθεί ικανός για την εκτίμηση της τηλεθέασης και η προσθήκη του τελευταίου να αποτελέσει καταλύτη για τη βελτίωση της απόδοσης πιο διαδεδομένων μοντέλων που χρησιμοποιούν μόνο δεδομένα από το Twitter.
URI: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/17700
Appears in Collections:Διπλωματικές Εργασίες - Theses

Files in This Item:
File Description SizeFormat 
thesis_Giannakopoulou_KM.pdf4.04 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.