Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/17169
Title: Κατηγοριοποίηση κειµένων χρησιµοποιώντας το µοντέλο αναπαράστασης γράφων Ν-γραµµάτων σε υψηλής συχνότητας ροής δεδοµένων και εφαρµογές σε µέσα κοινωνικής δικτύωσης
Authors: Βιόλος, Ιωάννης
Βαρβαρίγου Θεοδώρα
Keywords: κατηγοριοποίηση κειµένων
συσταδοποίηση κειµένων
ροή κειµένων
γράφοι Ν-γραµµάτων
υπολογιστικό νέφος
ανάλυση κοινωνικών δικτύων
συναισθηµατική ανάλυση
αναγνώριση κοινοτήτων
αναγνώριση γεγονότων
συστήµατα συστάσεων
Issue Date: 3-Oct-2018
Abstract: Μια σηµαντική πρόκληση στην εποχή µας είναι η ταξινόµηση κειµένων σε ροές δεδοµένων υψηλής συχνότητας. Σε αυτήν την έρευνα, προτείνουµε ένα καινοτόµο και υψηλής ακρίβειας µοντέλο ταξινόµησης ροής κειµένου, που σχεδιάστηκε µε έναν ελαστικό κατανεµηµένο τρόπο και είναι ικανό να εξυπηρετεί έναν όγκο ροής δεδοµένων που παρουσιάζει διακυµάνσεις συχνότητας. Σε αυτό το µοντέλο ταξινόµησης, τα κείµενα αναπαριστώνται ως γράφοι Ν-γραµµάτων και η διαδικασία ταξινόµησης πραγµατοποιείται χρησιµοποιώντας τεχνικές προεπεξεργασίας κειµένων, µετρικές οµοιότητας γράφων και τεχνικές κατηγοριοποίησης διανυσµάτων, ακολουθώντας τo µοντέλο επιβλεπόµενης µηχανικής µάθησης. Η έρευνα µας περιλαµβάνει την ανάλυση πολλών παραλλαγών του προτεινόµενου µοντέλου και των παραµέτρων του, όπως διαφορετικές αναπαραστάσεις των κειµένων ως γράφοι Ν-γραµµάτων, µετρήσεις οµοιότητας γράφων και µέθοδοι κατηγοριοποίησης, ούτως ώστε στο τέλος να καταλήξουµε σε ένα µοντέλο που παράγει προβλέψεις µε υψηλή ακρίβεια. Δώσαµε ιδιαίτερη σηµασία στην αντιµετώπιση της κλιµάκωσης και αποκλιµάκωσης του φόρτου εισροής των κειµένων, της διαθεσιµότητας της υπηρεσίας που παράγει τις προβλέψεις και της έγκαιρης απόκρισης των προβλέψεων για αυτό χρησιµοποιήσαµε το µοντέλο προγραµµατισµού Beam. Στο µοντέλο προγραµµατισµού Beam, η διαδικασία κατηγοριοποίησης εµφανίζεται ως µια ακολουθία ξεχωριστών εργασιών και διευκολύνει την κατανεµηµένη υλοποίηση των πιο απαιτητικών εργασιών. Το προτεινόµενο µοντέλο και οι διάφορες παράµετροι που το συνθέτουν αξιολογούνται πειραµατικά και η ροή υψηλής συχνότητας εξοµοιώνεται µε τη χρήση διαδεδοµένων συνόλων δεδοµένων, που χρησιµοποιούνται στη βιβλιογραφία για εφαρµογές ταξινόµησης κειµένων. Το µοντέλο που προτείνουµε εκτείνεται σε πολλά ερευνητικά πεδία και αξίζει να αναφέρουµε επιγραµµατικά το κάθε ένα, πώς σχετίζονται µε την εργασία µας. Η κατηγοριοποίηση κειµένων είναι ένα ερευνητικό θέµα που έγκειται στα επιστηµονικά πεδία της µηχανικής µάθησης και της φυσικής επεξεργασίας γλώσσας, η ροή κειµένων κυµαινόµενης υψηλής συχνότητας ανήκει στο πεδίο των µεγάλων δεδοµένων. Τα µεγάλα δεδοµένα για να εξυπηρετηθούν χρειάζονται υπολογιστικές υποδοµές που προτείνονται από το επιστηµονικό πεδίο των υπολογιστικών νεφών. Τέλος, οι εφαρµογές της κατηγοριοποίησης κειµένων στην παρούσα έρευνα θα χρησιµοποιηθεί για να επιλύσουν προβλήµατα του πεδίου των µέσων κοινωνικής δικτύωσης. Θα ξεκινήσουµε µε το να παρουσιάσουµε πώς οι τεχνικές επεξεργασίας φυσικής γλώσσας χρησιµοποιούνται για την κατηγοριοποίηση, την συσταδοποίηση και την ανάκτηση κειµένων. Οι τεχνικές θα παρουσιαστούν µε χρονολογική σειρά µε σκοπό να φανεί η εξέλιξη της σκέψης των ερευνητών και πώς η κάθε τεχνική που προτείνεται έρχεται να επιλύσει προβλήµατα ή να βελτιώσει τις προηγούµενες. Θα συνεχίσουµε µε το να παρουσιάσουµε τις ιδιότητες που πρέπει να πληροί µια κατηγοριοποίηση ή συσταδοποίηση για να θεωρείται καλή, καθώς και ένα σύνολο από µετρικές που ποσοτικοποιούν την ακρίβεια µιας κατηγοριοποίησης σύµφωνα µε αυτές τις ιδιότητες. Θα παρουσιαστεί η µέθοδος διεξαγωγής πειραµάτων κατηγοριοποίησης, που εφαρµόζουν αυτές τις µετρικές, η οποία θα είναι η µέθοδος αξιολόγησης που θα χρησιµοποιηθεί σε όλα τα πειραµατικά σύνολα που θα παρουσιάσουµε στις επόµενες ενότητες. Θα παρουσιαστούν σε δύο διαφορετικές ενότητες, µια µέθοδος κατηγοριοποίησης κειµένων και µια συσταδοποίησης, που κάνουν χρήση του µοντέλου αναπαράστασης γράφων Ν-γραµµάτων. Μια σειρά από B5 προβλήµατα του χώρου των µέσων κοινωνικών δικτύων, θα παρουσιαστούν σε συνδυασµό µε αντιπροσωπευτικές µεθόδους που χρησιµοποιούνται για την επίλυσή τους. Θα προτείνουµε την µέθοδο µε την οποία το µοντέλο κατηγοριοποίησης κειµένων εφαρµόζεται, θα το επιβεβαιώσουµε και θα το αξιολογήσουµε πειραµατικά και θα δούµε πως πολλές φορές ξεπερνάει σε ακρίβεια άλλες µεθόδους που χρησιµοποιούνται. Οι εφαρµογές του χώρου των µέσων κοινωνικών δικτύων όπου θα εφαρµοστεί το µοντέλο που προτείνουµε είναι η αναγνώριση κοινοτήτων, αναγνώριση γεγονότων, συναισθηµατική ανάλυση και τα συστήµατα συστάσεων.
URI: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/17169
Appears in Collections:Διδακτορικές Διατριβές - Ph.D. Theses

Files in This Item:
File Description SizeFormat 
PHD Thesis.pdf5.59 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.