Παρακαλώ χρησιμοποιήστε αυτό το αναγνωριστικό για να παραπέμψετε ή να δημιουργήσετε σύνδεσμο προς αυτό το τεκμήριο: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/12836
Τίτλος: Ανάλυση Επίδοσης Και Μοντελοποίηση Του Αλγορίθμου Συσταδοποίησης K-means Σε Κεντρικό Και Κατανεμημένο Περιβάλλον
Συγγραφείς: Αφεντουλίδης Γρηγόριος
Κοζύρης Νεκτάριος
Λέξεις κλειδιά: αλγόριθμος k-means
συσταδοποίηση
hadoop
weka
apache spark
συστήματα profiling
προβλεπτική μοντελοποίηση
Ημερομηνία έκδοσης: 22-Ιου-2015
Περίληψη: Τα τελευταία χρόνια αυξάνεται ραγδαία το ενδιαφέρον για την εκτέλεση data analytics εργασιών τόσο στον επιστημονικό και τεχνολογικό αλλά και στον επιχειρηματικό τομέα. Το φαινόμενο αυτό οδήγησε στην ανάπτυξη μηχανών εκτέλεσης που προσφέρονται ως υπηρεσίες σε παρόχους IaaS και αναλαμβάνουν την διεκπεραίωση τέτοιων εργασιών. Καθώς όμως οι μηχανές αυτές εισάγουν διαφορετικά χαρακτηριστικά και αρχιτεκτονικές εκτέλεσης, υπάρχει η ανάγκη να αναλύσουμε τόσο τους απαιτούμενους υπολογιστικούς πόρους που αυτές χρειάζονται, αλλά και τη χρονική επίδοση που αυτές επιτυγχάνουν. Αυτό μάλιστα γίνεται ακόμα πιο περίπλοκο εφ’όσον επηρεάζεται και από τις παραμέτρους εκτέλεσης των αλγορίθμων που υλοποιούν τις εν λόγω εργασίες. Η αξία της ανάλυσης αυτής, έγκειται στο γεγονός ότι θα προσφέρει τα εφόδια να αναγνωρίσουμε τα πλεονεκτήματα της κάθε μηχανής υπό συγκεκριμένες συνθήκες, ενώ ταυτόχρονα θα ικανοποιήσουμε πολιτικές χρηστών σε περιβάλλοντα cloud που σχετίζονται με το κόστος και την ταχύτητα εκτέλεσης.Για το σκοπό αυτό είναι αναγκαία η πειραματική ανάλυση των μηχανών εκτέλεσης μέσω μιας διαδικασίας profiling όπου θα μετρούμε τη χρήση των υπολογιστικών πόρων καθώς και τη διάρκεια εκτέλεσης για προσεκτικά επιλεγμένα δείγματα εκτέλεσης. Με τα αποτελέσματα αυτά μπορούμε να κατασκευάσουμε στατικά μοντέλα που να προσομοιώνουν την συμπεριφορά των μηχανών για μεταβολή διαφορετικών παραμέτρων εκτέλεσης.Στη παρούσα διπλωματική εργασία αναλαμβάνουμε να μελετήσουμε τον αλγόριθμο k-means που χρησιμοποιείται για εργασίες συσταδοποίησης δεδομένων, στο κεντρικό περιβάλλον Weka και στο κατανεμημένο περιβάλλον Apache Spark. Προτείνουμε και υλοποιούμε δύο αρχιτεκτονικές profiling για την ανάκτηση μετρικών που σχετίζονται με τη χρήση των υπολογιστικών πόρων και της χρονική επίδοση κάθε πειραματικής εκτέλεσης. Αναλύουμε από τα αποτελέσματα των μετρήσεών μας τις συμπεριφορές εκτέλεσης των δύο μηχανών καθώς μεταβάλλουμε τις παραμέτρους εκτέλεσης και αναδεικνύουμε πλεονεκτήματα και μειονεκτήματα αυτών. Χρησιμοποιούμε τα δεδομένα που συλλέξαμε για τη κατασκευή μοντέλων για κάθε μετρική και μηχανή εκτέλεσης και αποδεικνύουμε την ακρίβεια καθώς και τη χρησιμότητα αυτών ως προβλεπτικά μοντέλα. Ελέγχουμε την κλιμακωσιμότητα του αλγορίθμου στη κατανεμημένη εκδοχή για διαφορετικό μέγεθος cluster και παρατηρούμε χρονική βελτίωση που αγγίζει το 30%. Τέλος επιχειρούμε σύγκριση των δύο μηχανών εκτέλεσης που μας αναδεικνύει την υπεροχή του Spark ακόμα και για πολύ μικρά μεγέθη dataset.
URI: http://artemis-new.cslab.ece.ntua.gr:8080/jspui/handle/123456789/12836
Εμφανίζεται στις συλλογές:Διπλωματικές Εργασίες - Theses

Αρχεία σε αυτό το τεκμήριο:
Αρχείο ΜέγεθοςΜορφότυπος 
DT2015-0190.pdf4.76 MBAdobe PDFΕμφάνιση/Άνοιγμα


Όλα τα τεκμήρια του δικτυακού τόπου προστατεύονται από πνευματικά δικαιώματα.