Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/18060
Title: Δυναμική δρομολόγηση κατανεμημένων ροών εργασιών με χρήση τεχνικών μηχανικής μάθησης
Authors: Καραβασίλης, Νικόλαος
Κοζύρης Νεκτάριος
Keywords: Apache spark, Apache beam, Apache flink, benchmark, Random forest
Issue Date: 23-Jul-2021
Abstract: Η ορολογία Big Data αναφέρεται σε δεδομένα που περιέχουν μεγαλύτερη ποικιλία, φτάνοντας σε αυξανόμενους όγκους και με μεγαλύτερη ταχύτητα. Με απλά λόγια, τα BigData είναι μεγαλύτερα, πιο πολύπλοκα σύνολα δεδομένων, ειδικά από νέες πηγές δεδομένων. Αυτά τα σύνολα δεδομένων είναι τόσο ογκώδη που το παραδοσιακό λογισμικό επεξεργασίας δεδομένων δεν μπορεί να τα διαχειριστεί. Αλλά αυτοί οι τεράστιοι όγκοι δεδομένων μπορούν να χρησιμοποιηθούν για την αντιμετώπιση επιχειρηματικών προβλημάτων που δεν θα μπορούσαν να αντιμετωπιστούν πριν. Στην σημερινή εποχή η έντονη παρουσία των Big Data στις περισσότετες επιχειρήσεις, έχει οδηγήσει στην δημιουργία πολυάριθμων συστημάτων επεξεργασίας δεδομένων. Ωστόσο, η μεταφορά από ένα τέτοιο σύστημα σε ένα άλλο, π.χ. για λόγους απόδοσης, απαιτεί την τροποποίηση ή ακόμα και την δημιουργία νέων εφαρμογών, προκειμένου να καλύπτουν τις προϋποθέσεις της νέας τεχνολογίας. Η τεχνολογία Apache Beam επιλύει αυτό το πρόβλημα, επιτρέποντας στο χρήστη να δημιουργήσει ένα πρόγραμμα και να το εκτελέσει στα συστήματα επεξεργασίας δεδομένων που υποστηρίζει. Ωστόσο, τις περισσότερες φορές ο χρήστης δεν γνωρίζει ποιο σύστημα είναι το πιο αποδοτικό για τα δεδομένα του. Σκοπός της παρούσας διπλωματικής εργασίας, είναι η δημιουργία ενός αλγορίθμου μηχανικής μάθησης, ο οποίος θα μπορεί να προβλέπει το βέλτιστο σύστημα ανάλογα με τα δεδομένα του χρήστη. Πριν την δημιουργία του αλγορίθμου, γίνεται ένα benchmark για μελέτη της απόδοσης των συστημάτων για μια συγκεκριμένη μορφολογία δεδομένων και για ένα συγκεκριμένο είδος επεξεργασίας. Για το λόγο αυτό, δημιουργήσαμε αρχεία με δεδομένα από διακριτές κατανομές αριθμών και ένα πρόγραμμα σύμφωνα με το Apache Beam που υπολογίζει την συχνότητα εμφάνισης των δεδομένων. ́Υστερα, επιλέξαμε ένα υπολογιστικό σύστημα που ανήκει στο εργαστήριο CSLab του Ε.Μ.Π., στο οποίο εγκαταστήσαμε τις τεχνολογίες Apache Spark και Apache Flink. Τροφοδοτήσαμε κάθε αρχείο σε κάθε σύστημα με την βοήθεια του Apache Kafka προσομοιώνοντας την περίπτωση streaming. Με αυτόν τον τρόπο αναλύσαμε την απόδοση των συστημάτων επεξεργασίας ανάλογα με την μορφολογία των δεδομένων και με τα αποτελέσματα που λάβαμε εκπαιδεύσαμε τον αλγόριθμο Random Forest. Τέλος παραθέτουμε τα συμπεράσματα που μπορούν να προκύψουν μέσα απ ́ την παραπάνω διαδικασία, καθώς και ιδέες ή προτάσεις βελτίωσης της απόδοσης των εφαρμογών μελλοντικά.
URI: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/18060
Appears in Collections:Διπλωματικές Εργασίες - Theses

Files in This Item:
File Description SizeFormat 
thesis.pdf2.02 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.