Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/13633
Title: Προσαρμοστική Βελτιστοποίηση Εκτέλεσης Ερωτημάτων Σε Κατανεμημένα Συστήματα Ροών Δεδομένων
Authors: Δαγκλής Αθανάσιος
Κοζύρης Νεκτάριος
Keywords: επεξεργασία ροών δεδομένων
προσαρμοστική βελτιστοποίηση
κατανεμημένα συστήματα
spark streaming
kafka
βελτιστοποίηση κόστους
Issue Date: 9-Nov-2017
Abstract: Τα τελευταία χρόνια έχει παρατηρηθεί στροφή προς συστήματα επεξεργασίας δεδομένων ροών, τόσο για ανάλυση μη πεπερασμένων όσο και πεπερασμένων δεδομένων. Η ανάγκη για απαντήσεις σε πραγματικό χρόνο, οι διαρκώς αυξανόμενες πηγές ροών δεδομένων και η ραγδαία αύξηση του μεγέθους των δεδομένων προς επεξεργασία καθιστά την αποδοτική εκτέλεση ερωτημάτων αναγκαία.Στην παρούσα διπλωματική εργασία, ασχολούμαστε με την βελτιστοποίηση πλάνου εκτέλεσης ερωτημάτων που πραγματοποιούν συνένωση ροών δεδομένων με εξωτερικό σύνολο δεδομένων. Συγκεκριμένα, μελετάμε ερωτήματα με δύο ροές δεδομένων και πολλαπλές ενώσεις με εξωτερικούς πίνακες.Για να επιτύχουμε προσαρμοστική βελτιστοποίηση πλάνου εκτέλεσης ερωτημάτων, εκτελούμε τα ερωτήματα σε πραγματικό χρόνο χρησιμοποιώντας το Spark Streaming framework. Το σύστημα χρησιμοποιεί τις κατανεμημένες τεχνολογίες Kafka, Spark, HDFS και εξασφαλίζει έτσι την κλιμακωσιμότητα του και την ανοχή σε σφάλματα.Προκειμένου να επιτευχθεί εφαρμογή μεθόδων βελτιστοποίησης πλάνου εκτέλεσης ερωτημάτων σε πλάνο ροής δεδομένων, εξάγουμε στατιστικά από τις ροές δεδομένων, και τα εγχύουμε στο Spark Streaming. Με αυτό τον τρόπο εφαρμόζεται αποτελεσματικά αναδιάταξη της σειράς των συνενώσεων του πλάνου με βάση πρόβλεψη κόστους και επιλέγονται κατάλληλοι αλγόριθμοι συνένωσης με βάση τα προβλεπόμενα μεγέθη των ενδιάμεσων αποτελεσμάτων.Επίσης, μελετάμε το είδος και την ακρίβεια των στατιστικών που χρειάζεται να εξάγουμε από τις ροές δεδομένων προκειμένου να έχουμε ικανοποιητική βελτίωση στο χρόνο εκτέλεσης ερωτημάτων.Εφαρμόζοντας προσαρμοστική βελτιστοποίηση πλάνου εκτέλεσης των ερωτημάτων στις ροές δεδομένων, επιτυγχάνουμε καλύτερους χρόνους εκτέλεσης, με επιτάχυνση έως και 5.5, και κατ επέκτασιν μπορούμε δυναμικά να αποδεσμεύουμε υπολογιστικούς πόρους ώστε αυτοί να αξιοποιούνται από άλλες διεργασίες.
URI: http://artemis-new.cslab.ece.ntua.gr:8080/jspui/handle/123456789/13633
Appears in Collections:Διπλωματικές Εργασίες - Theses

Files in This Item:
File SizeFormat 
DT2017-0293.pdf2.22 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.