Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/17847
Title: Τεχνικές συμπίεσης για την ανάλυση δεδομένων μεγάλης κλίμακας
Authors: Κυριτσάς, Γεώργιος
Κοζύρης Νεκτάριος
Keywords: Big Data, ρυθμός παραγωγής δεδομένων, ρυθμός αύξησης της υπολογιστικής ισχύος, κατανεμημένα συστήματα, συστήματα βασισμένα στην κύρια μνήμη (IMDBs), επεξεργασία δεδομένων κατά στήλη, συμπίεση δεδομένων, Apache Spark, Apache Parquet
Issue Date: 18-Sep-2020
Abstract: Στις μέρες μας ο ρυθμός παραγωγής δεδομένων αυξάνεται με γοργούς ρυθμούς, ξεπερνώντας κατά πολύ το ρυθμό αύξησης της υπολογιστικής ισχύος. Η αξιοποίηση αυτού του όγκου δεδομένων μπορεί να οδηγήσει σε βαθύτερη κατανόηση συμπεριφορών και συστημάτων, όπως για παράδειγμα της λειτουργίας των ανθρώπινων κυττάρων ή των κινήσεων του χρηματιστηρίου. Μια ευρέως διαδεδομένη λύση για την επεξεργασία μεγάλου όγκου δεδομένων είναι αυτή των κατανεμημένων συστημάτων, δηλαδή ενός συνόλου διασυνδεδεμένων υπολογιστών, οι οποίοι λειτουργούν σαν ένα ενιαίο υπολογιστικό σύστημα αυξημένων δυνατοτήτων. Μια άλλη λύση που κερδίζει συνεχώς έδαφος είναι η χρήση συστημάτων που χρησιμοποιούν την κύρια μνήμη για την επεξεργασία των δεδομένων. Καθώς η κύρια μνήμη είναι πολύ ταχύτερη από το δίσκο, τα συστήματα αυτά μπορούν να επιτύχουν τάξεις μεγέθους καλύτερες επιδόσεις σε σχέση με τα συμβατικά. Το πρόβλημα είναι ότι η χωρητικότητα της κύριας μνήμης είναι κατά πολύ μικρότερη από αυτή ενός δίσκου. Σκοπός της παρούσας διπλωματικής είναι να εξετάσουμε τη χρήση της συμπίεσης στον τομέα της ανάλυσης δεδομένων μεγάλης κλίμακας. Εξετάζουμε τους τρόπους με τους οποίους μπορούμε να συμπιέσουμε δεδομένα, ώστε να χωρέσουν στη μνήμη, καθώς και την επίδραση της συμπίεσης στην απόδοση του συστήματος. Έχοντας τα δεδομένα στην κύρια μνήμη, εξαλείφεται ένα σημαντικό κομμάτι καθυστέρησης, αυτό της μεταφοράς δεδομένων από το δίσκο. Προκειμένου να εξετάσουμε αυτή τη προσέγγιση, δημιουργήσαμε το hybrid columnar, ένα σύστημα συμπίεσης δεδομένων και εκτέλεσης ερωτημάτων απευθείας στη μνήμη, χωρίς να έχει προηγηθεί αποσυμπίεση τους. Στο σύστημα αυτό υλοποιήσαμε διάφορες τεχνικές συμπίεσης με σκοπό να μελετήσουμε τη συμπεριφορά τους, τόσο σε χώρο όσο και σε χρόνο, ανάλογα με τα χαρακτηριστικά του συνόλου δεδομένων. Επίσης συγκρίναμε το σύστημα που υλοποιήσαμε, με ένα από τα κυριότερα και ευρέως χρησιμοποιούμενα συστήματα στο χώρο της ανάλυσης δεδομένων, το Parquet.
URI: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/17847
Appears in Collections:Διπλωματικές Εργασίες - Theses

Files in This Item:
File Description SizeFormat 
Διπλωματική Κυριτσάς - Τεχνικές Ο%.pdf1.92 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.