Παρακαλώ χρησιμοποιήστε αυτό το αναγνωριστικό για να παραπέμψετε ή να δημιουργήσετε σύνδεσμο προς αυτό το τεκμήριο: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/17847
Τίτλος: Τεχνικές συμπίεσης για την ανάλυση δεδομένων μεγάλης κλίμακας
Συγγραφείς: Κυριτσάς, Γεώργιος
Κοζύρης Νεκτάριος
Λέξεις κλειδιά: Big Data, ρυθμός παραγωγής δεδομένων, ρυθμός αύξησης της υπολογιστικής ισχύος, κατανεμημένα συστήματα, συστήματα βασισμένα στην κύρια μνήμη (IMDBs), επεξεργασία δεδομένων κατά στήλη, συμπίεση δεδομένων, Apache Spark, Apache Parquet
Ημερομηνία έκδοσης: 18-Σεπ-2020
Περίληψη: Στις μέρες μας ο ρυθμός παραγωγής δεδομένων αυξάνεται με γοργούς ρυθμούς, ξεπερνώντας κατά πολύ το ρυθμό αύξησης της υπολογιστικής ισχύος. Η αξιοποίηση αυτού του όγκου δεδομένων μπορεί να οδηγήσει σε βαθύτερη κατανόηση συμπεριφορών και συστημάτων, όπως για παράδειγμα της λειτουργίας των ανθρώπινων κυττάρων ή των κινήσεων του χρηματιστηρίου. Μια ευρέως διαδεδομένη λύση για την επεξεργασία μεγάλου όγκου δεδομένων είναι αυτή των κατανεμημένων συστημάτων, δηλαδή ενός συνόλου διασυνδεδεμένων υπολογιστών, οι οποίοι λειτουργούν σαν ένα ενιαίο υπολογιστικό σύστημα αυξημένων δυνατοτήτων. Μια άλλη λύση που κερδίζει συνεχώς έδαφος είναι η χρήση συστημάτων που χρησιμοποιούν την κύρια μνήμη για την επεξεργασία των δεδομένων. Καθώς η κύρια μνήμη είναι πολύ ταχύτερη από το δίσκο, τα συστήματα αυτά μπορούν να επιτύχουν τάξεις μεγέθους καλύτερες επιδόσεις σε σχέση με τα συμβατικά. Το πρόβλημα είναι ότι η χωρητικότητα της κύριας μνήμης είναι κατά πολύ μικρότερη από αυτή ενός δίσκου. Σκοπός της παρούσας διπλωματικής είναι να εξετάσουμε τη χρήση της συμπίεσης στον τομέα της ανάλυσης δεδομένων μεγάλης κλίμακας. Εξετάζουμε τους τρόπους με τους οποίους μπορούμε να συμπιέσουμε δεδομένα, ώστε να χωρέσουν στη μνήμη, καθώς και την επίδραση της συμπίεσης στην απόδοση του συστήματος. Έχοντας τα δεδομένα στην κύρια μνήμη, εξαλείφεται ένα σημαντικό κομμάτι καθυστέρησης, αυτό της μεταφοράς δεδομένων από το δίσκο. Προκειμένου να εξετάσουμε αυτή τη προσέγγιση, δημιουργήσαμε το hybrid columnar, ένα σύστημα συμπίεσης δεδομένων και εκτέλεσης ερωτημάτων απευθείας στη μνήμη, χωρίς να έχει προηγηθεί αποσυμπίεση τους. Στο σύστημα αυτό υλοποιήσαμε διάφορες τεχνικές συμπίεσης με σκοπό να μελετήσουμε τη συμπεριφορά τους, τόσο σε χώρο όσο και σε χρόνο, ανάλογα με τα χαρακτηριστικά του συνόλου δεδομένων. Επίσης συγκρίναμε το σύστημα που υλοποιήσαμε, με ένα από τα κυριότερα και ευρέως χρησιμοποιούμενα συστήματα στο χώρο της ανάλυσης δεδομένων, το Parquet.
URI: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/17847
Εμφανίζεται στις συλλογές:Διπλωματικές Εργασίες - Theses

Αρχεία σε αυτό το τεκμήριο:
Αρχείο Περιγραφή ΜέγεθοςΜορφότυπος 
Διπλωματική Κυριτσάς - Τεχνικές Ο%.pdf1.92 MBAdobe PDFΕμφάνιση/Άνοιγμα


Όλα τα τεκμήρια του δικτυακού τόπου προστατεύονται από πνευματικά δικαιώματα.