Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/12616
Title: Κατανεμημένοι Αλγόριθμοι Ερωτημάτων Ένωσης Με Εφαρμογές Στην Ανάλυση Δεδομένων Δικτυακής Κίνησης
Authors: Σαρλής Δημήτριος
Κοζύρης Νεκτάριος
Keywords: sflow
hadoop
mapreduce
hive
spark
shark
hbase
nosql
k-d tree
map join
Issue Date: 5-Nov-2014
Abstract: Τα τελευταία χρόνια έχει παρατηρηθεί ραγδαία αύξηση της κίνησης στο Internet, γεγονός που είναι περισσότερο εμφανές σε κόμβους ουδέτερης διασύνδεσης (IXPs) από τους οποίους πλέον διέρχονται έως και petabytes δεδομένων καθημερινά. Υπάρχει ανάγκη, λοιπόν, για επεξεργασία αυτού του τεράστιου όγκου δεδομένων με αποδοτικές τεχνικές, για να εξαχθούν στατιστικά για την κίνηση που διέρχεται από αυτούς τους κόμβους.Στην παρούσα διπλωματική, ασχολούμαστε με τη σχεδίαση και υλοποίηση ενός συστήματος ανάλυσης δεδομένων δικτυακής κίνησης τύπου sFlow που θα χρησιμοποιεί τεχνικές κατανεμημένης επεξεργασίας, όπως το MapReduce σε αντίθεση με τις παραδοσιακές τεχνικές που χρησιμοποιούνται μέχρι τώρα. Το σύστημα αυτό θα είναι σε θέση να αντιμετωπίσει τη γενικότερη περίπτωση του log processing όπου έχουμε ένα βασικό σύνολο δεδομένων και θέλουμε να εξάγουμε πληροφορία από αυτό σε συνδυασμό με εξωτερικές πηγές επιπλέον πληροφορίας.Για το σκοπό αυτό εξετάζουμε αποδοτικές τεχνικές με τις οποίες μπορεί να γίνει η συνένωση των πληροφοριών, όπως είναι η τεχνική του map join. Συνδυάζουμε αυτή τη μέθοδο με εξειδικευμένες συναρτήσεις UDF στο Hive για να επιτύχουμε καλύτερη απόδοση. Ακόμη, προτείνουμε ένα έξυπνο τρόπο για pre-partitioning των δεδομένων με τη χρήση ενός K-d tree, ώστε να μπορεί να γίνει γρήγορα η εκτέλεση ερωτημάτων που αφορούν περιορισμένο τμήμα των δεδομένων (με χρήση διάφορων φίλτρων). Στη συνέχεια εξετάζουμε την επίδραση διαφορετικών συστημάτων εκτέλεσης MapReduce στα ίδια ερωτήματα και συγκρίνουμε τα χαρακτηριστικά τους. Τέλος, παρουσιάζουμε τη δυνατότητα κλιμάκωσης του συστήματος που υλοποιήσαμε, καθώς αυξάνει ο αριθμός των διαθέσιμων κόμβων αλλά και το μέγεθος του συνόλου των δεδομένων. Σε κάθε περίπτωση η δική μας μέθοδος παρουσιάζει μία βελτίωση έως και 70% στο χρόνο εκτέλεσης σε σύγκριση με μία απλή βασική υλοποίηση.
URI: http://artemis-new.cslab.ece.ntua.gr:8080/jspui/handle/123456789/12616
Appears in Collections:Διπλωματικές Εργασίες - Theses

Files in This Item:
File SizeFormat 
DT2014-0321.pdf1.69 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.