Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/19213
Title: Χϱήση eXplainable Artificial Intelligence (XAI) για την Επεξήγηση Ταξινοµητών Ανίχνευσης Κίνησης από Domain Generation Algorithms (DGA)
Authors: Φίλιππα, Μυρσίνη
Παπαβασιλείου Συμεών
Keywords: Ασφάλεια Δικτύων
Μηχανική Μάθηση
Δέντρα Αποφάσεων
Αλγόριθμοι Παραγωγής Ονομάτων
Επεξηγήσιμη Τεχνητή Νοημοσύνη
Machine Learning
Cyber security
Decision Trees
eXplainable Artificial Intelligence (XAI)
Domain Generation Algorithms (DGAs)
Issue Date: 18-Jul-2024
Abstract: Τα τελευταία χϱόνια οι κυβερνοεπιθέσεις έχουν σηµειώσει ϱαγδαία αύξηση και γίνονται ολοένα πιο ισχυρές και σύνθετες, µε τα botnets να αποτελούν τη ϐάση της πλειοψηφίας αυτών. Οι σύγχρονες υλοποιήσεις botnets ϐασίζονται στους Αλγορίθµους Παραγωγής Ονοµάτων (Domain Generation Algorithms - DGAs) για την απόκρυψη της ταυτότητας των Command & Control (C&C) servers µε σκοπό να γίνει δυσκολότερη η εξάρθρωση τους. Τα bots και οι C&C servers εκτελούν περιοδικά τον αλγόριθµο µε ένα κοινό seed γνωστό µόνο σε αυτούς και δηµιουργούν ένα σύνολο ονοµάτων εκ των οποίων µικρό υποσύνολο εκχωρείται στις διευθύνσεις ΙΡ των C&C servers µέσω του Domain Name System - DNS. Τα bots εκτελούν DNS queries µέχϱι να λάβουν ως απάντηση µία διεύθυνση ΙΡ για κάποιο από τα καταχωρηµένα ονόµατα και να εδραιώσουν επικοινωνία µε κάποιον C&C server. Η περιοδική αλλαγή των ονοµάτων που εκχωρούνται στους C&C servers καθιστά τον εντοπισµό τους από παραδοσιακά συστήµατα ασφαλείας, όπως το blacklisting αναποτελεσµατικά, καθώς µετά από ένα µικρό χρονικό διάστηµα τα ονόµατα αυτά αποσύρονται και δεν επαναχρησιµοποιούνται. Οι υλοποιήσεις µε µεθόδους Μηχανικής Μάθησης (Machine Learning) για τον εντοπισµό τέτοιων ονοµάτων αποτελούν, πλέον, µία από τις δηµοφιλέστερες προσεγγίσεις καθώς προσφέρουν καλή απόδοση και ανίχνευση σε πραγµατικό χϱόνο, οι οποίες όµως παϱαµένουν µη ερµηνεύσιµες (δεν κατανοούµε τον τϱόπο µε τον οποίο παίρνουν αποφάσεις), µε αποτέλεσµα να αντιµετωπίζονται µε επιφυλακτικότητα από τους διαχειριστές δικτύων. Στην παρούσα διπλωµατική εργασία, παρουσιάζουµε δύο Random Forest ταξινοµητές, έναν δύο κλάσεων binary, που κατηγοριοποιεί τα ονόµατα σε καλόβουλα και κακόβουλα (παϱαγόµενα από DGA) και έναν πολλών κλάσεων multiclass, που κατηγοριοποιεί τα ονόµατα σε καλόβουλα και 54 διαφορετικές οικογένειες DGA. Για την εκπαίδευση και αξιολόγηση των ταξινοµητών χρησιµοποιήσαµε δηµοφιλή σύνολα δεδοµένων, συγκεκριµένα τα καλόβουλα ονόµατα επιλέχθηκαν από τη λίστα Tranco, ενώ τα κακόβουλα από το DGArchive. Χρησιµοποιήσαµε µεθόδους eXplainable Artificial Intelligence (XAI) για την αποτίµηση της επίδρασης των χαρακτηριστικών (features) στις αποφάσεις των δύο ταξινοµητών. Για το σκοπό αυτό, χρησιµοποιήσαµε τις οπτικοποιήσεις που προσφέρει η ΧΑΙ µέθοδος SHapley Additive exPlanations (SHAP). Επιπλέον, µε αφορµή τη πληροφορία για τη διάρκεια Ϲωής των ονοµάτων που παρέχει το DGAchive, εκτιµήσαµε πως µεταβάλλεται η απόδοση των δύο ταξινοµητών µε την εµφάνιση νέων οικογενειών DGA και κακόβουλων ονοµάτων µε τη πάροδο του χϱόνου (το χρονικό διάστηµα για το οποίο είχαµε δεδοµένα είναι τα έτη 2010 έως 2019), εκπαιδεύοντας τους δύο ταξινοµητές µε ονόµατα του έτους 2010 και κατόπιν αξιολογώντας το µε δεδοµένα των ακόλουθων ετών (2011-2019). Στόχος µας, ήταν η σύγκριση των δύο ταξινοµητών ως πϱος την απόδοση και τις ερµηνείες τους.
URI: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/19213
Appears in Collections:Διπλωματικές Εργασίες - Theses

Files in This Item:
File Description SizeFormat 
main.pdf2.78 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.