Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/13763
Title: Ανίχνευση Κακόβουλων Αρχείων Php Με Τη Χρήση Ευφυών Τεχνικών
Authors: Ραφαήλ Σκουλός
Σταφυλοπάτης Ανδρέας-Γεώργιος
Keywords: μηχανική μάθηση
δέντρα αποφάσεων
μηχανές διανυσμάτων υποστήριξης
στοχαστική κατά- βαση κλίσης
δεδομένα
εκπαίδευση
μοντέλο
κακόβουλος κώδικας
php
ανάκληση
ακρίβεια
μετρική f1
γεωμετρικός μέσος
ανισορροπία κλάσεων
Issue Date: 29-May-2018
Abstract: Ο κακόβουλος κώδικας είναι οποιοσδήποτε κώδικας προστίθεται, αλλάζει ή καταργείται από ένασύστημα λογισμικού για να προξενήσει σκόπιμα βλάβη ή να υπονομεύσει την επιθυμητή λειτουργίατου συστήματος. Στην εποχή μας όπου το Διαδίκτυο είναι μέρος της καθημερινότητας μας, η μόλυνσηδιακομιστών Παγκόσμιου Ιστού με κακόβουλο κώδικα είναι πολύ συχνό φαινόμενο με αρνητικέςσυνέπειες τόσο για τον ιδιοκτήτη του όσο και για τους χρήστες του.Για τον εντοπισμό τέτοιου κώδικα έχουν αναπτυχθεί πολλά εργαλεία λογισμικού στο εμπόριο ταοποία έχουν υψηλά ποσοστά επιτυχίας. Το πρόβλημα όμως με τα εργαλεία αυτά είναι ότι αποτυγ-χάνουν να αναγνωρίσουν κακόβουλο κώδικα τον οποίο συναντάμε για πρώτη φορά και τον οποίο οιδημιουργοί του έχουν σκόπιμα φτιάξει με τον τρόπο αυτό χρησιμοποιώντας διάφορες τεχνικές "θό-λωσης" (obfuscation) ώστε να μην αναγνωρίζεται από τέτοια προϊόντα.Ο σκοπός της διπλωματικής εργασίας είναι η ανάπτυξη ενός συστήματος το οποίο θα αναγνω-ρίζει αν ένα αρχείο είναι μολυσμένο ή όχι και θα είναι σε θέση να αναγνωρίζει και τα αρχεία πουέχουν υποστεί θόλωση εκτός από όλα τα υπόλοιπα. Στο πλαίσιο αυτό συλλέξαμε μολυσμένα και μημολυσμένα αρχεία, εξάγαμε τρία σύνολα χαρακτηριστικών από αυτά και έπειτα χρησιμοποιήσαμε ταχαρακτηριστικά ώστε με την χρήση μηχανικής μάθησης να φτιάξουμε μοντέλα που είναι σε θέση ναπροβλέψουν αν ένα αρχείο είναι μολυσμένο ή όχι. Τέλος αξιολογήσαμε τα αποτελέσματα κάθε αλγο-ρίθμου και κάθε συνόλου χαρακτηριστικών και τα συγκρίναμε μεταξύ τους. Ένα σημαντικό πρόβλημαπου αντιμετωπίσαμε ήταν η ανισορροπία κλάσεων στα δεδομένα εισόδου.Συγκεκριμένα, τα χαρακτηριστικά που εξάγαμε αφορούν την λεξικογραφική ανάλυση του κειμέ-νου και τη συχνότητα εμφάνισης των συναρτήσεων της γλώσσας. Οι αλγόριθμοι μηχανικής μάθησηςπου χρησιμοποιήσαμε είναι τα Δέντρα Αποφάσεων, οι Μηχανές Διανυσμάτων Υποστήριξης και ηΣτοχαστική Κατάβαση Κλίσης. Οι κυριότερες μετρικές αξιολόγησης που χρησιμοποιήθηκαν είναιη Ακρίβεια, η Ανάκληση και η μετρική F1 στην κλάση μειοψηφίας καθώς και ο Γεωμετρικός Μέ-σος. Τέλος το πρόβλημα της ανισορροπίας κλάσεων στα δεδομένα εισόδου το αντιμετωπίσαμε με τηχρήση μάθησης με ευαισθησία κόστους.Τέλος, αναλύονται τα αποτελέσματα και τα συμπεράσματα που προέκυψαν από τα πειράματα τουεκπονήσαμε και δίνονται και μελλοντικές κατευθύνσεις έρευνας.
URI: http://artemis-new.cslab.ece.ntua.gr:8080/jspui/handle/123456789/13763
Appears in Collections:Διπλωματικές Εργασίες - Theses

Files in This Item:
File SizeFormat 
DT2018-0091.pdf685.8 kBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.