Παρακαλώ χρησιμοποιήστε αυτό το αναγνωριστικό για να παραπέμψετε ή να δημιουργήσετε σύνδεσμο προς αυτό το τεκμήριο: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/13244
Τίτλος: Εγγενής Ανίχνευση Λογοκλοπής Με Ευφυείς Τεχνικές
Συγγραφείς: Πολυδούρη Ανδριάννα
Σταφυλοπάτης Ανδρέας-Γεώργιος
Λέξεις κλειδιά: εγγενής ανίχνευση λογοκλοπής
στυλομετρία
επιβλεπόμενη μηχανική μάθηση
εξισορρόπηση δεδομένων εκπαίδευσης
scikit-learn
apache opennlp
Ημερομηνία έκδοσης: 22-Σεπ-2016
Περίληψη: Στην ακαδημαϊκή κοινότητα με τον όρο λογοκλοπή εννοούμε την παρουσίαση δουλειάς τρίτου ως προσωπικής, ελλείψει κατάλληλης αναφοράς στην πηγή ή/και γνωστοποίησης στον συγγραφέα. Στις μέρες μας, όπου η ερευνητική δραστηριότητα αξιολογείται (και) με όρους παραγωγικότητας, ενώ, ταυτόχρονα, το διαδίκτυο προσφέρει εύκολη πρόσβαση σε αμέτρητα ερευνητικά έργα, η λογοκλοπή αποτελεί ένα φαινόμενο με ολοένα αυξανόμενη συχνότητα που πλήττει την ερευνητική ακεραιότητα και αξιοπιστία.Η έρευνα γύρω από την ανίχνευση λογοκλοπής χωρίζεται σε δύο κατευθύνσεις: την εξωγενή και την εγγενή. Κατά την εξωγενή ανίχνευση θεωρείται ένα εξωτερικό σώμα αναφορών, όπου αναζητούνται οι ομοιότητες με το υπό εξέταση κείμενο. Κατά την εγγενή ανίχνευση, με μόνο το υπό εξέταση κείμενο ως πηγή πληροφορίας, αναζητούνται τα λογοκλεμμένα, σε αυτό, χωρία, με εργαλείο τη στυλιστική ανάλυση του κειμένου.Κατα την εργασία αυτή κατασκευάστηκε ένα σύστημα εγγενούς ανίχνευσης λογοκλοπής, το οποίο αναπτύχθηκε, κυρίως, σε Java. Κύρια μέρη του συστήματος είναι: η στυλιστική ανάλυση των κειμένων, όπου χρησιμοποιήθηκαν τόσο γνωστά όσο και πρωτότυπα στυλιστικά χαρακτηριστικά, και ένα μοντέλο μηχανικής μάθησης για την εξαγωγή των ύποπτων χωρίων. Κατά τη στυλιστική ανάλυση χρησιμοποιήθηκε η Java βιβλιοθήκη OpenNLP της Apache. Κατά τη μηχανική μάθηση χρησιμοποιήθηκε η Python βιβλιοθήκη Scikit-Learn. Πειραματιστήκαμε με 4 διαφορετικούς αλγορίθμους εκμάθησης (Naive Bayes, Μηχανές Διανυσμάτων Υποστήριξης, Δέντρα Απόφασης, Perceptron πολλών-στρωμάτων).Ακόμη, εισήχθη, για πρώτη φορά, η ανισορροπία των δεδομένων εκμάθησης ως παράμετρος του προβλήματος. Χρησιμοποιώντας το Github repository Unbalanced Dataset, πειραματιστήκαμε με 2 αλγορίθμους εξισορρόπησης (simple SMOTE, borderline SMOTE).Ως σώμα δεδομένων χρησιμοποιήθηκε αυτό του διαδικτυακού διαγωνισμού για εγγενή ανίχνευση λογοκλοπής PAN@CLEF 2011, ενώ τα αποτελέσματα συγκρίνονται (και) με αυτά των διαγωνιζομένων συστημάτων.
URI: http://artemis-new.cslab.ece.ntua.gr:8080/jspui/handle/123456789/13244
Εμφανίζεται στις συλλογές:Διπλωματικές Εργασίες - Theses

Αρχεία σε αυτό το τεκμήριο:
Αρχείο ΜέγεθοςΜορφότυπος 
DT2016-0227.pdf1.23 MBAdobe PDFΕμφάνιση/Άνοιγμα


Όλα τα τεκμήρια του δικτυακού τόπου προστατεύονται από πνευματικά δικαιώματα.