Παρακαλώ χρησιμοποιήστε αυτό το αναγνωριστικό για να παραπέμψετε ή να δημιουργήσετε σύνδεσμο προς αυτό το τεκμήριο:
http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/17928
Τίτλος: | Μελέτη Μεθόδων Υπολογισμού Σημασιολογικής Ομοιότητας Κειμένων |
Συγγραφείς: | Γιαννούλη, Χρυσάνθη Στάμου Γιώργος |
Λέξεις κλειδιά: | ομοιότητα κειμένων σημασιολογική ομοιότητα word embeddings sentence embeddings προ-εκπαιδευμένοι κωδικοποιητές |
Ημερομηνία έκδοσης: | 22-Μαρ-2021 |
Περίληψη: | Ο υπολογισμός της ομοιότητας μεταξύ κειμένων είναι μία σημαντική μέθοδος της ανάλυσης δεδομένων, η οποία μπορεί να χρησιμοποιηθεί περαιτέρω σε πολλές και διαφορετικές εφαρμογές της ΕΦΓ όπως είναι η ανάκτηση πληροφορίας, η ανάλυση συναισθημάτων, η μηχανική μετάφραση κτλ. Η παρούσα εργασία μελετά διάφορες μεθόδους για τον υπολογισμό της σημασιολογικής ομοιότητας κειμένων. Βασικό χαρακτηριστικό των μεθόδων αυτών, είναι η αναπαράσταση της φυσικής γλώσσας ενός κειμένου σε αριθμητική μορφή, με τρόπο που να συλλαμβάνεται πληροφορία για την σημασία του (embedding). Οι μέθοδοι βασίζονται στην μηχανική μάθηση για την δημιουργία των embeddings των λεκτικών όρων και εξετάζονται με κριτήριο την ικανότητα τους να εκτιμούν την ανθρώπινη κρίση για το νόημα του κειμένου.Συγκεκριμένα, στην εργασία μελετώνται κωδικοποιητές για την δημιουργία embeddings λέξεων (word embeddings) και πως μπορούν να συνδυαστούν για να συλλάβουν το νόημα μιας πρότασης, καθώς και προ-εκπαιδευμένοι κωδικοποιητές για την δημιουργία embeddings προτάσεων (sentence embeddings). Για την πειραματική αξιολόγηση χρησιμοποιήθηκαν μικρά ειδησεογραφικά κείμενα, αντιπροσωπευτικά της αγγλικής γλώσσας, και ένα σετ ανθρώπινες μετρήσεις για την ομοιότητα των κειμένων. Τα αποτελέσματα των μετρήσεων δείχνουν πως η γενική επίδοση των μοντέλων να εκτιμούν την ανθρώπινη αντίληψη είναι καλή, χωρίς ιδιαίτερα κακές επιδόσεις. Αν και κάποια μοντέλα, πέτυχαν πολύ υψηλή απόδοση, η καλύτερη επίδοση επιτεύχθηκε στην περίπτωση που λάβαμε υπόψη το dataset μας, κάνοντας fine-tuning ένα μοντέλο σε αυτό. |
URI: | http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/17928 |
Εμφανίζεται στις συλλογές: | Διπλωματικές Εργασίες - Theses |
Αρχεία σε αυτό το τεκμήριο:
Αρχείο | Περιγραφή | Μέγεθος | Μορφότυπος | |
---|---|---|---|---|
Μελέτη Μεθόδων Υπολογισμού Σημασιολογικής Ομοιότητας Κειμένων.pdf | 1.38 MB | Adobe PDF | Εμφάνιση/Άνοιγμα |
Όλα τα τεκμήρια του δικτυακού τόπου προστατεύονται από πνευματικά δικαιώματα.