Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/18374
Title: Σημασιολογικός Εμπλουτισμός Προεκπαιδευμένων Νευρωνικών Δικτύων για την Επεξεργασία Φυσικής Γλώσσας με τη Χρήση Εργαλείων Αναπαράστασης Γνώσης
Authors: Ξεφτέρη, Βασιλική
Στάμου Γιώργος
Keywords: Natural Language Processing
Information Retrieval
Classification
Semantic Enrichment
BERT
SNOMED CT
OWL2Vec*
Issue Date: 13-Jul-2022
Abstract: Τα τελευταία χρόνια, η ταχεία ανάπτυξη στον βιοϊατρικό τομέα έχει περιπλέξει τον εντοπισμό πληροφοριών που ενδιαφέρουν τους ερευνητές. Σήμερα υπάρχουν διάφορα εποπτευόμενα μοντέλα για την ανάκτηση πληροφοριών, ωστόσο η ταχεία εμφάνιση νέων θεμάτων και ευρημάτων συχνά εμποδίζει την απόδοσή τους. Η διπλωματική αυτή ασχολείται με τη διερεύνηση του σημασιολογικού εμπλουτισμού αρχιτεκτονικών βαθιάς μάθησης transformer με σκοπό την εύρεση των σχετικών ιατρικών εγγράφων με ένα ερώτημα και επίσης την ταξινόμηση αυτών των εγγράφων. Αξιολογούμε τις μεθόδους μας σε υποσύνολα δεδομένων OHSUMED. Και στα δύο προβλήματα, ο σημασιολογικός εμπλουτισμός επιτυγχάνεται με τη SNOMED CT, μια οντολογία κλινικής υγειονομικής περίθαλψης, και χρησιμοποιούμε κυρίως δύο διαφορετικές προσεγγίσεις. Σε αυτή τη διπλωματική, αρχικά, διερευνούμε τον εμπλουτισμό των ενσωματώσεων κειμένων των μοντέλων transformer με ενσωματώσεις οντολογιών, που παράγονται από το OWL2Vec*, το οποίο διατηρεί τις λεξιλογικές πληροφορίες και τους λογικούς τελεστές μιας οντολογίας. Πειραματιζόμαστε με τις παραμέτρους του και με διαφορετικές προ-διεργασίες του συνόλου δεδομένων και αποδεικνύουμε ότι το OWL2Vec* δεν μπορεί να εφαρμοστεί προς το παρόν σε μεγάλες οντολογίες, όπως η SNOMED CT. Αυτό το αποδεικνύουμε όχι μόνο στην ανάκτηση πληροφοριών αλλά και στην ταξινόμηση κειμένων. Για την ταξινόμηση, δοκιμάζουμε και μια άλλη μέθοδο φιλτραρίσματος. Ενισχύουμε τις κλάσεις και τα έγγραφα με έννοιες της SNOMED CT και, έπειτα, επιβάλλουμε φίλτρα στη συνύπαρξη εννοιών μεταξύ τους. Συνδυάζουμε την προσέγγιση αυτή και με τα μοντέλα BERT και βελτιώνουμε σημαντικά την απόδοσή τους. Έτσι αποδεικνύουμε ότι μια εξειδικευμένη οντολογία μπορεί να εφαρμοστεί με επιτυχία για την προσαρμογή ανεξειδίκευτων μοντέλων σε έναν νέο τομέα και να βελτιώσει την απόδοση των μοντέλων επεξεργασίας φυσικής γλώσσας.
URI: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/18374
Appears in Collections:Διπλωματικές Εργασίες - Theses

Files in This Item:
File Description SizeFormat 
diploma.pdf2.73 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.