Δημιουργία Συστήματος Αυτόματης Αναγνώρισης Όρων σε Διεθνείς Δημοσιεύσεις και Κλινικές Μελέτες που αφορούν το Σύνδρομο Σιόγκρεν και αξιοποίηση του για ιατρικούς σκοπούς

Βουτσάς, Χρήστος

National Technical University of Athens

School of Electrical and Computer Engineering

Artemis is Live!

Welcome to our digital repository! The aim of Artemis is the systematic archiving and dissemination of the scientific work produced in the School of Electrical and Computer Engineering, National Technical University of Athens, Greece, using the technology of digital libraries.

Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/18089

Title:	Δημιουργία Συστήματος Αυτόματης Αναγνώρισης Όρων σε Διεθνείς Δημοσιεύσεις και Κλινικές Μελέτες που αφορούν το Σύνδρομο Σιόγκρεν και αξιοποίηση του για ιατρικούς σκοπούς
Authors:	Βουτσάς, Χρήστος Βαρβαρίγου Θεοδώρα
Keywords:	Αυτόματη Αναγνώριση Όρων Επεξεργασία Κειμένου Ιατρικά Άρθρα Οντολογίες Σύνδρομο Sjogren
Issue Date:	30-Sep-2021
Abstract:	Οι σύγχρονες επιστήμες έχουν μία πληθώρα τεχνικών όρων, με νέους να προστίθενται διαρκώς στους καταλόγους τους. Η χειρωνακτική ενημέρωση των καταλόγων από τους ειδικούς επιστήμονες είναι μια χρονοβόρα διαδικασία που τείνει να γίνει αδύνατη σε λογικά χρονικά πλαίσια. Υπό αυτές τις συνθήκες δημιουργήθηκε η ανάγκη αυτοματοποίησης της διαδικασίας με χρήση υπολογιστικών μεθόδων. Όμοια με το πρόβλημα της Μηχανικής Μετάφρασης τη δεκαετία του ’50, η απόλυτη και εξαντλητική τυποποίηση των κανόνων και των επίσημων γραμματικών στα κείμενα είναι ανεπαρκής για να εντοπιστεί το νόημα στα κείμενα, είτε πρόκειται για μετάφραση, είτε για εξαγωγή όρων. Από την άλλη, η απόλυτη στήριξη στο λεξιλόγιο χωρίς επεξεργασία του κειμένου, δεν αφήνει περιθώρια στην πρόβλεψη των νέων όρων που εισάγονται στην επιστήμη. Για αυτόν τον λόγο, τη δεκαετία του ’90 αναπτύχθηκαν στατιστικές μέθοδοι αναγνώρισης και εξαγωγής των όρων από κείμενα, με στόχο να τυποποιήσουν τη διαδικασία με την οποία μεταβαίνουμε από τη συντακτική και γραμματική ανάλυση του κειμένου στην στατιστική ερμηνεία των λέξεων του. Μία από αυτές ήταν η C-Value, η οποία, για πολυλεκτικές φράσεις, υπολογίζει τον βαθμό ύπαρξης όρου (termhood). Στην εργασία αυτή παρουσιάζουμε μία εφαρμογή Αυτόματης Αναγνώρισης Όρων που αναπτύχθηκε βασισμένη στις αρχές της C-Value. Επεκτείνοντας τον αλγόριθμο ώστε να συμπεριλαμβάνει και μονολεκτικούς όρους και με την αξιοποίηση βιβλιοθηκών της java για διαδικασίες τοκενοποίησης (tokenization), λεκτικής ανάλυσης, Part-of-Speech Tagging, stemming και κανονικοποίησης των όρων, αντιμετωπίσαμε το συντακτικό σκέλος της ανάλυσης του κειμένου. Στη συνέχεια, όσον αφορά το σημασιολογικό σκέλος, υλοποιήσαμε μία διεπαφή αντιστοίχισης συνωνύμων των ιατρικών όρων με το WordNet, η οποία στα αρχικά πειράματα κρίθηκε ανεπαρκής. Μετά από τις συντακτικές και σημασιολογικές προσεγγίσεις, προβήκαμε σε υπολογισμό του C-Value των ακολουθιών λέξεων που αντιστοιχίζονταν σε μοτίβα Part Of Speech που εισάγαμε. Αυτές οι ακολουθίες θεωρήθηκαν υποψήφιοι όροι και απέκτησαν την τιμή C-Value με βάση έναν μαθηματικό υπολογισμό που συμπεριλάμβανε τις απόλυτες και σχετικές συχνότητες των ιδίων και των υπακολουθιών τους. Τα αποτελέσματα έδειξαν ότι μία τέτοια εφαρμογή μπορεί να αποτελέσει χρήσιμο εργαλείο υποβοήθησης ενός αναλυτή, καθώς μπορεί να προτείνει με μεγάλη ακρίβεια πραγματικούς ιατρικούς όρους. Όμως, η παρακολούθηση των αποτελεσμάτων από έναν ιατρικό επιβλέποντα κρίνεται απαραίτητη, καθώς κρύβονται και ορισμένα false positives εντός των αποτελεσμάτων. Αυτά εντοπίστηκαν μέσα από την αξιολόγηση που εκτελέσαμε με μικρά datasets αλλά και με πειράματα που έγιναν με χρήση της εφαρμογής για εύρεση όρων σχετικών με το ιατρικό σύνδρομο Sjogren.
URI:	http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/18089
Appears in Collections:	Διπλωματικές Εργασίες - Theses

Files in This Item:

File	Description	Size	Format
Diplomatiki_CHRISTOS_VOUTSAS_Final_Version.pdf		1.88 MB	Adobe PDF	View/Open

Show full item record