Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/18089
Full metadata record
DC FieldValueLanguage
dc.contributor.authorΒουτσάς, Χρήστος-
dc.date.accessioned2021-10-08T08:23:04Z-
dc.date.available2021-10-08T08:23:04Z-
dc.date.issued2021-09-30-
dc.identifier.urihttp://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/18089-
dc.description.abstractΟι σύγχρονες επιστήμες έχουν μία πληθώρα τεχνικών όρων, με νέους να προστίθενται διαρκώς στους καταλόγους τους. Η χειρωνακτική ενημέρωση των καταλόγων από τους ειδικούς επιστήμονες είναι μια χρονοβόρα διαδικασία που τείνει να γίνει αδύνατη σε λογικά χρονικά πλαίσια. Υπό αυτές τις συνθήκες δημιουργήθηκε η ανάγκη αυτοματοποίησης της διαδικασίας με χρήση υπολογιστικών μεθόδων. Όμοια με το πρόβλημα της Μηχανικής Μετάφρασης τη δεκαετία του ’50, η απόλυτη και εξαντλητική τυποποίηση των κανόνων και των επίσημων γραμματικών στα κείμενα είναι ανεπαρκής για να εντοπιστεί το νόημα στα κείμενα, είτε πρόκειται για μετάφραση, είτε για εξαγωγή όρων. Από την άλλη, η απόλυτη στήριξη στο λεξιλόγιο χωρίς επεξεργασία του κειμένου, δεν αφήνει περιθώρια στην πρόβλεψη των νέων όρων που εισάγονται στην επιστήμη. Για αυτόν τον λόγο, τη δεκαετία του ’90 αναπτύχθηκαν στατιστικές μέθοδοι αναγνώρισης και εξαγωγής των όρων από κείμενα, με στόχο να τυποποιήσουν τη διαδικασία με την οποία μεταβαίνουμε από τη συντακτική και γραμματική ανάλυση του κειμένου στην στατιστική ερμηνεία των λέξεων του. Μία από αυτές ήταν η C-Value, η οποία, για πολυλεκτικές φράσεις, υπολογίζει τον βαθμό ύπαρξης όρου (termhood). Στην εργασία αυτή παρουσιάζουμε μία εφαρμογή Αυτόματης Αναγνώρισης Όρων που αναπτύχθηκε βασισμένη στις αρχές της C-Value. Επεκτείνοντας τον αλγόριθμο ώστε να συμπεριλαμβάνει και μονολεκτικούς όρους και με την αξιοποίηση βιβλιοθηκών της java για διαδικασίες τοκενοποίησης (tokenization), λεκτικής ανάλυσης, Part-of-Speech Tagging, stemming και κανονικοποίησης των όρων, αντιμετωπίσαμε το συντακτικό σκέλος της ανάλυσης του κειμένου. Στη συνέχεια, όσον αφορά το σημασιολογικό σκέλος, υλοποιήσαμε μία διεπαφή αντιστοίχισης συνωνύμων των ιατρικών όρων με το WordNet, η οποία στα αρχικά πειράματα κρίθηκε ανεπαρκής. Μετά από τις συντακτικές και σημασιολογικές προσεγγίσεις, προβήκαμε σε υπολογισμό του C-Value των ακολουθιών λέξεων που αντιστοιχίζονταν σε μοτίβα Part Of Speech που εισάγαμε. Αυτές οι ακολουθίες θεωρήθηκαν υποψήφιοι όροι και απέκτησαν την τιμή C-Value με βάση έναν μαθηματικό υπολογισμό που συμπεριλάμβανε τις απόλυτες και σχετικές συχνότητες των ιδίων και των υπακολουθιών τους. Τα αποτελέσματα έδειξαν ότι μία τέτοια εφαρμογή μπορεί να αποτελέσει χρήσιμο εργαλείο υποβοήθησης ενός αναλυτή, καθώς μπορεί να προτείνει με μεγάλη ακρίβεια πραγματικούς ιατρικούς όρους. Όμως, η παρακολούθηση των αποτελεσμάτων από έναν ιατρικό επιβλέποντα κρίνεται απαραίτητη, καθώς κρύβονται και ορισμένα false positives εντός των αποτελεσμάτων. Αυτά εντοπίστηκαν μέσα από την αξιολόγηση που εκτελέσαμε με μικρά datasets αλλά και με πειράματα που έγιναν με χρήση της εφαρμογής για εύρεση όρων σχετικών με το ιατρικό σύνδρομο Sjogren.en_US
dc.languageelen_US
dc.subjectΑυτόματη Αναγνώριση Όρωνen_US
dc.subjectΕπεξεργασία Κειμένουen_US
dc.subjectΙατρικά Άρθραen_US
dc.subjectΟντολογίεςen_US
dc.subjectΣύνδρομο Sjogrenen_US
dc.titleΔημιουργία Συστήματος Αυτόματης Αναγνώρισης Όρων σε Διεθνείς Δημοσιεύσεις και Κλινικές Μελέτες που αφορούν το Σύνδρομο Σιόγκρεν και αξιοποίηση του για ιατρικούς σκοπούςen_US
dc.description.pages96en_US
dc.contributor.supervisorΒαρβαρίγου Θεοδώραen_US
dc.departmentΤομέας Επικοινωνιών, Ηλεκτρονικής και Συστημάτων Πληροφορικήςen_US
Appears in Collections:Διπλωματικές Εργασίες - Theses

Files in This Item:
File Description SizeFormat 
Diplomatiki_CHRISTOS_VOUTSAS_Final_Version.pdf1.88 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.