Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/18207
Title: Αυτόματη ταξινόμηση κειμένων με χρήση Αυτό-Οργανούμενων Χαρτών και μεθόδων Μηχανικής Μάθησης
Authors: ΓΙΑΝΝΟΠΟΥΛΟΥ, ΕΛΕΝΗ
Μήτρου Νικόλαος
Keywords: Εξαγωγή Πληροφορίας
Τεχνητή Νοημοσύνη
Στατιστική Ανάλυση Φυσικής Γλώσσας
Αλγόριθμοι Ταξινόμησης
Ταξινόμηση Πολλαπλής Ετικέτας
Αυτό-Οργανούμενοι Χάρτες
Μη εποπτευόμενη Μηχανική Μάθηση
Νευρωνικά Δίκτυα Βαθιάς Μάθησης
Εμπλουτισμός Μεταδεδομένων
Ψηφιακές Βιβλιοθήκες
Ταξινόμηση Βιβλίων
Διανυσματικοποίηση Πίνακα Περιεχομένων
Issue Date: 22-Jul-2021
Abstract: Η αύξηση του Παγκόσμιου Ιστού τόσο ως προς το πλήθος των συνδεδεμένων κόμβων, όσο και ως προς τον όγκο των πληροφοριών που περιέχει έχει οδηγήσει σε δυσκολίες αποτελεσματικής αναζήτησης και ανάκτησης πληροφοριών από τους τελικούς χρήστες. Αντίστοιχα, σε μικρότερη κλίμακα, στα πλαίσια μιας Ψηφιακής Βιβλιοθήκης ή ενός Ιδρυματικού Αποθετηρίου, η αύξηση του όγκου των πληροφοριών τείνει να μειώσει την αποτελεσματικότητα αναζήτησης. Έτσι, δημιουργήθηκε η ανάγκη για την ανάπτυξη νέων τρόπων αναπαράστασης της διαθέσιμης πληροφορίας, πρόσβασης σε αυτήν και μετατροπής της εν τέλει σε γνώση. Ως καταλληλότερη τεχνολογία για την αποτελεσματική αναζήτηση και ανάκτηση πληροφορίας από κείμενα θεωρούνται οι τεχνικές Μηχανικής Μάθησης και πιο συγκεκριμένα τεχνικές που βασίζονται στην Μη Εποπτευόμενη και Βαθιά Μηχανική Μάθηση. Οι εν λόγω τεχνικές έχουν τη δυνατότητα να ανακαλύπτουν συναφή κείμενα με αυτόματο τρόπο χρησιμοποιώντας μέτρα ομοιότητας διανυσμάτων. Ειδικότερα, οι τεχνικές Μη Εποπτευόμενης Μηχανικής Μάθησης προκρίνονται, στη συγκεκριμένη περίπτωση, έναντι των αντίστοιχων τεχνικών Εποπτευόμενης Μηχανικής Μάθησης, καθώς οι τελευταίες απαιτούν ένα εκτεταμένο, σχολαστικά επισημασμένο σύνολο δεδομένων, που συνήθως δύσκολα είναι διαθέσιμο σε πραγματικές εφαρμογές. Η παρούσα διδακτορική Διατριβή εντάσσεται στο ευρύτερο ερευνητικό πεδίο της αυτόματης Εξαγωγής Πληροφορίας από Κείμενα με χρήση τεχνικών Μηχανικής Μάθησης και πραγματεύεται ανοικτά θέματα στην περιοχή αυτή. Συγκεκριμένα, στην παρούσα Διατριβή προσεγγίζεται το δημοφιλές πρόβλημα της αυτόματης εξαγωγής πληροφορίας ταξινόμησης από κείμενα, με μεθόδους/προσεγγίσεις οι οποίες χωρίζονται αδρά σε τέσσερις βασικές κατηγορίες: α) προσεγγίσεις εξαγωγής, β) προσεγγίσεις ανάθεσης, γ) μεικτές προσεγγίσεις και δ) προσεγγίσεις πρόβλεψης. Οι μέθοδοι εξαγωγής πληροφορίας από κείμενα παρουσιάζουν μεγάλη ποικιλομορφία και εφαρμόζονται σε ένα πλήθος πεδίων με ποικίλες εφαρμογές. Αφού παρουσιαστεί, αρχικά, ένα πλήθος διαφορετικών εφαρμογών, όπου οι μέθοδοι εξαγωγής πληροφορίας έχουν υιοθετηθεί με επιτυχία, εξετάζονται τα πλεονεκτήματα που προκύπτουν από την χρήση τέτοιων μεθόδων ειδικότερα στις Ψηφιακές Βιβλιοθήκες. Στη συνέχεια προσεγγίζεται το πρόβλημα της αυτόματης ταξινόμησης ενός συνόλου δεδομένων ειδήσεων, το οποίο μοντελοποιείται ως ένα πρόβλημα ταξινόμησης πολλαπλής ετικέτας. Σε αυτή την περίπτωση χρησιμοποιείται ένα Νευρωνικό Δίκτυο Μη Εποπτευόμενης Μηχανικής Μάθησης, οι Αυτό-Οργανούμενοι Χάρτες (Self-Organized Maps – SOM), ενώ προτείνεται μια απλή, αλλά αποτελεσματική διαδικασία που αντιμετωπίζει το πρόβλημα πολλαπλής ετικέτας ως ένα πρόβλημα ταξινόμησης πολλαπλών κλάσεων. Επιπλέον, προτείνεται ένας έξυπνος αλγόριθμος για την επιλογή ετικετών, με στόχο να δείξει ότι οι γειτονικοί κόμβοι στον Χάρτη επηρεάζουν την επιλογή των ετικετών για έναν συγκεκριμένο κόμβο. Τέλος, εφαρμόζεται μια ευρετική μέθοδος για την επιλογή του μεγέθους του SOM. Η εκτεταμένη πειραματική ανάλυση που πραγματοποιήθηκε έδειξε ότι η προτεινόμενη λύση βελτιώνει την αποτελεσματικότητα της ταξινόμησης, όχι μόνο όσον αφορά στην ακρίβεια, αλλά και στους υπολογιστικούς πόρους που απαιτούνται και στο χρόνο για την εκπαίδευση του Δικτύου. Στα πλαίσια της παρούσας Διατριβής πραγματοποιείται, επίσης, μια επισκόπηση των μεθόδων ταξινόμησης πολλαπλών κλάσεων, ενώ προτείνεται μια διαδικασία για την αυτόματη ταξινόμηση ηλεκτρονικών βιβλίων εξάγοντας πληροφορία από τους πίνακες περιεχομένων των βιβλίων. Στην περίπτωση αυτή χρησιμοποιήθηκε ένα νευρωνικό δίκτυο μη εποπτευόμενης μηχανικής μάθησης (SOM) και δύο αρχιτεκτονικές Νευρωνικών Δικτύων Βαθιάς Μάθησης κάτω από διαφορετικά σενάρια διαμόρφωσης. Στόχος της διαδικασίας αυτής ήταν η μελέτη ανάπτυξης ενός συστήματος συστάσεων για την υποστήριξη φοιτητών και καθηγητών στον εντοπισμό σχετικών πηγών βάσει μιας λεπτομερούς θεματικής περιγραφής (π.χ. της περίληψης ή του πίνακα περιεχομένων ενός βιβλίου) αντί για μερικές λέξεις-κλειδιά με βάση την πειραματική ανάλυση που πραγματοποιήθηκε. Τέλος, στα πλαίσια της Διατριβής αυτής προτείνεται η δημιουργία μιας Πύλης Διασυνδεδεμένων Δεδομένων με χρήση τεχνολογιών Σημασιολογικού Ιστού, με στόχο την ενσωμάτωση των μηχανισμών αυτόματης εξαγωγής πληροφορίας ταξινόμησης και των αποτελεσμάτων αυτών και απώτερο σκοπό τον εμπλουτισμό μεταδεδομένων, έτσι ώστε να υποβοηθηθεί η αποτελεσματικότερη αναζήτηση και ανάκτηση πληροφοριών από τους τελικούς χρήστες στις συλλογές μιας Ψηφιακής Βιβλιοθήκης.
URI: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/18207
Appears in Collections:Διδακτορικές Διατριβές - Ph.D. Theses

Files in This Item:
File Description SizeFormat 
thesis-giannopoulou_final_signed_lib_ece.pdfMain File6.45 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.