Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/17888
Title: Focused Crawling Ethnopharmacological References with Active and Reinforcement Learning
Authors: Κοντογιάννης, Ανδρέας
Ποταμιάνος Αλέξανδρος
Keywords: Εστιασμένη ∆ιαδικτυακή Ανίχνευση, Ενισχυτική Μάθηση, Ενεργός Μάθηση, Επιβλεπόμενη Μάθηση, Βαθιά Μάθηση, Deep Q-learning, Double Deep Q-learning, Αναδρομικά Νευρωνικά ∆ίκτυα, Πολυεπίπεδα Perceptron, Μηχανές ∆ιανυσμάτων Υποστήριξης, Συμφωνία Επισημειωτών, Επιλογή Καλύτερου Μοντέλου, word2vec
Issue Date: 12-Mar-2021
Abstract: Η Εθνοφαρμακολογία είναι η επιστημονική μελέτη της χρήσης φυτικών φαρμάκων από εθνικές ομάδες. Ούσα κλάδος της παραδοσιακής ιατρικής, θεωρείται ευρέως ως μία εναλλακτική μέθοδος για συμπληρωματική θεραπεία ασθενειών ακόμα και στους γνωστούς ιατρικούς κλάδους του δυτικού κόσμου. Ωστόσο, η αναζήτηση και η τεκμηρίωση - από τους ίδιους τους επιστήμονες - της τοπικής γνώσης για συγκεκριμένες ιδιότητες των φυτών καθίσταται αρκετά δύσκολη, δεδομένου του όγκου της πληροφορίας που μοιράζεται στην επιστημονική βιβλιογραφία. Απαίτηση της επιστημονικής έρευνας είναι να μπορεί κάποιος να αναζητά αποδοτικά κείμενα σχετικά με το αντικείμενό του. Τέτοιου είδους προβλήματα μπορούν να αντιμετωπιστούν ως προβλήματα εστιασμένης αναζήτησης στο ∆ιαδίκτυο. Για την υποστήριξη των ειδικών προτείνουμε την αξιοποίηση ευφυών συστημάτων εστιασμένης αναζήτησης, γνωστά ως focused crawlers. ́Ενα τέτοιο σύστημα λαμβάνει ως είσοδο μερικά αρχικά κείμενα URLs ή/και ορισμένες λέξεις-κλειδιά, τα οποία είναι όλα σχετικά με ένα προκαθορισμένο θέμα αναζήτησης. Στόχος του focused crawler είναι να ανακαλύψει και να εξάγει όσο το δυνατόν περισσότερες σχετικές ιστοσελίδες με το εν λόγω θέμα. Στην παρούσα διπλωματική εργασία, δημιουργούμε ευφυή focused crawler συστήματα, έτσι ώστε αυτά να αποτελέσουν υποστηρικτικά εργαλεία για την βιβλιογραφική εθνοφαρμακολογική αναζήτηση. Προτείνουμε το Πρότυπο Ερευνητή-Μαθητή στη Μηχανική Μάθηση, μέσα από το οποίο αναπτύσσουμε έναν focused crawler δύο σταδίων. Στο πρώτο στάδιο, συνιστούμε τη χρήση Ενεργού Μάθησης· το σύστημα εκπαιδεύεται, ωστε να αναγνωρίζει εάν ένα κείμενο είναι σχετικό με το θέμα αναζήτησης, με κατάλληλη ανατροφοδότηση (feedback) από τον ερευνητή. Στο δεύτερο στάδιο, προτείνουμε τη χρήση Ενισχυτικής Μάθησης, θεωρώντας τον focused crawler ως έναν ευφυή πράκτορα. Ο πράκτορας εκτιμά το πόσο ωφέλιμο είναι μακροχρόνια να επισκεφτεί καθένα από τα δυνατά URLs και επιλέγει τα πιο υποσχόμενα από αυτά. Στο πλαίσιο της Ενισχυτικής Μάθησης, μοντελοποιούμε το περιβάλλον ως μία Μαρκοβίανη ∆ιαδικασία Λήψης Αποφάσεων, θεωρώντας κοινές αναπαραστάσεις ανάμεσα στις καταστάσεις και τις δράσεις του πράκτορα. Τα χαρακτηριστικά των αναπαραστάσεων αποτελούνται από τα διανύσματα λέξεων (word embeddings) των τίτλων των αναφορών, στατιστικά χαρακτηριστικά της ιστοσελίδας, λέξεις-κλειδιά ή/και εκτιμήσεις των προεκπαιδευμένων μοντέλων του πρώτου σταδίου. Επιπροσθέτως, θεωρούμε περιπτώσεις στις οποίες το μοντέλο Ενεργού Μάθησης, που εκπαιδεύτηκε στο πρώτο στάδιο, χρησιμοποιείται ως συνάρτηση επιβράδευσης. Αξιολογούμε το σύστημά μας σε δύο διαφορετικά προβλήματα αναζήτησης· ένα γενικό, βασισμένο σε αρχικά κείμενα και ένα πιο ειδικό, βασισμένο σε αρχικά κείμενα και λέξεις-κλειδιά. Συγκρίνουμε 6 διαφορετικά μοντέλα Ενεργού Μάθησης, όπως το MarginSVM και το DoubleLSTM, 3 διαφορετικές κοινές αναπαραστάσεις ανάμεσα στις καταστάσεις και τις δράσεις του πράκτορα (General/Keyword/Only NLP Representation) και 2 πράκτορες - τον Deep Q Network (DQN) και τον Double DQN (DDQN). Ο focused crawler δύο σταδίων με χρήση των πρακτόρων DQN ή/και DDQN είναι πιο αποτελεσματικός σε σχέση με επίπεδα αναφοράς, όπως το τυχαίο πιλοτικό τρέξιμο και ένας άπληστος ντετερμινιστικός focused crawler που ορίζουμε. Τέλος, συγκρίνοντας τη μέθοδό μας στο ειδικό πρόβλημα, με την εκτιμώμενη ικανότητα του εμπειρογνώμονα για αναζήτηση των αντίστοιχων κειμένων σε πραγματικό χρόνο, ξεπερνάμε κατά 5,14 φορές την αποδοτικότητα και 3,31 φορές την αποτελεσματικότητα του ερευνητή.
URI: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/17888
Appears in Collections:Διπλωματικές Εργασίες - Theses

Files in This Item:
File Description SizeFormat 
kontogiannis_andreas_thesis_2021.pdf2.76 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.