Παρακαλώ χρησιμοποιήστε αυτό το αναγνωριστικό για να παραπέμψετε ή να δημιουργήσετε σύνδεσμο προς αυτό το τεκμήριο: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/17888
Τίτλος: Focused Crawling Ethnopharmacological References with Active and Reinforcement Learning
Συγγραφείς: Κοντογιάννης, Ανδρέας
Ποταμιάνος Αλέξανδρος
Λέξεις κλειδιά: Εστιασμένη ∆ιαδικτυακή Ανίχνευση, Ενισχυτική Μάθηση, Ενεργός Μάθηση, Επιβλεπόμενη Μάθηση, Βαθιά Μάθηση, Deep Q-learning, Double Deep Q-learning, Αναδρομικά Νευρωνικά ∆ίκτυα, Πολυεπίπεδα Perceptron, Μηχανές ∆ιανυσμάτων Υποστήριξης, Συμφωνία Επισημειωτών, Επιλογή Καλύτερου Μοντέλου, word2vec
Ημερομηνία έκδοσης: 12-Μαρ-2021
Περίληψη: Η Εθνοφαρμακολογία είναι η επιστημονική μελέτη της χρήσης φυτικών φαρμάκων από εθνικές ομάδες. Ούσα κλάδος της παραδοσιακής ιατρικής, θεωρείται ευρέως ως μία εναλλακτική μέθοδος για συμπληρωματική θεραπεία ασθενειών ακόμα και στους γνωστούς ιατρικούς κλάδους του δυτικού κόσμου. Ωστόσο, η αναζήτηση και η τεκμηρίωση - από τους ίδιους τους επιστήμονες - της τοπικής γνώσης για συγκεκριμένες ιδιότητες των φυτών καθίσταται αρκετά δύσκολη, δεδομένου του όγκου της πληροφορίας που μοιράζεται στην επιστημονική βιβλιογραφία. Απαίτηση της επιστημονικής έρευνας είναι να μπορεί κάποιος να αναζητά αποδοτικά κείμενα σχετικά με το αντικείμενό του. Τέτοιου είδους προβλήματα μπορούν να αντιμετωπιστούν ως προβλήματα εστιασμένης αναζήτησης στο ∆ιαδίκτυο. Για την υποστήριξη των ειδικών προτείνουμε την αξιοποίηση ευφυών συστημάτων εστιασμένης αναζήτησης, γνωστά ως focused crawlers. ́Ενα τέτοιο σύστημα λαμβάνει ως είσοδο μερικά αρχικά κείμενα URLs ή/και ορισμένες λέξεις-κλειδιά, τα οποία είναι όλα σχετικά με ένα προκαθορισμένο θέμα αναζήτησης. Στόχος του focused crawler είναι να ανακαλύψει και να εξάγει όσο το δυνατόν περισσότερες σχετικές ιστοσελίδες με το εν λόγω θέμα. Στην παρούσα διπλωματική εργασία, δημιουργούμε ευφυή focused crawler συστήματα, έτσι ώστε αυτά να αποτελέσουν υποστηρικτικά εργαλεία για την βιβλιογραφική εθνοφαρμακολογική αναζήτηση. Προτείνουμε το Πρότυπο Ερευνητή-Μαθητή στη Μηχανική Μάθηση, μέσα από το οποίο αναπτύσσουμε έναν focused crawler δύο σταδίων. Στο πρώτο στάδιο, συνιστούμε τη χρήση Ενεργού Μάθησης· το σύστημα εκπαιδεύεται, ωστε να αναγνωρίζει εάν ένα κείμενο είναι σχετικό με το θέμα αναζήτησης, με κατάλληλη ανατροφοδότηση (feedback) από τον ερευνητή. Στο δεύτερο στάδιο, προτείνουμε τη χρήση Ενισχυτικής Μάθησης, θεωρώντας τον focused crawler ως έναν ευφυή πράκτορα. Ο πράκτορας εκτιμά το πόσο ωφέλιμο είναι μακροχρόνια να επισκεφτεί καθένα από τα δυνατά URLs και επιλέγει τα πιο υποσχόμενα από αυτά. Στο πλαίσιο της Ενισχυτικής Μάθησης, μοντελοποιούμε το περιβάλλον ως μία Μαρκοβίανη ∆ιαδικασία Λήψης Αποφάσεων, θεωρώντας κοινές αναπαραστάσεις ανάμεσα στις καταστάσεις και τις δράσεις του πράκτορα. Τα χαρακτηριστικά των αναπαραστάσεων αποτελούνται από τα διανύσματα λέξεων (word embeddings) των τίτλων των αναφορών, στατιστικά χαρακτηριστικά της ιστοσελίδας, λέξεις-κλειδιά ή/και εκτιμήσεις των προεκπαιδευμένων μοντέλων του πρώτου σταδίου. Επιπροσθέτως, θεωρούμε περιπτώσεις στις οποίες το μοντέλο Ενεργού Μάθησης, που εκπαιδεύτηκε στο πρώτο στάδιο, χρησιμοποιείται ως συνάρτηση επιβράδευσης. Αξιολογούμε το σύστημά μας σε δύο διαφορετικά προβλήματα αναζήτησης· ένα γενικό, βασισμένο σε αρχικά κείμενα και ένα πιο ειδικό, βασισμένο σε αρχικά κείμενα και λέξεις-κλειδιά. Συγκρίνουμε 6 διαφορετικά μοντέλα Ενεργού Μάθησης, όπως το MarginSVM και το DoubleLSTM, 3 διαφορετικές κοινές αναπαραστάσεις ανάμεσα στις καταστάσεις και τις δράσεις του πράκτορα (General/Keyword/Only NLP Representation) και 2 πράκτορες - τον Deep Q Network (DQN) και τον Double DQN (DDQN). Ο focused crawler δύο σταδίων με χρήση των πρακτόρων DQN ή/και DDQN είναι πιο αποτελεσματικός σε σχέση με επίπεδα αναφοράς, όπως το τυχαίο πιλοτικό τρέξιμο και ένας άπληστος ντετερμινιστικός focused crawler που ορίζουμε. Τέλος, συγκρίνοντας τη μέθοδό μας στο ειδικό πρόβλημα, με την εκτιμώμενη ικανότητα του εμπειρογνώμονα για αναζήτηση των αντίστοιχων κειμένων σε πραγματικό χρόνο, ξεπερνάμε κατά 5,14 φορές την αποδοτικότητα και 3,31 φορές την αποτελεσματικότητα του ερευνητή.
URI: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/17888
Εμφανίζεται στις συλλογές:Διπλωματικές Εργασίες - Theses

Αρχεία σε αυτό το τεκμήριο:
Αρχείο Περιγραφή ΜέγεθοςΜορφότυπος 
kontogiannis_andreas_thesis_2021.pdf2.76 MBAdobe PDFΕμφάνιση/Άνοιγμα


Όλα τα τεκμήρια του δικτυακού τόπου προστατεύονται από πνευματικά δικαιώματα.