Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/9019
Title: Διαχείριση Πληροφορίας Και Κατηγοριοποίηση Διεπαφών Αναζήτησης Στον Παγκόσμιο Ιστό Με Αλγόριθμους Εμπνευσμένους Από Τη Φύση Και Τεχνικές Μηχανικής Μάθησης Για Μεγάλα Δεδομένα
Authors: Βασίλειος Γ. Κόλιας
Καγιάφας Ελευθέριος
Keywords: κρυμμένος παγκόσμιος ιστός
επαγωγή κανόνων
απεικόνιση/μείωση
αναζήτηση στον παγκόσμιο ιστό
αποικία μυρμηγκιών
Issue Date: 3-Mar-2016
Abstract: Ένα μεγάλο ποσοστό του περιεχομένου στον Παγκόσμιο Ιστό είναι μη διαθέσιμο στους χρήστες των παραδοσιακών μηχανών αναζήτησης εξαιτίας της αδυναμίας προσπέλασής του από τα προγράμματα προσκομιδής περιεχομένου τους. Το φαινόμενο αυτό οφείλεται στο γεγονός ότι το περιεχόμενο αυτό παράγεται δυναμικά και μόνο σαν αποτέλεσμα της υποβολής ερωτημάτων σε φόρμες αναζήτησης. Η αναγνώριση των διεπαφών αυτών αποτελεί το πρώτο βήμα για την αυτοματοποιημένη προσπέλαση περιεχομένου σε αυτό το κομμάτι του Παγκόσμιου Ιστού που είναι γνωστό ως Κρυμμένος Παγκόσμιος Ιστός. Σε αυτή τη διατριβή, αρχικά παρουσιάζεται το εν λόγω ερευνητικό πεδίο. Στη συνέχεια γίνεται ανάλυση ενός συνόλου ιστοσελίδων μεγάλης κλίμακας, με στόχο την εξαγωγή χρήσιμων συμπερασμάτων για τις διεπαφές που περιέχονται στο σύνολο αυτό. Ταυτόχρονα, με βάση αυτό το σύνολο ιστοσελίδων κατασκευάστηκε ένα σύνολο εκπαίδευσης για την επαγωγή κανόνων κατηγοριοποίησης για την αυτοματοποιημένη αναγνώριση διεπαφών αναζήτησης. Η επαγωγή κανόνων κατηγοριοποίησης είναι μια από τις παλιότερες τεχνικές μηχανικής μάθησης και έχει εφαρμοστεί επιτυχώς σε πολλαπλά προβλήματα. Το κύριο πλεονέκτημά της είναι η απλότητα του παραγόμενου μοντέλου κατηγοριοποίησης και η ευκολία ανάγνωσης και ερμηνείας του από τον ανθρώπινο παράγοντα. Μια από τις συνεισφορές της διατριβής αυτής είναι μια πρωτότυπη κατανεμημένη τεχνική επαγωγής κανόνων κατηγοριοποίησης βασισμένη στο μοντέλο Απεικόνισης/Μείωσης. Σαν πρώτο βήμα η προσέγγιση μετατρέπει τα δεδομένα εκπαίδευσης από συνεχή σε διακριτά και στη συνέχεια αναζητά εξαντλητικά το χώρο των πιθανών κανόνων για την εύρεση του καλύτερου, βασισμένη σε ένα προκαθορισμένο κριτήριο αξιολόγησης. Οι κανόνες που παράγονται από το παραπάνω σύνολο, χρησιμοποιούνται για την κατηγοριοποίηση διεπαφών αναζήτησης στον Παγκόσμιο Ιστό ως προς τη λειτουργία τους. Τέλος παρουσιάζεται ένας πρωτότυπος αλγόριθμος εμπνευσμένος από φυσικές διεργασίες για την αναζήτηση πληροφορίας στον Παγκόσμιο Ιστό. Ο αλγόριθμος αυτός έχει τη δυνατότητα να εντοπίζει συναφείς πληροφοριακές μονάδες δρομολογώντας την αναζήτηση πληροφορίας μέσα στο δυναμικό περιβάλλον του Παγκόσμιου Ιστού. Η δρομολόγηση της αναζήτησης, πραγματοποιείται στοχαστικά συνδυάζοντας τεχνικές ανάκτησης που βασίζονται στην ομοιότητα εγγράφων και τεχνικών προσομοίωσης του τρόπου επικοινωνίας των μυρμηγκιών. Ο προτεινόμενος αλγόριθμος σε συνδυασμό με τους κανόνες κατηγοριοποίησης που παράγονται από την προηγούμενη προσέγγιση, μπορεί να εντοπίσει θεματικά συναφείς διεπαφές αναζήτησης στον Παγκόσμιο Ιστό για τη διευκόλυνση της αναζήτησης πληροφορίας στον Κρυμμένο Ιστό.
URI: http://artemis-new.cslab.ece.ntua.gr:8080/jspui/handle/123456789/9019
Appears in Collections:Διδακτορικές Διατριβές - Ph.D. Theses

Files in This Item:
File SizeFormat 
PD2016-0005.pdf2.73 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.