Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/16037
Title: Σύστημα Δεικτοδότησης Με Δυνατότητα Ενημερώσεων Για Δεδομένα Μεγάλης Κλίμακας, Χρησιμοποιώντας Κατανεμημένες Τεχνικές Επεξεργασίας (mapreduce Και Nosql)
Authors: Παναγιώτης Αντωνόπουλος
Κοζύρης Νεκτάριος
Keywords: ανεστραμμένο ευρετήριο
κατανεμημένη
δημιουργία
ενημέρωση
αποθήκευση
νεφελώδης υπολογισμός
hadoop
mapreduce
hbase
nosql
Issue Date: 18-Jul-2011
Abstract: Με τη χρήση κατανεμημένων τεχνικών επεξεργασίας, έχουμε τη δυνατότητα να μειώσουμε σημαντικά το χρόνο δημιουργίας και ενημέρωσης των ευρετηρίων που αφορούν δεδομένα μεγάλης κλίμακας, όπως για παράδειγμα αυτά που είναι διαθέσιμα στο διαδίκτυο, εκμεταλλευόμενοι τις δυνατότητες που μας προσφέρουν οι σύγχρονες αρχιτεκτονικές υπολογιστών, όπως οι shared-nothing αρχιτεκτονικές και το Cloud. Ταυτόχρονα, με την κατανεμημένη αποθήκευση και διαχείριση των ευρετηρίων, καθίσταται εφικτή η αντιμετώπιση του αυξημένου φόρτου ερωτημάτων που έχει προκύψει ως αποτέλεσμα της εκρηκτικής αύξησης του αριθμού των χρηστών του διαδικτύου.Στην διπλωματική αυτή εργασία παρουσιάζεται μια κατανεμημένη αρχιτεκτονική για τη δημιουργία και την ενημέρωση ανεστραμμένων ευρετηρίων (inverted index) για συλλογές κειμένων μεγάλης κλίμακας. Αναλυτικότερα, παρουσιάζεται μια μεθοδολογία για την κατανεμημένη δημιουργία και, στη συνέχεια, την κατανεμημένη ενημέρωση ανεστραμμένων ευρετηρίων, η οποία καθιστά δυνατή την ενημέρωση ενός υπάρχοντος ευρετηρίου σε χρόνο πρακτικά ανεξάρτητο από το μέγεθος του, αξιοποιώντας τα ιδιαίτερα χαρακτηριστικά των NoSQL βάσεων δεδομένων. Ακόμα, προτείνεται ένας αλγόριθμος σύγκρισης μεταξύ των παλαιών και νέων εκδόσεων των τροποποιημένων κειμένων, ο οποίος ελαχιστοποιεί τις τροποποιήσεις που πρέπει να πραγματοποιηθούν στο ευρετήριο, επιταχύνοντας έτσι σημαντικά τη διαδικασία ενημέρωσης. Με τη χρήση των μεθόδων αυτών, καθίσταται εφικτή η ταχύτερη και συχνότερη ενημέρωση ανεστραμμένων ευρετηρίων που έχουν δημιουργηθεί από μεγάλες συλλογές κειμένων, με στόχο την επιστροφή ενημερωμένων αποτελεσμάτων στους τελικούς χρήστες.Για την αποδοτικότερη εκτέλεση των διαδικασιών δημιουργίας και ενημέρωσης του ευρετηρίου, προτείνεται η χρήση του Hadoop MapReduce, το οποίο αποτελεί μια υλοποίηση ανοικτού λογισμικού του MapReduce framework και είναι κατάλληλο για την κατανεμημένη επεξεργασία μεγάλου όγκου δεδομένων. Επιπρόσθετα, για την ταχύτερη επεξεργασία του μεγάλου φόρτου ερωτημάτων των χρηστών, προτείνεται η αποθήκευση του ευρετηρίου στην HBase, η οποία αποτελεί μια κατανεμημένη, NoSQL βάση δεδομένων που καθιστά δυνατή την αποθήκευση μεγάλου όγκου δεδομένων και την κατανομή του φορτίου ερωτημάτων στους κόμβους του συστήματος.
URI: http://artemis-new.cslab.ece.ntua.gr:8080/jspui/handle/123456789/16037
Appears in Collections:Διπλωματικές Εργασίες - Theses

Files in This Item:
File SizeFormat 
DT2011-0138.pdf1.67 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.