Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/8517
Full metadata record
DC FieldValueLanguage
dc.contributor.authorΠαρασκευάς Λεκέας
dc.date.accessioned2018-07-22T22:36:45Z-
dc.date.available2018-07-22T22:36:45Z-
dc.date.issued2004-1-20
dc.date.submitted2004-12-12
dc.identifier.urihttp://artemis-new.cslab.ece.ntua.gr:8080/jspui/handle/123456789/8517-
dc.description.abstractΟ παγκόσμιος ιστός (web) και η τεχνολογική του πλατφόρμα, το διαδίκτυο (Internet), είναι δύο μεγάλα και πολύπλοκα δίκτυα τα οποία δεν μπορούν να μελετηθούν με άλλο τρόπο παρά μόνο με παρατηρήσεις και μετρήσεις. Για το λόγο αυτό υπάρχει ανάγκη εύρεσης μεθόδων εξαγωγής στατιστικών δειγμάτων από τα πολύπλοκα αυτά δίκτυα (κεφάλαιο 1).Δύο μέθοδοι κυρίως υπάρχουν για εξαγωγή δειγμάτων. Η πρώτη μέθοδος ονομάζεται δειγματοληψία με random walk και βασίζεται στην έννοια των τυχαίων περιπάτων (random walk). Αυτή η μέθοδος, χρησιμοποιώντας τη συνεκτικότητα του web γράφου, κατασκευάζει σχεδόν ομοιόμορφα και τυχαία δείγματά του βάσει της κατανομής ισορροπίας του περιπάτου. Η δεύτερη μέθοδος, η οποία είναι και το κύριο αντικείμενο της διατριβής, ονομάζεται δειγματοληψία με IP (IP sampling) και σύμφωνα με αυτήν ένα δείγμα του web προκύπτει εάν πάρουμε ένα δείγμα από IP διευθύνσεις και κρατήσουμε όσες από αυτές ανήκουν σε web hosts (κεφάλαιο 2).Συνήθως η δειγματοληψία με IP εφαρμόζεται σε όλο το χώρο διευθύνσεων του Internet (IPv4 - Internet Protocol version 4), οπότε και προκύπτει ένα αντιπροσωπευτικό δείγμα του. Σε αυτή τη διατριβή εφαρμόσαμε την πιο πάνω μέθοδο για συγκεκριμένα domains του Internet (π.χ. .gr, .uk) συμβουλευόμενοι τις βάσεις δεδομένων των ηπειρωτικών ληξίαρχων (RIR - Regional Internet Registries) που είναι υπεύθυνοι για το Ιnternet των αντίστοιχων γεωγραφικών περιοχών. Για το σκοπό αυτό υλοποιήσαμε ένα δειγματολήπτη ο οποίος παίρνει σαν είσοδο το "χάρτη" με τις IP διευθύνσεις στις οποίες θέλουμε να κάνουμε δειγματοληψία, επιλέγει το δείγμα των IP διευθύνσεων και το "φιλτράρει" κρατώντας μόνο τις web σελίδες. Δοκιμάσαμε το δειγματολήπτη σε διάφορα domains και είδαμε ότι είναι αρκετά αξιόπιστος, π.χ. κάνοντας δειγματοληψία στο .gr υπολογίσαμε το μέγεθος του ελληνικού web και το βρήκαμε σε συμφωνία με τρίτες πηγές (κεφάλαιο 3).Στη συνέχεια χρησιμοποιήθηκε ο δειγματολήπτης για εξαγωγή δειγμάτων και επεξεργασία τους. Έτσι, έγινε δειγματοληψία στο .uk και από το δείγμα αποδείχθηκε ότι ο τρόπος γραφής των hostname συνδέεται με αναπαράσταση χωρικής και χρονικής πληροφορίας. Συγκεκριμένα υπολογίστηκε η γεωγραφική κατανομή της υποδομής, η κατανομή της κυκλοφορίας Internet και ο ρυθμός ανάπτυξης διαφόρων ISPs (Internet Service Providers) που δραστηριοποιούντο στην περιοχή της δειγματοληψίας από δείγματα hostname (κεφάλαιο 4).Δοκιμάστηκε, επίσης, ο δειγματολήπτης έτσι ώστε να μην εξάγει δείγματα από τους IP χάρτες αλλά να τους διατρέχει εξαντλητικά. Η πιο πάνω δοκιμή έγινε στο .jo domain όπου και υπολογίστηκε ο αριθμός των web server του. Τέλος, ο δειγματολήπτης χρησιμοποιήθηκε σαν crawler διατρέχοντας ολόκληρα web site και επαληθεύοντας κατανομές power law για τους out-degree αυτών (κεφάλαιο 5).
dc.languageGreek
dc.subjectδειγματοληψία παγκόσμιου ιστού
dc.subjectδειγματοληψία ίντερνετ
dc.titleΜία Μέθοδος Δειγματοληψίας Με Διευθύνσεις Πρωτοκόλλου Ίντερνετ Για Την Εξόρυξη Δεδομένων Από Τον Παγκόσμιο Ιστό Και Το Διαδίκτυο
dc.typePhD Thesis
dc.description.pages105
dc.organizationΕΜΠ, Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών
dc.description.notesΣας παρακαλώ, όπως σας είπα και στο email, εκδόστε μου μία νέα βεβαίωση και ακυρώστε την παλαιά. Επίσης ακυρώστε το λινκ http://artemis.cslab.ntua.gr:80/Dienst/UI/1.0/Display/artemis.ntua.ece/PD2004-0001 με το παλιό αρχείο.
Appears in Collections:Διδακτορικές Διατριβές - Ph.D. Theses

Files in This Item:
File SizeFormat 
PD2004-0001.pdf2.66 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.