Παρακαλώ χρησιμοποιήστε αυτό το αναγνωριστικό για να παραπέμψετε ή να δημιουργήσετε σύνδεσμο προς αυτό το τεκμήριο: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/19544
Τίτλος: Advanced Web Scraping in the Modern Web
Συγγραφείς: Τσεριώτης, Άδωνις
Βεσκούκης Βασίλειος
Λέξεις κλειδιά: Web Scraping, Εξαγωγή Δεδομένων, Αντιμετώπιση Bots, Μηχανική Μάθηση για Εξαγ- ωγή Δεδομένων, Μεγάλα Γλωσσικά Μοντέλα για Εξαγωγή Δεδομένων, Τεχνητή Νοημοσύνη, No-Code Web Scraping, Προγραμματισμένη Εξαγωγή Δεδομένων, Ανίχνευση Bots, Αυτο- προσαρμοζόμενες Τεχνικές Εξαγωγής, Αντίμετρα Ανίχνευσης Scraping
Ημερομηνία έκδοσης: 7-Μαρ-2025
Περίληψη: Η παρούσα εργασία εξετάζει το web scraping, μια διαδικασία αυτοματοποιημένης εξαγωγής δεδομένων από ιστοσελίδες, εστιάζοντας στις τεχνικές, τις προκλήσεις και τις καινοτόμες λύσεις που καθορίζουν το σύγχρονο περιβάλλον συλλογής δεδομένων. Με την αυξανόμενη πολυπλοκότητα των διαδικτυακών τεχνολογιών και την εφαρμογή μηχανισμών αποτροπής αυτοματοποιημένης πρόσβασης, απαιτούνται προηγμένες στρατηγικές για την αποτελεσματική και ηθικά αποδεκτή συλλογή πληροφορίας. Η εργασία αναλύει τις θεμελιώδεις μεθόδους scraping, όπως η ανάλυση HTML μέσω HTTP αιτημάτων, η χρήση headless browsers και η αναχαίτιση δικτυακών αιτημάτων, συγ- κρίνοντας τα πλεονεκτήματα και τα μειονεκτήματά τους. Παράλληλα, εξετάζονται οι τεχνικές προστασίας των ιστοσελίδων, όπως το browser fingerprinting, η ανάλυση μοτίβων κίνησης, οι CAPTCHA προκλήσεις και η απόκρυψη δεδομένων μέσω δυναμικών αποδόσεων περιεχομέ- νου. Η εισαγωγή της τεχνητής νοημοσύνης (ΑΙ) και των μεγάλων γλωσσικών μοντέλων (LLMs) στο web scraping αποτελεί μία από τις πιο καινοτόμες προσεγγίσεις. Η χρήση μηχανικής μάθησης επιτρέπει την ανάπτυξη αυτοπροσαρμοζόμενων εξαγωγέων δεδομένων, την αυτόματη αναγνώριση δομών δεδομένων και την έξυπνη παράκαμψη ανιχνευτικών μηχανισμών. Ως πρακτική εφαρμογή, η εργασία παρουσιάζει την πλατφόρμα ”soniq”, ένα ανοιχτού κώδικα, no-code εργαλείο scraping που αξιοποιεί AI για την αυτοματοποίηση και βελτιστοποίηση της συλλογής δεδομένων. Η πλατφόρμα ενσωματώνει LLM-assisted schema inference, προ- γραμματισμένη εξαγωγή δεδομένων και προηγμένη διαχείριση proxies, επιτρέποντας στους χρήστες να πραγματοποιούν scraping χωρίς εξειδικευμένες τεχνικές γνώσεις. Η εργασία καταλήγει σε μια συζήτηση για τις μελλοντικές προοπτικές στον χώρο του web scraping, εστιάζοντας στη δημιουργία ευφυών, ανθεκτικών και ηθικά αποδεκτών scraping pipelines, τη διασύνδεση με data warehouses για προηγμένη ανάλυση δεδομένων, και τη χρήση αποκεντρωμένων αρχιτεκτονικών για μεγαλύτερη ανωνυμία και ανθεκτικότητα. Τα ευρήματα αυτής της μελέτης αναδεικνύουν τη σημασία της τεχνολογικής καινοτομίας και της δημοκρατικοποίησης της πρόσβασης στα δεδομένα, ενισχύοντας τη διαφάνεια και την αποτελεσματικότητα της συλλογής πληροφοριών στον σύγχρονο ψηφιακό κόσμο.
URI: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/19544
Εμφανίζεται στις συλλογές:Διπλωματικές Εργασίες - Theses

Αρχεία σε αυτό το τεκμήριο:
Αρχείο Περιγραφή ΜέγεθοςΜορφότυπος 
thesis latest final.pdf3.51 MBAdobe PDFΕμφάνιση/Άνοιγμα


Όλα τα τεκμήρια του δικτυακού τόπου προστατεύονται από πνευματικά δικαιώματα.