Please use this identifier to cite or link to this item:
http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/19544
Title: | Advanced Web Scraping in the Modern Web |
Authors: | Τσεριώτης, Άδωνις Βεσκούκης Βασίλειος |
Keywords: | Web Scraping, Εξαγωγή Δεδομένων, Αντιμετώπιση Bots, Μηχανική Μάθηση για Εξαγ- ωγή Δεδομένων, Μεγάλα Γλωσσικά Μοντέλα για Εξαγωγή Δεδομένων, Τεχνητή Νοημοσύνη, No-Code Web Scraping, Προγραμματισμένη Εξαγωγή Δεδομένων, Ανίχνευση Bots, Αυτο- προσαρμοζόμενες Τεχνικές Εξαγωγής, Αντίμετρα Ανίχνευσης Scraping |
Issue Date: | 7-Mar-2025 |
Abstract: | Η παρούσα εργασία εξετάζει το web scraping, μια διαδικασία αυτοματοποιημένης εξαγωγής δεδομένων από ιστοσελίδες, εστιάζοντας στις τεχνικές, τις προκλήσεις και τις καινοτόμες λύσεις που καθορίζουν το σύγχρονο περιβάλλον συλλογής δεδομένων. Με την αυξανόμενη πολυπλοκότητα των διαδικτυακών τεχνολογιών και την εφαρμογή μηχανισμών αποτροπής αυτοματοποιημένης πρόσβασης, απαιτούνται προηγμένες στρατηγικές για την αποτελεσματική και ηθικά αποδεκτή συλλογή πληροφορίας. Η εργασία αναλύει τις θεμελιώδεις μεθόδους scraping, όπως η ανάλυση HTML μέσω HTTP αιτημάτων, η χρήση headless browsers και η αναχαίτιση δικτυακών αιτημάτων, συγ- κρίνοντας τα πλεονεκτήματα και τα μειονεκτήματά τους. Παράλληλα, εξετάζονται οι τεχνικές προστασίας των ιστοσελίδων, όπως το browser fingerprinting, η ανάλυση μοτίβων κίνησης, οι CAPTCHA προκλήσεις και η απόκρυψη δεδομένων μέσω δυναμικών αποδόσεων περιεχομέ- νου. Η εισαγωγή της τεχνητής νοημοσύνης (ΑΙ) και των μεγάλων γλωσσικών μοντέλων (LLMs) στο web scraping αποτελεί μία από τις πιο καινοτόμες προσεγγίσεις. Η χρήση μηχανικής μάθησης επιτρέπει την ανάπτυξη αυτοπροσαρμοζόμενων εξαγωγέων δεδομένων, την αυτόματη αναγνώριση δομών δεδομένων και την έξυπνη παράκαμψη ανιχνευτικών μηχανισμών. Ως πρακτική εφαρμογή, η εργασία παρουσιάζει την πλατφόρμα ”soniq”, ένα ανοιχτού κώδικα, no-code εργαλείο scraping που αξιοποιεί AI για την αυτοματοποίηση και βελτιστοποίηση της συλλογής δεδομένων. Η πλατφόρμα ενσωματώνει LLM-assisted schema inference, προ- γραμματισμένη εξαγωγή δεδομένων και προηγμένη διαχείριση proxies, επιτρέποντας στους χρήστες να πραγματοποιούν scraping χωρίς εξειδικευμένες τεχνικές γνώσεις. Η εργασία καταλήγει σε μια συζήτηση για τις μελλοντικές προοπτικές στον χώρο του web scraping, εστιάζοντας στη δημιουργία ευφυών, ανθεκτικών και ηθικά αποδεκτών scraping pipelines, τη διασύνδεση με data warehouses για προηγμένη ανάλυση δεδομένων, και τη χρήση αποκεντρωμένων αρχιτεκτονικών για μεγαλύτερη ανωνυμία και ανθεκτικότητα. Τα ευρήματα αυτής της μελέτης αναδεικνύουν τη σημασία της τεχνολογικής καινοτομίας και της δημοκρατικοποίησης της πρόσβασης στα δεδομένα, ενισχύοντας τη διαφάνεια και την αποτελεσματικότητα της συλλογής πληροφοριών στον σύγχρονο ψηφιακό κόσμο. |
URI: | http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/19544 |
Appears in Collections: | Διπλωματικές Εργασίες - Theses |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
thesis latest final.pdf | 3.51 MB | Adobe PDF | View/Open |
Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.