Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/19544
Full metadata record
DC FieldValueLanguage
dc.contributor.authorΤσεριώτης, Άδωνις-
dc.date.accessioned2025-03-15T16:47:02Z-
dc.date.available2025-03-15T16:47:02Z-
dc.date.issued2025-03-07-
dc.identifier.urihttp://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/19544-
dc.description.abstractΗ παρούσα εργασία εξετάζει το web scraping, μια διαδικασία αυτοματοποιημένης εξαγωγής δεδομένων από ιστοσελίδες, εστιάζοντας στις τεχνικές, τις προκλήσεις και τις καινοτόμες λύσεις που καθορίζουν το σύγχρονο περιβάλλον συλλογής δεδομένων. Με την αυξανόμενη πολυπλοκότητα των διαδικτυακών τεχνολογιών και την εφαρμογή μηχανισμών αποτροπής αυτοματοποιημένης πρόσβασης, απαιτούνται προηγμένες στρατηγικές για την αποτελεσματική και ηθικά αποδεκτή συλλογή πληροφορίας. Η εργασία αναλύει τις θεμελιώδεις μεθόδους scraping, όπως η ανάλυση HTML μέσω HTTP αιτημάτων, η χρήση headless browsers και η αναχαίτιση δικτυακών αιτημάτων, συγ- κρίνοντας τα πλεονεκτήματα και τα μειονεκτήματά τους. Παράλληλα, εξετάζονται οι τεχνικές προστασίας των ιστοσελίδων, όπως το browser fingerprinting, η ανάλυση μοτίβων κίνησης, οι CAPTCHA προκλήσεις και η απόκρυψη δεδομένων μέσω δυναμικών αποδόσεων περιεχομέ- νου. Η εισαγωγή της τεχνητής νοημοσύνης (ΑΙ) και των μεγάλων γλωσσικών μοντέλων (LLMs) στο web scraping αποτελεί μία από τις πιο καινοτόμες προσεγγίσεις. Η χρήση μηχανικής μάθησης επιτρέπει την ανάπτυξη αυτοπροσαρμοζόμενων εξαγωγέων δεδομένων, την αυτόματη αναγνώριση δομών δεδομένων και την έξυπνη παράκαμψη ανιχνευτικών μηχανισμών. Ως πρακτική εφαρμογή, η εργασία παρουσιάζει την πλατφόρμα ”soniq”, ένα ανοιχτού κώδικα, no-code εργαλείο scraping που αξιοποιεί AI για την αυτοματοποίηση και βελτιστοποίηση της συλλογής δεδομένων. Η πλατφόρμα ενσωματώνει LLM-assisted schema inference, προ- γραμματισμένη εξαγωγή δεδομένων και προηγμένη διαχείριση proxies, επιτρέποντας στους χρήστες να πραγματοποιούν scraping χωρίς εξειδικευμένες τεχνικές γνώσεις. Η εργασία καταλήγει σε μια συζήτηση για τις μελλοντικές προοπτικές στον χώρο του web scraping, εστιάζοντας στη δημιουργία ευφυών, ανθεκτικών και ηθικά αποδεκτών scraping pipelines, τη διασύνδεση με data warehouses για προηγμένη ανάλυση δεδομένων, και τη χρήση αποκεντρωμένων αρχιτεκτονικών για μεγαλύτερη ανωνυμία και ανθεκτικότητα. Τα ευρήματα αυτής της μελέτης αναδεικνύουν τη σημασία της τεχνολογικής καινοτομίας και της δημοκρατικοποίησης της πρόσβασης στα δεδομένα, ενισχύοντας τη διαφάνεια και την αποτελεσματικότητα της συλλογής πληροφοριών στον σύγχρονο ψηφιακό κόσμο.en_US
dc.languageenen_US
dc.subjectWeb Scraping, Εξαγωγή Δεδομένων, Αντιμετώπιση Bots, Μηχανική Μάθηση για Εξαγ- ωγή Δεδομένων, Μεγάλα Γλωσσικά Μοντέλα για Εξαγωγή Δεδομένων, Τεχνητή Νοημοσύνη, No-Code Web Scraping, Προγραμματισμένη Εξαγωγή Δεδομένων, Ανίχνευση Bots, Αυτο- προσαρμοζόμενες Τεχνικές Εξαγωγής, Αντίμετρα Ανίχνευσης Scrapingen_US
dc.titleAdvanced Web Scraping in the Modern Weben_US
dc.description.pages114en_US
dc.contributor.supervisorΒεσκούκης Βασίλειοςen_US
dc.departmentΤομέας Τεχνολογίας Πληροφορικής και Υπολογιστώνen_US
Appears in Collections:Διπλωματικές Εργασίες - Theses

Files in This Item:
File Description SizeFormat 
thesis latest final.pdf3.51 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.