Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/19216
Title: Πρόβλεψη χρονοσειρών με χρήση περιγραφικών συμμεταβλητών και τεχνικών επεξεργασίας φυσικής γλώσσας
Authors: Στεργιόπουλος, Αναστάσιος
Ασημακόπουλος Βασίλειος
Keywords: Χρονοσειρές
Πρόβλεψη
Επεξεργασία Φυσικής Γλώσσας
Multimodal Learning
Foundation Models
LLMs
Ταξινόμηση
Συσταδοποίηση
Βαθιά Νευρωνικά Δίκτυα
Issue Date: 16-Jul-2024
Abstract: Η τρίτη βιομηχανική επανάσταση σηματοδότησε τη μετάβαση της ανθρωπότητας στην εποχή της πληροφορίας που χαρακτηρίζεται από την αφθονία των δεδομένων. Τα τελευταία χρόνια, η πρόοδος των υπολογιστικών συστημάτων οδηγεί στην ευδοκίμηση της τεχνητής νοημοσύνης και μία νέα εποχή η οποία χαρακτηρίζεται ως τέταρτη βιομηχανική επανάσταση. Στον τομέα της πρόβλεψης χρονοσειρών, η μηχανική μάθηση κέρδισε έδαφος έναντι των παραδοσιακών κλασικών στατιστικών μεθόδων. Στους διαγωνισμούς πρόβλεψης Μ4 και Μ5, ηγούνται μοντέλα που χρησιμοποιούν τεχνικές μηχανικής μάθησης. Στον πρώτο, πρόκειται για συνδυασμούς μοντέλων μηχανικής μάθησης με κλασικές στατιστικές μεθόδους, ενώ στο δεύτερο, οι προσεγγίσεις με κορυφαίες επιδόσεις αποτελούνταν αποκλειστικά από τεχνικές μηχανικής μάθησης, ξεχωρίζοντας κάποια μοντέλα βασισμένα στα δέντρα αποφάσεων. Στη συνέχεια, ο διαγωνισμός πρόβλεψης M6 που ολοκληρώθηκε το 2023, ανέδειξε επίσης την αποτελεσματικότητα των γενικευμένων νευρωνικών δικτύων στην πρόβλεψη χρονοσειρών. Ένα από τα βέλτιστα μοντέλα του διαγωνισμού, εκπαιδεύτηκε σε περισσότερες από τις ζητούμενες χρονοσειρές, χρησιμοποιώντας κάποιες επιπλέον με παρόμοιες συμπεριφορές, που συνεισέφεραν στη βελτίωση της πρόβλεψης. Παρατηρώντας την τάση αυτή, και δεδομένου του αυξανόμενου όγκου με τον οποίο εκπαιδεύονται τα μοντέλα πρόβλεψης, δημιουργείται μία ανάγκη μετάβασης σε γενικευμένα θεμελιώδη μοντέλα (foundation models), τα οποία προεκπαιδεύονται με μεγάλο όγκο δεδομένων και στη συνέχεια μπορούν να μετεκπαιδευτούν με σκοπό τη γρήγορη εξειδίκευσή τους σε κάποιο ειδικό τομέα. Στην παρούσα διπλωματική εργασία εξετάζεται η συνεισφορά των συμμεταβλητών όπως οι λεκτικές περιγραφές και τα ποιοτικά χαρακτηριστικά των χρονοσειρών, στην αποτελεσματικότητα ενός γενικευμένου μοντέλου πρόβλεψης. Αναπτύσσεται μία πειραματική διαδικασία η οποία περιλαμβάνει την ερμηνεία των λεκτικών περιγραφών που συνοδεύουν ένα μεγάλο όγκο χρονοσειρών με τεχνικές επεξεργασίας φυσικής γλώσσας. Συγκεκριμένα, υλοποιούνται μοντέλα παραγωγής διανυσμάτων προτάσεων με χρήση προεκπαιδευμένων θεμελιωδών γλωσσικών μοντέλων όπως τα μοντέλα BERT και GPT-2, καθώς και προγενέστερων μοντέλων ερμηνείας της φυσικής γλώσσας όπως τα Word2Vec και Doc2Vec. Στη συνέχεια, τα διανύσματα αυτά χρησιμοποιούνται για την ταξινόμηση των χρονοσειρών με τους αλγόριθμους k-NN και Random Forest. Επιπλέον εξετάζονται τεχνικές συσταδοποίησης όπως οι αλγόριθμοι k-Means, Agglomerative Hierarchical και DBSCAN, για την αντιστοίχιση κάθε χρονοσειράς σε με μία συστάδα, με βάση την περιγραφή της. Για την πρόβλεψη, σχεδιάζονται κάποια βαθιά νευρωνικά δίκτυα παράλληλης εισόδου. Τα αποτελέσματα δείχνουν πως παράγονται αντιπροσωπευτικά διανύσματα και συστάδες προτάσεων για τις περιγραφές. Επιπλέον, χρησιμοποιώντας πολυεπίπεδα νευρωνικά δίκτυα παράλληλης εισόδου των χρονοσειρών και των περιγραφών, το γενικευμένο μοντέλο παράγει πιο ακριβείς προβλέψεις από το μοντέλο αναφοράς.
URI: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/19216
Appears in Collections:Διπλωματικές Εργασίες - Theses

Files in This Item:
File Description SizeFormat 
Thesis Stergiopoulos.pdf4.86 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.