Παρακαλώ χρησιμοποιήστε αυτό το αναγνωριστικό για να παραπέμψετε ή να δημιουργήσετε σύνδεσμο προς αυτό το τεκμήριο: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/19814
Τίτλος: Embedding-Based Variants of Deep Generative Models
Συγγραφείς: Κουτεντάκης, Σταύρος
Τσανάκας Παναγιώτης
Λέξεις κλειδιά: Δημιουργία Συνθετικών Δεδομένων
Μοντελοποίηση Δεδομένων Πίνακα
Παραγωγικά Ανταγωνιστικά Δίκτυα
Εναλλασσόμενοι Αυτόματοι Κωδικοποιητές
Μοντέλα Διάχυσης
Ενσωματώσεις Δεδομένων
Ημερομηνία έκδοσης: 19-Σεπ-2025
Περίληψη: Τα παραγωγικά μοντέλα Μηχανικής Μάθησης (ΜΜ), όπως τα Παραγωγικά Ανταγωνιστικά Δίκτυα (GAN), οι Εναλλασσόμενοι Αυτόματοι Κωδικοποιητές (VAE) και τα μοντέλα διάχυσης (Diffusion Models), έχουν επιτύχει αξιοσημείωτα αποτελέσματα στο πεδίο των εικόνων. Ωστόσο, η απόδοση τους σε δεδομένα πίνακα, ειδικά σε σύνολα δεδομένων με πολλές κατηγορικές κολώνες, δεν παρουσιάζει ιδανικά αποτελέσματα. Η αυξανόμενη ζήτηση για υψηλής ποιότητας δεδομένα, τα οποία αποκρύπτουν και ιδιωτικές πληροφορίες των δειγμάτων, έχει τονίσει την ανάγκη για βελτίωση σε αυτόν τον τομέα. Μία σημαντική πρόκληση που ενέχει αυτός ο σκοπός είναι η αναπαράσταση των κατηγορικών μεταβλητών, οι οποίες συνήθως κωδικοποιούνται με τη μέθοδο one-hot, από την οποία προκύπτουν αραιές αναπαραστάσεις που δεν περιέχουν χρήσιμη πληροφορία και μπορούν να κάνουν τη μοντελοποίηση ασταθή και δύσκολη. Στην παρούσα διπλωματική εργασία, αντιμετωπίζουμε αυτές τις προκλήσεις με τη χρήση πυκνών ενσωματώσεων (embeddings) ως εναλλακτική αναπαράσταση των κατηγορικών χαρακτηριστικών στην παραγωγική μοντελοποίηση. Κατασκευάζουμε ένα ειδικά σχεδιασμένο μοντέλο ενσωμάτωσης, εμπνευσμένο από την αρχιτεκτονική skip-gram και προσαρμοσμένο σε δεδομένα πίνακα, για να μάθει τις διανυσματικές αναπαραστάσεις των κατηγορικών τιμών βασισμένο στη συνύπαρξή τους ή μη. Εφαρμόζουμε τις παραγόμενες ενσωματώσεις στη συνέχεια σε τρία παραγωγικά μοντέλα και κατασκευάζουμε τις καινοτόμες αρχιτεκτονικές των eGAN, eVAE και eDDPM. Η αξιολόγησή τους γίνεται τόσο σε μικτά δεδομένα όσο και σε αποκλειστικά κατηγορικά σύνολα αντλούμενα από τα σύνολα δεδομένων Adult Income και Mushroom. Τα συνθετικά σύνολα δεδομένων που δημιουργούνται από όλα τα μοντέλα αξιολογούνται με βάση μετρήσεις που λαμβάνουν υπόψη την πιστότητα και την ιδιωτικότητα. Τα μοντέλα ενισχυμένα με ενσωμάτωση επιδεικνύουν ανταγωνιστική απόδοση, ιδιαίτερα στην κατανόηση των εξαρτήσεων μεταξύ των κατηγορικών κολώνων και στην αντιμετώπιση προκλήσεων που ενέχει η παραγωγή διακριτών δεδομένων. Αυτή η διπλωματική εργασία αναδεικνύει τις προοπτικές των αναπαραστάσεων ενσωμάτωσης προς βελτίωση των παραγωγικών μοντέλων για διακριτά δεδομένα καθώς και τον πιο αποδοτικό και φυσικό χειρισμό των δεδομένων αυτών.
URI: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/19814
Εμφανίζεται στις συλλογές:Διπλωματικές Εργασίες - Theses

Αρχεία σε αυτό το τεκμήριο:
Αρχείο Περιγραφή ΜέγεθοςΜορφότυπος 
Diploma_Thesis_Koutentakis_Stavros.pdf3.95 MBAdobe PDFΕμφάνιση/Άνοιγμα


Όλα τα τεκμήρια του δικτυακού τόπου προστατεύονται από πνευματικά δικαιώματα.