Please use this identifier to cite or link to this item:
http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/19814| Title: | Embedding-Based Variants of Deep Generative Models |
| Authors: | Κουτεντάκης, Σταύρος Τσανάκας Παναγιώτης |
| Keywords: | Δημιουργία Συνθετικών Δεδομένων Μοντελοποίηση Δεδομένων Πίνακα Παραγωγικά Ανταγωνιστικά Δίκτυα Εναλλασσόμενοι Αυτόματοι Κωδικοποιητές Μοντέλα Διάχυσης Ενσωματώσεις Δεδομένων |
| Issue Date: | 19-Sep-2025 |
| Abstract: | Τα παραγωγικά μοντέλα Μηχανικής Μάθησης (ΜΜ), όπως τα Παραγωγικά Ανταγωνιστικά Δίκτυα (GAN), οι Εναλλασσόμενοι Αυτόματοι Κωδικοποιητές (VAE) και τα μοντέλα διάχυσης (Diffusion Models), έχουν επιτύχει αξιοσημείωτα αποτελέσματα στο πεδίο των εικόνων. Ωστόσο, η απόδοση τους σε δεδομένα πίνακα, ειδικά σε σύνολα δεδομένων με πολλές κατηγορικές κολώνες, δεν παρουσιάζει ιδανικά αποτελέσματα. Η αυξανόμενη ζήτηση για υψηλής ποιότητας δεδομένα, τα οποία αποκρύπτουν και ιδιωτικές πληροφορίες των δειγμάτων, έχει τονίσει την ανάγκη για βελτίωση σε αυτόν τον τομέα. Μία σημαντική πρόκληση που ενέχει αυτός ο σκοπός είναι η αναπαράσταση των κατηγορικών μεταβλητών, οι οποίες συνήθως κωδικοποιούνται με τη μέθοδο one-hot, από την οποία προκύπτουν αραιές αναπαραστάσεις που δεν περιέχουν χρήσιμη πληροφορία και μπορούν να κάνουν τη μοντελοποίηση ασταθή και δύσκολη. Στην παρούσα διπλωματική εργασία, αντιμετωπίζουμε αυτές τις προκλήσεις με τη χρήση πυκνών ενσωματώσεων (embeddings) ως εναλλακτική αναπαράσταση των κατηγορικών χαρακτηριστικών στην παραγωγική μοντελοποίηση. Κατασκευάζουμε ένα ειδικά σχεδιασμένο μοντέλο ενσωμάτωσης, εμπνευσμένο από την αρχιτεκτονική skip-gram και προσαρμοσμένο σε δεδομένα πίνακα, για να μάθει τις διανυσματικές αναπαραστάσεις των κατηγορικών τιμών βασισμένο στη συνύπαρξή τους ή μη. Εφαρμόζουμε τις παραγόμενες ενσωματώσεις στη συνέχεια σε τρία παραγωγικά μοντέλα και κατασκευάζουμε τις καινοτόμες αρχιτεκτονικές των eGAN, eVAE και eDDPM. Η αξιολόγησή τους γίνεται τόσο σε μικτά δεδομένα όσο και σε αποκλειστικά κατηγορικά σύνολα αντλούμενα από τα σύνολα δεδομένων Adult Income και Mushroom. Τα συνθετικά σύνολα δεδομένων που δημιουργούνται από όλα τα μοντέλα αξιολογούνται με βάση μετρήσεις που λαμβάνουν υπόψη την πιστότητα και την ιδιωτικότητα. Τα μοντέλα ενισχυμένα με ενσωμάτωση επιδεικνύουν ανταγωνιστική απόδοση, ιδιαίτερα στην κατανόηση των εξαρτήσεων μεταξύ των κατηγορικών κολώνων και στην αντιμετώπιση προκλήσεων που ενέχει η παραγωγή διακριτών δεδομένων. Αυτή η διπλωματική εργασία αναδεικνύει τις προοπτικές των αναπαραστάσεων ενσωμάτωσης προς βελτίωση των παραγωγικών μοντέλων για διακριτά δεδομένα καθώς και τον πιο αποδοτικό και φυσικό χειρισμό των δεδομένων αυτών. |
| URI: | http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/19814 |
| Appears in Collections: | Διπλωματικές Εργασίες - Theses |
Files in This Item:
| File | Description | Size | Format | |
|---|---|---|---|---|
| Diploma_Thesis_Koutentakis_Stavros.pdf | 3.95 MB | Adobe PDF | View/Open |
Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.