Δημιουργία Εικόνας από Κείμενο με Χρήση Γεννητικών Ανταγωνιστικών Δικτύων

Masouris, Athanasios

Εθνικό Μετσόβιο Πολυτεχνείο

Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών

Καλώς ήρθατε στο Άρτεμις

Σκοπός του Άρτεμις είναι η συστηματική αρχειοθέτηση και διαδοση της πνευματικής παραγωγής της Σχολής Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών του Εθνικού Μετσόβιου Πολυτεχνείου, με τη βοήθεια της τεχνολογίας των ψηφιακών βιβλιοθηκών.

Παρακαλώ χρησιμοποιήστε αυτό το αναγνωριστικό για να παραπέμψετε ή να δημιουργήσετε σύνδεσμο προς αυτό το τεκμήριο: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/17756

Τίτλος:	Δημιουργία Εικόνας από Κείμενο με Χρήση Γεννητικών Ανταγωνιστικών Δικτύων
Συγγραφείς:	Masouris, Athanasios Σταφυλοπάτης Ανδρέας-Γεώργιος
Λέξεις κλειδιά:	Όραση υπολογιστών Δημιουργία εικόνας από κείμενο Γεννητικά Ανταγωνιστικά Δίκτυα Στοιβαγμένα GANs computer vision text-to-image synthesis Generative Adversarial Networks (GANs) Stacked GANs
Ημερομηνία έκδοσης:	2-Νοε-2020
Περίληψη:	Η δημιουργία εικόνας από κείμενο αποτελεί αντικείμενο έρευνας που συνδυάζει τους τομείς της Όρασης Υπολογιστών και της Επεξεργασίας Φυσικής Γλώσσας. Στόχος είναι η δημιουργία ενός μοντέλου το οποίο, δοθείσης μιας λεκτικής περιγραφής, θα παράγει εικόνες. Οι εικόνες αυτές θα πρέπει όχι μόνο να είναι ρεαλιστικές, αλλά και οι οπτικές λεπτομέρειες που περιέχουν να αντιστοιχούν στην προαναφερθείσα λεκτική περιγραφή. Με την εμφάνιση των Γεννητικών Ανταγωνιστικών Δικτύων (Generative Adversarial Networks, GANs) σημειώθηκε σημαντική πρόοδος στη συγκεκριμένη κατεύθυνση. Τα συστήματα που έχουν προταθεί έχουν τη δυνατότητα να παράξουν εικόνες υψηλής ανάλυσης, οι οποίες ταυτίζονται με την εκάστοτε λεκτική περιγραφή, με τη χρήση διαφόρων τεχνικών. Η δομή στοιβαγμένων GANs αποτελεί ίσως τη σημαντικότερη από αυτές τις τεχνικές. Τα υπάρχοντα συστήματα παράγουν μία αρχική εικόνα χαμηλών διαστάσεων, η οποία περνά από έναν αριθμό σταδίων βελτίωσης προκειμένου να παραχθεί η τελική εικόνα υψηλών διαστάσεων. Στην παρούσα διπλωματική διατριβή προτείνουμε μία νέα αρχιτεκτονική για τη δημιουργία εικόνων υψηλών διαστάσεων. Πιο συγκεκριμένα, χρησιμοποιούμε τη δομή στοιβαγμένων GANs, με τρία επίπεδα, προκειμένου να διασπάσουμε το συνολικό δύσκολο πρόβλημα παραγωγής εικόνας υψηλών διαστάσεων σε επιμέρους διαχειρίσιμα υποπροβλήματα. Στο πρώτο στάδιο παράγεται μία ασπρόμαυρη εικόνα διαστάσεων 128x128. Στο δεύτερο στάδιο προστίθενται χρώματα στην εικόνα του πρώτου σταδίου. Τέλος, στο τρίτο και τελευταίο στάδιο η εικόνα του δευτέρου σταδίου μεγεθύνεται προκειμένου να παραχθεί εικόνα υψηλών διαστάσεων (256x256). Ακόμη, στα πλαίσια αυτής της εργασίας, εξετάζεται η επίδραση των αναπαραστάσεων κειμένου, που προέκυψαν από τα μοντέλα char-CNN-RNN, GPT-2 και RoBERTa, στην ποιότητα των παραγόμενων εικόνων των μοντέλων gan-int-cls και StackGAN για τα σύνολα δεδομένων Oxford-102 και CUB. Γίνεται, επίσης, εκπαίδευση των δικτύων αυτών στο σύνολο δεδομένων Flickr8k και παρουσιάζονται τα αποτελέσματα.
URI:	http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/17756
Εμφανίζεται στις συλλογές:	Διπλωματικές Εργασίες - Theses

Αρχεία σε αυτό το τεκμήριο:

Αρχείο	Περιγραφή	Μέγεθος	Μορφότυπος
TeleGAN_thesis.pdf		60.23 MB	Adobe PDF	Εμφάνιση/Άνοιγμα

Δείξε την πλήρη περιγραφή του τεκμηρίου

Όλα τα τεκμήρια του δικτυακού τόπου προστατεύονται από πνευματικά δικαιώματα.