Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/17768
Title: Ευφυές σύστημα παραγωγής λεκτικής περιγραφής εικόνας
Authors: Κατάκης, Νικηφόρος Εμμανουήλ
Βενιέρης Ιάκωβος
Keywords: Λεκτική περιγραφή εικόνας
Βαθιά μηχανική μάθηση
συνελικτικά νευρωνικά δίκτυα
επαναληπτικά νευρωνικά δίκτυα
όραση υπολογιστών
επεξεργασία φυσικής γλώσσας
διαδικτυακή εφαρμογή
μηχανισμός προσοχής
Issue Date: 5-Nov-2020
Abstract: Το θέμα της παρούσας διπλωματικής εργασίας είναι η δημιουργία ενός ευφυούς συστήματος παραγωγής λεκτικής περιγραφής εικόνας (Image Captioning), εφαρμόζοντας τεχνικές που εμπίπτουν στην περιοχή της Μηχανικής Μάθησης (Machine Learning), και συγκεκριμένα Βαθιάς Μηχανικής Μάθησης (Deep Learning). Τα τελευταία χρόνια, με την τεράστια ανάπτυξη της Τεχνητής Νοημοσύνης (Artificial Intelligence), το συγκεκριμένο πρόβλημα έχει τραβήξει την προσοχή πολλών ερευνητών, χάρη στην εφαρμογή που βρίσκει σε ένα ευρύ φάσμα τομέων, και έχει γίνει ένα ενδιαφέρον και επίπονο έργο. Καθημερινά προκύπτει ένας τεράστιος όγκος ψηφιακών δεδομένων, κάτι που κρίνει αναγκαία την βαθύτερη κατανόηση της δομής τους και την ανακάλυψη τρόπων επεξεργασίας και εξαγωγής χρήσιμης πληροφορίας από αυτά. H παραγωγή λεκτικής περιγραφής μίας εικόνας μπορεί να φανεί πολύ χρήσιμη σε διάφορους κλάδους, όπως η παραγωγή εφαρμογών για την βοήθεια ανθρώπων με προβλήματα όρασης, βελτίωση διαφόρων στοιχείων των πλατφορμών κοινωνικής δικτύωσης, περιγραφή ενός βίντεο frame by frame και βελτίωση των μηχανών αναζήτησης που ασχολούνται με εικόνες. Προκειμένου να προσεγγίσουμε το θέμα του Image Captioning, αρχικά θα γίνει μία ανάπτυξη όλων των απαραίτητων θεωρητικών γνώσεων στους τομείς της μηχανικής μάθησης και των βαθιών νευρωνικών δικτύων. Έπειτα, θα παρουσιάσουμε ένα σύνολο μεθόδων και διαφορετικών αρχιτεκτονικών που έχουν χρησιμοποιηθεί για την επίλυση του προβλήματος, μελετώντας τις επιδόσεις που έχουν σημειώσει και τελικά θα περιγράψουμε την δική μας αρχιτεκτονική. Στην συνέχεια θα υλοποιήσουμε το δικό μας μοντέλο παραγωγής λεκτικής περιγραφής εικόνας, το οποίο θα αποτελείται από έναν κωδικοποιητή, βασισμένο στα Συνελικτικά Νευρωνικά Δίκτυα (Convolutional Neural Networks - CNN) και έναν αποκωδικοποιητή, βασισμένο στα Επαναληπτικά Νευρωνικά Δίκτυα (Recurrent Neural Networks - RNN), χρησιμοποιώντας ακόμα τον μηχανισμό της Προσοχής (Attention), για την παραγωγή όσο το δυνατόν καλύτερων αποτελεσμάτων. Τέλος, θα κατασκευάσουμε ένα web app που θα χρησιμοποιεί το παραπάνω μοντέλο για την παραγωγή λεκτικής περιγραφής εικόνων, αλλά και δύο ακόμα pretrained μοντέλα για να δώσουμε στο application ακόμα περισσότερες δυνατότητες, όπως αυτή της αναζήτησης με βάση την παραγόμενη λεζάντα και την κατηγοριοποίηση των εικόνων σε μία γκαλερί με διαφορετικές κατηγορίες βασιζόμενοι στις λεκτικές περιγραφές των εικόνων.
URI: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/17768
Appears in Collections:Διπλωματικές Εργασίες - Theses

Files in This Item:
File Description SizeFormat 
Διπλωματική Εργασία Κατάκης Νικηφόρος.pdf11.86 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.