Ευφυές σύστημα παραγωγής λεκτικής περιγραφής εικόνας

Κατάκης, Νικηφόρος Εμμανουήλ

National Technical University of Athens

School of Electrical and Computer Engineering

Artemis is Live!

Welcome to our digital repository! The aim of Artemis is the systematic archiving and dissemination of the scientific work produced in the School of Electrical and Computer Engineering, National Technical University of Athens, Greece, using the technology of digital libraries.

Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/17768

Full metadata record

DC Field	Value	Language
dc.contributor.author	Κατάκης, Νικηφόρος Εμμανουήλ	-
dc.date.accessioned	2020-11-09T13:09:16Z	-
dc.date.available	2020-11-09T13:09:16Z	-
dc.date.issued	2020-11-05	-
dc.identifier.uri	http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/17768	-
dc.description.abstract	Το θέμα της παρούσας διπλωματικής εργασίας είναι η δημιουργία ενός ευφυούς συστήματος παραγωγής λεκτικής περιγραφής εικόνας (Image Captioning), εφαρμόζοντας τεχνικές που εμπίπτουν στην περιοχή της Μηχανικής Μάθησης (Machine Learning), και συγκεκριμένα Βαθιάς Μηχανικής Μάθησης (Deep Learning). Τα τελευταία χρόνια, με την τεράστια ανάπτυξη της Τεχνητής Νοημοσύνης (Artificial Intelligence), το συγκεκριμένο πρόβλημα έχει τραβήξει την προσοχή πολλών ερευνητών, χάρη στην εφαρμογή που βρίσκει σε ένα ευρύ φάσμα τομέων, και έχει γίνει ένα ενδιαφέρον και επίπονο έργο. Καθημερινά προκύπτει ένας τεράστιος όγκος ψηφιακών δεδομένων, κάτι που κρίνει αναγκαία την βαθύτερη κατανόηση της δομής τους και την ανακάλυψη τρόπων επεξεργασίας και εξαγωγής χρήσιμης πληροφορίας από αυτά. H παραγωγή λεκτικής περιγραφής μίας εικόνας μπορεί να φανεί πολύ χρήσιμη σε διάφορους κλάδους, όπως η παραγωγή εφαρμογών για την βοήθεια ανθρώπων με προβλήματα όρασης, βελτίωση διαφόρων στοιχείων των πλατφορμών κοινωνικής δικτύωσης, περιγραφή ενός βίντεο frame by frame και βελτίωση των μηχανών αναζήτησης που ασχολούνται με εικόνες. Προκειμένου να προσεγγίσουμε το θέμα του Image Captioning, αρχικά θα γίνει μία ανάπτυξη όλων των απαραίτητων θεωρητικών γνώσεων στους τομείς της μηχανικής μάθησης και των βαθιών νευρωνικών δικτύων. Έπειτα, θα παρουσιάσουμε ένα σύνολο μεθόδων και διαφορετικών αρχιτεκτονικών που έχουν χρησιμοποιηθεί για την επίλυση του προβλήματος, μελετώντας τις επιδόσεις που έχουν σημειώσει και τελικά θα περιγράψουμε την δική μας αρχιτεκτονική. Στην συνέχεια θα υλοποιήσουμε το δικό μας μοντέλο παραγωγής λεκτικής περιγραφής εικόνας, το οποίο θα αποτελείται από έναν κωδικοποιητή, βασισμένο στα Συνελικτικά Νευρωνικά Δίκτυα (Convolutional Neural Networks - CNN) και έναν αποκωδικοποιητή, βασισμένο στα Επαναληπτικά Νευρωνικά Δίκτυα (Recurrent Neural Networks - RNN), χρησιμοποιώντας ακόμα τον μηχανισμό της Προσοχής (Attention), για την παραγωγή όσο το δυνατόν καλύτερων αποτελεσμάτων. Τέλος, θα κατασκευάσουμε ένα web app που θα χρησιμοποιεί το παραπάνω μοντέλο για την παραγωγή λεκτικής περιγραφής εικόνων, αλλά και δύο ακόμα pretrained μοντέλα για να δώσουμε στο application ακόμα περισσότερες δυνατότητες, όπως αυτή της αναζήτησης με βάση την παραγόμενη λεζάντα και την κατηγοριοποίηση των εικόνων σε μία γκαλερί με διαφορετικές κατηγορίες βασιζόμενοι στις λεκτικές περιγραφές των εικόνων.	en_US
dc.language	el	en_US
dc.subject	Λεκτική περιγραφή εικόνας	en_US
dc.subject	Βαθιά μηχανική μάθηση	en_US
dc.subject	συνελικτικά νευρωνικά δίκτυα	en_US
dc.subject	επαναληπτικά νευρωνικά δίκτυα	en_US
dc.subject	όραση υπολογιστών	en_US
dc.subject	επεξεργασία φυσικής γλώσσας	en_US
dc.subject	διαδικτυακή εφαρμογή	en_US
dc.subject	μηχανισμός προσοχής	en_US
dc.title	Ευφυές σύστημα παραγωγής λεκτικής περιγραφής εικόνας	en_US
dc.description.pages	92	en_US
dc.contributor.supervisor	Βενιέρης Ιάκωβος	en_US
dc.department	Τομέας Συστημάτων Μετάδοσης Πληροφορίας και Τεχνολογίας Υλικών	en_US
Appears in Collections:	Διπλωματικές Εργασίες - Theses

Files in This Item:

File	Description	Size	Format
Διπλωματική Εργασία Κατάκης Νικηφόρος.pdf		11.86 MB	Adobe PDF	View/Open

Show simple item record