Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/17768
Full metadata record
DC FieldValueLanguage
dc.contributor.authorΚατάκης, Νικηφόρος Εμμανουήλ-
dc.date.accessioned2020-11-09T13:09:16Z-
dc.date.available2020-11-09T13:09:16Z-
dc.date.issued2020-11-05-
dc.identifier.urihttp://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/17768-
dc.description.abstractΤο θέμα της παρούσας διπλωματικής εργασίας είναι η δημιουργία ενός ευφυούς συστήματος παραγωγής λεκτικής περιγραφής εικόνας (Image Captioning), εφαρμόζοντας τεχνικές που εμπίπτουν στην περιοχή της Μηχανικής Μάθησης (Machine Learning), και συγκεκριμένα Βαθιάς Μηχανικής Μάθησης (Deep Learning). Τα τελευταία χρόνια, με την τεράστια ανάπτυξη της Τεχνητής Νοημοσύνης (Artificial Intelligence), το συγκεκριμένο πρόβλημα έχει τραβήξει την προσοχή πολλών ερευνητών, χάρη στην εφαρμογή που βρίσκει σε ένα ευρύ φάσμα τομέων, και έχει γίνει ένα ενδιαφέρον και επίπονο έργο. Καθημερινά προκύπτει ένας τεράστιος όγκος ψηφιακών δεδομένων, κάτι που κρίνει αναγκαία την βαθύτερη κατανόηση της δομής τους και την ανακάλυψη τρόπων επεξεργασίας και εξαγωγής χρήσιμης πληροφορίας από αυτά. H παραγωγή λεκτικής περιγραφής μίας εικόνας μπορεί να φανεί πολύ χρήσιμη σε διάφορους κλάδους, όπως η παραγωγή εφαρμογών για την βοήθεια ανθρώπων με προβλήματα όρασης, βελτίωση διαφόρων στοιχείων των πλατφορμών κοινωνικής δικτύωσης, περιγραφή ενός βίντεο frame by frame και βελτίωση των μηχανών αναζήτησης που ασχολούνται με εικόνες. Προκειμένου να προσεγγίσουμε το θέμα του Image Captioning, αρχικά θα γίνει μία ανάπτυξη όλων των απαραίτητων θεωρητικών γνώσεων στους τομείς της μηχανικής μάθησης και των βαθιών νευρωνικών δικτύων. Έπειτα, θα παρουσιάσουμε ένα σύνολο μεθόδων και διαφορετικών αρχιτεκτονικών που έχουν χρησιμοποιηθεί για την επίλυση του προβλήματος, μελετώντας τις επιδόσεις που έχουν σημειώσει και τελικά θα περιγράψουμε την δική μας αρχιτεκτονική. Στην συνέχεια θα υλοποιήσουμε το δικό μας μοντέλο παραγωγής λεκτικής περιγραφής εικόνας, το οποίο θα αποτελείται από έναν κωδικοποιητή, βασισμένο στα Συνελικτικά Νευρωνικά Δίκτυα (Convolutional Neural Networks - CNN) και έναν αποκωδικοποιητή, βασισμένο στα Επαναληπτικά Νευρωνικά Δίκτυα (Recurrent Neural Networks - RNN), χρησιμοποιώντας ακόμα τον μηχανισμό της Προσοχής (Attention), για την παραγωγή όσο το δυνατόν καλύτερων αποτελεσμάτων. Τέλος, θα κατασκευάσουμε ένα web app που θα χρησιμοποιεί το παραπάνω μοντέλο για την παραγωγή λεκτικής περιγραφής εικόνων, αλλά και δύο ακόμα pretrained μοντέλα για να δώσουμε στο application ακόμα περισσότερες δυνατότητες, όπως αυτή της αναζήτησης με βάση την παραγόμενη λεζάντα και την κατηγοριοποίηση των εικόνων σε μία γκαλερί με διαφορετικές κατηγορίες βασιζόμενοι στις λεκτικές περιγραφές των εικόνων.en_US
dc.languageelen_US
dc.subjectΛεκτική περιγραφή εικόναςen_US
dc.subjectΒαθιά μηχανική μάθησηen_US
dc.subjectσυνελικτικά νευρωνικά δίκτυαen_US
dc.subjectεπαναληπτικά νευρωνικά δίκτυαen_US
dc.subjectόραση υπολογιστώνen_US
dc.subjectεπεξεργασία φυσικής γλώσσαςen_US
dc.subjectδιαδικτυακή εφαρμογήen_US
dc.subjectμηχανισμός προσοχήςen_US
dc.titleΕυφυές σύστημα παραγωγής λεκτικής περιγραφής εικόναςen_US
dc.description.pages92en_US
dc.contributor.supervisorΒενιέρης Ιάκωβοςen_US
dc.departmentΤομέας Συστημάτων Μετάδοσης Πληροφορίας και Τεχνολογίας Υλικώνen_US
Appears in Collections:Διπλωματικές Εργασίες - Theses

Files in This Item:
File Description SizeFormat 
Διπλωματική Εργασία Κατάκης Νικηφόρος.pdf11.86 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.