Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/9038
Title: Ανίχνευση Τοπικών Χαρακτηριστικών Για Ανάκτηση Οπτικής Πληροφορίας
Authors: Χρήστος Βαρυτιμίδης
Κόλλιας Στέφανος
Keywords: όραση υπολογιστών
τοπικά χαρακτηριστικά
βαθια νευρωνικά δίκτυα
περιγραφείς εικόνων
computer vision
local features
deep neural networks
image descriptors
Issue Date: 21-Jun-2016
Abstract: Η ανάλυση εικόνων και βίντεο βασίζεται στην ανάπτυξη τεχνικών που εξάγουν οπτικά χαρακτηριστικά και δημιουργούν ενδιάμεσες αναπαραστάσεις, για την επίλυση της ανίχνευσης και αναγνώρισης αντικειμένων, της αναζήτησης και ανάκτησης εικόνων και άλλων σύνθετων προβλημάτων. Η εξαγωγή τοπικών χαρακτηριστικών για τον εντοπισμό περιοχών ενδιαφέροντος σε στατικές εικόνες και χωρο-χρονικών σημείων ενδιαφέροντος σε ακολουθίες εικόνων (βίντεο), καθώς και η περιγραφή με τοπικούς ή καθολικούς περιγραφείς, δημιουργούν συμπαγείς αναπαραστάσεις της οπτικής πληροφορίας και χρησιμοποιούνται σήμερα ευρύτατα στην περιοχή της όρασης υπολογιστών. Παρά το γεγονός ότι τα τελευταία χρόνια έχουν προταθεί πολλοί αλγόριθμοι εξαγωγής τοπικών χαρακτηριστικών, το πεδίο έρευνας είναι ανοιχτό στην ανάπτυξη και χρησιμοποίηση νέων μεθόδων που μπορούν να παράγουν αποτελεσματικές αναπαραστάσεις και καλύτερες αποδόσεις. Επίσης, η ραγδαία ανάπτυξη και οι πολύ καλές αποδόσεις βαθιών αρχιτεκτονικών νευρωνικών δικτύων τα τελευταία χρόνια οδήγησε σε ακόμη πιο αποδοτικές εφαρμογές των περιγραφέων σε εικόνες και βίντεο.Στην παρούσα διατριβή περιγράφονται νέοι αλγόριθμοι εξαγωγής τοπικών χαρακτηριστικών για στατικές εικόνες, οι οποίοι βασίζονται σε γεωμετρικές ιδιότητες των εικόνων. Συγκεκριμένα, χρησιμοποιούνται τα α-σχήματα για την περιγραφή ενός συνόλου σημείων που εξάγονται από την εικόνα. Δεδομένου του συνόλου σημείων, τα α-σχήματα περιγράφουν αντικείμενα της εικόνας σε διάφορες κλίμακες και με διαφορετικό βαθμό λεπτομέρειας. Για την δειγματοληψία σημείων της εικόνας προτείνονται κατ' αρχήν δύο οικογένειες μεθόδων: δειγματοληψία επί ακμών και δειγματοληψία με διάχυση σφάλματος. Για τη δειγματοληψία επί ακμών, πέρα από μια βασική προσέγγιση ομοιόμορφης δειγματοληψίας που εξάγει δείγματα με σταθερή πυκνότητα, προτείνεται μια μέθοδος ανομοιόμορφης δειγματοληψίας που με εξαγωγή τοπικού αφινικού σχήματος μεταβάλει τοπικά την πυκνότητα δειγματοληψίας. Για τη δειγματοληψία με διάχυση σφάλματος προτείνονται δύο διαφορετικές προσεγγίσεις με χρήση συνεχών συναρτήσεων της φωτεινότητας της εικόνας. Η πρώτη βασίζεται στη χρήση πρώτων παραγώγων της φωτεινότητας (μέτρο κλίσης), ενώ η δεύτερη στη χρήση δεύτερων παραγώγων (απόκριση Hessian).Στο πλαίσιο της ανάπτυξης του προτεινόμενου ανιχνευτή WαSH, εξετάζεται η χρήση διαφορετικών τριγωνοποιήσεων και α-σχημάτων και προτείνονται ανισοτροπικά σταθμισμένα α-σχήματα που εκμεταλλεύονται το τοπικό σχήμα της κάθε περιοχής της τριγωνοποίησης. Για την επιλογή περιοχών ενδιαφέροντος, παρουσιάζονται νέα μέτρα αξιολόγησης των διαφορετικών συνεκτικών συνιστωσών των α-σχημάτων. Ο αλγόριθμος εξαγωγής τοπικών χαρακτηριστικών αξιολογείται ποιοτικά και ποσοτικά, εξετάζοντας όλες τις προτεινόμενες παραλλαγές σε κάθε βήμα του αλγορίθμου. Ο προτεινόμενος ανιχνευτής εξάγει συγκριτικά μικρό αριθμό χαρακτηριστικών από περιοχές της εικόνας που αντιστοιχούν σε τμήματα αντικειμένων που επαναλαμβάνονται συχνά. Η απόδοσή του συγκρίνεται με αυτή των μεθόδων της αιχμής της τεχνολογίας, ξεπερνώντας τις στις περισσότερες περιπτώσεις.Στη συνέχεια της διατριβής, προτείνουμε έναν αλγόριθμο εξαγωγής εύρωστων αναπαραστάσεων από ακολουθίες εικόνων (βίντεο), με χρήση βαθιών νευρωνικών δικτύων. Αρχικά γίνεται κατάτμηση των βίντεο σε πλάνα, με μια νέα μέθοδο που βασίζεται σε αλγορίθμους πρότασης περιοχών που έχουν αυξημένη πιθανότητα να περιλαμβάνουν αντικείμενα. Εξάγουμε ένα καθολικό μέτρο της πιθανότητας εμφάνισης αντικειμένων σε καρέ βίντεο, και σηματοδοτούμε την αλλαγή πλάνου στα καρέ που εμφανίζεται μεγάλη διακύμανση του εξεταζόμενου μέτρου. Ο αλγόριθμος χρησιμοποιεί τους χάρτες χαρακτηριστικών που εξάγονται από βαθιά νευρωνικά δίκτυα που έχουν χρησιμοποιηθεί για αναγνώριση αντικειμένων σε εικόνες για την περιγραφή των καρέ. Έπειτα εξάγεται ένας καθολικός και συμπαγής περιγραφέας για όλο το πλάνο, συναθροίζοντας τις μέγιστες αποκρίσεις των περιγραφέων. Η επίδοση του αλγορίθμου αποτιμάται σε ένα πείραμα ανάκτησης ιατρικών βίντεο, όπου επιτυγχάνεται βελτίωση της απόδοσης έναντι μεθόδων που χρησιμοποιούν τοπικά χαρακτηριστικά.
URI: http://artemis-new.cslab.ece.ntua.gr:8080/jspui/handle/123456789/9038
Appears in Collections:Διδακτορικές Διατριβές - Ph.D. Theses

Files in This Item:
File SizeFormat 
PD2016-0024.pdf6.05 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.