Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/19430
Full metadata record
DC FieldValueLanguage
dc.contributor.authorΓιαννακάκης, Νικόλαος-
dc.date.accessioned2024-12-16T10:49:11Z-
dc.date.available2024-12-16T10:49:11Z-
dc.date.issued2024-10-25-
dc.identifier.urihttp://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/19430-
dc.description.abstractΟ σκοπός αυτής της διπλωµατικής εργασίας είναι η διερεύνηση της ϐελτίωσης της αποτελεσµατικότητας των αντικειµενοκεντρικών κωδικοποιητών εικόνας µε τεχνικές ενσωµάτωσης πληροφορίας εστιασµένης σε δράσεις. Πρώτον, δοκιµάζουµε µια αντικειµενοκεντρική µέθοδο για την απόσταξη των αναπαραστάσεων ενός προ-εκπαιδευµένου Video Masked Auto-encoder (Video MAE) στις αναπαραστάσεις δύο state-of-the-art κωδικοποιητών εικόνας. Η αξιολόγηση γίνεται πάνω στο πρόβληµα κατηγοριοποίηση προσφερόµενων δυνατοτήτων αντικειµένων (affordance categorization). Στην αξιολόγηση γίνεται χρήση ενός συνόλου δεδοµένων, µικρής κλίµακας, που δηµιουργήθηκε για τα πειράµατα της διπλωµατικής αυτής, χρησιµοποιώντας ως ϐάση το σύνολο δεδοµένων Something Something v2 (SSV2). Τα αποτελέσµατα δείχνουν ότι οι αναπαραστάσεις του Video MAE, περιέχουν χρήσιµη πληροφορία για τους κωδικοποιητές εικόνας και δοκιµάζουµε µερικές µεθόδους για να εµπλουτίσουµε τις αναπαραστάσεις των κωδικοποιητών εικόνας. Οι µέθοδοι παρουσίασαν µια µικρή ϐελτίωση αλλά ίσως χρειαστούν προσαρµογές ή µεγαλύτερα σύνολα δεδοµένων για την καλύτερη αξιοποίηση αυτών των αναπαραστάσεων. Επιπλέον, µελετούµε µια µέθοδο ϐασισµένη στην αντικειµενοκεντρική µέθοδο εκµάθησης αναπαραστάσεωνSlotAttention. Η αποτελεσµατικότητα της µεθόδου αξιολογείται επίσης στο πρόβληµα της κατηγοριοποίησης προσφερόµενων δυνατοτήτων και παρουσιάζει ανταγωνιστικά αποτελέσµατα, ενώ επιτυγχάνει επίσης αυτόµατη τµηµατοποίηση των εικόνων και σηµαντική µείωση του µεγέθους της αναπαράστασης ανά αντικείµενο. Τέλος, προτείνουµε µια µέθοδο για να συνδυάσουµε αντικειµενοκεντρικές αναπαραστάσεις από ένα µοντέλο ϐασισµένο στη µέθοδο slot attention για να παραγάγουµε µια συνολική αναπαράσταση από µια εικόνα, µε στόχο την εκµάθηση οπτικοκινητικών πολιτικών. Αυτή η µέθοδος αξιολογείται σε µια προσοµοίωση ϱοµποτικού χειρισµού και στα πειράµατα που πραγµατοποιήθηκαν παρουσιάζει καλύτερα αποτελέσµατα σε σύγκριση µε άλλες αναπαραστάσεις. ∆ηµιουργώντας συσχετίσεις δράσης-αντικειµένου στις αναπαραστάσεις των κωδικοποιητών εικόνας, αυτή η διπλωµατική επιδιώκει να συµβάλει στην ανάπτυξη πιο αποτελεσµατικών συστηµάτων όρασης για ϱοµπότ και τεχνητούς πράκτορες, επιτρέποντάς τους να κατανοούν καλύτερα τη σηµασιολογία και τη δυναµική της αλληλεπίδρασης πράκτορα-αντικειµένου.en_US
dc.languageenen_US
dc.subjectMachine Learningen_US
dc.subjectRepresentation Learningen_US
dc.titleAction to Object Knowledge Distillation for Object-centric Representation Learningen_US
dc.description.pages119en_US
dc.contributor.supervisorΜαραγκός Πέτροςen_US
dc.departmentΤομέας Σημάτων, Ελέγχου και Ρομποτικήςen_US
Appears in Collections:Διπλωματικές Εργασίες - Theses



Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.