Action to Object Knowledge Distillation for Object-centric Representation Learning

Γιαννακάκης, Νικόλαος

National Technical University of Athens

School of Electrical and Computer Engineering

Artemis is Live!

Welcome to our digital repository! The aim of Artemis is the systematic archiving and dissemination of the scientific work produced in the School of Electrical and Computer Engineering, National Technical University of Athens, Greece, using the technology of digital libraries.

Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/19430

Full metadata record

DC Field	Value	Language
dc.contributor.author	Γιαννακάκης, Νικόλαος	-
dc.date.accessioned	2024-12-16T10:49:11Z	-
dc.date.available	2024-12-16T10:49:11Z	-
dc.date.issued	2024-10-25	-
dc.identifier.uri	http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/19430	-
dc.description.abstract	Ο σκοπός αυτής της διπλωµατικής εργασίας είναι η διερεύνηση της ϐελτίωσης της αποτελεσµατικότητας των αντικειµενοκεντρικών κωδικοποιητών εικόνας µε τεχνικές ενσωµάτωσης πληροφορίας εστιασµένης σε δράσεις. Πρώτον, δοκιµάζουµε µια αντικειµενοκεντρική µέθοδο για την απόσταξη των αναπαραστάσεων ενός προ-εκπαιδευµένου Video Masked Auto-encoder (Video MAE) στις αναπαραστάσεις δύο state-of-the-art κωδικοποιητών εικόνας. Η αξιολόγηση γίνεται πάνω στο πρόβληµα κατηγοριοποίηση προσφερόµενων δυνατοτήτων αντικειµένων (affordance categorization). Στην αξιολόγηση γίνεται χρήση ενός συνόλου δεδοµένων, µικρής κλίµακας, που δηµιουργήθηκε για τα πειράµατα της διπλωµατικής αυτής, χρησιµοποιώντας ως ϐάση το σύνολο δεδοµένων Something Something v2 (SSV2). Τα αποτελέσµατα δείχνουν ότι οι αναπαραστάσεις του Video MAE, περιέχουν χρήσιµη πληροφορία για τους κωδικοποιητές εικόνας και δοκιµάζουµε µερικές µεθόδους για να εµπλουτίσουµε τις αναπαραστάσεις των κωδικοποιητών εικόνας. Οι µέθοδοι παρουσίασαν µια µικρή ϐελτίωση αλλά ίσως χρειαστούν προσαρµογές ή µεγαλύτερα σύνολα δεδοµένων για την καλύτερη αξιοποίηση αυτών των αναπαραστάσεων. Επιπλέον, µελετούµε µια µέθοδο ϐασισµένη στην αντικειµενοκεντρική µέθοδο εκµάθησης αναπαραστάσεωνSlotAttention. Η αποτελεσµατικότητα της µεθόδου αξιολογείται επίσης στο πρόβληµα της κατηγοριοποίησης προσφερόµενων δυνατοτήτων και παρουσιάζει ανταγωνιστικά αποτελέσµατα, ενώ επιτυγχάνει επίσης αυτόµατη τµηµατοποίηση των εικόνων και σηµαντική µείωση του µεγέθους της αναπαράστασης ανά αντικείµενο. Τέλος, προτείνουµε µια µέθοδο για να συνδυάσουµε αντικειµενοκεντρικές αναπαραστάσεις από ένα µοντέλο ϐασισµένο στη µέθοδο slot attention για να παραγάγουµε µια συνολική αναπαράσταση από µια εικόνα, µε στόχο την εκµάθηση οπτικοκινητικών πολιτικών. Αυτή η µέθοδος αξιολογείται σε µια προσοµοίωση ϱοµποτικού χειρισµού και στα πειράµατα που πραγµατοποιήθηκαν παρουσιάζει καλύτερα αποτελέσµατα σε σύγκριση µε άλλες αναπαραστάσεις. ∆ηµιουργώντας συσχετίσεις δράσης-αντικειµένου στις αναπαραστάσεις των κωδικοποιητών εικόνας, αυτή η διπλωµατική επιδιώκει να συµβάλει στην ανάπτυξη πιο αποτελεσµατικών συστηµάτων όρασης για ϱοµπότ και τεχνητούς πράκτορες, επιτρέποντάς τους να κατανοούν καλύτερα τη σηµασιολογία και τη δυναµική της αλληλεπίδρασης πράκτορα-αντικειµένου.	en_US
dc.language	en	en_US
dc.subject	Machine Learning	en_US
dc.subject	Representation Learning	en_US
dc.title	Action to Object Knowledge Distillation for Object-centric Representation Learning	en_US
dc.description.pages	119	en_US
dc.contributor.supervisor	Μαραγκός Πέτρος	en_US
dc.department	Τομέας Σημάτων, Ελέγχου και Ρομποτικής	en_US
Appears in Collections:	Διπλωματικές Εργασίες - Theses

Files in This Item:

File	Description	Size	Format
Action to Object Knowledge Distillation for Object-centric Representation Learning - Nikolaos Giannakakis.pdf		13.85 MB	Adobe PDF	View/Open

Show simple item record