Please use this identifier to cite or link to this item:
http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/19430
Full metadata record
DC Field | Value | Language |
---|---|---|
dc.contributor.author | Γιαννακάκης, Νικόλαος | - |
dc.date.accessioned | 2024-12-16T10:49:11Z | - |
dc.date.available | 2024-12-16T10:49:11Z | - |
dc.date.issued | 2024-10-25 | - |
dc.identifier.uri | http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/19430 | - |
dc.description.abstract | Ο σκοπός αυτής της διπλωµατικής εργασίας είναι η διερεύνηση της ϐελτίωσης της αποτελεσµατικότητας των αντικειµενοκεντρικών κωδικοποιητών εικόνας µε τεχνικές ενσωµάτωσης πληροφορίας εστιασµένης σε δράσεις. Πρώτον, δοκιµάζουµε µια αντικειµενοκεντρική µέθοδο για την απόσταξη των αναπαραστάσεων ενός προ-εκπαιδευµένου Video Masked Auto-encoder (Video MAE) στις αναπαραστάσεις δύο state-of-the-art κωδικοποιητών εικόνας. Η αξιολόγηση γίνεται πάνω στο πρόβληµα κατηγοριοποίηση προσφερόµενων δυνατοτήτων αντικειµένων (affordance categorization). Στην αξιολόγηση γίνεται χρήση ενός συνόλου δεδοµένων, µικρής κλίµακας, που δηµιουργήθηκε για τα πειράµατα της διπλωµατικής αυτής, χρησιµοποιώντας ως ϐάση το σύνολο δεδοµένων Something Something v2 (SSV2). Τα αποτελέσµατα δείχνουν ότι οι αναπαραστάσεις του Video MAE, περιέχουν χρήσιµη πληροφορία για τους κωδικοποιητές εικόνας και δοκιµάζουµε µερικές µεθόδους για να εµπλουτίσουµε τις αναπαραστάσεις των κωδικοποιητών εικόνας. Οι µέθοδοι παρουσίασαν µια µικρή ϐελτίωση αλλά ίσως χρειαστούν προσαρµογές ή µεγαλύτερα σύνολα δεδοµένων για την καλύτερη αξιοποίηση αυτών των αναπαραστάσεων. Επιπλέον, µελετούµε µια µέθοδο ϐασισµένη στην αντικειµενοκεντρική µέθοδο εκµάθησης αναπαραστάσεωνSlotAttention. Η αποτελεσµατικότητα της µεθόδου αξιολογείται επίσης στο πρόβληµα της κατηγοριοποίησης προσφερόµενων δυνατοτήτων και παρουσιάζει ανταγωνιστικά αποτελέσµατα, ενώ επιτυγχάνει επίσης αυτόµατη τµηµατοποίηση των εικόνων και σηµαντική µείωση του µεγέθους της αναπαράστασης ανά αντικείµενο. Τέλος, προτείνουµε µια µέθοδο για να συνδυάσουµε αντικειµενοκεντρικές αναπαραστάσεις από ένα µοντέλο ϐασισµένο στη µέθοδο slot attention για να παραγάγουµε µια συνολική αναπαράσταση από µια εικόνα, µε στόχο την εκµάθηση οπτικοκινητικών πολιτικών. Αυτή η µέθοδος αξιολογείται σε µια προσοµοίωση ϱοµποτικού χειρισµού και στα πειράµατα που πραγµατοποιήθηκαν παρουσιάζει καλύτερα αποτελέσµατα σε σύγκριση µε άλλες αναπαραστάσεις. ∆ηµιουργώντας συσχετίσεις δράσης-αντικειµένου στις αναπαραστάσεις των κωδικοποιητών εικόνας, αυτή η διπλωµατική επιδιώκει να συµβάλει στην ανάπτυξη πιο αποτελεσµατικών συστηµάτων όρασης για ϱοµπότ και τεχνητούς πράκτορες, επιτρέποντάς τους να κατανοούν καλύτερα τη σηµασιολογία και τη δυναµική της αλληλεπίδρασης πράκτορα-αντικειµένου. | en_US |
dc.language | en | en_US |
dc.subject | Machine Learning | en_US |
dc.subject | Representation Learning | en_US |
dc.title | Action to Object Knowledge Distillation for Object-centric Representation Learning | en_US |
dc.description.pages | 119 | en_US |
dc.contributor.supervisor | Μαραγκός Πέτρος | en_US |
dc.department | Τομέας Σημάτων, Ελέγχου και Ρομποτικής | en_US |
Appears in Collections: | Διπλωματικές Εργασίες - Theses |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Action to Object Knowledge Distillation for Object-centric Representation Learning - Nikolaos Giannakakis.pdf | 13.85 MB | Adobe PDF | View/Open |
Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.