Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/19403
Full metadata record
DC FieldValueLanguage
dc.contributor.authorΔημητριάδης, Αλέξανδρος-
dc.date.accessioned2024-11-11T09:12:26Z-
dc.date.available2024-11-11T09:12:26Z-
dc.date.issued2024-11-06-
dc.identifier.urihttp://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/19403-
dc.description.abstractThis diploma thesis focuses on training a machine learning model to recognize gestures during robot-assisted surgical procedures in real-time, using exclusively kinematic data from the patient-side manipulators. The JIGSAWS dataset, specifically the suturing tasks, serves as the evaluation benchmark. Our goal was to achieve state-of-the-art performance, ensuring the model operates in real-time with a maximum delay of 1 second and is trained solely on kinematic data. We experimented with various neural network architectures, using an LSTM architecture as foundation, in order to effectively capture temporal dependencies within the data sequences. Visualization tools like graphs, confusion matrices, and transition matrices were employed to identify areas for improvement. Challenges arising from imbalanced data led to difficulties in recognizing underrepresented classes. We expanded the feature set, creating a new feature based on gripper angles. To further enhance performance, we implemented two hybrid approaches: one integrating an attention layer and another combining an LSTM with a Conditional Random Field (CRF) to leverage the sparse transition matrix. Our efforts culminated in a hybrid LSTM - Self Attention model, achieving an accuracy of 81.56%, demonstrating improvements and meeting the constraints set for real-time operation and exclusive use of kinematic data.en_US
dc.languageenen_US
dc.subjectSurgical Gesture Recognitionen_US
dc.subjectRobotic Surgeryen_US
dc.subjectJIGSAWSen_US
dc.subjectMachine Learningen_US
dc.subjectKinematic Dataen_US
dc.subjectReal-timeen_US
dc.subjectΑναγνώριση Ρομποτικών Χειρουργικών Κινήσεωνen_US
dc.subjectΡομποτική Χειρουργικήen_US
dc.subjectΚινηματικά Δεδομέναen_US
dc.subjectΜηχανική Μάθησηen_US
dc.subjectAttention Mechanismen_US
dc.subjectCRFen_US
dc.subjectLSTMen_US
dc.subjectSelf Attentionen_US
dc.subjectHybrid Modelen_US
dc.titleSurgical Gesture Recognition in Robot-Assisted Surgery using Machine Learning Methods on Kinematic Dataen_US
dc.description.pages79en_US
dc.contributor.supervisorΤζαφέστας Κωνσταντίνοςen_US
dc.departmentΤομέας Σημάτων, Ελέγχου και Ρομποτικήςen_US
dc.description.notesΣτόχος της παρούσας διπλωματικής εργασίας ήταν η εκπαίδευση ενός μοντέλου μηχανικής μάθησης για την αναγνώριση χειρονομιών κατά τη διάρκεια ρομποτικών χειρουργικών επεμβάσεων σε πραγματικό χρόνο. Η αξιολόγηση έγινε χρησιμοποιώντας το dataset JIGSAWS, το οποίο περιλαμβάνει δεδομένα από τη χρήση του χειρουργικού ρομποτ Da Vinci. Συγκεκριμένα αξιοποιήσαμε τα δεδομένα από τις δοκιμές συρραφής. Στόχος ήταν η επίτευξη υψηλής απόδοσης ως προς την επιτυχή αναγνώριση χειρονομιών, συγκρίσιμη με τις βέλτιστες της διεθνούς βιβλιογραφίας, υπό τις ακόλουθες συνθήκες υπό τις ακόλουθες συνθήκες: α) το μοντέλο να μπορεί να λειτουργεί σε πραγματικό χρόνο μέσω ενός συρόμενου παραθύρου με μέγιστη καθυστέρηση 1 δευτερολέπτου, και β) η εκπαίδευση των μοντέλων να βασιστεί μόνο σε κινηματικά δεδομένα, χωρίς δηλαδή τη χρήση οπτικών (ενδοσκοπικών) δεδομένων. Το βασικό νευρωνικό δίκτυο που χρησιμοποιήθηκε ήταν το LSTM. Αρχικά, πειραματιστήκαμε με τη χρήση ενός και δύο επιπέδων LSTM και στη συνέχεια επιχειρήσαμε να βελτιώσουμε την απόδοση του μοντέλου με διάφορες τεχνικές όπως βελτιστοποίηση υπερπαραμέτρων, πρόωρη διακοπή, εισαγωγή drop out, κανονικοποίηση L2, και stratification. Σε κάθε βήμα, έγινε προσπάθεια οπτικοποίησης των αποτελεσμάτων με διάφορα γραφήματα οπως confusion matrix, transition matrix και ακρίβεια ανά κλάση για να αξιολογήσουμε τις περιοχές που χρειάζονται βελτίωση. Μετά την παρατήρηση μιας αδυναμίας στην αναγνώριση κατηγοριών με τη μικρότερη εκπροσώπηση στο σύνολο δεδομένων, εφαρμόσαμε stratification (στρωματοποιημένη δειγματοληψία), καθώς και μεγαλύτερη ποινή για την εσφαλμένη ταξινόμηση αυτών των κατηγοριών. Στη συνέχεια, πειραματιστήκαμε με τη χρήση διαφορετικών υποσυνόλων των διαθέσιμων χαρακτηριστικών (features), και παράλληλα έγινε μία προσπάθεια feature engineering, συνδυάζοντας τις γωνίες των δύο gripper σε μία νέα μεταβλητή τεσσάρων πιθανών καταστάσεων που ονομάσαμε Joint Gripper State. Για την περαιτέρω βελτίωση της απόδοσης του συστήματος αναγνώρισης χειρονομιών σε πραγματικό χρόνο, προτείνονται και αξιολογούνται στην παρούσα διπλωματική εργασία δύο υβριδικές προσεγγίσεις της βασικής αρχιτεκτονικής ενός μοντέλου LSTM. Στην πρώτη προσέγγιση, εισάγεται ένα επιπλέον επίπεδο Attention, το οποίο επιλέχθηκε μετά από συγκριτική αξιολόγηση διαφόρων διατάξεων. Στη δεύτερη προσέγγιση, έγινε προσπάθεια εκμετάλλευσης της αραιούς κατανομής του transition matrix χρησιμοποιώντας ένα CRF το οποίο λαμβάνει ως είσοδο τις προβλέψεις του LSTM σε συνδυασμό με μέρος των κινηματικών δεδομένων. Βέλτιστη απόδοση με ακρίβεια 81.56% επετεύχθη τελικώς χρησιμοποιώντας ένα υβριδικό μοντέλο LSTM-Self Attention, βελτιώνοντας αντίστοιχες επιδόσεις που αναφέρονται στη διεθνή βιβλιογραφία, δεδομένων των δύο αυστηρών περιορισμών που ετέθησαν.en_US
Appears in Collections:Διπλωματικές Εργασίες - Theses

Files in This Item:
File Description SizeFormat 
Dimitriadis_Diplo.pdfFull Text12.8 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.