Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/17615
Title: Πολυτροπική εκτίμηση της κατάθλιψης με χρήση βαθιάς μάθησης μέσα από εξόρυξη οπτικοακουστικής και σημασιολογικής πληροφορίας
Authors: Καλλιγά, Πολυξένη
Σταφυλοπάτης Ανδρέας-Γεώργιος
Keywords: Μηχανική μάθηση, βαθιά μάθηση, νευρωνικά δίκτυα, συνελικτικά δίκτυα, κατάθλιψη, φυσική επεξεργασία γλώσσας, ανάλυση περιεχομένου, πολυτροπικά μοντέλα, συγχώνευση μοντέλων, υβριδικός αλγόριθμος, επιβλεπόμενη μάθηση, ταξινόμηση, παλινδρόμηση, random forest, ακουστικά χαρακτηριστικά, οπτικά χαρακτηριστικά
Issue Date: 9-Jul-2020
Abstract: Αντικείμενο αυτής της διπλωματικής εργασίας είναι η ανάπτυξη ενός βέλτιστου μοντέλου για την πολυτροπική εκτίμηση της ανθρώπινης κατάθλιψης μέσα από βιντεοσκοπημένες συνεδρίες, με τεχνικές βαθιάς μηχανικής μάθησης πάνω σε εκφράσεις του προσώπου των ασθενών και χαρακτηριστικά της ομιλίας, πέρα απο την αξιοποίηση της ανάλυσης του λόγου σε κείμενο. Σκοπός της πολυτροπικής αυτής προσέγγισης είναι η έκβαση ενός αξιόπιστου αποτελέσματος που δεν βασίζεται αποκλειστικά στην ανάλυση της φυσικής γλώσσας του ασθενή αλλα σε πιο ισχυρά φυσικά ενδεικτικά μέσα έκφρασης (στοιχεία ομιλίας και εκφράσεων προσώπου) που καταπολεμούν το πρόβλημα της διαστρέβλωσης του αποτελέσματος από τον ανθρώπινο παράγοντα. Συγκεκριμένα, θα συγκρίνουμε τα σχετικά πλεονεκτήματα των διάφορων προσεγγίσεων με στόχο να πετύχουμε σημαντικές βελτιώσεις στην εκτίμησης της κατάθλιψης μέσω των PHQ8 τιμών [9] οι οποίες και έχουν καταγραφεί πριν γίνει οποιαδήποτε αλληλεπίδραση ασθενή και εικονικού ψυχολόγου. Για να καθορίσουμε λοιπόν σε τι βαθμό η συγχώνευση διαφορετικών προσεγγίσεων πάνω στα διάφορα χαρακτηριστικά έκφρασης της κατάθλιψης είναι δυνατή και αποτελεσματική, θα αξιοποιήσουμε μια μεγάλη ποικιλία περιγραφικών χαρακτηριστικών για κάθε κατηγορία (ήχος, εικόνα, κείμενο) , ακολουθούμενα απο τεχνικές μηχανικής μάθησης καθώς επίσης και ποικίλα μοντέλα βαθιάς μάθησης. Πιο συγκεκριμένα, τα πειράματά μας εκτελούνται πάνω στο αποθετήριο δεδομένων Distress Analysis Interview Corpus-Wizard of Oz (DAIC-WOZ) [1]. Αρχικά, οι πιο πρόσφατες και εξελιγμένες τεχνολογίες και έρευνες στην επιστήμη της οπτικοακουστικής αναγνώρισης ψυχικών διαταραχών και της ανάλυσης κειμένου βάση του περιεχομένου διερευνώνται λεπτομερώς και οι πιο σημαντικές προσεγγίσεις καταγράφονται. Ακολούθως, παρατίθενται οι βασικές θεωρητικές αρχές, πάνω στις οποίες βασίζεται η προτεινόμενη προσέγγισή μας στο πρόβλημα, καθώς και διάφορες δοκιμές που αποδείχθηκαν λιγότερο αποδοτικές. Έπειτα, αναπτύσσεται το στάδιο της προεπεξεργασίας των δεδομένων για κάθε μια από τις τρεις κατηγορίες που έχουν εξαχθεί με σκοπό την βέλτιστη προετοιμασία τους πριν εισαχθούν σε έναν Baseline εκτιμητή για τον υπολογισμό του βαθμού της κατάθλιψης που πάσχει, αν και εφόσον πάσχει ο κάθε ασθενής. Στο συγκεκριμένο Baseline μοντέλο το τελικό PHQ8 σκορ υπολογίζεται από τον μέσο όρο των αποτελεσμάτων που προκύπτουν από τα επιμέρους μοντέλα του ήχου και του βίντεο. Τέλος, προτείνουμε ένα υβριδικό μοντέλο ταξινόμησης και αξιολόγησης της κατάθλιψης εκμεταλλευόμενοι τους περιγραφητές ήχου, βίντεο και κειμένου που εξήγαμε προηγουμένως, με την εξής δομή: 1) Ένα Συνελικτικό Βαθύ Νευρωνικό Δίκτυο για κάθε ένα από τους περιγραφητές ήχου, εικόνας και κειμένου για την αξιολόγηση του PHQ8 score κατάθλιψης, ξεχωριστά για τα δύο φύλα (άνδρας, γυναίκα) όσων αφορά τον ήχο και το βίντεο, 2) Ένα μοντέλο ανάλυσης περιεχομένου των απομαγνητοφωνημένων συνεντεύξεων και ταξινόμησης με χρήση Random Forest για την παρουσία ή μη του φαινομένου της κατάθλιψης, 3) Ένα πολυπαραγοντικό μοντέλο παλινδρόμησης που συνδυάζει τις εκτιμήσεις των PHQ8 scores από τα μοντέλα παλινδρόμησης των 3 περιγραφητών καθώς επίσης και του ταξινομητή από την ανάλυση περιεχομένου. Τα αποτελέσματά μας υποδεικνύουν πως η προτεινόμενη προσέγγισή μας επιφέρει αξιόλογα αποτελέσματα, μάλιστα τα βέλτιστα μέχρι στιγμής, επιτυγχάνοντας τις ακόλουθες τιμές στις μετρικές που αξιολογήθηκαν: ρίζα μέσου τετραγωνικού σφάλματος RMSE=4.543 και μέσο απόλυτο σφάλμα MAE=3.347 στο σύνολο των testing δεδομένων, αρκετά πιο βέλτιστα από τα αποτελέσματα του Baseline μοντέλου που φέρει τις μετρικές: RMSE=7.050 και MAE=5.660, γεγονός που χρήζει την προσέγγιση μας άξια σύγκρισης με σχετικές μεθοδολογίες στο πεδίο της αξιολόγησης της κατάθλιψης. Στην προσέγγιση αυτή έχουμε ως στόχο να αξιοποιήσουμε την γενικότερη συμπεριφορά των δεδομένων μας ώστε να αντιμετωπίσουμε το πρόβλημα της υπερεκπαίδευσης που φαίνεται να αντιμετωπίζουν οι παλαιότερες προσεγγίσεις. Το υποκείμενο κίνητρο αυτής της μελέτης είναι η ανάγκη να βελτιστοποιήσουμε το πρόβλημα της αξιολόγησης της κατάθλιψης και κατ’ επέκτασιν της γενικότερης αναγνώρισης συναισθήματος από πολυτροπική εξόρυξη δεδομένων, σε ένα επίπεδο όπου οι συμπεριφορές κατά την αλληλεπίδραση ανθρώπου μεταξύ ανθρώπου ή ανθρώπου με μηχανής να μπορούν να αναγνωριστούν αξιόπιστα σε πραγματικές συνθήκες από έναν εγκέφαλο υπολογιστή, χωρίς να βασίζονται αποκλειστικά στην ανάλυση της φυσικής γλώσσας αλλα σε πιο ισχυρά ενδεικτικά στοιχεία που καταπολεμούν το πρόβλημα της διαστρέβλωσης της έκβασης του αποτελέσματος από την ανθρώπινη αντίληψη. Το ευρύτερο αυτό πρότζεκτ ξεκίνησε ως μέρος μιας μεγαλύτερης προσπάθειας να δημιουργηθεί ένας πράκτορας-υπολογιστής που παίρνει συνέντευξη σε ανθρώπους και αναγνωρίζει λεκτικά και μη, στοιχεία ψυχικής διαταραχής χωρίς να υπάρχει κίνδυνος να επηρεαστεί η έκβαση του αποτελέσματος από τον υποκειμενικό παράγοντα της ανθρώπινης κρίσης.
URI: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/17615
Appears in Collections:Διπλωματικές Εργασίες - Theses

Files in This Item:
File Description SizeFormat 
Thesis.pdf3.75 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.