Τεχνικές μηχανικής μάθησης για τη διάγνωση ατόμων που πάσχουν από τον ιό SARS-CoV-2 με χρήση ηχητικών καταγραφών βήχα

Τσιάκα, Ιωάννα

National Technical University of Athens

School of Electrical and Computer Engineering

Artemis is Live!

Welcome to our digital repository! The aim of Artemis is the systematic archiving and dissemination of the scientific work produced in the School of Electrical and Computer Engineering, National Technical University of Athens, Greece, using the technology of digital libraries.

Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/18163

Title:	Τεχνικές μηχανικής μάθησης για τη διάγνωση ατόμων που πάσχουν από τον ιό SARS-CoV-2 με χρήση ηχητικών καταγραφών βήχα
Authors:	Τσιάκα, Ιωάννα Νικήτα Κωνσταντίνα
Keywords:	Ανίχνευση Βήχας Ταξινόμηση Covid-19 Μηχανική Μάθηση Deep Learning Random forest (RF) XGBoost (XGB) Gradient Boosting Classifier (GBC) K-nearest neighbor (KNN) Support Vector Machine (SVM) Long short-term memory (LSTM) Bidirectional long short-term memory (Bi-LSTM) Κορονοϊός
Issue Date:	8-Nov-2021
Abstract:	H COVID-19 είναι μια μεταδοτική αναπνευστική ασθένεια που εξαπλώθηκε σε όλο τον κόσμο το 2020, επιφέροντας καταστροφικές συνέπειες. Η πανδημία COVID-19 έχει οδηγήσει σε δραματική απώλεια ανθρώπινων ζωών παγκοσμίως και αποτελεί μια άνευ προηγουμένου πρόκληση για τη δημόσια υγεία, την ψυχική υγεία και τον κόσμο της εργασίας. Η οικονομική και κοινωνική αναταραχή που προκαλείται από την πανδημία έφερε δεκάδες εκατομμύρια ανθρώπους αντιμέτωπους με τον κίνδυνο της φτώχειας. Επομένως, απαιτείται μια χαμηλού κόστους, γρήγορη και εύκολα διαθέσιμη λύση για την παροχή διάγνωσης COVID-19, με στόχο τον περιορισμό της. Σύμφωνα με πρόσφατες μελέτες, ένα από τα κύρια συμπτώματα της COVID-19 είναι ο βήχας. Στόχος, λοιπόν, της παρούσας διπλωματικής εργασίας αποτελεί η ανάπτυξη μεθόδου που βασίζεται σε τεχνικές μηχανικής μάθησης για την αυτόματη διάγνωση της COVID-19 μέσω ηχητικών καταγραφών βήχα. Για το σκοπό αυτό αξιοποιήθηκαν βάσεις δεδομένων που περιλαμβάνουν άτομα από μεγάλο σύνολο χωρών και περιέχουν τόσο αναγκαστικό όσο και φυσικό βήχα. Το δημοσίως διαθέσιμο σύνολο δεδομένων Coswara περιέχει 341 θετικά για την COVID-19 και 1195 υγιή άτομα, ενώ το δεύτερο μικρότερο σύνολο δεδομένων συλλέχτηκε κυρίως στο Cambridge και περιέχει 61 θετικά για COVID-19 και 269 αρνητικά για τον COVID-19. Και στα δύο σύνολα δεδομένων παρατηρείται ανισορροπία ανάμεσα στα δείγματα ήχου υγειών ατόμων και ατόμων που πάσχουν από COVID-19 της τάξεως του 20% - 30%. Η ανισορροπία του συνόλου δεδομένων αντιμετωπίστηκε με εφαρμογή κατάλληλων τεχνικών για την εξισορρόπηση των κλάσεων. Για το σκοπό της αναζήτησης κατάλληλων υπερπαραμέτρων των μοντέλων και της επιλογής χαρακτηριστικών, χρησιμοποιήθηκε τυχαίος διαχωρισμός δεδομένων εκπαίδευσης – ελέγχου για επτά μοντέλα ταξινομητών: τυχαίο δάσος (RF), XGBoost (XGB), ταξινομητής ενίσχυσης κλίσης (GBC), k-πλησιέστερος γείτονας (KNN), μηχανή υποστήριξης διανυσμάτων (SVM), μακροχρόνια βραχυπρόθεσμη μνήμη (LSTM) και αμφίδρομη μακροπρόθεσμη μνήμη (Bi-LSTM). Όσον αφορά την επικύρωση της απόδοσης των μοντέλων, εφαρμόστηκαν επαναλαμβανόμενες τεχνικές k-fold και leave-one-out. Τα αποτελέσματα δείχνουν ότι παρόλο που όλοι οι ταξινομητές μπόρεσαν να αναγνωρίσουν τον βήχα COVID-19, την καλύτερη απόδοση παρουσίασε ο ταξινομητής Bi-LSTM, ο οποίος ήταν σε θέση να διακρίνει μεταξύ του θετικού για την COVID-19 και του υγιούς βήχα με περιοχή κάτω από τη ROC καμπύλη (AUC) 0.70. Ένας ταξινομητής LSTM μπόρεσε να διακρίνει καλύτερα τον βήχα θετικό για την COVID-19 και τον αρνητικό με COVID-19, με AUC 0.68 μετά την επιλογή των καλύτερων 11 χαρακτηριστικών με την βοήθεια της feature importance συνάρτησης των ντετερμινιστικών μοντέλων μηχανικής μάθησης.
URI:	http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/18163
Appears in Collections:	Διπλωματικές Εργασίες - Theses

Files in This Item:

File	Description	Size	Format
Διπλωματική Τσιάκα.pdf		1.64 MB	Adobe PDF	View/Open

Show full item record