Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/17443
Full metadata record
DC FieldValueLanguage
dc.contributor.authorΚοσμά, Χρυσούλα-
dc.date.accessioned2019-11-18T08:14:01Z-
dc.date.available2019-11-18T08:14:01Z-
dc.date.issued2019-11-12-
dc.identifier.urihttp://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/17443-
dc.description.abstractΗ βιοπληροφορική είναι το επιστημονικό πεδίο της ανάλυσης βιολογικών δεδομένων. Τα βιολογικά δεδομένα ποικίλλουν, από ακολουθίες DNA/RNA, οι οποίες μοντελοποιούνται ως ακολουθίες χαρακτήρων (αποτελούμενες από τέσσερις διαφορετικούς χαρακτήρες Α, G, C, T) στην περιγραφή της δομής πρωτεϊνών και τις ταξινομήσεις διαφορετικών οργανισμών. Μια κοινή προσέγγιση για την ανάλυση αυτών των δεδομένων είναι η εξαντλητική μοντελοποίηση ή η στατιστική ανάλυση τους. Η προσέγγιση της στατιστικής ανάλυσης είναι ένας αποτελεσματικός τρόπος σε αυτά τα προβλήματα, καθώς η πολυπλοκότητα των βιολογικών συστημάτων, που επηρεάζουν τα βιολογικά δεδομένα, είναι υψηλή και πρέπει να ληφθούν υπόψη όλες οι πιθανές αλληλεπιδράσεις μεταξύ των υποσυστημάτων τους. Σε αυτή την κατεύθυνση, τα τελευταία χρόνια, έχουν πραγματοποιηθεί αρκετές εργασίες που προσπαθούν να αναλύσουν βιολογικά δεδομένα με χρήση μηχανικής μάθησης, αποδεικνύοντας ότι τα υπάρχοντα πρότυπα βιολογικών ακολουθιών μπορούν να μοντελοποιηθούν αποτελεσματικά. Ανάμεσα στα πιο γνωστά προβλήματα βιολογικών ακολουθιών είναι το πρόβλημα της Πρόβλεψης της Δευτεροταγούς Δομής των Πρωτεϊνών, το οποίο στοχεύει στη απεικόνιση ακολουθιών πρωτεϊνών (αποτελούμενων από 22 διακριτούς χαρακτήρες) στις αντίστοιχες ακολουθίες της δευτεροταγούς δομής τους (η οποία συνήθως αποτελείται από 3 ή 8 κατηγορίες χαρακτήρων, που ορίζουν αντίστοιχα τις κωδικοποιήσεις Q3 και Q8). Σε αυτή την εργασία, το δύσκολο πρόβλημα της Q8 κωδικοποίησης της Δευτεροταγούς Δομής των Πρωτεϊνών εξετάζεται διεξοδικά. Οι πιο επιτυχημένες αρχιτεκτονικές που έχουν εφαρμοστεί στο πρόβλημα αυτό έχουν επιτύχει μια ακρίβεια ~71%, χρησιμοποιώντας μια ποικιλία μοντέλων, όπως βαθιά Συνελικτικά Νευρωνικά Δίκτυα, Επαναλαμβανόμενα Νευρωνικά Δίκτυα και μηχανισμούς Προσοχής, καθώς και συνδυασμούς των διαφόρων αρχιτεκτονικών. Δεδομένου ότι το πρόβλημα Πρόβλεψης της Δευτεροταγούς Δομής των Πρωτεϊνών είναι ένα πρόβλημα πρόβλεψης ακολουθίας από ακολουθία, με τις ακολουθίες να αποτελούνται από χαρακτήρες, τα μοντέλα Επεξεργασίας Φυσικής Γλώσσας μπορούν να εφαρμοστούν στα δεδομένα και να τα χειριστούν ως ακολουθίες κειμένου. Σε αυτό το πλαίσιο, το πρόβλημα μπορεί να θεωρηθεί ως μια εργασία Μηχανικής Μετάφρασης από μια γλώσσα (αποτελούμενη από 22 χαρακτήρες για τα υπολείμματα των πρωτεϊνών) σε άλλη (αποτελούμενη από 8 διαφορετικούς χαρακτήρες που ορίζουν την ακολουθία της δευτεροταγούς δομής). Το μοντέλο με την μεγαλύτερη ακρίβεια στη Μηχανική Μετάφραση κειμένου είναι το μοντέλο του Μεταφραστή (Transformer), το οποίο και εφαρμόζεται σε αυτή την εργασία στο πρόβλημα Πρόβλεψης της Δευτεροταγούς Δομής των Πρωτεϊνών. Το μοντέλο αυτό επιτυγχάνει μια αξιοπρεπή ακρίβεια ~64.4% μετά από βασική ρύθμιση των υπερπαραμέτρων του και με τη χρήση ενός λεξιλογίου που αποτελείται από λέξεις ενός χαρακτήρα σε κάθε ακολουθία. Περαιτέρω βελτιώσεις σε αυτήν την αρχιτεκτονική, όπως πειράματα με διαφορετικά λεξιλόγια (με την εξαγωγή n-χαρακτήρων από τις ακολουθίες και τη χρήση τους ως λέξεις) ή χρήση προ-εκπαιδευμένων ενσωματώσεων από μεγαλύτερα σύνολα δεδομένων πρωτεϊνικών ακολουθιών, ενδεχομένως να επιτύχουν μεγαλύτερη ακρίβεια σε αυτό το πρόβλημα και να αναδείξουν το συνολικό μοτίβο της δομής των πρωτεϊνών.en_US
dc.languageelen_US
dc.subjectΜηχανική Μάθησηen_US
dc.subjectΤεχνητά Νευρωνικά Δίκτυαen_US
dc.subjectΜηχανική Μετάφρασηen_US
dc.subjectΜοντελοποίηση Βιολογικών Ακολουθιώνen_US
dc.titleΠρόβλεψη της Δευτεροταγούς Δομής Πρωτεϊνών με τεχνικές Μηχανικής Μάθησηςen_US
dc.description.pages100en_US
dc.contributor.supervisorΣτάμου Γιώργοςen_US
dc.departmentΤομέας Τεχνολογίας Πληροφορικής και Υπολογιστώνen_US
Appears in Collections:Διπλωματικές Εργασίες - Theses

Files in This Item:
File Description SizeFormat 
Κοσμά_Χρυσούλα_Διπλωματική.pdf2.3 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.