Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/18774
Title: Προς Νευρωνικά Μοντέλα Με Ικανότητες Τύπου Συστήματος 2
Authors: Κολιός, Παναγιώτης
Ποταμιάνος Αλέξανδρος
Keywords: Τεχνητή Νοημοσύνη
Artificial Intelligence
Μηχανική Μάθηση
Machine Learning
Επεξεργασία Φυσικής Γλώσσας
Natural Language Processing
Νευρωνικά Δίκτυα
Neural Networks
Transformers
Causality
Inductive Biases
Meta-Learning
Issue Date: 30-May-2023
Abstract: Το θέμα αυτής της διπλωματικής εργασίας είναι η μελέτη και η ανάπτυξη ιδιοτήτων και χαρακτηριστικών των νευρωνικών δικτύων, οι οποίες προσδοκάται να τους επιτρέψουν να αποθηκεύουν και να διαχειρίζονται πληροφορία με τρόπο κοντινότερο σε αυτόν με τον οποίο το πράττει ο ανθρώπινος εγκέφαλος. Εστιάζουμε κυρίως στο γνωστό νευρωνικό μοντέλο transformer και σε παραλλαγές του, που έχουν χρησιμοποιηθεί κυρίως για την επίλυση προβλημάτων φυσικής γλώσσας (natural language). Παρουσιάζουμε θέματα τα οποία άπτονται των περιοχών της γνωσιακής επιστήμης, της νευροεπιστήμης και της μελέτης της αιτότητας και σχετίζονται με τον τρόπο με τον οποίο σκέφτεται και λειτουργεί το ανθρώπινο μυαλό. Εξετάζουμε τον διαχωρισμό της ανθρώπινης νόησης σε System 1 και System 2, τον οποίο αναλύει ο Kahneman στο βιβλίο του Thinking Fast And Slow. Ακολούθως περιγράφουμε επιλεγμένα τμήματα του ανθρώπινου εγκεφάλου, καταδεικνύοντας την, υπαρκτή σε αυτόν, τάση εξειδίκευσης και καταμερισμού των εργασίων επεξεργασίας της πληροφορίας, και παραθέτουμε τα βασικά χαρακτηριστικά ενός θεωρητικού μοντέλου για τον τρόπο επικοινωνίας μεταξύ των διάφορων τμημάτων του, το οποίο ονομάζεται Global Workspace Theory. Επίσης, εξηγούμε πως συμπεράσματα από μελέτες στο πεδίο της αιτιότητας (causality) αιτιολογούν την οργάνωση της πληροφορίας σε ανεξάρτητους μηχανισμούς (independent mechanisms). Στη συνέχεια μελετάμε προσπάθειες ενσωμάτωσης των παραπάνω ιδεών στα σύγχρονα νευρωνικά δίκτυα. Βασιζόμαστε στην δουλειά των Goyal και Bengio πάνω στις επαγωγικές προτιμήσεις (inductive biases), σκοπός των οποίων είναι ο καθορισμός των υποθέσεων που γίνονται κατά την διάρκεια της εκπαίδευσης ενός μοντέλου, καθώς και αυτών που κάνουν τα νευρωνικά δίκτυα όσον αφορά στην στατιστική και αιτιακή κατανομή των δεδομένων. Παρουσίαζουμε προσπάθειες ενσωμάτωσης διαφόρων τύπων επαγωγικών προτιμήσεων, είτε στην εκπαιδευτική διαδικασία είτε σε γνωστές αρχιτεκτονικές μοντέλων νευρωνικών δικτύων. Εστιάζουμε σε προσπάθειες που επιδιώκουν την εξειδίκευση τμημάτων των παραπάνω μοντέλων, κυρίως μέσω διαδικασιών ανταγωνισμού μεταξύ των τμημάτων αυτών. Προτείνουμε δύο μετατροπές σε νευρωνικά δίκτυα που βασίζονται στο μοντέλο transformer. Αρχικά προτείνουμε την αντικατάσταση των δικτύων εμπρόσθιας τροφοδότητσης που βρίσκονται στα στρώματα του transformer από ένα σύνολο παράλληλων αντίστοιχων δικτύων, τα οποία θα εκπαιδεύονται μέσω ανταγωνιστικών διαδικασιών, οι νικητές των οποίων θα αποκτούν τις άδειες επεξεργασίας των αντίστοιχων στοιχείων του διανύσματος εισόδου. Ακόμα προτείνουμε την εφαρμογή ενός αντίστοιχου συστήματος για την εκπαίδευση των κεφαλών προσοχής των ίδιων μοντέλων. Εφαρμόζουμε την δεύτερη μέθοδο, που αφορά στις κεφαλές προσοχής, στο μοντέλο transformer και το εκπαιδεύουμε πάνω σε πρόβλαματα μηχανικής μετάφρασης (neural machine translation), καθώς και στο μοντέλο BERT, το οποίο εκπαιδεύουμε στο πρόβλημα μοντελοποίησης της φυσικής γλώσσας (language modeling). Τα δύο μοντέλα δεν επιδεικνύουν σαφείς τάσεις βελτίωσης στα προβλήματα αυτά σε σχέση με τα μοντέλα βάσης (baseline models). Εξετάζουμε τα πιθανά αίτια αυτής της συμπεριφοράς και προτείνουμε πιθανές μεθόδους επίλυσης των προβλημάτων καθώς και κατευθύνσεις για μελλοντική έρευνα.
URI: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/18774
Appears in Collections:Διπλωματικές Εργασίες - Theses

Files in This Item:
File Description SizeFormat 
Diploma_final.pdf10.3 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.