Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/17974
Full metadata record
DC FieldValueLanguage
dc.contributor.authorΜελέτης, Γεώργιος Κωνσταντίνος-
dc.date.accessioned2021-07-01T18:38:13Z-
dc.date.available2021-07-01T18:38:13Z-
dc.date.issued2020-11-18-
dc.identifier.urihttp://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/17974-
dc.description.abstractΗ εξέλιξη των νευρωνικών δικτύων και της µηχανικής µάθησης γίνεται ολοένα και πιο ραγδαία, µε τις δυνατότητες τους να ξεπερνούν κάθε νέο όριο που συναντούν. Ένα πρόβληµα που τεστάρει τις δυνατότητες των νευρωνικών δικτύων σε πολύ υψηλό επίπεδο, είναι η διαδικασία παραγωγής νέων δεδοµένων. Η κατηγορία των δικτύων που ασχολούνται µε την διαδικασία παραγωγής νέων δεδοµένων έχει λιγότερο από µια δεκαετία που άρχισε να αναπτύσσεται, διότι οι απαιτήσεις σε υπολογιστικούς πόρους είναι πολύ υψηλές. Τα πιο γνωστά δίκτυα παραγωγής δεδοµένων είναι τα Generative Adversarial Networks (GANs) και οι Variational Autoencoders (VAEs). Η παραγωγή ήχου µε τη χρήση νευρωνικών δικτύων έχει επικεντρωθεί στην παραγωγή ήχων µε υψηλό βαθµό οργάνωσης, όπως η µουσική. Στον τοµέα αυτό έχουν εξελιχθεί πολύ ικανά δίκτυα, των οποίων οι δυνατότητες προσεγγίζουν γοργά τις δυνατότητες ενός ικανού συνθέτη µουσικής. Παρόλα αυτά, δεν έχει δοθεί τόση σηµασία στην παραγωγή ήχων µε υψηλό βαθµό τυχαιότητας, όπως οι ήχοι του φυσικού περιβάλλοντος, καθώς η τυχαιότητα που καλούµαστε να αντιµετωπίσουµε αυξάνει αυτόµατα τις απαιτήσεις σε υπολογιστική ισχύ. Έτσι δεν φαίνεται να έχει δοθεί µια εκτίµηση για το ποια κατηγορία δικτύων ή ποια µορφή αναπαράστασης τέτοιων ήχων είναι η ιδανική ώστε να υλοποιηθεί µια παραγωγική διαδικασία. Η παρούσα εργασία ασχολείται µε την σύνθεση ήχων µε υψηλό βαθµό τυχαιότητας, όπως οι ήχοι που συναντά κανείς σε ένα αστικό περιβάλλον και µε το κατά πόσο ένα νευρωνικό δίκτυο µπορεί από µια οπτική αναπαράσταση των ήχων αυτών να παράγει παρόµοιους αλλά εντελώς νέους ήχους. Οι αναπαραστάσεις που ελέγχονται και αξιολογούνται στα πλαίσια της εργασίας, είναι καθαρά οπτικές αναπαραστάσεις του ήχου και αφορούν το φασµατογράφηµα (Spectrogram), το φασµατογράφηµα mel (Mel-spectrogram) και τους συντελεστές συχνότητας Cepstral του Mel (Mel-Frequency Cepstral Coefficients - MFCCs). Το δίκτυο που επιλέχθηκε ως βάση για έρευνα, είναι ο VAE και συγκεκριµένα µια παραλλαγή του, η οποία στηρίζεται στο συνδυασµό των συνελικτικών δικτύων (CNN) µε τον VAE και ονοµάζεται Convolutional Variational Autoencoder (CVAE). Τα αποτελέσµατα έδειξαν πως οι οπτικές αναπαραστάσεις του ήχου µπορεί να έχουν λιγότερο κόστος σε µνήµη, αλλά έχουν ως αποτέλεσµα την απώλεια σηµαντικής πληροφορίας. Η αναπαράσταση που έδωσε τα καλύτερα αποτελέσµατα φάνηκε να ήταν το φασµατογράφηµα-Mel, µε την αναπαράσταση MFFC να ακολουθεί και τέλος το απλό φασµατογράφηµα. Η αρχιτεκτονική των βαθιών νευρωνικών δικτύων που χρησιµοποιήθηκε φάνηκε να παίζει µικρό ρόλο σε σχέση µε την ποιότητα και την ποσότητα των δεδοµένων εκπαίδευσης, καθώς φάνηκε να προσεγγίζουν το µέγιστο των δυνατοτήτων τους µε βάση τα δεδοµένα που τους παρασχέθηκαν. Τα αποτελέσµατα δείχνουν πως η καταλληλότητα των VAE για την παραγωγή νέων ήχων στηρίζεται κατά κύριο λόγο στην ποιότητα και την ποσότητα των διαθέσιµων δεδοµένων. Η παρούσα υλοποίηση δείχνει πρώιµα αλλά σηµαντικά αποτελέσµατα πάνω στην παραγωγή ήχου υψηλής τυχαιότητας από δίκτυα VAE και βάζει τις βάσεις για πιο εξελιγµένα παραγωγικά µοντέλα που χωρίς αµφιβολία θα δηµιουργηθούν στο προσεχές µέλλον.en_US
dc.languageelen_US
dc.subjectΠαραγωγικά Μοντέλαen_US
dc.subjectVariational Autoencoderen_US
dc.subjectΠαραγωγή ήχουen_US
dc.subjectΣυνελικτικά Νευρωνικά Δίκτυαen_US
dc.subjectΑναπαράσταση ήχουen_US
dc.subjectSound Representationen_US
dc.subjectConvolutional Variational Autoencoderen_US
dc.titleΣύνθεση ήχων περιβάλλοντος πόλης µε χρήση αλγορίθµων βαθιάς µηχανικής µάθησηςen_US
dc.description.pages92en_US
dc.contributor.supervisorΣτάμου Γιώργοςen_US
dc.departmentΤομέας Τεχνολογίας Πληροφορικής και Υπολογιστώνen_US
Appears in Collections:Διπλωματικές Εργασίες - Theses

Files in This Item:
File Description SizeFormat 
Thesis - Georgios K Meletis.pdfThesis12.77 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.