Please use this identifier to cite or link to this item: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/17974
Title: Σύνθεση ήχων περιβάλλοντος πόλης µε χρήση αλγορίθµων βαθιάς µηχανικής µάθησης
Authors: Μελέτης, Γεώργιος Κωνσταντίνος
Στάμου Γιώργος
Keywords: Παραγωγικά Μοντέλα
Variational Autoencoder
Παραγωγή ήχου
Συνελικτικά Νευρωνικά Δίκτυα
Αναπαράσταση ήχου
Sound Representation
Convolutional Variational Autoencoder
Issue Date: 18-Nov-2020
Abstract: Η εξέλιξη των νευρωνικών δικτύων και της µηχανικής µάθησης γίνεται ολοένα και πιο ραγδαία, µε τις δυνατότητες τους να ξεπερνούν κάθε νέο όριο που συναντούν. Ένα πρόβληµα που τεστάρει τις δυνατότητες των νευρωνικών δικτύων σε πολύ υψηλό επίπεδο, είναι η διαδικασία παραγωγής νέων δεδοµένων. Η κατηγορία των δικτύων που ασχολούνται µε την διαδικασία παραγωγής νέων δεδοµένων έχει λιγότερο από µια δεκαετία που άρχισε να αναπτύσσεται, διότι οι απαιτήσεις σε υπολογιστικούς πόρους είναι πολύ υψηλές. Τα πιο γνωστά δίκτυα παραγωγής δεδοµένων είναι τα Generative Adversarial Networks (GANs) και οι Variational Autoencoders (VAEs). Η παραγωγή ήχου µε τη χρήση νευρωνικών δικτύων έχει επικεντρωθεί στην παραγωγή ήχων µε υψηλό βαθµό οργάνωσης, όπως η µουσική. Στον τοµέα αυτό έχουν εξελιχθεί πολύ ικανά δίκτυα, των οποίων οι δυνατότητες προσεγγίζουν γοργά τις δυνατότητες ενός ικανού συνθέτη µουσικής. Παρόλα αυτά, δεν έχει δοθεί τόση σηµασία στην παραγωγή ήχων µε υψηλό βαθµό τυχαιότητας, όπως οι ήχοι του φυσικού περιβάλλοντος, καθώς η τυχαιότητα που καλούµαστε να αντιµετωπίσουµε αυξάνει αυτόµατα τις απαιτήσεις σε υπολογιστική ισχύ. Έτσι δεν φαίνεται να έχει δοθεί µια εκτίµηση για το ποια κατηγορία δικτύων ή ποια µορφή αναπαράστασης τέτοιων ήχων είναι η ιδανική ώστε να υλοποιηθεί µια παραγωγική διαδικασία. Η παρούσα εργασία ασχολείται µε την σύνθεση ήχων µε υψηλό βαθµό τυχαιότητας, όπως οι ήχοι που συναντά κανείς σε ένα αστικό περιβάλλον και µε το κατά πόσο ένα νευρωνικό δίκτυο µπορεί από µια οπτική αναπαράσταση των ήχων αυτών να παράγει παρόµοιους αλλά εντελώς νέους ήχους. Οι αναπαραστάσεις που ελέγχονται και αξιολογούνται στα πλαίσια της εργασίας, είναι καθαρά οπτικές αναπαραστάσεις του ήχου και αφορούν το φασµατογράφηµα (Spectrogram), το φασµατογράφηµα mel (Mel-spectrogram) και τους συντελεστές συχνότητας Cepstral του Mel (Mel-Frequency Cepstral Coefficients - MFCCs). Το δίκτυο που επιλέχθηκε ως βάση για έρευνα, είναι ο VAE και συγκεκριµένα µια παραλλαγή του, η οποία στηρίζεται στο συνδυασµό των συνελικτικών δικτύων (CNN) µε τον VAE και ονοµάζεται Convolutional Variational Autoencoder (CVAE). Τα αποτελέσµατα έδειξαν πως οι οπτικές αναπαραστάσεις του ήχου µπορεί να έχουν λιγότερο κόστος σε µνήµη, αλλά έχουν ως αποτέλεσµα την απώλεια σηµαντικής πληροφορίας. Η αναπαράσταση που έδωσε τα καλύτερα αποτελέσµατα φάνηκε να ήταν το φασµατογράφηµα-Mel, µε την αναπαράσταση MFFC να ακολουθεί και τέλος το απλό φασµατογράφηµα. Η αρχιτεκτονική των βαθιών νευρωνικών δικτύων που χρησιµοποιήθηκε φάνηκε να παίζει µικρό ρόλο σε σχέση µε την ποιότητα και την ποσότητα των δεδοµένων εκπαίδευσης, καθώς φάνηκε να προσεγγίζουν το µέγιστο των δυνατοτήτων τους µε βάση τα δεδοµένα που τους παρασχέθηκαν. Τα αποτελέσµατα δείχνουν πως η καταλληλότητα των VAE για την παραγωγή νέων ήχων στηρίζεται κατά κύριο λόγο στην ποιότητα και την ποσότητα των διαθέσιµων δεδοµένων. Η παρούσα υλοποίηση δείχνει πρώιµα αλλά σηµαντικά αποτελέσµατα πάνω στην παραγωγή ήχου υψηλής τυχαιότητας από δίκτυα VAE και βάζει τις βάσεις για πιο εξελιγµένα παραγωγικά µοντέλα που χωρίς αµφιβολία θα δηµιουργηθούν στο προσεχές µέλλον.
URI: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/17974
Appears in Collections:Διπλωματικές Εργασίες - Theses

Files in This Item:
File Description SizeFormat 
Thesis - Georgios K Meletis.pdfThesis12.77 MBAdobe PDFView/Open


Items in Artemis are protected by copyright, with all rights reserved, unless otherwise indicated.