Αυτόματη Ανίχνευση Σημαντικών Ηχητικών Γεγονότων

Γεώργιος Αναστασίου

Εθνικό Μετσόβιο Πολυτεχνείο

Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών

Καλώς ήρθατε στο Άρτεμις

Σκοπός του Άρτεμις είναι η συστηματική αρχειοθέτηση και διαδοση της πνευματικής παραγωγής της Σχολής Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών του Εθνικού Μετσόβιου Πολυτεχνείου, με τη βοήθεια της τεχνολογίας των ψηφιακών βιβλιοθηκών.

Παρακαλώ χρησιμοποιήστε αυτό το αναγνωριστικό για να παραπέμψετε ή να δημιουργήσετε σύνδεσμο προς αυτό το τεκμήριο: http://artemis.cslab.ece.ntua.gr:8080/jspui/handle/123456789/12868

Τίτλος:	Αυτόματη Ανίχνευση Σημαντικών Ηχητικών Γεγονότων
Συγγραφείς:	Γεώργιος Αναστασίου Μαραγκός Πέτρος
Ημερομηνία έκδοσης:	28-Ιου-2015
Περίληψη:	Στην παρούσα διπλωματική εργασία εξετάζεται η υπολογιστική προσέγγιση της ακουστικής προσοχής του ανθρώπου, και συγκεκριμένα η αυτόματη ανίχνευση ήχων που ενεργοποιούν τον κάτωθεν μηχανισμό της προσοχής (bottom-up). Ενεργοποίησητου κάτωθεν μηχανισμού της προσοχής παρατηρείται όταν οι ήχοι γίνονται αυθόρμητα αντιληπτοί από τους ανθρώπους, ανεξάρτητα από την βούληση τους. Ήχοι που κατέχουν αυτή την ιδιότητα θα ονομάζονται σημαντικοί (salient). Στόχος, επομένως, αυτής της εργασίας είναι η αυτόματη ανίχνευση σημαντικών ήχων (γεγονότων) σε αρχεία ήχου. Προς επίτευξη αυτού του σκοπού, αρχικά παρουσιάζεται το μοντέλο των Kayseret al. το οποίο ανιχνεύει σημαντικά ηχητικά γεγονότα μέσω της επεξεργασίας του φασματογραφήματος του ήχου. Η έξοδος του μοντέλου είναι ένας διδιάστατος χάρτηςσημαντικότητας, από τον οποίο υπολογίζεται καμπύλη σημαντικότητας και πραγματοποιείται ταξινόμηση των ηχητικών σκηνών. Επίσης, χρησιμοποιείται η έννοια του gistμιας σκηνής από τη βιβλιογραφία αντίληψης εικόνων και δομούνται διανύσματα από τον χάρτη τα οποία ταξινομούνται με τον αλγόριθμο kNN. Παρατηρείται συσχέτιση της εξόδου του μοντέλου με βασικούς μηχανισμούς της ακουστικής αντίληψης.Στη συνέχεια προτείνεται μία τροποποίηση του μοντέλου των Kayser et al, όπου το φασματογράφημα αντικαθίσταται από μονοδιάστατα χαρακτηριστικά που εξάγονται σε πλαίσιο βραχέως χρόνου από το ηχητικό σήμα. Γίνεται προσαρμογή κάθε σταδίουτου μοντέλου για το χειρισμό μονοδιάστατων καμπυλών. Η έξοδος του μοντέλου είναι μία καμπύλη σημαντικότητας με βάση την οποία χαρακτηρίζονται οι σκηνές ως σημαντικές ή μη. Με χρήση των χαρακτηριστικών, δημιουργούνται ιστογράμματα σεαναλογία με τη μέθοδο bag-of-words στην Όραση Υπολογιστών, και χειριζόμενα αυτά ως διανύσματα πραγματοποιείται ταξινόμηση των ηχητικών σκηνών με χρήση SVM. Το τροποποιημένο μοντέλο υπερβαίνει σε απόδοση το αρχικό των Kayser et al. Επίσης δοκιμάζονται τα κλασσικά χαρακτηριστικά της βιβλιογραφίας, MFCC και AM-FM, στο πρόβλημα ανίχνευσης σημαντικών γεγονότων. Επιπλέον, πραγματοποιείται μια υψηλότερου επιπέδου προσέγγιση και εξάγονται διαφορετικά χαρακτηριστικά για τα σημεία του ηχητικού σήματος που εμφανίζεται φωνή από αυτά στα οποία δεν εμφανίζεται. Τέλος προτείνονται μελλοντικές κατευθύνσεις για έρευνα και επέκταση αυτής της εργασίας. Τα πειράματα γίνονται σε ηχητικά σήματα που προέρχονται από βάση δεδομένων που περιέχει αποσπάσματα από κινηματογραφικές ταινίες. Ως βάση αναφοράς χρησιμοποιούνται ανθρώπινες επισημειώσεις της σημαντικότητας. Δηλαδή, άτομα που άκουσαν τα ηχητικά αρχεία, σημείωσαν ποια μέρη τους φάνηκαν σημαντικά.
URI:	http://artemis-new.cslab.ece.ntua.gr:8080/jspui/handle/123456789/12868
Εμφανίζεται στις συλλογές:	Διπλωματικές Εργασίες - Theses

Αρχεία σε αυτό το τεκμήριο:

Αρχείο	Μέγεθος	Μορφότυπος
DT2015-0222.pdf	7 MB	Adobe PDF	Εμφάνιση/Άνοιγμα

Δείξε την πλήρη περιγραφή του τεκμηρίου

Όλα τα τεκμήρια του δικτυακού τόπου προστατεύονται από πνευματικά δικαιώματα.