Evaluierung von robusten Merkmalen für die Detektion von Gesang
Die Detektion von Singstimmen innerhalb eines Musiksignals ist ein wichtiger Forschungsgegenstand im Bereich des Music Information Retrievals, da sie eine entscheidende Vorstufe für Anwendungen wie Sänger-Identifikation, Liedtext-Erkennung, Gesangs-Extraktion und viele mehr darstellt.
Das Ziel dieser Arbeit ist die Implementierung und Beurteilung eines Mustererkennungs-Systems mit der Fähigkeit, Singstimmen in Musiksignalen detektieren zu können. Hierzu wird ein Support Vector Machine Klassifizierer in Verbindung mit MFCC-Merkmalen, sowie Langzeit-Merkmalen von MFCCs und ihren Delta-MFCCs, verwendet. Darüber hinaus wird ein weiteres Merkmal aufgestellt, welches auf Energie basiert. Die Auswahl von Merkmals-Teilmengen wurde mit Hilfe der Diskriminanzanalyse und den Suchstrategien der sequentiellen Forwärtsselektion sowie der Rückwärtseliminierung durchgeführt. Die ermittelten Teilmengen wurden mit Hilfe des Klassifizierers und einer 10-fachen Kreuzvalidierung evaluiert. Die beste Merkmalsmenge erreichte eine mittlere Genauigkeit von 75.6 % bei einer Standardabweichung von 2.5%. Zum Abschluss wurde das System mit einer Datenbank, die von Mathieu Ramona bereitgestellt wurde getestet, und erreichte hierbei eine mittlere Genauigkeit von 69.7%.