Vocal melody transcription from popular music recordings

Amir Rahimzadeh Assbforoushani

Diplomarbeit (pdf. 5.043KB)

Das automatische Erkennen und Extrahieren der Gesangsstimme aus polyphoner Musik ist aus wissenschaftlicher Sicht ein nicht triviales Problem. Wissen über die Schallquelle sowie über gängige Mischtechniken bei Mehrkanalproduktionen können dazu verwendet werden, das Gesamtproblem zu vereinfachen.

Diese Arbeit wird sich auf den Entwurf, die Entwicklung und Umsetzung von Verarbeitungsprozeduren konzentrieren, welche die Detektion, Tranksription und möglicherweise Entfernung der Gesangsstimme aus polyphonen Popmusik Stücken ermöglichen sollen. Im Allgemeinen weisen Gesangs- bzw. Sprachsignale unterschiedliche spektrale Charakteristika (Formanten) gegenüber Musikinstrumenten (starker Grundton, abfallender Energieverlauf zu hohen Teiltönen hin) auf, was zur Unterscheidung zwischen Stimmsignal und instrumentalem Signalanteil bei gleichzeitigem Vorhandensein beider herangezogen werden soll. Das Positionieren von einzelnen Stimmen entlang der Stereobasisbreite wird beim Mischen von Mehrkanalaufnahmen gerne eingesetzt, um die Durchsichtigkeit und Unterscheidbarkeit einzelner Intrumente im Mix zu erhöhen. Diese räumliche Information könnte ebenfalls dazu beitragen, die Stimmanteile im polyphonen Mischsignal zu erkennen, da der Gesang üblicherweise in der Mitte platziert ist.