Applications of a constant-q transform in music processing
External Supervisor: Dr. Anssi Klapuri, Centre for Digital Music, Queen Mary University of London
Constant-Q Transformation (CQT) bezeichnet eine Technik zur Transformation eines Signals vom Zeitbereich in den Zeit-Frequenzbereich bei der die Mittenfrequenzen der Frequenzbins geometrisch (logarithmisch) verteilt sind, wobei der Q-Faktor (Verhältnis von Binfrequenz zu Bandbreite) konstant ist. Das bedeutet, dass für tiefe Frequenzen die Frequenzauflösung, für hohe Frequenzen die Zeitauflösung besser ist. Grundsätzlich ist die CQT eine Wavelet-Transformation mit sehr hohen Q-Faktoren von 12 bis 96 Bins pro Oktave, was sie von herkömmlichen Wavelet-Transformationen unterscheidet, die meist mit iterativen Filterbänken arbeiten und so die geforderten Q-Faktoren mit angemessenem Rechenaufwand nicht erreichen können.
Aufgrund psychoakustischer sowie musikalischer Gesichtspunkte ist eine Zeit-Frequenz-Transformation mit logarithmischer Frequenzauslösung sinnvoll, was in starkem Kontrast steht zur konventionellen diskreten Fouriertransformation, bei der die Mittenfrequenzen der Frequenzbins linear auf der Frequenzachse angeordnet sind.
Die Hauptgründe warum die CQT die FFT in der Audiosignalverarbeitung noch nicht verdrängt hat sind der höhere Rechenaufwand und vor allem das Fehlen einer Rücktransformation. Diese beiden Probleme wurden in einer vorausgehenden Forschungsarbeit behandelt die den Ausgangspunkt dieses Projekts darstellt.
Das Ziel dieser Arbeit ist es,
• die Vorteile der CQT in Bezug auf die Datendichte (sparsity) für Musiksignale gegenüber der FFT zu erfassen
• Pitchshifting in der CQT Domäne zu implementieren
• Sinusoid+Noise Modeling auf Basis der CQT zu implementieren
• die generellen Vor- und Nachteile der CQT gegenüber der FFT bei der Implementierung von Audioeffekten zu evaluieren
• die erreichte Qualität der Rücktransformation weiter zu verbessern