Automatic Segmentation and Labelling

Peter Gutmann

Diplomarbeit (pdf 1563KB)

Durch die schier unüberschaubare Menge an Musikstücken, die durch die Verfügbarkeit von kostengünstigen Speichermöglichkeiten und vor allem durch die Entwicklung des MPEG-1 Audio Layer 3 (MP3) Standards zur Verfügung steht, ist eine automatische Strukturierung der Archive erstrebenswert. Um den Überblick in großen Sammlungen zu behalten, ist das rasche Auffinden einer bezeichnenden Stelle des Stückes hilfreich.

Die Schwierigkeit liegt nun darin, dass im Gegensatz zu Musikdaten in Symboldarstellung (MIDI) die Audiodaten zuerst aufbereitet werden müssen, um eine Segmentierung und anschließende Strukturierung und Benennung zu ermöglichen.

Die vorliegende Arbeit hat die Strukturanalyse von Audiodateien aus dem Genre Pop/Rock zum Ziel. Dies soll einerseits durch harmonische Analyse und damit verbundener Bestimmung der Formteile in einem Stück erreicht werden, andererseits wird die Suche nach repetitiven Elementen und die damit einhergehende Bestimmung des Refrains zur Auswertung herangezogen.

Diese beiden Ansätze werden in der Programmierumgebung Matlab als Prozeduren implementiert, um in Folge deren Praxistauglichkeit zu evaluieren. Für die harmonische Analyse wird ein neues Modell eingeführt, das zwei bekannte Vorgangsweisen miteinander verknüpft. Auf ein zum Tempo des Musikstücks synchronisiertes Chromagramm wird die sogenannte Harmonic Change Detection Function angewendet, die in der Lage ist, harmonische Veränderungen aufzuzeigen. Die so gewonnenen Segmente werden für die Strukturanalyse herangezogen. Ein gänzlich anderer Weg wird mit dem zweiten Programm beschritten. Hier erfolgt die Suche nach Ähnlichkeiten innerhalb eines Stückes. Es wird davon ausgegangen, dass der Refrain möglichst unverändert an mehreren Stellen im Musiktitel auftaucht und dementsprechend erkannt werden kann. Als Hilfsmittel dienen Distanzmatrizen und Methoden der Bildverarbeitung zur Mustererkennung. Die qualitative Auswertung erfolgt als Vergleich zur manuellen Bestimmung der Formteile bzw. des Refrains.

Es wird gezeigt, dass das vorgeschlagene harmonische Modell das Potential zur Strukturerkennung aufweist, allerdings treten Probleme auf, die es für zukünftige Versionen des Algorithmus auszumerzen gilt. Die Suche auf Basis der Ähnlichkeiten zeigt gute Ergebnisse, solange eine einfache Form (z.B. Strophe-Refrain-Refrain) eingehalten wird.