Ermittlung eines robusten Feature-Sets zur Klassifikation von Sprache unter Stressbedingungen

Johannes Luig

Diplomarbeit (2.307 KB)

Ziel dieser Diplomarbeit ist die Auswahl und Beurteilung geeigneter Sprachmerkmale (Features) und daraus abgeleiteter Feature Characteristics zur automatischen Erkennung und Einteilung von gesprochener Sprache in verschiedenen emotionalen Zuständen und bei unterschiedlicher psychischer Belastung. Die Ergebnisse sollen für unterschiedliche Arten von Stress anwendbar und unabhängig von der gesprochenen Sprache sein. Zu diesem Zweck werden Sprachdaten einer englischen Datenbank mit Sprache unter Stressbedingungen (SUSAS), einer deutschen mit emotionaler Sprache (Emo-DB) sowie eines englischen Sprachkorpus mit Fluglotsen-Funkverkehr analysiert.

Grundlegende Features wie Tonhöhe, Intensität, Frequenzen und Bandbreiten der ersten beiden Formanten, Harmonizität, MFCCs und Eigenschaften der glottalen Anregung werden mit Hilfe der Sprachanalyse-Software Praat extrahiert. Anschließend wird eine Phonemgrenzenerkennung und -klassiﬁzierung durchgeführt, was Voraussetzung für die Berechnung der Phonemdauer sowie eines auf dem Teager Energy Operator (TEO) basierenden Features ist. Diese Berechnungen werden – wie auch die weiteren Schritte – in MATLAB implementiert.

Das Differenzierungspotential der einzelnen Merkmale wird mit Hilfe geeigneter statistischer Tests bestimmt, woraus sich eine Rangliste der Features für eine Auswahl zweier emotionaler Klassen ergibt. Aus dieser wird iterativ diejenige Kombination von Features ermittelt, die die besten Ergebnisse bei der Klassiﬁkation mit einer überwachten Methode (k-nearest neighbours) liefert. In einem Vergleichsprüfungsverfahren wird so der Prozentsatz der korrekt zugeordneten emotionalen Klassen berechnet, der das Ergebnis darstellt. Ein “allgemeines” Set von Merkmalen wird schließlich durch Bildung der Schnittmenge aus den Einzelergebnissen gewonnen.

Bei der Analyse gespielter Emotionen werden unter Verwendung der jeweils besten Feature-Sets Ergebnisse von bis zu 98% korrekter Erkennungsrate (CCR) erzielt; bei Verwendung des allgemeinen Sets verschlechtert sich die CCR um maximal 12%. Die Erkennung von Arbeitsbelastung (Workload) erreicht bis zu 70% CCR, eine vergleichbare Abnahme von 12% bei Verwendung des allgemeinen Sets bedeutet hier im Endeffekt jedoch eher mäßige Erkennungsraten um etwa 60% CCR.

Johannes Luig Typ: Diplomarbeit Status: Projekt ist abgeschlossen. Datum: 04.04.2008