Automatische Satzsegmentierung von Sprache unter Verwendung von prosodischen Merkmalen

Florian Pausch

Automatische Satzsegmentierung von Sprache stellt einen wichtigen ersten Schritt in vielen Bereichen der Sprachsignalverarbeitung dar. Spracherkennungsprogramme geben meist nur die Grenzen von Wörtern aus ohne vorhandene Strukturen wie eben Satzgrenzen zu detektieren. In der linguistischen Sprachverarbeitung werden jedoch genau solche Grenzen benötigt, damit Programme zuverlässig funktionieren. Abgesehen davon ist es sehr zeitaufwendig, große Mengen kontinuierlicher Sprachstreams per Hand zu labeln. Ziel ist deshalb die Entwicklung eines Algorithmus, der aus verschiedenen Sprachkorpora für Nachrichten (z.B.: Aix-MARSEC) eine Satzsegmentierung unter Verwendung von prosodischen Merkmalen durchführt.

Der Algorithmus gliedert sich dabei folgendermaßen: Stimmhafte Regionen werden zunächst mittels eines adaptiven, energiebasierenden Spracherkennungsalgorithmus detektiert und die Pausenlängen bzw. die Intensität als erste Features berechnet. Die gefundenen Blöcke stellen die Regionen für die nachfolgende Tonhöhenanalyse dar. An den Grenzen sollen Tendenzen im Tonhöhenverlauf mittels linearer Regression (optimal im Sinne eines kleinsten quadratischen Fehlers) berechnet und daraus verschiedene prosodische Merkmale (f0-Anstieg/Abfall, f0-Gradient: : :) abgeleitet werden. In weiterer Folge werden diese Merkmale in einem Entscheidungsbaum kombiniert und die Satzgrenzen ermittelt.

Florian Pausch type: TI-Project state: running Date: 12.10.2010