Optimierung eines Systems zur automatischen Mehrkanaltonerweiterung von TV- und Filmton

Patrick Gampp

Die Diplomarbeit ist bis 16.12.2015 gesperrt.

Mit der hohen Marktakzeptanz der Digital Versatile Disc (DVD) seit ihrer Einführung im Jahre 1995, kam es zu einer großen Verbreitung von mehrkanalfähigen Wiedergabesystemen in Privathaushalten. Ein beträchtlicher Teil der heute erhältlichen Medien im Bereich Musik wird jedoch nicht in Mehrkanaltonformaten produziert. Auch TV-Sendeinhalte wie Serien und ältere Filme sind zum Großteil nur in Zweikanalstereo verfügbar. Um Medien, die in Zweikanalstereo vorliegen, auch in Verbindung mit mehrkanalfähigen Wiedergabesystemen nutzen zu können, wurde am Fraunhofer IIS ein System zur automatischen Mehrkanaltonerweiterung (Englisch: Upmix) für Musik entwickelt. Im Rahmen dieser Arbeit wurde dieses System im Hinblick auf die Wiedergabe von TV- und Filmton angepasst. Ein Gestaltungskriterium von großer Bedeutung ist hierbei die klanglich unverfälschte Wiedergabe von Sprache aus dem Centerkanal. Der hier vorgeschlagene Ansatz sieht vor, Klangparameter des Upmixers über die Zeit zu verändern. Mit Hilfe einer Sprachdetektion soll bestimmt werden, zu welcher Zeit das Eingangssignal des Upmixers Sprache enthält. Auf Grundlage der ermittelten Sprachsegmentgrenzen soll daraufhin ein Übergang zwischen zwei Klangeinstellungen des Upmixers stattfinden, die für die Wiedergabe von Sprache bzw. Musik, Atmosphären usw. angepasst sind. Zunächst wurde ein System zur Mustererkennung speziell für die Detektion von Sprache in TV- und Filmton angepasst. Die Erweiterungen beinhalten eine Vorverarbeitung der Signale in Form einer Rauschunterdrückung mittels spektraler Gewichtung. Darüber hinaus wurden Stereomerkmale definiert, die Interkanalkohärenz- sowie Interkanalpegeldifferenz- Eigenschaften des Signals beschreiben. Es wurde eine Nachverarbeitung entwickelt, die einen zusätzlichen Klassifizierer zur Laufzeit trainiert. Schließlich wurde eine Hüllkurvensegmentierung mittels adaptiver Hintergrundpegelberechnung zur Nachverarbeitung der geschätzten Sprachsegmente implementiert. Es wurden verschiedene Algorithmen zur Berechnung der Steuerfunktion der Klangparameter des Upmixers implementiert und getestet. Es wurde durch Hörtests gezeigt, dass die Wiedergabequalität von Sprache durch die im Rahmen der Arbeit entwickelten Erweiterungen signifikant verbessert werden konnte. Im Vergleich zu den verwendeten statischen Klangeinstellungen des Upmixers, konnte durch die Überblendung zwischen Klangeinstellungen eine signifikante Verbesserung hinsichtlich der Wiedergabequalität von Sprache bzw. der Breitendarstellung erreicht werden. Die Überblendungen ausgewählter, kritischer Testsignale waren für mehrere erfahrene Hörer nicht wahrnehmbar. Daraufhin wurde dieser Hörtest mit ausgebildeten Tonmeistern durchgeführt. Diese nahmen die Überblendungen in den meisten Fällen überhaupt nicht, oder als nicht störend wahr.

Patrick Gampp type: diploma thesis state: finished project Date: 16.11.2009