Implementierung eines Telefonkonferenzsystems in PD basierend auf einer koinzidenten Mikrofonanordnung

Karl Freiberger

Eine gängige Methode um die Audiosignalqualität in einem Telekonferenzsystem zu verbessern besteht darin, den gerade aktiven Sprecher bevorzugt aufzunehmen, während Schall aus anderen Richtungen unterdrückt wird. Üblicherweise kommen hierzu Mikrofonarrays zum Einsatz. Diese müssen dabei die folgenden zwei Aufgaben meistern: 1)Schätzung der Schallquellenposition (Acoustic Source Localization) 2)Aufnahmefokus in die entsprechende Richtung legen (Beamforming, Steering) Das in dieser Arbeit untersuchte Konferenzsystem besteht aus einem koinzidenten 4-Kanal Mikrofonarray, sowie einem oder zwei Lautsprechern, mit denen das gegenseitige Signal wiedergegeben wird. Verglichen mit üblichen Arrays ist die verwendete koinzidente Anordnung besonders kompakt und handlich - Das Array kann flach auf einen Tisch gelegt werden. Ziel ist es, den Sprecher möglichst gut aufzunehmen, währen diffuser Störschall und das Signal aus den Lautsprechern minimiert wird. Dazu werden die Möglichkeiten von koinzidenten Anordnungen - eine solche ist z. B. auch das bekannte Soundfield-Mikrofon - diskutiert. In diesem Zusammenhang wird auch die Unabhängigkeitsanalyse (Independent Component Analysis, kurz ICA) vorgestellt und im Lichte der resultierenden Richtwirkung bei Einsatz mit der verwendeten Mikrofonanordnung betrachtet. Neben der Verbesserung des Signal-Rauschabstandes durch adaptives Lenken des Array-Fokus in Richtung der detektierten Schallquelle ist auch folgende Möglichkeit zur Echounterdrückung vorgesehen: Sobald der Lautsprecher als Schallquelle detektiert wird, wird die Übertragung über das Mikrofonarray abgeschaltet. Dieses Halbduplex Verfahren ist nur unter folgenden, in der Praxis realistischen, Voraussetzungen sinnvoll: 1)Die Lautsprecherposition ist bekannt und unterscheidet sich vom Sprecher signifikant. 2)Die beiden Seiten sprechen nicht gleichzeitig. Diese zwei Punkte sind auch für den Vollduplex-Modus vorteilhaft, da der verwendete Lokalisationsalgorithmus nicht explizit auf die Detektion von mehreren Sprechern gleichzeitig ausgerichtet ist. Neben Simulationen in Matlab, wird das System für den praktischen Gebrauch in der Echtzeit-Umgebung Pure Data (PD) implementiert. Als Basis zur Quellenlokalisation dienen dabei bestehende Matlab-Algorithmen. Der besondere Fokus dieser Arbeit liegt daher im Teil Beamforming und Implementierung des Gesamtsystems.