Physiologische und Psychoakustische Grundlagen des räumlichen Hörens
1. Allgemeines
Im folgenden wird eine Einführung in die wichtigsten Effekte räumlichen Hörens gegeben. Die Behandlung erfolgt dabei nur aus Sicht der physikalischen Akustik und der Psychoakustik, nicht jedoch der Neurophysiologie, da diese für die hier vorgestellten Modelle nicht von Bedeutung ist.
1.1 Historischer Abriß
Dieser Abschnitt folgt im wesentlichen [Wightman, Kistler, 1993] und [Duda, 1997].
Obwohl es im 19. und beginnenden 20. Jahrhundert noch keine Technologien gab, die für die Erzeugung und Kontrolle der entsprechenden Testtöne für systematische empirische Studien geeignet gewesen wären, wurden schon zu dieser Zeit einige Theorien über die Lokalisation von Schallquellen diskutiert.
Thompson veröffentlichte in seinem Essay "On the Function of the Two Ears in the Perception of Space" 1882 eine Zusammenfassung dieser Theorien. Zu dieser Zeit gab es drei grundlegende Positionen. Steinhauser und Bell berücksichtigten nur die interauralen Intensitätsdifferenzen (interaural intensity differences, IIDs) und gingen davon aus, daß die interauralen Zeitdifferenzen (interaural time differences, ITDs) irrelevant seien. A. M. Mayer ging davon aus, daß sowohl ITDs als auch IIDs relevant seien. Die dritte Theorie, Mach und Lord Rayleigh zugeschrieben, war ebenfalls eine "IID-Theorie". Mach vermutete jedoch zusätzlich, daß die Richtung, aus der der Schall wahrgenommen wird, durch die Wirkung der Pinnae als Resonatoren für hohe Frequenzen bestimmt wird.
John Strutt, der besser als Lord Rayleigh bekannt ist, formulierte 1907 die sogenannte "Duplex-Theorie", die auf IIDs und ITDs basierte und Machs Pinna-Resonanzen außer Acht ließ. Diese Theorie dominierte die Untersuchungen über menschliche räumliche Wahrnehmung die nächsten 50 Jahre. Lord Rayleigh beobachtete, daß bei Schallwellen mit kleiner Wellenlänge im Vergleich zu den Kopfabmessungen der Kopf eine Abschattung des Schalls bewirkt, sodaß der Schallintensität an dem der Schallquelle zugewandten (= ipsilateralen) Ohr höher ist als am abgewandten (= kontralateralen) Ohr. Das bedeutet, daß eine IID entsteht. Außerdem bewirken die verschiedenen Distanzen zwischen Schallquelle und ipsi- bzw. kontralateralem Ohr eine ITD. Er konnte demonstrieren, daß die ITDs besonders bei tiefen Frequenzen wirksam werden, wo die ILDs vernachlässigbar sind. Daher argumentierte er, daß die Lokalisation bei tiefen Frequenzen von ITDs und bei hohen Frequenzen von IIDs bestimmt wird, wobei der Übergangsbereich um 1,5kHz liegt.
D. W. Batteau publizierte in den 1960ern über die Effekte der Pinnae im Zeitbereich. Er betrachtete die Pinnae als stark richtungsabhängige Reflektoren, die zu jedem einfallenden Schall ein bestimmtes Muster an Echos hinzufügen, das von Azimut und Elevation abhängt. Das menschliche Ohr würde diese Echomuster dekodieren und dadurch die Schallrichtung bestimmen. Dafür wäre aber eine viel höhere zeitliche Auflösung nötig gewesen als beim menschlichen Ohr beobachtet worden war.
J. H. Hebrank und D. Wright erkannten 1974, daß Batteaus Pinna-Reflektionen spektrale Entsprechungen haben und diese spektralen Effekte vom menschlichen Ohr sehr wohl dekodiert werden können.
Dieses neue Augenmerk auf Pinna-Effekte führte zu einer Reihe von Untersuchungen, die den fundamentalen Einfluß der Pinna-Effekte auf die Richtungswahrnehmung zum Inhalt hatten. Es zeigte sich, daß die Pinna-Filterung besonders für die Lokalisation in der Medianebene und in der Vorne-/Hinten-Unterscheidung essentiell ist, wo die interauralen Differenzen minimal sind. Ebenso bewirkt sie die Externalisation eines Schalleindrucks.
Auch wenn sie qualitativ ähnlich sind, gibt es bei den Pinnae intersubjektive Unterschiede, und es kann ein Zusammenhang zur Lokalisationsgenauigkeit hergestellt werden.
1.2 Umgebungskontext
Direkter und indirekter Schall
Bei einem akustischen Ereignis in natürlicher Umgebung breiten sich die Schallwellen nach allen Richtungen aus. Dabei treffen sie auf Raumobjekte, durch die sie reflektiert oder gebeugt werden. So entsteht eine komplexe Mischung, besonders wenn mehrere Schallquellen vorhanden sind. Eine spezielles "Raumobjekt" ist der/die Hörende. Diese Position erreichen die Schallwellen zu verschiedenen Zeiten und aus verschiedenen Richtungen. Wie aus Abb. 1.1 ersichtlich, trifft eine Wellenfront als erste auf geradem Weg bei dem/r Hörenden ein, ohne zuvor an einer umgebenden Oberfläche reflektiert worden zu sein. Dieser Direktschall enthält die am wenigsten verfälschte Information über die Richtung des Schallereignisses. Danach werden die Schallwellen von der Umgebung reflektiert und kommen aus verschiedenen Richtungen mit verschiedenen Zeitverzögerungen bei dem/r Hörenden an. Dieser indirekte Schall enthält die Information über die Umgebung und die relative Position des Schallereignisses, im speziellen den Abstand von dem/r Hörenden.
Am Kopf des/r Hörenden werden Schallwellen abhängig von der Wellenlänge des Schalls im Vergleich zu den Kopfabmessungen gebeugt (<1,5 kHz) oder reflektiert (>1,5 kHz). Im Übergangsbereich um 1,5 kHz sind die Wellenlängen des Schalls in der Größenordnung des Kopfdurchmessers.
Ipsilaterales und kontralaterales Ohr
Als ipsilaterales Ohr bezeichnet man das dem Schallereignis zugewandte Ohr, zu dem der Schall den kürzeren Weg hat. Das kontralaterale Ohr ist das dem Schallereignis abgewandte Ohr.
Medianebene, Horizontalebene und Frontalebene
Die Medianebene ist eine Region, in der Schallquellen zu beiden Ohren den gleichen Abstand haben. Die Horizontalebene verläuft waagrecht und geht horizontal durch beide Ohren. Die Frontalebene liegt vertikal und geht durch beide Ohren.
Azimut, Elevation und Distanz
Das Koordinatensystem besteht aus zwei Winkeln und einem Skalar. Der Azimut ist der Winkel in der Horizontalebene und hat einen Bereich von 0°(direkt vor dem Hörer) bis 360°. Er wird von 0° bis zur Projektion des Distanzvektors in die Horizontalebene gemessen. Uneinigkeit herrscht in der Literatur darüber, ob 90° Azimut links oder rechts von dem/r Hörenden sei. Die Elevation ist der Winkel zwischen der Horizontalebene und dem Distanzvektor. Die Werte gehen von 0° bis 90° (nach oben) bzw. -90° (nach unten). Als Skalar wird die Distanz angegeben.
1.3 Aufbau des Ohrs
Der Schall (A) wird zuerst durch die Pinna (B), den sichtbaren Teil des Außenohrs, und die nahen Körperteile, wie Schultern und Kopf, beeinflußt. Danach folgen die Effekte des Ohrkanals (oder Meatus, C), der zum Mittelohr führt. Dieses besteht aus dem Trommelfell (D) und den Gehörknöchelchen (E). Die mechanische Energie wird durch Bewegung am ovalen Fenster (F) in Flüssigkeitsdruck im Innenohr (oder Cochlea, G) transformiert. Dieser Druck verursacht frequenzabhängige Erregungsmuster auf der Basilarmembran (H). Dadurch werden Haarzellen angeregt, die wiederum elektrische Aktionspotentiale in den Neuronen des Auditiven Systems auslösen. Diese werden auf höheren Niveaus mit den Informationen des anderen Ohrs kombiniert und verarbeitet.
1.4 Ein Modell des natürlichen und virtuellen räumlichen Hörens
Unter natürlichen Hörbedingungen gibt es eine Schallquelle, deren abgestrahlter Schall zuerst von der Umgebung und dann vom auditiven System beeinflußt wird. Dieser spezielle Schalleindruck wird vom Gehirn auf mehreren Ebenen verarbeitet. Bei virtuellem räumlichen Hören ist der Ausgangspunkt die elektrische Repräsentation des Schallfeldes. Diese wird in einem 3D-Audiosystem bearbeitet und danach in gleicher Weise vom Gehirn verarbeitet.
1.5 Die Ziele von virtuellem räumlichen Hören
3D-Sound bedeutet, daß der/die Hörende Schall aus Richtungen hört, die bei konventionellem Stereo nicht wahrgenommen werden. Bei der Nachbildung räumlichen Hörens soll ein möglichst "natürlicher" Raumeindruck entstehen, der die bekannten Effekte simuliert.
Zu den Anwendungsgebieten virtuellen räumlichen Hörens zählen beispielsweise integrierte Audiodisplays (z. B. für die Raumfahrt), Audio-User-Interfaces für Blinde, Head-Tracked-3D-Audio für virtuelle Umgebungen, Computer Workstations mit 3D-Audio für Kommunikation (z. B. Telekonferenzen), Binauralprozessoren für Aufnahme und Wiedergabe, Nutzung binauraler Effekte zur Verbesserung von Rauschabstand und Sprachverständlichkeit sowie künstlerische Anwendungen.
2. Wahrnehmung von Azimut und Elevation
2.1 Interaurale Zeit- und Intensitätseffekte
Die frequenzabhängigen Kurven der interauralen Zeitdifferenzen (ITDs) und interauralen Intensitätsdifferenzen (IIDs) sind schon seit über 100 Jahren bekannt und beruhen auf der räumlichen Trennung der beiden Ohren durch den Kopf. Ihre Wirkungsweise beschreibt die Duplex-Theorie.
ITDs entstehen durch Laufzeitdifferenzen des Schalls zwischen ipsi- und kontralateralem Ohr. Bei Wellenlängen, die viel größer als der Kopfdurchmesser sind, wird der Schall am Kopf gebeugt und die Phasenlage detektiert. Daher werden ITDs besonders bei Frequenzen bis zu 1,5 kHz wirksam. Oberhalb dieser Frequenz ist die Phasenlage nicht mehr eindeutig, jedoch kann das Auditive System bei höheren Frequenzen auch ITDs der Einhüllenden wahrnehmen(1).
IIDs bedeuten unterschiedliche Schallintensitäten an den Ohren durch Abschattung des Schalls am kontralateralen Ohr um bis zu 35 dB. Voraussetzung für die Abschattung von Schallwellen ist, daß die Wellenlängen viel kleiner als der Kopfdurchmesser sind. Daher werden IIDs besonders bei Frequenzen ab 1,5 kHz wirksam.
Experimente zur sogenannten Lateralisation bewirken eine "räumliche" Wahrnehmung nur durch Erzeugen von ITDs und IIDs bei Kopfhörerwiedergabe. Dabei wird aber die Schallquelle als im Kopf entlang der interauralen Achse wandernd empfunden. Dennoch können damit Aussagen über gerade noch hörbare Differenzen (just notable differences, jnds), minimale hörbare Winkel(2) (minimal audible angles, MAAs) und das Zusammenwirken der ITDs und IIDs (time-intensity-trading) gemacht werden.
Der Präzedenzeffekt, auch Haas-Effekt oder "Gesetz der ersten Wellenfront" genannt, ist ein wichtiger Mechanismus des Auditiven Systems, um Schall auch in reflexionsbehafteten Räumen lokalisieren zu können. Wird ein Monosignal über Kopfhörer nur mit verschiedenen ITDs eingespielt, so ergeben sich drei Stadien der Wahrnehmung. Bei ITDs von 0 bis 0,6 ms wandert die Schallquelle scheinbar im Kopf vom Zentrum zu dem Ohr, wo der Schall zuerst eintrifft. Zwischen etwa 0,6 und 35 ms wird die Quelle nur an der Seite des zuerst ankommenden Schalls geortet (Präzedenzeffekt). Bei einer ITD größer als 35 ms werden die beiden Schallereignisse getrennt (als Echo) wahrgenommen.
2.2 Bewegungen von Kopf und Quelle
Nimmt man einen kugelförmigen Kopf ohne Außenohren an, so kann bei gegebener IID und ITD der Ort der Schallquelle nicht eindeutig bestimmt werden. Abbildung 1.10 zeigt den sogenannten "Cone of Confusion".
Ein Schallereignis am Ort a (vorne) erzeugt dieselbe ITD und IID wie eines am Ort b (hinten). Dies nennt man die Vorne-Hinten-Ambiguität. Ebenso verhält es sich mit Schallquellen an den Orten x (oben) und y (unten), der Elevationsambiguität.
Natürlich ist dieser Ansatz theoretisch, da der Kopf des Menschen nicht sphärisch ist und die Außenohren eine Filterwirkung haben. Dennoch ist, wie Experimente zeigen, eine rein statische Lokalisation weitaus schwieriger als eine dynamische. Denn die unwillkürliche Reaktion des Menschen bei Unsicherheit in der Lokalisation ist ein leichtes Drehen des Kopfes, um durch die Änderungen der IID, ITD und der Filterwirkung eindeutige Rückschlüsse auf die Position der Schallquelle machen zu können (siehe Abb. 11). Daher sollten in eine möglichst natürliche Nachbildung räumlichen Hörens Kopfbewegungen miteinbezogen werden.
Einen der wichtigsten Effekte bei bewegten Schallquellen stellt der sogenannte Dopplershift dar. Darunter versteht man die Änderung der Tonhöhe, wenn sich eine Schallquelle an dem/r ruhenden Hörenden vorbeibewegt.
Weiters wurde in Experimenten der minimal hörbare Bewegungswinkel (minimum audible movement angle, MAMA) bestimmt. Er beträgt im optimalen Fall (schmalbandige Schallquelle, Geschwindigkeit: 2,8° bis 360°/sec.) etwa 3° und steigt in Abhängigkeit von der Bewegungsgeschwindigkeit, dem Ort der Bewegung und der Art der Schallquelle.
2.3 Spektrale Einflüsse der Pinnae
Die spektrale Filterung einer Schallquelle, die vor Erreichen des Trommelfells hauptsächlich durch das Außenohr entsteht, nennt man Außenohrübertragungsfunktion (head-related transfer function, HRTF), im Zeitbereich entspricht dieser die Außenohrimpulsantwort (head-related impulse response, HRIR). Sie sind ein weiteres Mittel zur Auflösung von Mehrdeutigkeiten in der Lokalisation. Die HRTF beschreibt den Schalldruck im Freifeld im Verhältnis zum Druck am Trommelfell und variiert mit Frequenz, Azimut, Elevation und Distanz der Schallquelle (siehe Abb. 12). Man kann sich die binaurale HRTF als frequenzabhängige Amplituden- und Zeitverzögerungsdifferenzen vorstellen, die vor allem durch die komplexe Form der Pinnae entstehen. Auch sind beim Menschen linkes und rechtes Ohr nicht exakt gleich, was zu kleinen Unterschieden zwischen linker und rechter HRTF führt. Insgesamt führen also die asymmetrischen, komplex geformten Pinnae zu einem eindeutigen Set von kleinsten Zeitverzögerungen, Resonanz- und Beugungserscheinungen, das in eine eindeutige HRTF für jede Schallquellenposition übertragen wird.
Nachdem HRTFs stark von der Form der Außenohren abhängen, weisen sie große intersubjektive Unterschiede auf. Dies stellt dann ein Problem dar, wenn HRTFs in einem 3D-Audio-System (siehe Abb. 13) nachgebildet werden sollen und eine Entscheidung für einen bestimmten Kurvensatz gefällt werden muß.
Weitere Erläuterungen zu den HRTF-Kurven siehe IEM-Report 04/98.
3. Auralisation, Schallquellendistanz und Umgebungskontext
Im Gegensatz zur Lokalisation als "Ortsbestimmung" einer Schallquelle schließt Auralisation die räumlichen Aspekte der Halligkeit mit ein. Distanz und Umgebungskontext sind unter anderem abhängig von der Lautheit, der spektralen Zusammensetzung, der Zusammensetzung der Halligkeit und der kognitiven Bekanntheit der Quelle. Psychoakustische Untersuchungen variieren jedoch meist nur einen oder wenige Parameter. Daher kann es bei Synthese mehrerer Parameter zu unerwarteten Ergebnissen kommen.
3.1 Distanz
Der wichtigste Parameter zur Bestimmung der Distanz ist die Schallintensität, die als Lautheit interpretiert wird. Der Zusammenhang zwischen Intensität und Distanz entsteht durch die alltägliche Erfahrung in Verbindung mit dem Sehen. Daher kann die Distanz einer bekannten Schallquelle in bekannter Umgebung leicht geschätzt werden, bei unbekannten Quellen und/oder Umgebungen fällt dies deutlich schwerer.
Bei Freifeldausbreitung einer punktförmigen, omnidirektionalen Schallquelle nimmt die Schallintensität mit 1/r2 ab, wobei r die Distanz zur Schallquelle darstellt. Dies entspricht einer Abnahme von 6 dB bei Verdoppelung des Abstands (siehe Abb. 14). Bei einer Linienquelle verringert sich die Intensität nur mit 1/r, entsprechend einer Abnahme von 3 dB pro Verdoppelung der Distanz.
Einen Parameter, der das menschliche Gehör besser berücksichtigt, stellt die Lautheit dar. Diese ist die empfundene Amplitude der Intensität. Sie ist frequenzabhängig entsprechend der Empfindlichkeit des Gehörs. Diese Frequenzabhängigkeit wird durch die Isophone (auch Kurven gleicher Lautstärke genannt) dargestellt (siehe Abb. 15).
Die Einheit der Lautheit ist Sone, wobei 1 Sone definiert ist als die Empfindungsstärke, die ein 1 kHz-Ton mit 40 Phon Lautstärke, d. h. 40 dB Schalldruckpegel auslöst. Bei Verdoppelung der Distanz muß sich die Lautheit halbieren, da der Ton dann als halb so laut empfunden wird. Eine Halbierung der Lautheit entspricht im Bereich von 400 bis 5000 Hz und 40 bis 100 dB etwa einer Abnahme um 10 dB Schalldruckpegel (siehe Abb. 1.16). Da bei Verdopplung der Distanz zwischen Quelle und Hörendem/r ein Ton als halb so laut empfunden wird, ergibt sich der in Abbildung 17 dargestellte Zusammenhang zwischen Schalldruckpegel und Distanzwahrnehmung.
Diese Parameter wurden im schalltoten Raum mit Sinustönen ohne Einfluß anderer Größen bestimmt. Wären Lautheit oder Intensität allein ausschlaggebend, würde die Realisierung obiger Abschätzungen ausreichen. Bei komplexen Signalen kommen aber auch noch andere Effekte zum Tragen. Es wird der Energieanteil innerhalb der kritischen Bandbreite bewertet, bei mehreren Quellen werden die Intensitäten zueinander in Verhältnis gesetzt, ebenso werden Entfernungen bei gleicher Schallintensität in halligen Räumen viel kleiner geschätzt als im schalltoten Raum.
Es zeigt sich weiters, daß in halliger Umgebung das Verhältnis von reflektiertem zu direktem Schall (R/D-ratio) einen viel stärkeren Parameter zur Distanzbestimmung darstellt als die Intensität (siehe Abschnitt 3.2 "Raumeindruck").
Nach der Hypothese von Peter Craven [Gerzon, 1992] wird die scheinbare Distanz d einer Schallquelle durch die relative Zeitverzögerung T und die relative Amplitude g des frühen reflektierten Schalls im Verhältnis zum Direktschall bestimmt. r ist die Absorption pro Zeitverzögerungseinheit. Wendet man diese Parameter auf eine größere Anzahl an frühen Reflexionen an, so kann eine Schätzung der Distanz abgeleitet werden:
Ein schwächerer Effekt bei Distanzabnahme ist die Abschwächung höherer Frequenzen des Quellspektrums durch die Luft, abhängig von Lufttemperatur und -feuchtigkeit. Man kann für große Entfernungen und hohe Frequenzen einen Luftabsorptionskoeffizienten angeben (siehe Abb. 18). Ebenso führt die Art der Umgebung (Wind, Boden) zu einer leichten spektralen Färbung. Ist die Quelle der Person sehr nahe, so werden tiefe Frequenzen leicht angehoben (tone darkening).
Die sogenannte Im-Kopf-Lokalisation (IKL) ist der Kopfhörer-Entfernungsfehler, der bei Wiedergabe über Kopfhörer unter wenig natürlichen Bedingungen auftritt (z. B. bei Experimenten zur Lateralisation). Dabei wird die Schallquelle innerhalb des Kopfes geortet. IKL verringert sich unter zunehmend "natürlichen" Bedingungen (binaurale HRTFs, Kopfbewegungen, Raumeindruck).
3.2 Raumeindruck
Wie schon erwähnt, erreicht der Direktschall die Ohren auf direktem Weg, der reflektierte Schall oder Nachhall jedoch erst nach Reflexion an Objekten bzw. den Raumbegrenzungen. Die Eigenschaften eines Raumes können im Zeitbereich durch die Impulsantwort (Abb. 19) oder das Reflektogramm (Abb. 20) dargestellt werden.
Den Bereich bis 80 ms nennt man frühe Reflexionen (early reflections, ER). Es sind dies die ersten Reflexionen z. B. von Boden und Wänden. Sie geben einen Eindruck von der Position im Raum und seinen Abmessungen. Späte Reflexionen (late reflections, LR) oder später Nachhall sind diffuser, enthalten weniger Energie und stammen von mehrfachen Reflexionen im Raum.
Das Verhältnis von reflektiertem zu direktem Schall (reverberant-to-direct sound ratio, R/D-ratio) ist entfernungsabhängig und ein wichtiger Parameter für die Distanzwahrnehmung. Der Hallradius (critical distance) ist jener Abstand von der Schallquelle in einem bestimmten Raum, wo dieses Verhältnis eins ist. Die Nachhallzeit (reverberation time, t60) ist jene Zeit, in der die Schallenergie des Raumes um 60 dB des ursprünglichen Werts abgenommen hat. Aussagekräftiger sind der zeitliche Verlauf des Hallpegels und der zeitliche Verlauf des Hallpegels innerhalb der kritischen Bandbreiten (nach Zwicker).
Quellenverzeichnis
Batteau D. W. (1967): "The role of the pinna in human localization", Proc. R. Soc. London Ser. B 168, pp. 158-180.
Begault D. R. (1994): "3-D Sound for Virtual Reality and Multimedia", AP Professional, USA 1994.
Blauert J. (1974): "Räumliches Hören", S. Hirzel Verlag Stuttgart, 1974.
Duda R. O. (1997): "Sound Localization Research", http://www- engr.sjsu.edu/~duda/Duda.html
Gerzon M. A. (1992): "The Design of Distance Panpots", Preprint 3308 of the 92nd Audio Engineering Society Convention, Wien, März 1992.
Hall D. E. (1980): "Musical Acoustics", Brooks/Cole Publishing Company, Pacific Grove, California, 1980.
Hebrank J. H., Wright D. (1974a): "Are two ears necessary for localization of sound sources on the median plane?", Journal of the Acoustical Society of America, 56, pp. 935-938.
Hebrank J. H., Wright D. (1974b): "Spectral cues in the localization of sound sources on the median plane", Journal of the Acoustical Society of America, 56, pp. 1829-1834.
Kendall G. S. (1995): "A 3-D Sound Primer: Directional Hearing and Stereo Reproduction", Computer Music Journal 19(4), pp. 23-46.
Thompson S. P. (1882): "On the function of the two ears in the perception of space", Philos. Mag. 13, pp. 406-416.
Wenzel E. M. (1994): "Spatial Sound and Sonification", in Kramer G. (Hrsg.): "Auditory Display", pp. 127-150, Addison-Wesley, 1994.
Wightman F. L., Kistler D. J. (1993): "Sound Localization", in Yost W. A., Popper A. N., Fay R. R. (Hrsg.): "Human Psychophysics", pp. 155-192, Springer Verlag New York, 1993.
1. Je länger die Anstiegszeit der Einhüllenden ist, desto schlechter wird die Lokalisation, besonders in halliger Umgebung.
2. Der MAA beträgt in der Horizontalebene abhängig von der Frequenz 1° bis 3° und steigt rasch an, sobald der Azimut 90° erreicht.
© 2000, zuletzt geändert am 26. Jänner 2000.