Außenohr-Übertragungsfunktion - Messung und Datensätze
1. Eigenschaften der HRTF-Kurven (head related transfer function)
1.1 Einflußgrößen
Neben dem Außenohr, das den größten Einfluß ausübt, führen auch Kopf, Schultern und Torso zu leichten spektralen Färbungen. Abbildung 1 zeigt die verschiedenen Einflußgrößen, wobei die relative Wichtigkeit der richtungsabhängigen Komponenten von unten (größter Einfluß) nach oben angeordnet ist.
Das cavum conchae ist die zentrale Höhle und zugleich der größte Resonanzbereich der Ohrmuschel am Eingang zum Ohrkanal. Der äußere Gehörgang reicht vom cavum conchae bis zum Trommelfell. Der Ohrkanal ist ca. 2,5 cm lang mit einem Durchmesser von 7-8 mm. Sein Einfluß ist großteils richtungsunabhängig, wobei aufgrund seiner Abmessungen eine starke Resonanz um 4 kHz auftritt. Für die Schultern beträgt die Beeinflussung in ihrem Bereich etwa ± 5 dB, für den Torso ± 3 dB.
1.2 RTF-Amplituden-Charakteristik
Abb. 3-5 zeigen die individuellen/persönlichen HRTFs von drei verschiedenen Personen, die unter gleichen Bedingungen gemessen wurden. Der Kurvenverlauf ändert sich qualitativ mit der Position der Schallquelle. Die intersubjektiven Unterschiede der Kurven einer Schallquellenposition werden durch die unterschiedliche Größe und Form der Pinnae der drei Personen hervorgerufen.
Nachdem man bei der Implementierung eines 3D-Audiosystems meist keine individuellen (austauschbaren) HRTFs verwendet oder verwenden kann, greift man auf non-individuelle/generalisierte HRTFs zurück. Diese kann man durch Mittelung von HRTFs verschiedener Personen erreichen, wobei aber die Gefahr besteht, daß signifikante Minima und Maxima herausgemittelt werden. Eine andere Möglichkeit stellt die Messung von HRTFs an einem Kunstkopf dar. Beim Design eines Kunstkopfs wird versucht, einen Kopf mit Pinnae, Schultern und Torso mit durchschnittlichen Abmessungen herzustellen.
1.3 HRTF-Phasen-Charakteristik
Neben der interauralen Zeitdifferenz erzeugt das Außenohr auch eine interaurale, frequenzabhängige Phasendifferenz. Diese Phasenverzögerung kann in Grad ausgedrückt werden. Abb. 6 zeigt die kontinuierlich fortgesetzte Phasendifferenz einer einzelnen Person in 30°-Inkrementen von 0° bis 150° für 500 Hz bis 4 kHz bei 0° Elevation. Die fetten Linien zeigen die Konversion von Phasenverzögerung in interaurale Zeitverzögerung bei 0,25ms, 0,5ms und 1ms.
Die Phasenantwort einer einzelnen Pinna ist weniger wichtig als die ITD. Es ist aber noch nicht klar, inwieweit die frequenzabhängigen Verzögerungen im Vergleich zu den mittleren ITDs über alle Frequenzen von Bedeutung sind.
2. Lokalisation mit HRTFs
Es gibt zahlreiche monaurale und binaurale Untersuchungen, die die Bedeutung der einzelnen Berge und Täler des Frequenzganges auf die Lokalisation in der Vertikalebene, Medianebene sowie die Vorne-Hinten-Ambiguität zum Inhalt haben. Als wichtiges Ergebnis ist die Spektralbandsensitivität zu nennen (spectral band sensitivity). Blauert konnte feststellen, daß es bestimmte Frequenzbänder (directional bands) gibt, die für die Lokalisation bestimmter Richtungen besonders wichtig sind (Tab. 1).
Wahrgenommene Position |
Mittenfrequenz kHz |
Bandbreite kHz |
Über Kopf | 8 | 4 |
Vorne (Band #1) | 0,4 | 0,2 |
Vorne (Band #2) | 4 | 3 |
Hinten (Band #1) | 1 | 1 |
Hinten (Band #2) | 12 | 4 |
Tab. 1: Spektralbandsensitivität nach [Begault, 1994]
Die Lokalisationsgenauigkeit ist intersubjektiv verschieden, d. h. es gibt gute und schlechte Lokalisierer. Fest steht, daß sich die Lokalisationsgenauigkeit guter Lokalisierer mit HRTFs von schlechten Lokalisierern ebenfalls verschlechtert. Umgekehrt konnte aber eine Verbesserung des Lokalisationsvermögens schlechter Lokalisierer mit HRTFs guter Lokalisierer nicht eindeutig festgestellt werden, ebensowenig eine Verschlechterung. Das Kriterium bei der Auswahl von HRTF-Sätzen für die Modellierung könnte daher das damit erzielte Lokalisationsvermögen sein, wenn dieses für die Anwendung des Audiosystems wichtig ist.
3. Messung von HRTF-Kurven
3.1 Messung
Wie schon erwähnt, beschreibt die HRTF das Verhältnis vom Schalldruck am Trommelfell (P4 in Abb. 7) zum Schalldruck im Freifeld (P1) an der Stelle der Kopfmitte, wenn der/die Hörende nicht anwesend ist. HRTF-Messungen können an einer Stelle im Ohrkanal (P3) vorgenommen werden, wobei dann in P3/P1 richtungsab- und -unabhängige Komponenten enthalten sind. Diese Messung ist umständlicher, enthält jedoch auch die leichte Richtungsabhängigkeit des Ohrkanals. Die einfachere Messung ist jene am blockierten Ohrkanal (P2). Dabei sind in P2/P1 nur die richtungsabhängigen Komponenten enthalten. Der richtungsunabhängige Anteil kann einmalig gemessen und mit den einzelnen richtungsabhängigen Messungen gefaltet werden.
3.2 Equalisation von HRTFs
Bearbeitungsschritte:
- Abschneiden der ersten Samples, die dem kürzesten Abstand zwischen Lautsprecher und Testperson entsprechen.
- Normierung: Finden des lautesten Peaks; Multiplikation aller Kurven mit demselben konstanten Faktor, sodaß der lauteste Peak den maximalen Quantisierungswert hat.
- Equalisation des Mikrophon- und Lautsprecherfrequenzgangs sowie der Ohrkanalresonanz
- Berechnen der Richtungsübertragungsfunktion (directional transfer function, DTF) bei Diffusfeldequalisation.
Mathematisch kann der Vorgang des Messens und Equalisierens im Frequenzbereich folgendermaßen beschrieben werden:
Es sei
A(z) | Meßsignal |
M(z) | Mikrophonübertragungsfunktion |
C(z) | Ohrkanalübertragungsfunktion |
L(z) | Lautsprecherübertragungsfunktion |
H(z) | Kopfhörerübertragungsfunktion |
HRTFFF(z) | natürlich auftretende HRTF im Freifeld |
HRTFraw(z) | unkorrigierte gemessene HRTF für virtuelle Simulation |
HRTFcorr(z) | korrigierte gemessene HRTF für virtuelle Simulation |
Finv(z) | inverses Filter zur Korrektur von HRTFraw(z) |
YE(z) | Signal am Trommelfell |
YM(z) | Signal am Mikrophon |
X(z) | Eingangssignal, das spatialisiert werden soll |
Unter natürlichen Hörbedingungen kann das Signal am Trommelfell, das über einen Lautsprecher wiedergegeben wird, folgendermaßen beschrieben werden:
Bei der Simulation virtuellen räumlichen Hörens ist
erwünscht. Zuerst mißt man die (unkorrigierte) HRTF für eine bestimmte Richtung, indem man das Meßsignal über Lautsprecher wiedergibt:
Danach mißt man den Einfluß von Kopfhörer und Ohrkanal, indem man das Meßsignal über Kopfhörer wiedergibt:
Um HRTFcorr(z) zu erhalten, muß man zuerst das inverse Filter Finv(z) finden:
Danach wird HRTFraw(z) wie folgt korrigiert:
Um eine virtuelle Schallquelle zu erzeugen, muß das Spektrum des Eingangssignals mit HRTFcorr(z) gefaltet werden und danach über Kopfhörer und den Ohrkanal des/r Hörenden wiedergegeben werden:
Das heißt,
3.3 Vorgangsweise im Fall der KEMAR-Kurven
Vorhandene Daten (siehe auch später):
Meßergebnis | verwendetes Material |
HRTFraw(z) | MLS, Lautsprecher und Etymotic-Mikrophon |
L´(z) = L(z)A(z)MNeumann(z) | MLS und Neumann-Mikrophon |
H´(z) = H(z)C(z)A(z)M(z) | MLS, Kopfhörer und Etymotic-Mikrophon am Trommelfell |
Daher ist
Für Freifeld-Simulation und Kopfhörerwiedergabe gilt
Vorhandenes HRTF-Material
4.1 Meßdaten von Gardner/Martin
Die Messungen wurden am KEMAR Kunstkopf (Abb. 8) mit dazugehörigem Mikrophon und Software bei 1,4m Lautsprecherabstand durchgeführt.
Als Computer stand ein Macintosh Quadra zur Verfügung, der mit einer Audiomedia II DSP-Karte mit 16 bit AD/DA-Konvertern bei 44,1 kHz Abtastrate ausgerüstet war. Das Ausgangssignal eines der beiden Kanäle wurde über einen Verstärker an einem Optimus Pro 7-Lautsprecher wiedergegeben. KEMAR, Knowles Electronics Modell DB-4004, war mit zwei verschiedenen Pinna-Modellen ausgestattet (Modell DB-061 als linke Pinna und Modell DB-065 (große rote) als rechte Pinna). Die Ausgangskanäle der Mikrophonverstärker wurden mit den Stereoeingängen der Audiomedia-Karte verbunden.
Für die Impulsantworten wurden Maximallängenfolgen mit 16383 Punkten (entsprechend einem 14 bit Generierungsregister) verwendet:
Zwei Kopien einer Folge werden aneinandergehängt (=> Länge 2N) und von der Soundkarte abgespielt. Nach Aufnahme der 2N Punkte werden die ersten N Punkte verworfen und die zweiten N Punkte verdoppelt => 2N-Punkt-Folge. Diese Folge wird mit der ursprünglichen N-Punkt-Folge kreuzkorreliert. Danach erhält man eine Folge mit 3N-1 Punkten. Die N-Punkte Impulsantwort beginnt bei Punkt N-1 dieser Folge.
Die Elevation wurde in 10°-Intervalle von -40° bis +90° unterteilt. Je Elevation wurden die 360° des Azimut in gleichgroße Intervalle zwischen 5° und 30° aufgeteilt. Insgesamt wurden 710 Positionen aufgenommen (siehe Tab. 1 in [Gardner, Martin, 1994]).
Koordinatensystem: 0° Azimut geradeaus, positive Werte nach rechts, negative nach links. 0° Elevation ist auf einer horizontalen Ebene auf Höhe der Ohren des Kunstkopfs, positive Werte oberhalb der Ebene, negative unterhalb.
Jede Impulsantwort wird mit 512 Punkten im Zeitbereich bei 44,1 kHz Samplerate als 16 bit signed integers im Motorola-Format dargestellt (MSB an niedrigerer Adresse). Von den ursprünglichen 16383 Punkten der Impulsantwort wurden die ersten 200 Punkte verworfen (1,4m Lautsprecherabstand entsprechen ca. 180 Samples, 50 Samples Verzögerung durch Playback/Recording-System) und die darauffolgenden 512 genommen.
Die Impulsantworten sind auch in reduzierter 128-Punkt-Version (Lautsprecher kompensiert) vorhanden.
Mit derselben Technik wie bei der Messung der HRTFs wurde auch die Lautsprecher-Impulsantwort (Optimus Pro 7) aufgenommen, allerdings mit einem Neumann KMii 84 Mikrophon. Diese wurde für das inverse Filter für die Lautsprecherkompensierung verwendet. Ebenso wurden die Impulsantworten von vier verschiedenen Kopfhörern (AKG K240, Sennheiser HD480, Radio Shack Nove 38, Sony Twin Turbo), auf KEMAR plaziert, gemessen. Die Daten dieser Impulsantworten sowie des inversen Filters (zusätzlich in minimalphasiger Version) des Lautsprechers sind explizit vorhanden.
4.2 Meßdaten von Wightman/Kistler
Es wurden die Daten von 5 Personen (rechtes und linkes Ohr) mit Mikrophon nahe dem Trommelfell bei 1,4m Lautsprecherabstand gemessen. Größe und Geschlecht der Personen ist angegeben.
Azimut und Elevation wurden in 10°-Intervallen aufgenommen (+180°...-170° bzw. +80°...-50°). Insgesamt wurden pro Person 505 Impulsantworten.
Koordinatensystem: 0° Azimut geradeaus, positive Werte nach rechts, negative nach links. 0° Elevation ist auf einer horizontalen Ebene auf Höhe der Ohren der Testperson, positive Werte oberhalb der Ebene, negative unterhalb.
Jede Impulsantwort wird mit 256 Punkten im Zeitbereich bei 50 kHz Samplerate in floating-point-Form dargestellt (ursprünglich bei 100 kHz gemessen, downsampled und tiefpaßgefiltert).
Vorsicht bei Interpretation der Daten um 15 kHz (Ohrkanalresonanz!).
Für weitere Bearbeitung müssen die sog. "Directional Transfer Functions" selbst berechnet werden.
Quellenverzeichnis
Begault D. R. (1994): "3-D Sound for Virtual Reality and Multimedia", AP Professional, USA 1994.
Gardner B., Martin K. (1994): "HRTF Measurements of a KEMAR Dummy-Head Microphone", http://sound.media.mit.edu/KEMAR.html.
Wightman F. L., Kistler D. J. (1997): "Description of HRTF data set", Textdatei zu den HRTF- Daten.
© 2000, zuletzt geändert am 26. Jänner 2000.