Hintergrundwissen: Gruppenlaufzeit, Phase und Delay
Zielgruppe
Alle, die ein gewisses technisch naturwissenschaftliches Interesse haben und das Kapitel Hintergrundwissen bereits gelesen haben. Alle, die Dinge wie "Phase", "Delay", zeitkorrigierte Lautsprecher, Laufzeitkorrekturen mit FIR-Filtern genauer verstehen möchten.
Im allgemeinen Sprachgebrauch ist die Gruppenlaufzeit (GLZ, Symbol $\tau_{gr}$, gemessen in Millisekunden) die Dauer, bis eine bestimmte Frequenz wiedergegeben wird, nachdem das Signal am Eingang angelegt wurde. Diese Definition ist technisch nicht 100% korrekt (siehe weiter unten), vermittelt aber eine erste Anschauung. Oft ist dabei nur das frequenzabhängige Laufzeitverhalten des Übertragungssystems gemeint. Der konstante (für alle Frequenzen gleiche) Anteil wird oft getrennt betrachtet und als Signalverzögerung (Delay) bezeichnet. Er ist z.B. wichtig um Bild und Ton zu synchronisieren, ändert den Klang aber nicht. Entscheidend für den Klang ist nur, ob verschiedene Frequenzen zeitlich auseinanderlaufen. Ein "schwerfälliger" Tieftöner ist beispielsweise durch eine längere GLZ im Bassbereich zu erkennen. Bei der Wiedergabe könnte z.B. Schlagzeug dadurch "zu wenig impulsiv" wirken. Bei höheren Frequenzen wird es besonders problematisch, wenn sich das Laufzeitverhalten beider Stereo Kanäle (z.B. durch einen unsymmetrischen Hörraum) unterscheidet. Schlechte Ortbarkeit und Klangverfärbungen können die Folge sein.
Anfangs etwas irreführend ist die Bezeichnung "Delay" für den entsprechenden Regler am Subwoofer Ausgang. Da hier nur der Frequenzbereich des Subwoofers betroffen ist (d.h. die restlichen Lautsprecher und somit ihre Frequenzen nicht), bewirkt er eine frequenzabhängige Änderung der GLZ, hat also durchaus Einfluss auf den Klang.
Grundsätzlich ist diese Zeitrichtigkeit hörbar, sonst würde ein Logsweep genauso klingen wie ein Knall. Umstritten ist ab wann a) Zeitrichtigkeit b) Phasendrehungen hörbar sind. Die Effekte sind vergleichsweise gering. Ohne Maßnahmen an der Raumakustik, die Optimierung der Aufstellung der Lautsprecher und/oder des/der Subwoofer(s) braucht man sich wohl nicht mit der GLZ zu beschäftigen, danach sicherlich im High End Bereich, ansonsten vielleicht. Konkrete Sachverhalte, die hoffentlich ein wenig zur Klarheit beitragen:
- In der Praxis verwendete Filter erzeugen Phasendrehungen (minimalphasig oder stärker) deren Wert von der Frequenz abhängt.
- Diese Filter beeinflussen die GLZ.
- Nicht nur Frequenzweichen, sondern auch mechanische Systeme wie Bassreflexkanäle und Lautsprecherchassis sind Filter.
- Die Minimalphase kann aus dem Frequenzgang berechnet werden.
- Alles, was in einem realen System darüber hinausgeht, wird als Exzessphase bezeichnet.
- Nur linearphasige Filter haben eine konstante GLZ. Der Preis dafür ist aber ein meist deutlich hörbarere Effekt (Preringing). Sie werden deshalb im Audio-Bereich nur für spezielle Anwendungen eingesetzt.
- FIR-Filter können unter bestimmten Voraussetzungen linearphasig sein (Suchworte: Parks-McClellan-Algorithmus, Equiripple, Remez [Münker 2016]) - siehe auch das Beispiel unten.
- Bei allen anderen Filtern ändert sich die Form eines Signals beim Passieren des Filters, wenn es Frequenzen im Arbeitsbereich des Filters enthält.
- Filter des gleichen Typs erzeugen bei stärkerer Flankensteilheit (6 dB/Okt., 12 dB/Okt...) stärkere Phasendrehungen.
- Eine ausgeprägtere Änderung im Frequenzgang bewirkt i.d.R. auch eine stärkere Phasendrehungen.
- Ein 80 Hz Tschebyscheff Tiefpassfilter mit 48 dB/oct hat je nach Parametrisierung 40 bis 60 ms Delay.
- Jede Nullstelle / Pol im Filterdiagramm erzeugt eine Phasendrehung um $\pi / 2$.
- Filter, die nur ein schmales Frequenzband ansprechen, z.B. gering bedämpfte Bassreflexkanäle in "Boom-Boxen" der unteren Preisklasse, neigen dazu, nach einer Anregung mit dieser Frequenz nachzuschwingen. Møller et al. [Møller 2007] zeigen in einer Modellrechnung, dass die Zerfallskonstante solch eines Nachschwingvorgangs eng mit dem Peak der GLZ verbunden ist. Die Boom-Box speichert die Energie und gibt dank der starken Resonanz nach der GLZ ein kaum bedämpftes Signal wider. Natürlich geht dabei das Profil des Eingangssignals verloren, dafür ist der Wirkungsgrad hoch.
- Analoge Filter mit RLC-Netzwerken können in sehr guter Näherung als minimalphasig angenommen werden, d.h. sie haben bei gleichem Amplitudengang eine geringere, dafür aber frequenzabhängige GLZ.
- Technisch gesehen bleibt ein System aus mehreren nacheinander angewendeten minimalphasigen Filtern (Klangregler, Frequenzweiche, Lautsprecherchassis, Bassreflexkanal) minimalphasig. Die Transferfunktionen werden multipliziert, die Nullstellen werden "gesammelt", aber bleiben wo sie sind.
- Hörräume können nicht als minimalphasig angenommen werden [Goertz 2001].
- Technisch gesehen bleibt ein System aus mehreren parallel angewendeten minimalphasigen Filtern (Wand, Wand, Decke) nicht minimalphasig. Die Transferfunktionen werden addiert, die Nullstellen ändern sich.
- Deshalb könnte die These "Die Exzessphase kommt vom Hörraum" ein brauchbarer Denkansatz sein.
- Deshalb könnten ausgeprägte, scharfe Raumresonanzen höchstwahrscheinlich starke Delays verursachen.
- Diese ändern sich nicht, wenn der Frequenzgang per Equalizer geglättet wird.
- Typische Werte für konstruktionsbedingten Delay bei Subwoofern sind 10 bis über 30 ms.
- Diese Phasendrehungen ändern das Zeitverhalten des Systems nicht, bzw. höchstens über Umwege durch konstruktive Nichtlinearitäten der Lautsprecher usw.
- Der Hörsinn wird mechanisch unterschiedlich stimuliert, je nachdem, ob ein Burst mit Unter- oder Überdruck beginnt.
- Bestimmte Aufnahmen sollen je nach Polarität besser klingen, Websuche "absolute phase", "absolute polarity" oder "audio all polarity reverse" liefert Ergebnisse von "..no perceptible difference.." bis ".. per Doppelblindtest feststellbarer Unterschied".
- Der Effekt bei Musikwiedergabe ist schwächer als ein unter idealisierten Bedingungen wie dem Burst-Experiment.
- Der gehörte Unterschied durch Laufzeiteffekte dürfte in der Praxis, auch im High End Bereich oder in Tonstudios, deutlich größer sein.
Videos
YouTube.com: 3. Phase und Delay: Messungen mit Soundkarte?
YouTube.com: 4. Phase und Delay: Interpretation der Ergebnisse
Ab wann sind Laufzeiteffekte hörbar?
Die Hörschwelle hängt stark von Raum, Equipment und Hörer ab. Bis heute wird häufig [Blauert 1978] als Anhaltspunkt verwendet:
"Frequency Threshold of Audibility
8 kHz 2 ms
4 kHz 1.5 ms
2 kHz 1 ms
1 kHz 2 ms
500 Hz 3.2 ms"
Bei Frequenzen im Bereich unter 100 Hz liegt die Hörschwelle bei deutlich höheren Werten, vermutlich im Bereich
von 10 bis 20 ms [Neumann], ein Anstieg der Laufzeit von 10 auf 40 ms führt zu "relevanten Unterschieden"
[Goertz 2001].
Die Beispielmessungen mit der App "Subwoofer Optimizer" zeigen für die elektrostatischen Lautsprecher Unregelmäßigkeiten in der GLZ, die in dieser Größenordnung liegen. Die preiswerteren dynamischen Lautsprecher in einem weniger gedämmten Hörraum haben deutlich schlechtere Werte. Diese Unterschiede sind deutlich hörbar. Die preiswerteren Lautsprecher liefern im besser gedämmten Wiedergaberaum zwar mehr Klangdefinition durch den reduzierte Diffusschall, die Akzentuiertheit der Elektrostaten kann aber nicht erreicht werden.
Der subjektive Unterschied hängt nach eigenen Versuchen vom Tonmaterial (impulsartig, periodisch) ab. Auch ungeübte Hörer hören die Unterschiede mühelos, soweit sie die innere Ruhe haben, sich auf das Hörerlebnis einzulassen. Korrekturen der GLZ durch FIR-Filter verbessern die Situation erheblich, schließen die Lücke zwischen den verschiedenen Lautsprechern aber nicht.
Statements zur GLZ
Einerseits gehört die GLZ in das Aufgabenfeld von Komponentenherstellern und Toningenieuren mit entsprechendem Wissen und jahrelanger Erfahrung, andererseits bieten heute manche Komponenten Einstellmöglichkeiten an (Filtercharakteristik wie Bessel, Tschebyscheff, Butterworth oder auch Linearphasigkeit bzw. Minimalphasigkeit bei FIR-Filtern), die im Grunde solches Wissen voraussetzen. Ob ein theoretischer Background letztlich zu besseren Resultaten führt, oder ob die aufgewendete Zeit (wegen vieler Seiteneffekte) doch besser in Versuch und Irrtum investiert ist, ist eine vielschichtige Frage, deren Diskussion i.d.R. ergebnislos endet.
Die Hörbarkeit der "Phasenänderungen" ist seit einiger Zeit ausdiskutiert und Lehrbuchstoff [Grätz 1928]. Nicht explizit erwähnt ist dort die Frequenzabhängigkeit.
Frequenzunabhängige Phasendrehungen sind, wenn überhaupt, deutlich schwächer wahrnehmbar (s.o.).
Vielleicht liegt darin eine der Ursachen, weshalb das Thema noch 100 Jahre später immer wieder diskutiert wird.
Wie Filter die "Wellengruppe" verschieben
Es wird häufig argumentiert, eine erhöhte GLZ entstehe durch das Zwischenspeichern von Energie im System. Diese Vorstellung ist jedoch nur eingeschränkt zutreffend und kann in die Irre führen. Für ein intuitives Verständnis ist eine andere Herleitung hilfreicher.
Die GLZ wurde ursprünglich eingeführt, um die Laufzeit eines Signals zu beschreiben, das auf einem frequenzmodulierten Träger übertragen wird, etwa bei der Übertragung von Musik mit einem FM-Sender. Das Nutzsignal ist z.B. ein 1 kHz-Sinus. Es lässt sich als Überlagerung (Interferenz bzw. Schwebung) zweier sehr nahe beieinanderliegender Frequenzen auffassen, die bei einer deutlich höhere Trägerfrequenz (z.B. 100 MHz) liegen. Die Demodulation erfolgt anschließend über ein nichtlineares Element, das dieses Interferenzmuster wieder in Amplitudenänderungen überführt.
Wird im Bereich der hohen Frequenzen ein steilflankiger Filter, etwa ein Allpassfilter, eingefügt, so erfahren die beide unterschiedliche Phasendrehungen. Während eine in der Phase deutlich verschoben wird, bleibt die andere nahezu unverändert. Dadurch verschiebt sich das resultierende Interferenzmuster, also die Lage der "Wellengruppe", zeitlich. Diese Verschiebung liegt in einer Größenordnung, die der Frequenz des Nutzsignals entspricht (z.B. 1 ms). Bei einer Übertragung mit 100 MHz Trägerfrequenz und einem 1 kHz Tonsignal kann sie somit um Größenordnungen größer sein als die Periodendauer der Trägerschwingung selbst.
Diese zeitliche Verschiebung setzt voraus, dass der Filter Energie speichert und wieder abgibt. Allerdings geschieht dies nur für die betroffenen Frequenzanteile und nur über Zeiträume in der Größenordnung der Periodendauer der Trägerfrequenz. Die GLZ entsteht daher primär durch frequenzabhängige Phasendrehungen und nicht zwangsläufig durch ein "Zurückhalten" der Signalenergie über die Periodendauer der hörbaren Schallwellen. Die verbreitete Erklärung über Energiespeicherung kann in bestimmten Kontexten anschaulich sein, ist jedoch keine allgemeingültige oder zwingende Ursache der GLZ.
Messung der GLZ
Room Acoustics Meter und andere Apps aus der Hifi-Apps Serie bieten die Möglichkeit, die GLZ zu messen. Die Ergebnisse hängen dabei sehr stark von Einstellungen und Methode ab, d.h. eine ohne Vorkenntnisse durchgeführte Messung wird bestenfalls zufällig brauchbare Ergebnisse liefern. Das soll hier anhand eines Beispiels erläutert werden: Der "Messaufbau" sind dabei zwei MartinLogan Masterpiece Classic ESL 9. Der Dipol-Charakter zusammen mit dem schnellen Ansprechverhalten dieser Elektrostaten (bzw. das auch nach hinten abstrahlende Tieftönerpaar im Sockel) liefert gute Voraussetzungen, um die Eigenheiten solcher Messungen zu demonstrieren: Einerseits ist an den Aufstellungsorten der Lautsprecher eine erhebliche Schallschnelle zu erwarten, die zu entsprechend ausgeprägten Druckänderungen an den Wänden führt. Der Raum wird also "kräftig mitspielen". Andererseits wirken die Lautsprecher im Klang trotzdem präzise. Dieser scheinbare Widerspruch läßt sich mit den Betrachtungen des vorigen Kapitels erklären:
Wie dort erläutert, weisen große Schwankungen der gemessenen GLZ nicht zwangsläufig auf reale, lokal gespeicherte Energie oder "echte" Laufzeitfehler im physikalischen Sinn hin. In einem Hörraum entstehen sie überwiegend durch frequenzabhängige Phasenverschiebungen infolge von Interferenzen mehrerer Schallanteile. Direkt- und Reflexionsschall überlagern sich mit unterschiedlichen Laufzeiten, wodurch das gemessene Übertragungsmaß komplexe, stark strukturierte Phasenverläufe annimmt. Die daraus berechnete GLZ ist dann vor allem ein mathematisches Maß für diese Interferenzstruktur – nicht für eine eindeutig identifizierbare Verzögerung eines einzelnen Schallereignisses.
Das erklärt auch die extreme Ortsabhängigkeit der GLZ-Messung. Da bereits kleine Positionsänderungen des Mikrofons das Interferenzmuster zwischen Direkt- und Reflexionsschall deutlich verändern, ändern sich auch Phase und GLZ teils drastisch. Diese Schwankungen spiegeln daher eher die lokale Geometrie der Überlagerung wider als eine stabile Eigenschaft des Lautsprechers oder des Raums. Entsprechend ist die GLZ in solchen Bereichen weder robust noch sinnvoll mit Software für digitale Raumkorrektur (DRC) korrigierbar (siehe später). Schon bei minimalen Positionsänderungen – deutlich unterhalb des Ohrabstands – wären Korrekturen nicht mehr passend. Das Ergebnis wäre wahrscheinlich schlechter als die unkorrigierte Version.
Daraus erkennt man, welche Anteile der GLZ überhaupt sinnvoll adressiert werden können: Robust und wahrnehmungsrelevant sind vor allem die Anteile, die aus dem Direktschall kommen, also der Lautsprecherbox und bestenfalls eine sehr nahen Wand. Diese zeigen sich typischerweise in glatten, breitbandigen Verläufen der Phase bzw. GLZ und bleiben über kleine Positionsänderungen hinweg stabil. Demgegenüber sind schmalbandige, stark oszillierende Strukturen in der GLZ meist raum- und positionsbedingt und sollten nicht Gegenstand einer Korrektur sein.
Schließlich ergibt sich daraus eine klare Konsequenz für Messfensterung und Glättung. Zeitliche Fensterung, (frequenzabhängige) Glättung oder die gezielte Beschränkung auf frühe Signalanteile sind essenziell, um die GLZ auf die physikalisch und psychoakustisch relevanten Anteile zu reduzieren. Ziel ist es, jene Phaseninformationen zu isolieren, die tatsächlich einer kohärenten "Wellengruppe" des Direktschalls zugeordnet werden können, und die durch zufällige Interferenzen erzeugten Strukturen bewusst auszublenden.
Sonderfall Raummoden
Schmalbandige Raumresonanzen nehmen in diesem Zusammenhang eine Sonderrolle ein und stehen gewissermaßen zwischen den zuvor beschriebenen Interferenzphänomenen und echten, physikalisch begründeten Verzögerungseffekten. Im rot dargestellten Frequenzgang des rechten Kanals "Frequency Response (Raw)" ist eine entsprechend deutliche Resonanz bei 80 Hz sichtbar, zu 90 Hz hin fällt er stark ab. Mit der starken Amplitudenänderung ist eine entsprechend starke Phasendrehung verbunden, sodass die GLZ "Group Delay (Raw)" buchstäblich um mehr 500 ms springt. Das ist zugegebenermaßen eine Art Rekord-Wert, aber Änderungen über 100 ms bei kaum 10% Frequenzänderung sind keine Seltenheit, unabhängig von Hörraum, Equipment und Software. Schon das ist natürlich kontraintuitiv - sicherlich gibt es kein Wohnzimmer, in dem zwei so benachbarte Töne so unterschiedlich ankommen, als hätten sie einen Wegunterschied von ca. 30 m (100 ms) zurückgelegt, und schon gar nicht über 150 m (500 ms).
Zunächst ist wichtig festzuhalten, dass solche Resonanzen tatsächlich mit einer zeitlichen Energiespeicherung verbunden sind. Im Gegensatz zu zufälligen Interferenzen aus wenigen frühen Reflexionen handelt es sich hier um stehende Wellen, bei denen Schallenergie über viele Perioden hinweg im Raum verbleibt. Diese Energiespeicherung führt zwangsläufig zu einem steilen Phasenverlauf um die Resonanzfrequenz und damit zu einem deutlichen Peak in der GLZ. In diesem Fall ist die verbreitete Interpretation "lange GLZ durch Energiespeicherung" also physikalisch gerechtfertigt. Allerdings sind auch bei Raummoden zwei Aspekte zu unterscheiden.
Erstens ist ihre räumliche Ausprägung stark positionsabhängig. Am Druckmaximum einer Mode ist die Resonanz ausgeprägt, am Knoten hingegen kaum messbar. Entsprechend schwanken auch Amplitude, Phase und GLZ stark mit der Mikrofonposition. Eine an einem einzelnen Punkt gemessene große GLZ kann daher eine lokal dominante Mode widerspiegeln, während sie an einer leicht verschobenen Hörposition deutlich geringer ausfällt oder sogar verschwindet. Das relativiert den Nutzen einer Laufzeitkorrektur, da sie nur lokal wäre.
Zweitens hat die Wahrnehmung von Pegelverlauf, Nachhallzeit und Modulationsverhalten im Tieftonbereich wenig mit der Wahrnehmung der Reaktionszeit eines zu spät angesteuerten Subwoofers zu tun. Eine schmalbandige Gruppenlaufzeiterhöhung wird in der Praxis meist als Dröhnen, Aufdickung oder mangelnde Präzision im Bass wahrgenommen – also als Folge der langen Abklingzeit der Mode, nicht als Verzögerung einer Transienten "der Bass passt irgendwie nicht rein". Für die Praxis der Messung und Korrektur ergeben sich daraus mehrere Konsequenzen:
- Schmalbandige Peaks in der GLZ im Bassbereich sind häufig Indikatoren für reale Raummoden und nicht bloß mathematische Artefakte. Zur sicheren Identifikation dienen Schallfeldmessungen, d.h. Messungen an vielen Raumpositionen.
- Ihre Ursache ist primär die lange Abklingzeit der Mode. Sie sollte auch in einem Wasserfalldiagramm sichtbar sein. Die GLZ ist hier eher ein Symptom als die eigentliche Zielgröße.
- Eine direkte Korrektur der GLZ ist in diesen Fällen kaum sinnvoll oder robust, auch wegen der verbundenen Excess Phase: Vor dem Signal selber muss dazu ein "Anti-Aufschwing-Signal" abgespielt werden, das ist aber bei gängigen Korrekturstärken als störendes Preringing hörbar. Effektiver ist es, die Resonanz selbst zu anzugehen - vorzugsweise durch raumakustische Maßnahmen, wenn es nicht anders geht (oder ergänzend) durch Pegelabsenkung mit geeignet schmalbandigen Filtern.
- In digitalen Korrektursystemen sollte die Fensterung und Glättung so gewählt werden, dass Einschwingvorgänge möglichst stark, modale Effekte vielleicht und feinstrukturierte Interferenzartefakte nicht korrigiert werden.
Die Kurve "Group Delay (FDW)" zeigt dieselben Messdaten im selben Maßstab, aber mit frequenzabhängiger Fensterung FDW (siehe später). Der Wertebereich von vielleicht 20 ms ist gerade noch erkennbar und sicherlich viel sinnvoller.
Zur weiteren Untersuchung habe ich (als Autor von App und Dokumentation) Bursts im Bereich um 80 Hz abgespielt und die Oszillogramme mit denen der Mikrofonsignale verglichen. Weil manche Singularitäten bei Wellen im Zusammenhang mit Nichtlinearitäten stehen, habe ich das wirkliche physikalische Mikrofonsignal statt einer berechneten Faltung dieser Bursts mit der Impulsantwort angesehen.
Bursts, abgespielt und aufgenommen mit Hifi-Apps Car Audio Setup. Rot: Abgespielter Burst (nur für 80 Hz gezeigt). Gelb: Mikrofonsignale aller Frequenzen. Die Anfänge wurden in immer gleichen Abständen zu den jeweiligen abgespielten Signalen ausgerichtet (daher die Sprünge im Gitter) und mit einer dünnen schwarzen Linie markiert. Die senkrechte graue Linie 6 ms davor dient nur zur Orientierung.
Man erkennt auf den ersten Blick, dass sich die Anfänge der Bursts höchstens um wenige ms verschieben, Verschiebungen in der Größenordnung der ungefensterten GLZ sind, wie zu erwarten, undenkbar. Die Herkunft dieses Effektes ist aber trotzdem zu sehen: An den rot eingekreisten Stellen springt die Phase. Es liegt nahe, dass die Ursache ähnlich wie bei der Exzessphase (s.o.) im additive Zusammenspiel der Transferfunktionen des Raums zu suchen ist. Die gesamte Phase wird aber nach der Phase aller (irgendwann) ankommenden Signal-Anteile der jeweiligen Frequenz berechnet. Die GLZ berechnet sich wiederum aus der Änderung dieser gesamten Phase pro Frequenzänderung. Entsprechend erscheint im Ergebnis ein erheblicher Sprung. Technisch gesehen ist die Frequenz der Einhüllenden so nah an der Trägerfrequenz, dass nicht mehr die "Laufzeit" des Wellenpaketes beschrieben wird (siehe später).
Für den Hörsinn spielt dieser Effekt aber eine vollkommen andere Rolle als die erste Ankunftszeit des ersten Direktschalls (dünne schwarze Linien): Letztere ist für eine laufzeitbasierte Ortung der Schallquelle entscheidend. Und vermutlich sind wir die Nachfahren derer, die die laufzeitbasierte Ortung eines brüllenden Tigers, unabhängig von irgendwelchen Reflexionen und Phasendrehungen, sicher beherrschten. Das kann und sollte bei der Berechnung berücksichtigt werden, indem anschaulich gesprochen (wenn schon nicht die schwarze Linie, dann wenigstens) nur die ersten Wellenzüge der Messung angesehen werden. Das wiederum ist die Hauptidee hinter FDW.
Man sieht aber auch, dass das Messergebnis ohne FDW nicht wertlos ist. Der Peak zeigt eine eindeutige Besonderheit in der Akustik an, wenn auch durch möglicherweise bereichernden indirekten Schall. Man könnte jetzt Töne mit dieser Frequenz abspielen, im Raum umherlaufen und prüfen, ob diese Besonderheit schon früher als störend wahrgenommen wurde und ggf. die Situation verbessern. Ein quantitativ sinnvolles Ergebnis erhält man erst nach FDW. Dies wird auch als Grundlage für digitale Raumkorrektur (DRC) verwendet. Gängige Meinung [Barnett 2017] ist, dass DRC auf Messungen mit FDW aufbauen muss. Für einfache Einstell-Arbeiten wie den Delay eines Subwoofers ist die geglättete Version ohne FDW dagegen vollkommen ausreichend.
Details und mögliche Kritikpunkte
Kritik: Die Auswertung erfolgte grafisch anhand der gemessenen Oszillogramme, und die Anfangszeiten wurden subjektiv an die erste sichtbare Schwingung gezeichnet.
In der Rechnung weiter unten ergibt sich dagegen beispielsweise nicht dieser Anfang, sondern der Punkt des halben Anstiegs als GLZ.
Meine Antwort: Das mag in der Signaltheorie gängig sein, trägt dem logarithmischen Empfinden des Hörsinns
und der Wichtigkeit des ersten Direktschalls aber nicht Rechnung. Die These
"die Wahrnehmung beginnt, sobald man auf dem Oszillogramm etwas sieht" ist sicher nicht perfekt, aber näher an der Realität.
Im Übrigen würden sich die Werte praktisch nur bis zur 85 Hz-Messung signifikant ändern, bei den benachbarten Punkten bis 110 Hz fast nicht.
Kritik: Die Messung sollte durch die mathematisch korrekte Variante "Faltung der Impulsantwort mit den Bursts" ersetzt werden.
Meine Antwort:
Das habe ich getan, es gibt keine sichtbaren Unterschiede. Die Berechnung des etwas merkwürdig anmutenden 90 Hz Oszillogramms im Vergleich zur Messung oben:

Die Effekte treten also auch in linearen, zeitinvarianten Systemen auf bzw. die Ursache ist nicht in Nichtlinearitäten zu suchen.
Auch mehr Messpunkte würden keine neue Erkenntnis liefern. Im Grunde würden schon zwei Punkte reichen, um die Diskrepanz der Werte aufzuzeigen.
Kritik: Die Bursts sind nicht gefenstert, die Messung entsprechend ungenau.
Meine Antwort: Sicher erheblich genauer als die gefundenen 500 ms. Raum und Lautsprecher sorgen ohnehin für eine gewisse Fensterung und die Wellenzüge mit den zu untersuchenden Frequenzen sind in den Oszillogrammen deutlich sichtbar,
gar zu stark kann der Einfluss durch die Harmonischen des umschreibenden Rechtecks mithin nicht sein.
Detail: FDW Einstellungen für den relevanten Frequenzbereich: 34-59 Hz: 132 ms Fensterbreite (je 25 ms rise / fall), 59-103 Hz: 96 ms (21 ms), 103-179 Hz: 72 ms (18 ms), also an der unteren Grenze des Gängigen (sehr kurze Fenster).
Frage: Welche Genauigkeit ist nun bei einer GLZ Messung zu erwarten?
Meine Antwort: Mit vernünftig gewählten FDW Parametern wohl hoffentlich im Bereich der Wahrnemungsschwelle des Hörsinns, aber auch nicht viel besser.
Im Grunde müsste man sich die Oszillogramme verschiedener Frequenzen einzeln (automatisiert?) ansehen und mit dem Wissen über Psychoakustik abgleichen.
Berechnet man aus der gemessenen Phase eine DRC, sollte man ganz einfach verschiedene Auswertungen durchführen und per Hörtest das beste Ergebnis suchen.
Größe der Zeitfenster bei der digitale Raumkorrektur
Die mit Hifi-Apps generierte digitale Raumkorrektur (DRC) wird an anderer Stelle ausführlich behandelt. Im Unterschied zu einem klassischen Equalizer erlaubt sie nicht nur die Beeinflussung des Frequenzgangs, sondern auch die gezielte Steuerung des zeitlichen Verhaltens einzelner Frequenzbereiche. Der Teilaspekt, welche Frequenzbereiche für die Korrektur "wie lange beobachtet" werden sollen, ist jedoch so eng mit der GLZ verbunden, dass er hier erörtert wird.
Im Folgenden wird erläutert, welche Anteile der Zeitdomäne sinnvoll korrigiert werden sollten, welche nicht, und wie mit der unvermeidlichen Grauzone zwischen beiden umzugehen ist. Eine unkritische, vollständige Korrektur aller Laufzeitfehler würde, wie oben besprochen, zu einem System führen, das schlechter klingt als unkorrigiert. Die sinnvolle Länge eines FIR-DRC-Filters skaliert primär mit der Wellenlänge der jeweiligen zu korrigierenden Frequenz und der zu erzielenden Auflösung bei dieser Frequenz. Eine FIR von 200 ms ist für 50 Hz kurz, für 2 kHz aber extrem lang. Die technisch wichtige Gesamtlänge des Filters richtet sich nach der tiefsten Frequenz. Schmalbandige Korrekturen erzwingen lange Zeitfenster, deshalb ist es sehr fraglich, ob z.B. der ca. 5 Hz breite Peak bei 80 Hz in der Messung korrigiert werden sollte.
Unregelmäßigkeiten wie die in der Messung rot eingekreisten Bereiche zu korrigieren, wäre mit Sicherheit falsch. Sie entstehen durch zufällige Überlagerungen mehrerer Reflexionen genau am Standort des Messmikrofons. Bereits minimale Positionsänderungen — deutlich kleiner als der Ohrabstand — führen hier zu stark veränderten Messwerten, obwohl das wahrgenommene Klangbild insgesamt weitgehend stabil bleibt. Eine darauf basierende Korrekturfunktion würde das Signal an der leicht verschobenen Hörposition mit hoher Wahrscheinlichkeit verschlechtern.
Auf der anderen Seite wäre es auch nicht zielführend, die Länge der FIR-Korrektur grundsätzlich so klein zu halten, dass nur der positionsunabhängige Teil angegangen wird: Der Schall legt in 3 ms ungefähr einen Meter zurück. Bei einem Hörraum mit 3 m Wegunterschied zwischen Direktschall und an der Wand reflektiertem Schall entspräche das ca. 9 ms bei geometrischer Akustik. Anders gesagt erreicht 9 ms nach Beginn des Schallereignisses auch der reflektierte Schall das Ohr. Bei Frequenzen um 100 Hz ist das weniger als die Periodendauer, Messungen (und darauf aufbauende Korrekturen) sind in diesem Bereich entsprechend fehlerbehaftet. Sie enthalten einerseits die gewünschten positionsunabhängige Effekte (Einschwingvorgänge, Zeitfehler, Reflexionen im Lautsprechergehäuse), andererseits besagte Reflexionen mit denen unser Hörsinn ohne Behandlung besser zurechtkommt. In einer Messung mit einem Mikrofon mit Kugelcharakteristik sind diese Effekte allerdings nicht unterscheidbar. In einer perfekten Welt würde man die Seitenwände, Zimmerdecke usw. für die Dauer der Messung entfernen. In der realen Welt sollten Reflexionen von Anfang an raumakustisch behandelt werden, z.B. so, dass [EBU 3276] erfüllt ist.
Erfahrungsgemäß funktioniert DRC aber noch bei 20 Hz = 1/50 ms. Bei 20 Hz ist die Wellenlänge 17 m, das chaotische Muster der Überlagerungen bei 100 Hz ist hier also nicht zu erwarten. Dafür ist ein viel trägeres Zeitverhalten zu erwarten, d.h. bei der Korrektur der GLZ müssen Kompromisse gefunden werden um Nebeneffekte (Preringing) gering zu halten. Anders gesagt ist ein großes Messfenster für diesen Frequenzbereich erforderlich, in die DRC sollte aber eher der Frequenzgang und weniger die GLZ eingehen. Ein intuitives Bild mit derartigen Unterschieden, zusammen mit einer frequenzabhängigen Schallfeldmessung ist bei Versuchen mit verschiedenen Fensterungen hilfreich.
Es gibt die These, nur die Lautsprecher zu entzerren. Gerade ältere, im Grunde gute, aber noch wenig phasenentzerrte Lautsprecher könnten davon profitieren. Hier könnten Freifeldmessungen (im Garten) die Basis bilden. Allerdings werden so keinerlei Asymetrien des Raumes berücksichtigt, was letztlich wahrscheinlich zu einem schlechteren Stereo Bild führt.
Wie lang sollte nun die Korrektur für einen bestimmten Frequenzbereich sein? Bei live Veranstaltungen ist die Antwort einfach: Man muss mit 1024, maximal 4096 Taps (bei 48 kHz) arbeiten, um die Verzögerung unter 100 ms zu halten. Auch DRC's in dieser Länge sind also sinnvoll. Allerdings hat eine Konzerthalle auch andere Raummoden. Bei der heimischen Wiedergabe spielt die Verzögerung keine Rolle, und eine längere DRC führt zu besserer Schärfe in der Frequenz (siehe Tabelle weiter unten). Das ist wiederum Voraussetzung, um verschiedene Frequenz-Komponenten des Direktschalls eines Lautsprechers fein genug für die Korrektur zu erfassen. Und deren zeitliche Abstimmung ist wiederum ist Voraussetzung für gute Klangdefinition: Die Nerven in der Cochlea feuern extrem schnell, um Töne zu kodieren. Die äußeren Haarzellen bewegen sich bis zu 20.000 Mal pro Sekunde (=1/50 µs). Wahrnehmungszeiten für Zeitrichtigkeit können tatsächlich auch weit unter den oben angegebenen Werten liegen, z.B. bei 35 µs, wenn mehrere Töne in einer Art Akkord zusammen angespielt werden - siehe z.B. die Einführung in [Møller 2007] für eine Übersicht. Die Ergebnisse der wissenschaftlichen Untersuchungen können allerdings nicht 1:1 auf die Anforderungen der DRC abgebildet werden: Sie beziehen sich auf bestimmte Signale, oft Rauschen oder Bursts, nicht Musik und wurden oft mit Kopfhörer-Experimenten gemessen. Als Essenz genügt es letztlich zu wissen, dass die angestrebte Korrektur so genau wie möglich sein sollte. Die Antwort auf die Frage am Anfang ist also "so lang wie für die jeweilige Frequenz reflexionsbedingt möglich, um den Phasengang des ersten Direktschalls so genau wie möglich zu erfassen". Das Ergebnis kann dabei durchaus manchmal, bei sehr ungünstiger Verteilung von Reflexionen, auch Null sein kann.
Zusätzlich zu den sinnvollen Obergrenzen gibt es auch absolute Untergrenzen. Bei ihrer Unterschreitung ist eine DRC nicht schlecht, sondern sinnlos: Man kann die Periodendauer eines Blinklichts nicht bestimmen aus einem Video, das nur einen Einschaltvorgang enthält. Ähnlich kann man aus einem Stückchen Schallwelle nicht auf alle enthaltenen Frequenzkomponenten einer längeren Periode schließen. Man braucht mindestens eine komplette Periode, in der Praxis eher zwei, bei einem einschwingenden Subwoofer eher fünf, für eine sichere Messung des gesamten Spektrums manchmal zehn um das Verhalten bei einer bestimmten Frequenz zu studieren. Wie das Bild mit den aufgenommenen Bursts (oben) zeigt, dürfen es aber auch nicht zu viele Perioden sein, wegen besagter Reflexionen. Letztlich sollen nur positionsunabhängige Effekte (Einschwingvorgänge, Zeitfehler, Reflexionen im Lautsprechergehäuse) bei Beginn eines Schallereignisses korrigiert werden, diese Korrektur soll aber so genau wie möglich sein. Zusammen ergeben sich folgende Regeln (nicht Naturgesetze)
- Anschaulich formuliert: Wenn an Hörplatz eins +3dB gemessen wird und an Hörplatz zwei -5 dB, ist entweder die Fensterung der Messung zu groß oder der Hörraum nicht ausreichend gedämmt. Auf jeden Fall ist eine DRC auf Basis dieser Daten sinnlos.
- Allgemeiner: Das Zeitfenster für eine Korrektur sollte danach festgelegt werden, wie positionsabhängig Amplitude und Phase in seinem Frequenzband sind: Spätestens, wenn die Unterschiede zwischen den Hörplätzen in den Bereich der Korrektur kommen, ist das Fenster zu groß.
- Wenn die Dämmung sehr schlecht ist, kann die maximale Fenstergröße für manche Frequenzen auch Null sein.
- FDW sollte als "Positionskonstanz abhängiges Fenstern" gesehen werden. Die Positionskonstanz ist der ausschlaggebende Wert, sie hängt wiederum von der Frequenz ab.
- Korrekturen im Bass-Bereich (unter 200 Hz) erfordern FIR-Längen über 100 ms, der Nutzen ist stark positionsabhängig.
- Die Beispielkonfigurationen in [DRC Sbragion] geben für den minimalphasigen Anteil der Korrektur bei 20 Hz jeweils 250 ms ("minimal"), 500 ms ("normal") oder 544 ms ("strong") vor, bei 20 kHz (also dem 1000-fachen Wert) jeweils 1/1000 davon. Die Werte dazwischen müssen aber nicht zwingend geometrisch (20 Hz 250 ms; 200 Hz 25 ms ...) sein. So kann man mit dem oben beschriebenen intuitiven Bild des Wellenfeldes des jeweiligen Hörraums die Korrektur im mittleren Bereich gezielt kürzer oder länger gestalten. Für die restliche Excessphase liegen die Werte für 20 Hz bei 10,4; 21,3 und 22,7 ms.
- Manche "Einknopf-Systeme", die ohne Vorwissen bedient werden können, begrenzen die Korrektur aus Robustheitsgründen nach oben auf 200–300 Hz.
- Für Korrekturen im Grundtonbereich 200–800 Hz sind FIR-Längen im Bereich weniger Millisekunden sinnvoll.
- Für Korrekturen im Bereich über 800 Hz sind sehr kurze FIRs ausreichend, die Phasenkorrektur ist meist unkritisch.
- Schmalbandige Resonanzen sollten besser per Raumgestaltung und erst, wenn das nicht geht amplitudenmäßig behandelt werden.
- Eine praktische Regel für FDW ist "fünf bis zwanzig Wellenlängen".
Untere Grenze der Zeitfenster bei der digitalen Raumkorrektur
Ein Wert für die kleinstmöglichen Zeitfenster ist die Periodendauer $1/f$, kürzere Korrekturen sind physikalisch sinnlos. Aus den Formeln zur Abschätzung der GLZ ergibt sich ein weiteres Kriterium für die Mindestlängen von Filtern: Ausgangsgedanke ist, dass die Filter identisch zur Transferfunktion sind, nur mit getauschten Nullstellen und Polen. Damit lässt sich nach Vorgabe der Frequenz und der zu erzielenden Bandbreite die Güte, Phasen- und GLZ berechnen. Das Modellsystem ist die IIR (Infinite Impulse Response) eines Allpass-Filters zweiter Ordnung, die Transferfunktion ist als Quotient angesetzt. FIR Filter müssen zur Erreichung vergleichbarer Ergebnisse deutlich, vielleicht 5- bis 10-mal, länger ausgelegt werden. Noch ohne diesen heuristischen Faktor bekommt man folgende Werte für $\tau_{gr, ap 2}(\omega_0)$ und $\tau_{gr, ap 2}(\omega \rightarrow 0)$:
| $f_0$ [Hz] (1/f [ms], # Sam 48k) | 20 (50, 24k) | 50 (20, 9600) | 100 (10, 4800) | 200 (5, 2400) | 500 (2, 960) | 1k (1, 480) | 2k (0.5, 240) |
| Q=0.67 (N=1 Oct) | |||||||
| Q=1 (N=1.39 Oct) | |||||||
| Q=2 (N=0.71 Oct) | |||||||
| Q=3 (N=0.48 Oct) | |||||||
| Q=5 (N=0.36 Oct) | 79.58 ... 159.15 | 31.83 ... 63.66 | 15.92 ... 31.83 | 7.96 ... 15.92 | 3.18 ... 6.37 | 1.59 ... 3.18 | 0.80 ... 1.59 |
| Q=7 (N=0.36 Oct) | 111.41 ... 222.82 | 44.56 ... 89.13 | 22.28 ... 44.56 | 11.14 ... 22.28 | 4.46 ... 8.91 | 2.23 ... 4.46 | 1.11 ... 2.23 |
| Q=10 (N=0.144 Oct) | 159.15 ... 318.31 | 63.66 ... 127.32 | 31.83 ... 63.66 | 15.92 ... 31.83 | 6.37 ... 12.73 | 3.18 ... 6.37 | 1.59 ... 3.18 |
| Q=15 (N=0.096 Oct) | 238.73 ... 477.46 | 95.49 ... 190.99 | 47.75 ... 95.49 | 23.87 ... 47.75 | 9.55 ... 19.10 | 4.77 ... 9.55 | 2.39 ... 4.77 |
| Q=20 (N=0.072 Oct) | 318.31 ... 636.62 | 127.32 ... 254.65 | 63.66 ... 127.32 | 31.83 ... 63.66 | 12.73 ... 25.46 | 6.37 ... 12.73 | 3.18 ... 6.37 |
Die erste Zeile gibt verschiedene Frequenzen vor, $1/f$ in ms ist die zugehörige Periodendauer, kürzere Korrekturen sind physikalisch sinnlos und in den folgenden Zeilen durchgestrichen dargestellt. "# Sam 48k" ist die entsprechende Anzahl der Samples bei 48 kHz Sampling Frequenz. Die Bandbreite als Frequenzunterschied $BW=f_0/Q$ ergibt sich aus der Breite des Peaks im Frequenzgang bei der halben Leistung, also -3 dB oder $1/\sqrt{2}\simeq 70\%$ der Amplitude. Die Bandbreite in Oktaven ergibt sich aus $N=\ln(f_2/f_1)/\ln(2)$ wobei $f_2$ und $f_1$ die bei -3 dB abgelesene obere und untere Grenzfrequenz des Bandes sind. Die Umrechnung in Güte erfolgt nach der Formel $Q=\sqrt{N}/(2^{N}-1)$ [sengpielaudio].
Um also beispielsweise die bei der Messung oben untersuchte Resonanz bei 80 Hz mit ca. 5 Hz Bandbreite zu korrigieren könnte man mit $N=\ln(82,5/77,5)/\ln(2)\simeq0.1$, also Q=15 ansetzen. Der Wert für die GLZ liegt also laut zweitletzter Zeile zwischen 95,49 und 190,99 ms, also etwas tiefer als die Werte der ungefensterten GLZ im Plot, aber in der erwartbaren Größenordnung. Eine kürzere Filterlänge wäre physikalisch sinnlos, dazu kommt noch der "deutlich"-Faktor von 5..10. Man müsste also prüfen, ob sich die Messergebnisse bei dieser Fensterlänge an allen Hörplätzen zumindest so ähnlich verhalten, dass eine Korrektur alle in die gewünschte Richtung bewegt. Das ist wahrscheinlich eher nicht der Fall, in der Praxis werden jedenfalls gerne kleinere Werte, zwischen 5 und 20 Wellenlängen gewählt, also 62,5 bis 250 ms für diese Frequenz. Scharfe Raumresonanzen der gezeigten Art werden aus diesen Gründen nur selten mit Phasenkorrekturen behandelt.
Beim Lautsprecherbau wird mit Güten $Q_{ts}$ im Bereich von 0,3 bis 0,5 - bei geschlossenen Systemen vielleicht 0,6 gearbeitet. Die Werte der erforderlichen Korrekturdauern liegen also im Bereich der durchgestrichenen ersten Tabellenzeile, sollten also mindestens einige Periodendauern der jeweiligen Frequenzen haben.
Für Techniker
Durch die Fouriertransformation der Transferfunktion eines linearen zeitinvarianten Systems wird eine Zeitverschiebung (Delay) $\tau_{d}$ zu einer frequenzproportionalen Phasendrehung: $\mathscr{F}\{ F(\omega)\} = f(t) \Rightarrow \mathscr{F}\{\exp(i \omega \tau_{d}) F(\omega)\} =f(t-\tau_{d})$ wobei $\omega$ die Kreisfrequenz und $t$ die Zeit ist. Anders ausgedrückt kann in diesem einfachen Fall die Transferfunktion als $H(\omega)=k\exp(-i \omega \tau_{d}) $ angesetzt werden, also $$ \begin{align} |H( \omega)| &= k \\ \angle H( \omega) &: = \varphi(\omega) = -\omega \; \tau_{d}\\ \end{align} $$ Wegen des linearen Zusammenhangs zwischen $\omega$ und $\angle H(\omega)$ kann der Delay folglich sowohl als Bruch als auch als Differenzialquotient geschrieben werden: $$ \tau_{d} = - \frac{ \varphi( \omega)}{\omega} = - \frac{ \mathrm{d}\varphi( \omega)}{\mathrm{d}\omega} $$ Der Delay ist nicht frequenzabhängig, einen frequenzabhängigen Delay gibt es nicht. Die Phase steigt linear mit der Zeit, der Filter ist linearphasig. Nur für linearphasige Filter kann ein Delay definiert werden. Es kann aber sinnvoll sein, trotzdem nach subjektiven Kriterien einen linearphasigen Anteil von einem beliebigen Filter zu separieren, z.B. um Bild und Ton so gut es geht zu synchronisieren. $\tau_{d}$ ist einfach die Zeit, die das Signal benötigt, beim Empfänger anzukommen. Anschaulich besagt die Gleichung, dass wenn zur Überbrückung einer bestimmten Entfernung ein Wellenzug einer bestimmten Frequenz benötigt wird, o.B.d.A. zwei Wellenzüge der doppelten Frequenz benötigt werden.
In der realen Welt, z.B. einem Bassreflexkanal, der sich bei einer bestimmten Frequenz aufschwingt, geht dieser einfache Zusammenhang natürlich verloren. Die hinzukommende Frequenzabhängigkeit spiegelt sich in einer Verformung des Wellenzuges wider. Zu dem frequenzunabhängigen Delay kommen frequenzabhängige Laufzeiten. $|H(\omega)|$ kann in dem betrachteten schmalen Frequenzbereich weiter als konstant angenommen werden.
${ \mathrm{d}\varphi( \omega)}/{\mathrm{d}\omega} $ hängt ab jetzt von der jeweils betrachtete Frequenz $\omega_0$ ab. Für die GLZ relevant ist dabei die nahe Umgebung vom jeweiligen $\omega_0$ bzw. das erste Glied der Taylor Entwicklung um $\omega_0$. Man betrachtet immer ein schmales Frequenzband, eine einzelne Frequenz hat kein Zeitverhalten. Wie ganz am Anfang erwähnt, ist die gängige und sicherlich anschaulich brauchbare Formulierung von der Ausbreitungsgeschwindigkeit "einer bestimmten Frequenz" technisch sinnlos. $$ \begin{align} \angle H( \omega) &= \exp\Big(i \varphi(\omega_0) + i (\omega-\omega_0) \varphi'(\omega_0) \Big) \\ &= \exp\Big(i \omega_0 \underbrace{\varphi(\omega_0)/\omega_0}_{-\tau_{ph}} \Big) \exp\Big(i \underbrace{(\omega - \omega_0)}_{\Delta \omega} \underbrace{\varphi'(\omega_0)}_{\to - \tau_{gr}} \Big) \end{align} $$ Das konstante Glied der Entwicklung bzw. der erste $\exp(\cdot)$ Multiplikator in der zweiten Zeile verliert auch die Bedeutung eines reinen Delays, schließlich kann die Laufzeit durch die neue Verallgemeinerung jetzt auch frequenzabhängig sein. Man spricht deshalb jetzt von einer Phasenlaufzeit. $$ \tau_{pd}(\omega) = -\frac{ \varphi(\omega)}{ \omega} \\ $$ Der zweite Faktor kann anschaulich als die Propagation einer Schwebung gesehen werden, die wegen des kleinen $\Delta\omega$ viel langsamer als $\omega_0$ ist. Bei einem frequenzmodulierten Radiosender wäre $\omega_0$ die Trägerfrequenz, z.B. 100 MHz, und $\Delta\omega$ charakterisiert durch die übertragenen Musik, z.B. maximal 15 kHz. $\tau_{gr}$ beschreibt die Zeit, die die Einhüllende eines Signals mit einem schmalen Frequenzbereich um $\omega_0$, benötigt, das ist nicht die Zeit, die das Signal selber benötigt. Da in diesem Bereich die meiste Energie ist, wird im Englischen neben "envelope delay" auch der möglicherweise irreführende Begriff (siehe oben) "energy delay" verwendet. $$ \tau_{gr}(\omega) = -\frac{\mathrm{d} \varphi(\omega)}{\mathrm{d}\omega} \\ $$ Es bleibt aber sinnvoll, $\tau_{pd}$ in einen trivialen Anteil zur Beschreibung der Zeitverschiebung und den (meist entscheidenden) Anteil, der die Frequenzabhängigkeit des Systems durch Resonanzen, Filtereffekte usw. bestimmt, zu splitten. Software zur Darstellung der GLZ bietet deshalb eine "Unroll-Funktion" an, die automatisch oder manuell den Abzug eines linearphasigen Anteils ermöglicht. Damit erhält der User die Möglichkeit, das durch Resonanzen, Filtereffekte usw. bestimme Systemverhalten ohne störende Phasendrehungen anzusehen.
Wie oben gezeigt, muss der langsame Verlauf der Einhüllenden bei Messungen der Raumakustik durch entsprechende Fensterung sichergestellt werden. Andernfalls spiegelt $\tau_{gr}$ nichts die gängige Definition "...wie lange es dauert bis eine bestimmte Frequenz wiedergegeben wird.." wider. Wenn man ein Signal mit einer Trägerfrequenz $\omega$ ansetzt, das durch eine hinreichend langsame Einhüllende moduliert wird, dann teilen sich $\tau_{gr}$ und $\tau_{pd}$ bei der Übertragung dann entsprechend auf: $$ x(t) = \underbrace{ m(t)}_{\text{ Einhüllende }} \underbrace{ \cos(\omega t)}_{\text{ Trägerfrequenz }} \longrightarrow \underbrace{ m(t-\tau_{gr} )}_{\text{ Einhüllende }} \; \underbrace{ \cos(\omega (t- \tau_{pd} ))}_{\text{ Trägerfrequenz }} $$ Ein reiner Phasen Delay $\tau_{pd}$ kann wie oben beschrieben im cos-Term untergebracht werden, der entscheidende Rest verschiebt die Einhüllende in Abhängigkeit davon, welche Frequenz sie einhüllt. Die frequenzabhängige Änderung der Amplitude wurde zur Vereinfachung weggelassen.
Fausregel zur Abschätzung der GLZ
Im APPENDIX 1 von [Møller 2007] wird das Phasenverhalten und die GLZ von Allpässen erster und zweiter Ordnung explizit berechnet. Für die erste Ordnung setzen die Autoren an mit $$ H_{ap 1}(\omega) = \frac{\omega_0-i \omega}{\omega_0+i \omega} $$ wobei $H$ die Transferfunktion und die Frequenz $\omega_0$ durch ihren Pol und die Nullstelle gegeben ist. Sowohl der Zähler als auch der Nenner können wie ein Phasendiagramm gesehen werden, beide haben jeweils den betragsgleichen Phasenwinkel $\tan^{-1}(\omega/\omega_0)$. Der Phasenwinkel des gesamten Systems $\varphi(\omega)$ hat also den doppelten Wert. Damit wird $$ \tau_{ph, ap 1}(\omega) = \frac{2 \tan^{-1}(\omega/\omega_0)}{\omega}; \;\; \tau_{gr, ap 1}(\omega) = -\frac{2 / \omega_0}{1+(\omega/\omega_0)^2} \\ \\ $$ Mit einer analogen Rechnung für einen Allpass zweiter Ordnung kann ein Zusammenhang zwischen Güte und GLZ hergestellt werden. Es ist $$ H_{ap 2}(\omega) = \frac{(i \omega)^2-i \omega (\omega_0/Q) + \omega_0^2 }{(i \omega)^2+i \omega (\omega_0/Q) + \omega_0^2 }, $$ wobei $Q$ die Güte ist. Phasen- und GLZ berechnen sich analog zum Allpass erster Ordnung. Für den Abschnitt Größe der Zeitfenster bei der DRC ist der Peak der GLZ bei $\omega_0$, ihr Zusammenhang mit der Bandbreite von Resonanzen und der Grenzwert bei niedrigen Frequenzen entscheidend. Für Moden hoher Güte $Q>0,5$ ist $$ \tau_{gr, ap 2}(\omega_0) = \frac{4Q}{ \omega_0}; \;\; \tau_{gr, ap 2}(\omega \rightarrow 0) = \frac{2Q}{ \omega_0} $$ wobei die erste Gleichung den Peak der GLZ darstellt.
Numerische Berechnung
In zeitdiskreten Übertragungssystemen, wie sie die digitale Signalverarbeitung darstellt, wird die diskrete GLZ auf das Abtastintervall $T$ bezogen: $$ \frac{\tau_d(\Omega)}{T} = - \frac{\mathrm{d}\,\operatorname{arg}\{H(e^{i\Omega})\} }{\mathrm{d}\Omega} $$ mit der auf die Abtastfrequenz $f_s$ normierten Kreisfrequenz $\Omega$: $$ \Omega = \frac{\omega}{f_\mathrm{s}} = \omega \cdot T $$ Der Vorteil der normierten Form in zeitdiskreten Systemen ist die Unabhängigkeit von konkreten Abtastfrequenzen.
Beispiel
Die Übertragungsfunktion eines diskreten Systems sei eine Mittelung über die ersten 5 Indizes, also $$ \begin{align} h[n] &= \frac{1}{5} (\delta(n) + \delta(n-1) + \delta(n-2) + \delta(n-3) + \delta(n-4)) \\ H(\Omega) &= \frac{1}{5} (e^{-i0} + e^{-i\Omega} + e^{-i2\Omega} + e^{-i3\Omega} + e^{-i4\Omega} ) \\ &= \frac{1}{5} ( e^{i2\Omega} + e^{i\Omega} + e^{0} + e^{-i\Omega} + e^{-i2\Omega} ) e^{-i2\Omega} \\ &= \frac{1}{5} ( 2 \cos(2 \Omega) + 2 \cos( \Omega) +1) e^{-i2\Omega} \\ \end{align} $$ Die cos-Terme in der Klammer (der Amplitudengang) sind reell, nur der letzte Multiplikant hat Einfluss auf die Phase. Mithin wird die GLZ $$ \tau_{\rm gr}(\Omega) = - \frac{\mathrm{d}\varphi(\Omega)}{\mathrm{d}\Omega} = - \frac{\mathrm{d} (-2\Omega)}{\mathrm{d}\Omega} = 2. $$ Anschaulich ist das nachvollziehbar, wenn man sich als Signal eine Sprungfunktion vorstellt, die bei $t=t_0=0$ von 0 auf 1 springt. Erreicht das Signal das System, so wird bei $t<0$ der Output zu 0, dann bei $t=0, 1, 2, 3, 4$ zu $1/5$, $2/5$, $3/5$, $4/5$, $1$, d.h. nach der GLZ ist das Mittel der Flanke erreicht.Nebenbei bemerkt handelt es sich bei dem Beispiel um einen linearphasigen Filter: Die Phase beinhaltet nur den $\arg \exp(-i2\Omega)$ Term. Grob gesprochen kommt das letztlich durch den symmetrischen Aufbau der 5 Koeffizienten. Während linearphasige Filter durch diesen symmetrischen Aufbau i.A. ihr Maximum in der Mitte der Impulsantwort haben, hat die minimalphasige Version desselben Filters (mit gleichem Amplitudengang) die größten Koeffizienten am Beginn ihrer Impulsantwort. Auf [falstad.com] können verschiedene Filter simuliert werden.
Manche Messgeräte können aus zwei Phasenmessungen bei benachbarten Frequenzen (Näherungswerte für) die GLZ (direkt) berechnen. Die App "Subwoofer Optimizer" bestimmt die Transfer Funktion per Logsweep, der mit dem Algorithmus von Farina ausgewertet wird. Die GLZ wird (nach Glättung) aus dem Differenzialquotient der Phase bestimmt.
Literatur
[Barnett] Mitch Barnett: Accurate Sound Reproduction Using DSP. Independently published (2 April 2017) ISBN-10 : 1520977905 ISBN-13 : 978-1520977904
[Blauert 1978] Blauert, J. and Laws, P: "Group Delay Distortions in Electroacoustical Systems" Journal of the Acoustical Society of America Volume 63, Number 5, pp. 1478-1483 (May 1978)
[Burkowitz, Fuchs 2009] Peter K. Burkowitz, Helmut V. Fuchs "Das vernachlässigte Bass-Fundament" Vereinszeitschrift des Verbands Deutscher Tonmeister 2/2009 p. 35
[EBU 3276] Listening conditions for the assessment of sound programme material: monophonic and two–channel stereophonic. EBU Tech. 3276 – 2nd edition https://tech.ebu.ch/docs/tech/tech3276.pdf May 1998
[Earl Geddes] mehlau.net/audio/multisub_geddes
[Earl Geddes - YouTube] Earl Geddes on Multiple Subwoofers in Small Rooms https://www.youtube.com/watch?v=SCWL-zusyqw
[falstad.com] "...some educational applets I wrote to help visualize various concepts in math, physics, and engineering..."
http://www.falstad.com/mathphysics.html
http://falstad.com/dfilter/
[Goertz 2001] Goertz A, Wolff M (2001) "Neue Methoden zur Anpassung von Studiomonitoren an die Raumakustik mit Hilfe digitaler Filterkonzepte" Teil 1 von 2. Fortschritte der Akustik, DAGA 2002 http://www.ifaa-akustik.de/files/DAGA2002-Teil1.PDF http://www.ifaa-akustik.de/files/DAGA2002-Teil2.PDF
[Goossens] Sebastian Goossens "Wahrnehmbarkeit von Phasenverzerrungen" Institut für Rundfunktechnik, München https://forum2.magnetofon.de/bildupload/goosphase.pdf
[Grätz 1928] L. Grätz "Die Elektrizität und ihre Anwendungen" Jengelhorns Nachf. Stuttgart, 1928
[Møller 2007] Møller, Henrik and Minnaar, Pauli and Olesen, Søren and Christensen, Flemming and Plogsties, Jan "On the Audibility of All-Pass Phase in Electroacoustical Transfer Functions" J. Audio Eng. Soc., Vol. 55, No. 3, pp 115-134 (March 2007)
[MSO] Multi Subwoofer Optimizer, Andy C https://www.avsforum.com/threads/optimizing-subwoofers-and-integration-with-mains-multi-sub-optimizer.2103074/
[Münker 2016] Christian Münker: "DSP auf FPGAs: Kap. 5-2 Do-It-Yourself FIR Filterentwurf" https://www.youtube.com/watch?v=y0PNXUI5x1U
[sengpielaudio] "Bandpassfilter (BPF) und EQ-Filter - Beziehung zwischen Q-Faktor und Bandbreite B " https://sengpielaudio.com/Rechner-bandbreite.htm
[Welti Devantier] Todd Welti, Allan Devantier: Low-Frequency Optimization Using Multi Subwoofers. Harman International Industries Inc. Northbridge CA 91329 USA, Manuscript received 2006
[Welti Harman] Subwoofers: Optimum Number and Locationsby Todd Welti Research Acoustician, Harman International Industries, Inc.twelti@harman.com multsubs_0.pdf links folien rechts text Seite 4 "Multiple Subwoofers != Multiple Subwoofer Channels"
Forendiskussion. Aktuell (Okt 2020) 234 Seiten. https://www.diyaudio.com/forums/subwoofers/134568-multiple-subs-geddes-approach-149.html
Eine Art Review mit Raummoden, Welti, Geddes etc. Subwoofer / Low Frequency Optimization By Amir Majidimehr [Note: This article was published in the May/June 2012 issue of Widescreen Review Magazine]