HD Audio wäre eine klare Sache. Aber die Industrie hat Mühe mit einer sinnvollen Definition.

Erstellt von:
25 Januar 2016
In Blog
1.614 AUFRUFE

High Resolution, High Definition, Standard Definition: Offensichtlich genervt über diese Begriffsvielfalt und Begriffsverwirrung, bat ein frustrierter Leser diesen Knoten zu entwirren. Auch die Adobe Audition Bilder mit den Spektralanalysen sind schwierig zu verstehen, wenn man nicht von der technischen Seite her kommt. Ich versuche heute hier Licht ins Dunkel zu bringen und einige Grundelemente zum Verständnis der Materie zu erklären.

Die Audioindustrie ist leider nicht in der Lage eine einheitliche Definition und Bezeichnung für hochauflösende Audioformate zu schaffen. Wir müssen mit mehreren Auffassungen und Logos für hochauflösende Musik leben.

hd-logo-bar

Bild 1: Mit Hi-Res Music hat die Musikindustrie ein weiteres Logo zum Thema kreiert (Grösser = auf Bild klicken).

Die Herleitung für eine klare HD Definition

Wie sieht nun eine fundierte Definition für High Definition Audio aus? Ich bleibe nun konsequent beim mir am sinnvollsten erscheinenden Begriff HD Audio. Die Musikindustrie und Teile der Geräteindustrie versuchen mit einem subjektiven Ansatz alle möglichen Arten von Aufnahmen als HD zu vermarkten, egal ob die technischen Parameter für HD Audio erfüllt werden oder nicht. Grundsätzlich muss HD Audio den Frequenz- und Dynamikumfang der aufzuzeichnenden Musik vollumfänglich erfassen, speichern und reproduzieren können. Der menschliche Hörbereich muss vollständig abgedeckt sein. Dies auch in Bezug auf die zeitlich genaue, phasenstabile Reproduktion des Klanggeschehens. Die Linearität muss hoch sein, die Verzerrungskomponenten möglichst gering. Dieser technische Ansatz kann und sollte mit subjektiven Höraspekten, d.h. Hörpsychologie als Wechselbeziehung betrachtet werden.

adobe-chart-explain-mein

Bild 2: Frequenz und Dynamikumfang der Instrumente und der menschliche Hörbereich sind der Massstab für die Definition von HD-Audio. Das Obertonspektrum der Instrumente reicht deutlich über den menschlichen Hörbereich hinaus. Allerdings sind diese Frequenzanteile von der Energie her (Lautheit) extrem schwach. Dies verdeutlicht das stark abfallende Frequenzspektrum oberhalb von 20kHz (blaue Kurve) (Grösser = auf Bild klicken).

Stellen wir nun diese Anforderungen (technische Eckwerte) den Möglichkeiten der verschiedenen Audiotechnologien gegenüber.

A) Analog Audio: Entwicklung von der Edison Walze von 1877 bis zu der ausgefeilten Technik heutiger Vinyl Tonträgersysteme. Dies schliesst auch die analoge Bandtechnik ein. Es geht um rein analoge Audiotechnik.

B) CD Format 16/44.1. Das Grundkonzept der digitalen Audiotechnik aus den frühen 80er Jahren. Der Red Book Standard definiert einerseits die lange gültigen Aufzeichnungsparameter und anderseits die CD als physischen Träger mit optischer Abtastung als Distributionsformat.

C) Digitale Audioformate, welche einen höheren Dynamik- und Frequenzumfang als die bisherigen unter A und B definierten Formate haben und die Kriterien „menschlicher Hörbereich“ und „Tonumfang der Instrumente“ erfüllen oder übertreffen.

adobe-chart-pcm-audio11

Bild 3: Das PCM Format 24Bit/96kHz erfüllt die oben genannten Kriterien vollumfänglich. 24/192 deckt einen Bereich ab, indem nichts vorhanden ist. Dennoch wird dieses Format als noch besser als 24/96 vermarktet. Es gibt nur ganz schwache Argumente die 24/192 rechtfertigen. Diese drehen sich um den Aspekt des zeitlichen Auflösungsvermögens eines Systems und um Filtereigenschaften (Grösser = auf Bild klicken).

Vergleich von analogen und digitalen Technologien

Die Industrie bringt nun laufend Remasters und Überspielungen von analogen Bändern oder gar Schallplatten als HD Alben auf den Markt. Erfüllen diese als Download erhältlichen Neuauflagen bekannter Alben die HD Kriterien? Erfüllt bereits die CD HD Kriterien?

adobe-chart-pcm-analog12

Bild 4: Wir sehen, die analoge Audiotechnik erfüllt die Kriterien Mensch/Instrument nicht ganz. Auch nicht in den Aspekten zeitliches Auflösungsvermögen, Linearität, Verzerrungen und Kanaltrennung. Dennoch können mit analoger Technik hervorragende Aufnahme gemacht werden. Nur erfüllen diese die Anforderungen für HD Audio nicht. Die CD punktet mit hoher Dynamik, Kanaltrennung und Linearität, kann aber in Bezug auf das reproduzierbare Frequenzspektrum die Anforderungen nicht erfüllen.

Wie gesagt, mit analogen Technologien lassen sich durchaus überzeugende Aufnahmen realisieren. Werden nun solche per Definition als Standard Auflösung eingeordneten Aufnahmen in einen HD Hülle (Container) gepackt, haben wir trotzdem nur eine Klangtreue (Fidelity) auf SD Niveau. 1 Kilo Zucker in einem 2 Kilo Sack erzeugt auf der Waage trotzdem nur 1 Kilo auf der Anzeige.

Aber: „Analog hat im Gegensatz zu digital Audio eine unendliche Auflösung – die Information zwischen den Abtastwerten sind bei digital verloren“. Diese Aussage hört man oft. Nur stimmt sie nicht. > Link Digital Basics. Die relevanten Parameter sind Dynamik und Frequenzumfang – egal ob digital oder analog Technik.

Somit folgern wir, dass für echtes HD Audio die Kette (Aufnahme, Speicherung, Wiedergabe)  durchgängig mindestens im Format 24Bit/88.2kHz (Dynamik)/(Frequenzumfang) arbeiten muss. Oder vom CD-Niveau her betrachtet: HD muss mehr als 16Bit Wortlänge UND 44.1kHz Samplingfrequenz haben.

Hier die Definition der Japan Audio Society aus dem Jahre 2014 für HD Audio. Die erste griffige technische Definition, die mit dem Hi-Res Logo verknüpft ist. Leider klebt das Hi-Res Logo auf Alben und auch auf Geräten (hier allerdings sehr selten), welche die HD Kriterien nicht erfüllen.

jas-definition

Analyse Werkzeuge helfen eine Aufnahme nach messbaren Kriterien zu beurteilen

Mit Hilfe von Programmen, wie Adobe Audition, lassen sich Musikaufnahmen analysieren und von der technischen Seite her beurteilen. Wir haben diese Bilder schon oft  in unserem Blog publiziert. Wie muss man diese nun lesen?

Vorweg muss man sich kurz mit der Physik eines Klanges beschäftigen. Jeder Ton den ein Instrument erzeugt (auch Gesang), besteht aus Grund- und Obertönen. Diese Grund- und Obertöne sind immer sinusförmig und stehen in einem mathematischen Verhältnis zum Grundton. Die einzelnen Sinusschwingungen addieren und subtrahieren sich zu einer Hüllkurve. Der Grundton bestimmt die Tonhöhe, die Obertöne den Klangcharakter, also ob wir eine Trompete oder eine Gitarre hören.

time-vs-fft

Bild 5: Ein Klang entsteht durch Grund und Obertönen. Diese ergeben die Hüllkurve. Obere Bildhälfte: Grundton = rote Sinusschwingung = Tonhöhe. Obertöne: 1 Harmonische = blaue Sinusschwingung, 2. Harmonische = grüne Sinusschwingung. Hüllkurve = violette Schwingung (nicht mehr sinusförmig). Sie sehen, wie das vereinfachte Grundprinzip in der oberen Bildhälfte  mit den Adobe Audition Bildern korrespondiert.

Hier nochmals das gleich Prinzip mit einer Grundschwingung und zwei Obertönen als Audition Grafik:

triple-sinus

Bild 6: Die Aussage von Bild 5 mit Audition realisiert. Man sieht deutlich die mit zunehmender Frequenz abnehmende Energie der Schwingungen. Der 1kHz Ton ist kräftig orange, der 10kHz Ton schwach violett. Die grüne Hüllkurve zeigt die sich überlagernden Frequenzen (die obere Zeitachse ist stark gedehnt im Verhältnis zur Spektralanzeige unten). Die einzelnen Töne setzen zeitversetzt ein.

Hier die aus dem vorletzten Blog bekannte Grafik  der Berlioz Symphonie fantastique, die Sie nun besser interpretieren können:

berlioz-sf-spektrumt

Bild 7: Der  grosse Dynamik- und Frequenzumfang dieser Berlioz HD Aufnahme (24/96) lässt sich nicht vollumfänglich auf einem Träger im SD Format (CD/Tape/Vinyl) speichern.

Knacknuss zeitliches Auflösungsvermögen – wirklich?

Das zeitliche Auflösungsvermögen des menschlichen Hörens wurde in letzter Zeit vermehrt diskutiert. Richtungsorientiertes Hören entsteht dadurch, dass Schallwellen von rechts zuerst am rechten Ohr eintreffen und zeitversetzt am linken Ohr. Aus der kleinen Zeitdifferenz errechnet unser Hirn die Richtung aus der der Ton oder das Geräusch kommt. Das zeitliche Auflösungsvermögen des Menschen ist weit grösser als die Fähigkeit unterschiedliche Tonhöhen genau zu erkennen. Auf die Audiotechnik übertragen bedeutet dies, dass bei einem Audiogerät Phasenfehler (zeitlicher Versatz des Signals) respektive Jitter in digitalen Systemen einen viel grösseren Einfluss auf das Hörempfinden haben als Frequenzgangfehler. Es erstaunt daher auch nicht, dass die Bowers & Wilkins Ingenieure mehr Wert auf Phasentreue als auf eine extrem gerade Linie im Frequenzdiagramm legen.

Das zeitliche Auflösungsvermögen der CD wird aus Unkenntnis über die Funktionsweise der digitalen Signalverarbeitung sehr oft falsch interpretiert. Es herrscht die irrige Meinung vor, die Information zwischen den Abtastpunkten sei verloren. Auch ein Zeitversatz der kleiner als das Abtastintervall ist, wird bei der Wiedergabe zeitrichtig rekonstruiert.  Eine höhere Abtastfrequenz (Samplerate) erfasst nicht mehr Informationen im Frequenzbereich der bereits von einer tieferen Abtastrate erfasst wurde. Die Erhöhung von 44.1 kHz auf 96 kHz erweitert den möglichen Übertragungsbereich von 22.05 kHz auf 48kHz.

Fazit: HD Audio kann technisch genau definiert werden. Die Marketingabteilungen versuchen auch SD Formate als HD Audio zu verkaufen. Mit Aussagen wie „Masterband Qualität“ „und „so wie es die Künstler im Studio hören“ werden SD Aufnahmen ab Band oder CD Master in HD Container verpackt und angeboten. Aber auch auf der anderen Seite der HD Line wird kräftig mit hohen und immer höheren Samplingraten versucht vermeintlich bessere Qualität zu liefern. Ausser Nullen auf der Festplatte und einem leicht leereren Geldbeutel passiert aber gehörmässig nichts. Als Grund für Samplingraten grösser als 96kHz werden Vorteile im Zeit- und Filterbereich genannt. Nur bis jetzt fehlt der schlüssige Beweis für diese Argumente.