ROAD-Audio-Codec-Analyse

Vor nicht allzu langer Zeit wurde in Habré in dem Artikel „Anwendung der nichtlinearen Dynamik und der Chaostheorie auf die Entwicklung eines neuen Algorithmus zur Komprimierung von Audiodaten“ ein brandneuer Audiocodec mit fünf bisher nicht sichtbaren Eigenschaften angekündigt. Eine solche Formulierung weckte Interesse und den Wunsch, ein wenig zu klären, was was war.

Ferner werden die beanspruchten einzigartigen Eigenschaften berücksichtigt und mehrere Testmessungen durchgeführt.

Immobilienübersicht


Vorschau


Der Artikel beschreibt eine ziemlich komplizierte Formel, um diese Eigenschaft zu erklären, aber tatsächlich ist alles viel einfacher. Tatsächlich bedeutet diese Eigenschaft, dass nicht das gesamte Signal komprimiert wird, sondern nur ein Teil davon, wie in der folgenden Abbildung dargestellt:



Hier wird das Originalsignal grün, blau markiert - gemittelt über eine bestimmte Anzahl von Punkten (Samples) und explizit gespeichert, und rot - zu komprimierender Rückstand.

In sehr grober Näherung kann man sagen, dass nur der hochfrequente Teil des Signals komprimiert wird. Genauer gesagt sieht die Trennung in gemitteltes und Restsignal beispielsweise so aus (bei 4-facher Mittelung bei 48 kHz):



Oder so (bei 32-facher Mittelung bei 48 kHz):



Eine noch genauere Ansicht hängt vom jeweiligen aufgenommenen Signal ab. Zum Beispiel für eine Sinuskurve vom ersten Bild an:



Hier führte die Mittelung zum Auftreten von gegenphasigen Harmonischen in beiden Signalen, die sich bei der Addition gegenseitig kompensieren. Wenn sich die Phase oder Amplitude der Harmonischen in einem der Signale ändert (z. B. als Ergebnis der Komprimierung), tritt offensichtlich keine vollständige Kompensation mehr auf und es kommt zu einer Verzerrung des ursprünglichen Signals. Dies wird dann bei bestimmten Messungen gezeigt.

Teilweise Kompatibilität


Diese Eigenschaft ergibt sich eindeutig aus der vorherigen. Da ein Teil des Signals ohne Komprimierung gespeichert wird, kann es ohne Berücksichtigung des codierten Teils reproduziert werden. Der Autor stellt dies als Tugend dar, aber es sieht äußerst zweifelhaft aus. Wenn Sie eine Audiodatei heruntergeladen haben, die vom Player nicht wiedergegeben werden kann, fehlt ein Codec. Wenn die Datei jedoch in schlechterer Qualität wiedergegeben wird, ist es logischer anzunehmen, dass dies der Fall ist oder dass sie beschädigt ist, als nach einem Codec zu suchen, der den Klang verbessert.

Übertakten


Mit diesem Wort nannte der Autor die Möglichkeit der Überabtastung (Resampling, Resampling) auf Decoderebene. Dies könnte als Tugend bezeichnet werden, wenn es gegenüber der Verwendung anderer Resampler, einschließlich der in Software-Audioplayern oder Tonausgabegeräten eingebauten, zu erheblichen Vorteilen führen würde.

Die Qualität des Resamplers wird durch den Grad der Unterdrückung von Oberschwingungen außerhalb des ursprünglichen Frequenzbandes bestimmt. Es wird unten gezeigt, dass dieser Codec diese Qualität nicht hat.

Dynamische Bereichserweiterung


Und hier findet bereits eine offensichtliche Tatsachenfälschung statt. Bei der Digitalisierung eines Audiosignals nimmt nicht nur der Dynamikumfang ab, sondern es treten auch nichtlineare Quantisierungsgeräusche auf. Sie lassen sich nur schwer herausfiltern, weshalb sie in der Praxis einfach durch Dithering- und Rauschformungstechniken maskiert werden .

Es ist unmöglich, die verlorenen Informationen in irgendeiner Weise wiederherzustellen, um die behauptete Erweiterung des Dynamikbereichs sicherzustellen. Die Tatsache, dass neue Abtastwerte des Schallstroms in einem erweiterten Bereich synthetisiert werden, bedeutet nur, dass keine neuen Quantisierungsgeräusche auftreten - und dies nur im Verarbeitungsstadium, da das Schallwiedergabegerät auch eine begrenzte Genauigkeit aufweist. Und außerdem haben absolut alle Resampler diese Eigenschaft.

Nicht deterministische Dekodierung


Anhand der Beschreibung können wir davon ausgehen, dass wir nach jeder Dekodierung ein etwas anderes Ergebnis erhalten. Ein realer Vergleich ergab jedoch, dass die Ergebnisse identisch sind. Dies bedeutet, dass diese Eigenschaft in der Tat keine Bedeutung hat - bei gleichem Erfolg kann man Nichtdeterminismus in der Reihenfolge sehen, in der die Zahlen 2 und 3 gesetzt werden, um die Zahl 5 zu erhalten.

Testdatentest


Der Artikel enthält ein Bild von Lena, aber es gibt keine einzige Wellenform. Wir füllen diese Lücke im Zusammenhang mit der Berücksichtigung der durch den Codec verursachten Verzerrungen.

Für die Messung werden synthetisierte Signale mit einer Dauer von 65536 Abtastwerten verwendet (zur Vereinfachung der nachfolgenden Fourier-Analyse). Die Messergebnisse werden sowohl im Zeitbereich (grün) als auch im Frequenzbereich (blau) in Form einer logarithmischen Amplituden-Frequenz-Kennlinie dargestellt.

Nur für den Fall
Ändern der Amplitude um 3 dB ungefähr gleich der Änderung in das 1,4fache.
die Amplitude Ändern zu einer 6 - dB - Änderung ist ungefähr gleich zu 2 mal.
Ändern der Amplitude um 12 dB in etwa gleich zu der Änderung in 4 mal.

Bei der Kodierung wurden folgende Parameter verwendet:

  • Maximale Probenlänge des Bereichs = 4 bis 32, für jede wurde eine separate Messung durchgeführt;
  • Länge der Codierung von Superframe = 8 (bei Verwendung des Standardwerts 10 wurde die Datei nicht vollständig verarbeitet und am rechten Rand abgeschnitten);
  • Relative Verschiebung zwischen Domänen = 1 (Standard).

MLS - Maximale Längenfolge


Dies ist ein Standardwerkzeug für diese Art der Messung. In Aussehen und Gehör sieht es wie weißes Rauschen aus, mit dem einzigen Unterschied, dass es für einen bestimmten Zeitraum begrenzt ist und einen diskreten Charakter hat. Für Audio-Messungen wird es normalerweise durch die inverse Fourier-Transformation gebildet, bei der alle Amplituden einer Konstanten und Phasen zu Pseudozufallswerten gleichgesetzt werden.

Nach der Messung nach Art des Frequenzgangs können Sie den Frequenzgang des Systems bei jeder einzelnen Frequenz anhand der Abweichung seiner Amplitude von 0 dB bewerten.

Da es recht problematisch ist, das Rauschen auf Verzerrungen im Zeitbereich zu analysieren, werden hier nur die Ergebnisse von Messungen im Frequenzbereich vorgestellt.

Quellensignal:





Messergebnisse:

Probenlänge = 4:



Probenlänge = 8:



Probenlänge = 16:



sample length = 32:



Hier können Sie deutlich die Abnahme und das starke Rauschen bei hohen Frequenzen erkennen, die mit zunehmendem Parameter sample length zunehmen (der wahrscheinlich die Anzahl der gemittelten Punkte bestimmt).

Logarithmischer Wobbelton


Es ist eine Sinuskurve mit ständig steigender oder fallender Frequenz.

Hier wird die Frequenz abnimmt, wird die Amplitude für die Steigung der Frequenz - Antwort zu kompensieren reduziert (in dem linearen Durchlauf Ton ist nicht erforderlich) und eine Glättungs auferlegte Fenster .
Es wird häufig verwendet, um nichtlineare Verzerrungen (Distortion) zusätzlich zum Frequenzgang zu bewerten. Hier werden keine Koeffizienten berücksichtigt, sondern lediglich das Ergebnis visuell ausgewertet.

Quellensignal:





Messergebnisse:

Probenlänge = 4:





Probenlänge = 8:





Probenlänge = 16:





Probenlänge = 32:





Die Wellenform zeigt deutlich, dass ein Teil der Hochfrequenzinformationen verloren geht und je größer das Kompressionsverhältnis ist, desto stärker ist es.

Gleichzeitig zeigt der Frequenzgang, dass er nicht nur verloren geht, sondern durch Oberschwingungen (die bei der Dezimierung durch Mittelwertbildung zwangsläufig auftreten) und Rauschen ersetzt wird.

Auf dem Oszillogramm sehen Sie auch eine Verzerrung der entgegengesetzten Art - das Erscheinen von Klang, wo es nicht war. Es ist schwer zu sagen, ob dies ein Fehler oder eine Eigenschaft des Algorithmus ist.

Eine Sequenz von 8 Tönen


Es enthält Noten „la“ von der Controctave (55 Hz) bis „la“ der fünften Oktave (7040 Hz).

Quellensignal:





Messergebnisse:

Probenlänge = 4:





Probenlänge = 8:





Probenlänge = 16:





Probenlänge = 32:





Hier kann bereits eindeutig das Vorliegen ausgeprägter harmonischer Verzerrungen festgestellt werden. Da es sich bei einer Sinuskurve um einen reinen Ton handelt, treten bei jeder Verzerrung Harmonische auf - sie sind deutlich sichtbar (z. B. bei einer Frequenz von 5 kHz im ersten Diagramm).

Betrachten Sie eine Sinuswelle mit einer Frequenz von 440 Hz aus der letzten Messung etwas näher:



Hier sehen Sie, dass sie aus Teilen anderer Sinuskurven zusammengesetzt ist. Auch Lücken an den Kanten von Blöcken sind deutlich sichtbar.

Beschleunigungs- und Dynamikbereichstest


Der Decoder kann die Abtastrate um das Zwei- oder Vierfache und die Quantisierungstiefe auf 24 Bit erhöhen. Wir werden diese Möglichkeit am vorherigen Signal testen (mit dem Parameter sample length = 4):





Die Form des Signals zeigt, dass es eine noch stärkere Verzerrung erfahren hat. Der Frequenzgang zeigt, dass der erweiterte Frequenzbereich mit Rauschen gefüllt ist. Nichts Ähnliches wie die Erweiterung des Dynamikbereichs wird auch nicht beobachtet (zum Beispiel in Form von Rauschunterdrückung).

Fazit


Aus den obigen Diagrammen folgt natürlich keineswegs, dass dieser Codec in der Praxis nicht verwendet werden kann. Es ist möglich, dass für jemanden die Wörter "Fractal Compression" und "Theory of Chaos" viel mehr Gewicht haben als jede Grafik. Ebenso ist es möglich, dass jemand seine Verzerrungen als besonders und angenehm für das Ohr empfindet, was den Klang nur verbessert.

Aber persönlich scheint die Idee der fraktalen Komprimierung als solche von Anfang an weit hergeholt zu sein und scheint eine Art „heiliger Gral“ zu sein. In der Tat ist seit der Veröffentlichung von Fractal Geometry of Nature nichts besonders Neues aufgetaucht - dieselben fraktalen Blätter und Bäume, Sätze von Maldebrot und Julia, Koch, Hilbert, Peano-Kurven und Sierpinski-Dreiecke (und auch der ursprüngliche Artikel) nichtAusnahme in dieser Hinsicht). Darüber hinaus haben sie alle einen ausschließlich geometrischen Charakter - noch hat niemand die Existenz von „Audio-Fraktalen“ angekündigt, die mit den Eigenschaften selbstähnlicher Mengen mit fraktionierten metrischen Dimensionen ausgestattet sind.

Jetzt auch beliebt: