Wie man binauralen Sound auf einer Monokanal-Audiospur erzeugt - Video wird hilfreich sein

    Spezialisten der University of Texas in Austin (UT Austin) haben ein neuronales Netzwerk entwickelt, das Mono-Kanal-Audioaufzeichnungen auf Video verarbeitet und den Surround-Sound neu erzeugt.

    Wir sagen, wie es funktioniert.


    Foto Marneejill / CC BY-SA

    Neue Methode zum Erstellen von 3D-Sound


    Surround-Sound ist häufig in Spielen oder Filmen zu finden, aber bei bedingten Videos im Netzwerk ist 3D-Sound selten. Für die Aufnahme sind teure Geräte erforderlich, auf die Videoentwickler nicht immer zugreifen können. Häufig werden Smartphones ausschließlich zum Filmen verwendet.

    Die auf diese Weise aufgenommene Audiospur begrenzt unsere Wahrnehmung des Videos: Sie kann nicht vermitteln, wie sich Schallquellen im Raum befinden und wie sie sich bewegen. Aus diesem Grund ist der Ton des Videos "flach" zu fühlen.

    Die Lösung dieses Problems wurde an der UT Austin - einer Universitätsprofessorin Kristen Grauman und einem Studenten Ruohan Gao - aufgenommen. Sie entwickelten ein System, das auf maschinellen Lernalgorithmen basiert, wodurch es möglich wird, eine Monokanal-Audioaufzeichnung in eine "volumetrische" Videoaufzeichnung umzuwandeln. Die Technologie heißt "2.5D Visual Sound".

    Dies ist kein vollwertiger Raumklang, sondern „simuliert“. Nach Meinung der Entwickler ist der Unterschied für einen gewöhnlichen Hörer jedoch kaum wahrnehmbar.

    Wie funktioniert Technik?


    Das bei UT Austin entwickelte System verwendet zwei neuronale Netzwerke.

    Das erste neuronale Netzwerk basiert auf der ResNet- Architektur , die 2015 von Forschern von Microsoft vorgestellt wurde. Es erkennt Objekte im Video und sammelt Informationen über ihre Bewegung im Bild. Am Ausgang erzeugt das Netzwerk eine Matrix, die als Feature-Map bezeichnet wird, mit den Koordinaten der Objekte in jedem Frame des Videos.

    Diese Informationen werden an das zweite neuronale Netzwerk - Mono2Binaural - übermittelt. Es wurde an der University of Texas entwickelt. Das Netzwerk verwendet auch Spektrogramme von Audioaufnahmen, die unter Verwendung der Fenster-Fourier-Transformation unter Verwendung der Hann-Funktion erhalten wurden .

    Mono2Binaural besteht aus zehnFaltungsschichten . Nach jeder dieser Schichten gibt es einen Batch-Normalisierungsblock (Batch-Normalization) im Netzwerk, der die Vorhersagegenauigkeit des Algorithmus erhöht , und eine lineare Gleichrichtungseinheit mit der ReLU- Aktivierungsfunktion .

    Die Faltungsschichten eines neuronalen Netzwerks analysieren die Frequenzänderungen im Spektrogramm und bilden eine Matrix mit Informationen darüber, welcher Teil des Spektrogramms zum linken Audiokanal und welcher Teil zum rechten gehören sollte. Dann wird unter Verwendung der inversen Fenster-Fourier-Transformation eine neue Audioaufnahme erzeugt.

    In diesem Fall kann Mono2Binaural den räumlichen Klang für jedes der Objekte im Video separat wiedergeben. Ein neuronales Netzwerk kann beispielsweise zwei Instrumente in einem Videoclip - eine Trommel und eine Pipe - erkennen und für jedes eine eigene Audiospur erstellen.

    Meinungen zu "2.5D Visual Sound"


    Den Entwicklern zufolge ist es ihnen gelungen, eine Technologie zu schaffen, die ein "realistisches Raumgefühl" erzeugt. Mono2Binaural zeigte während des Testens ein gutes Ergebnis und daher sind die Autoren zuversichtlich, dass ihr Projekt ein großes Potenzial hat.

    Um die Wirksamkeit seiner Technologie zu beweisen, führten Experten eine Reihe von Experimenten durch. Sie luden eine Gruppe von Personen ein, die den Sound von zwei Tracks verglichen: einer wurde mit Mono2Binaural erstellt, der zweite mit der Ambisonics-Methode.

    Letzteres wurde an der University of California in San Diego entwickelt. Diese Methode erzeugt auch Surround-Audio aus Mono-Sound, funktioniert jedoch im Gegensatz zur neuen Technologie nur mit 360-Grad-Video.

    Die meisten Zuhörer wählten Mono2Binaural-Audio als dem tatsächlichen Klang am nächsten. Tests haben auch gezeigt, dass Benutzer in 60% der Fälle die Schallquelle unverständlich nach Gehör lokalisiert haben.

    Der Algorithmus hat noch einige Nachteile. Beispielsweise unterscheidet ein neuronales Netzwerk die Klänge einer großen Anzahl von Objekten schlecht. Außerdem kann sie die Position der Tonquelle, die sich nicht im Video befindet, nicht bestimmen. Entwickler planen jedoch, diese Probleme zu lösen.

    Analoge der Technologie


    Im Bereich der Tonerkennung durch Video gibt es mehrere ähnliche Projekte. Wir haben früher über einen von ihnen geschrieben. Dies ist ein „ visuelles Mikrofon “ von MIT-Spezialisten. Ihr Algorithmus erkennt auf stummem Video mikroskopische Schwingungen von Objekten unter dem Einfluss akustischer Wellen und stellt anhand dieser Daten den im Raum wahrgenommenen Klang wieder her. Den Wissenschaftlern gelang es, die Melodie des Liedes Mary Had a Little Lamb aus einer Packung Chips, einer selbst gemachten Pflanze und sogar einem Ziegelstein zu „zählen“ .


    Foto von Quinn Dombrowski / CC BY-SA

    In anderen Projekten werden Technologien entwickelt, um Ton in 360-Grad-Videos aufzunehmen. Eine davon sind die Ambisonics, die wir bereits erwähnt haben. Das Prinzip des Algorithmus ähnelt dem von Mono2Binaural: Es analysiertBewegen von Objekten im Rahmen und korreliert sie mit Klangänderungen. Für die Ambisonics-Technologie gelten jedoch einige Einschränkungen: Das neuronale Netzwerk arbeitet nur mit 360-Grad-Video und erzeugt keinen Ton, wenn die Aufnahme ein Echo aufweist.

    Ein weiteres Projekt in diesem Bereich ist Sol VR360 von G-Audio. Im Gegensatz zu anderen Entwicklungen wurde die Technologie bereits in einem Custom Service für Sound Processing Sol implementiert . Es erzeugt räumliche Audiosignale für 360-Grad-Videos von Konzerten oder Sportarten. Mangel an Service - erzeugte Videos werden nur in Sol-Anwendungen abgespielt.

    Schlussfolgerungen


    Die Entwickler von Systemen zur Erzeugung räumlicher Klänge sehen das Hauptanwendungsgebiet der Technologie in VR- und AR-basierten Anwendungen für ein maximales Eintauchen der Menschen in die Atmosphäre eines Spiels oder Films. Wenn es gelingt, eine Reihe von Schwierigkeiten zu überwinden, mit denen sie konfrontiert sind, kann die Technologie auch eingesetzt werden, um Sehbehinderte zu unterstützen. Mit Hilfe solcher Systeme werden sie in der Lage sein, die Vorgänge im Frame von Videoclips genauer zu verstehen.



    Mehr über Audio - Technologien - in unserem Telegramm-Kanal: die InSight ersten Klänge der Mars Wind aufgezeichnet acht Audio-Technologien , die in TECnology Hall of Fame fallen im Jahr 2019. Die Fenster mit aktivem Lärm der Klänge der Metropole übertönt Cancelling







    Jetzt auch beliebt: