Neue Wissenschaft, um die Ecke zu schauen

Ursprünglicher Autor: Natalie Wolchover
  • Übersetzung

Forscher des Computer-Sehens haben eine verborgene Welt visueller Signale entdeckt, in der es unmerkliche Bewegungen gibt, die das Gesagte wiedergeben, und verschwommene Bilder dessen, was sich um die Ecke befindet




Der Computer Vision Spezialist Antonio Torralba , der sich 2012 an der spanischen Küste ausruhte , bemerkte zufällige Schatten an der Wand seines Hotelzimmers, die scheinbar von nichts geworfen waren. Am Ende erkannte Torralba, dass die verfärbten Stellen an der Wand keine Schatten waren, sondern stumpfe, umgekehrte Bilder der Terrasse draußen. Das Fenster wirkte wie eine Lochblende - die einfachste Art von Kamera, bei der Lichtstrahlen durch ein kleines Loch treten und auf der anderen Seite ein invertiertes Bild erzeugen. An der sonnenbeschienenen Wand war dieses Bild kaum zu erkennen. Aber Torralba erkannte, dass unsere Welt mit visuellen Informationen gefüllt ist, die unsere Augen nicht wahrnehmen.

"Diese Bilder sind uns verborgen", sagte er, "aber sie umgeben uns ständig."

Die gesammelten Erfahrungen ermöglichten es ihm und seinem Kollegen Bill Freeman , der ebenfalls Professor am Massachusetts Institute of Technology ist, zu erkennen, dass die Welt mit "Zufallskameras", wie sie genannt werden, gefüllt ist: Fenstern, Ecken, Zimmerpflanzen und anderen gewöhnlichen Objekten, die verborgene Bilder ihrer Umgebung erzeugen. Diese Bilder sind 1000-mal weniger lebendig als alles andere und normalerweise mit bloßem Auge nicht sichtbar. "Wir haben Wege gefunden, diese Bilder zu isolieren und sichtbar zu machen", erklärte Freeman.

Sie lernten, wie viele visuelle Informationen direkt vor allen Menschen verborgen sind. In der ersten Arbeit haben sie gezeigt, dass beim Aufnehmen mit einem gewöhnlichen iPhone das Licht an der Wand des Raums sich ändert und Sie anhand des empfangenen Videos die Szene außerhalb des Fensters nachbilden können. Im vergangenen Herbst sie und ihre Kollegenberichtet, dass es möglich ist, eine Person zu erkennen, die sich um die Ecke bewegt, indem die Erde in der Nähe der Ecke auf der Kamera gefilmt wird. In diesem Sommer haben sie gezeigt, dass sie eine heimische Pflanze auf Video aufnehmen und dann ein dreidimensionales Bild des gesamten Raums auf der Grundlage der Schatten erstellen können, die von den Blättern der Pflanze geworfen werden. Oder sie können Blätter in ein „ visuelles Mikrofon “ verwandeln , ihre Vibrationen erhöhen und Sprache erkennen.


1) Die Terrasse vor dem Hotelzimmer, wo Antonio Torralba bemerkte, dass das Fenster wie ein Loch funktioniert. 2) Verschwommenes Bild der Terrasse an der Wand; 3) Sie können das Fenster schärfen, indem Sie den größten Teil des Fensters mit Pappe bedecken, um das Loch zu verkleinern. 4) Wenn Sie es umdrehen, können Sie die Szene von außen sehen.

"Unsere Maria hatte einen Widder", sagt der Mann auf der Audioaufnahme, der aus den Bewegungen einer leeren Tüte Chips, die Wissenschaftler 2014 durch ein schalldichtes Fenster schossen, nachgebildet wurde (dies sind die ersten Worte, die Thomas Edison 1877 auf einem Phonographen aufzeichnete).

Die Forschung über das Umsehen von Ecken und die Annahme von Objekten, die nicht direkt sichtbar sind, oder das Erstellen von Bildern, die nicht direkt sichtbar sind, begann 2012 mit der Arbeit von Torralba und Freeman an einer Zufallskamera und einer weiteren wichtigen Arbeit , die von einer separaten Gruppe von Wissenschaftlern durchgeführt wurde vom MIT unter der Leitung von Ramesh Raskar. Insbesondere im Jahr 2016 startete das Department of Defense Advanced Research Projects (DARPA) dank seiner Ergebnisse das 27 Millionen US-Dollar teure REVEAL-Programm (Revolutionäre Verbesserung der Sichtbarkeit durch Ausnutzung aktiver Lichtfelder - eine revolutionäre Verbesserung der Sichtbarkeit durch aktive Lichtfelder). Das Programm finanziert Laboratorien im ganzen Land. Seitdem macht das Fließen neuer Ideen und mathematischer Tricks die Darstellung von Nicht-Sichtlinien immer leistungsfähiger und praktischer.



Neben dem offensichtlichen Einsatz für Militär- und Aufklärungszwecke untersuchen die Forscher die Anwendung von Technologie in Robomobilen, Robotervision, medizinischer Fotografie, Astronomie, Weltraumforschung und Rettungseinsätzen.

Torralba sagte, dass er und Freeman zu Beginn der Arbeit keine Ideen zur praktischen Anwendung der Technologie hatten. Sie verstanden einfach die Grundlagen der Bilderzeugung und was eine Kamera ist, woraus sich eine umfassendere Untersuchung des Verhaltens des Lichts und seiner Interaktion mit Objekten und Oberflächen auf natürliche Weise entwickelte. Sie begannen Dinge zu sehen, nach denen niemand suchen konnte. Laut Torralb zeigen psychologische Untersuchungen, dass „die Menschen schrecklich schlecht darin sind, Schatten zu interpretieren. Vielleicht ist einer der Gründe dafür, dass viele der Dinge, die wir sehen, keine Schatten sind. Und am Ende warfen meine Augen Versuche aus, sie zu verstehen. "

Zufällige Kameras


Die Lichtstrahlen, die das Bild der Welt über unser Gesichtsfeld hinaus tragen, fallen ständig auf die Wände und andere Oberflächen, woraufhin sie reflektiert werden und in unsere Augen fallen. Aber warum sind diese visuellen Rückstände so schwach? Es ist nur so, dass zu viele Strahlen in zu viele Richtungen gehen und die Bilder unscharf werden.

Um ein Bild zu erzeugen, ist es notwendig, die auf die Oberfläche einfallenden Strahlen stark zu begrenzen und nur einen bestimmten Satz von ihnen zu sehen. Das macht die Lochkamera. Die ursprüngliche Idee von Torralba und Freeman im Jahr 2012 war, dass es in unserer Umgebung viele Objekte und verschiedene Eigenschaften gibt, die die Lichtstrahlen auf natürliche Weise einschränken und schwache Bilder erzeugen, die ein Computer erkennen kann.

Je kleiner die Lochblende ist, desto schärfer ist das Bild, da jeder Punkt des untersuchten Objekts nur einen Lichtstrahl im rechten Winkel aussendet, der das Loch passieren kann. Das Fenster im Torralba-Hotel war zu groß, um scharf zu sein, und er und Freeman erkannten, dass allgemein nützliche zufällige Lochkameras selten waren. Sie stellten jedoch fest, dass Anti-Pinholes („Pin-Point“ -Kameras), die aus jedem kleinen Objekt bestehen, das Licht blockiert, Bilder in Hülle und Fülle bilden.


Bill Freeman


Antonio Torralba

Stellen Sie sich vor, Sie entfernen die Innenwand eines Raums durch einen Spalt in den Jalousien. Sie werden nicht viel sehen. Plötzlich erscheint eine Hand in Ihrem Blickfeld. Ein Vergleich der Lichtintensität an der Wand in Anwesenheit und Abwesenheit einer Hand liefert nützliche Informationen über die Szene. Ein Satz von Lichtstrahlen, die im ersten Bild auf eine Wand fallen, wird im nächsten Bild vorübergehend von der Hand blockiert. Subtrahieren Sie die Daten des zweiten Frames von den Daten des ersten, wie Freeman sagt: "Sie können berechnen, was Ihre Hand blockiert" - eine Reihe von Lichtstrahlen, die das Bild eines Teils des Raums darstellen. "Wenn Sie untersuchen, was das Licht blockiert und was das Licht durchlässt", sagte er, "können Sie den Bereich der Stellen erweitern, an denen Sie Lochkameras finden können."

Zusammen mit der Untersuchung von Zufallskameras, die kleine Intensitätsänderungen wahrnehmen, entwickelten Freeman und Kollegen Algorithmen, mit denen kleine Farbänderungen - wie z. B. eine Änderung der Gesichtsfarbe bei Blutrauschen oder -abbrüchen sowie winzige Bewegungen - ermittelt und verstärkt werden können Sie könnten ein Gespräch aufzeichnen, indem Sie eine Tüte Chips nehmen. Jetzt können sie leicht die Bewegung von einem Hundertstel eines Pixels bemerken, die unter normalen Bedingungen einfach in Rauschen ertrinken würde. Ihre Methode konvertiert Bilder mathematisch in eine Sinuswellen-Konfiguration. In dem resultierenden Raum dominiert das Rauschen das Signal nicht, da die Sinuskurven die Durchschnittswerte darstellen, die über viele Pixel aufgenommen wurden, so dass das Rauschen über diese verteilt ist. Dank dessen können Forscher die Verschiebungen von Sinuskurven von einem Frame des Videos zum anderen bestimmen und diese Verschiebungen verstärken.

Jetzt haben sie begonnen, all diese Tricks zu kombinieren, um verborgene visuelle Informationen zu extrahieren. Eine Studie, die im Oktober letzten Jahres von Katie Bowman (damals eine Studentin unter der Leitung von Freeman und heute eine Wissenschaftlerin am Harvard-Smithsonian Astrophysical Center) beschrieben wurde, zeigte, dass Gebäudeecken wie Kameras funktionieren und ein grobes Bild dessen hinterlassen, was sich um die Ecke befindet.


Wenn Sie das Halbschattenbild in der Nähe des Winkels (1) auf dem Boden ablegen, erhalten Sie Informationen zu Objekten, die sich um die Ecke befinden (2). Wenn sich unsichtbare Objekte zu bewegen beginnen, bewegen sich Licht und Schatten in unterschiedlichen Winkeln zur Wand. Kleine Änderungen in Intensität und Farbe sind mit bloßem Auge in der Regel nicht erkennbar (3), können aber mit Algorithmen verbessert werden. Primitive Videos, bei denen das Licht in verschiedenen Winkeln zum Halbschatten fällt, zeigen die Anwesenheit einer sich bewegenden Person (4) und zweier Personen (5) um die Ecke.

Facetten und Ecken verhindern wie Nadellöcher bei Punktkameras den Durchgang von Sonnenlicht. Mit gewöhnlichen Kameras und demselben iPhone schossen Bowman und seine Kollegen bei Tageslicht Halbschatten an der Ecke des Gebäudes - einem Bereich mit Schatten, der von einer Teilmenge der Lichtstrahlen beleuchtet wird, die aus einem verborgenen Bereich um die Ecke kommen. Wenn zum Beispiel ein Mann in einem roten Hemd dort vorbeikommt, sendet dieses Hemd eine kleine Menge roten Lichts in das Halbschattenbild, und dieses Licht bewegt sich auf dem Halbschattenbild, während die Person geht, für das normale Auge unsichtbar, aber nach der Nachbearbeitung erkannt.

In einem im Juni veröffentlichten revolutionären Artikel haben Freeman und seine Kollegen das „Lichtfeld“ des Raums - ein Bild der Intensität und Richtung der Lichtstrahlen in einem Raum - aus den Schatten einer Laubpflanze an der Wand nachgebildet. Die Blätter fungierten als Punktkameras, von denen jede ihre eigenen Lichtstrahlen abschirmte. Ein Vergleich des Schattens jedes Blattes mit dem Rest der Schatten erzeugte diesen fehlenden Satz von Strahlen und ermöglichte es, ein Bild eines Teils der verborgenen Szene zu erhalten. Bei gegebener Parallaxe konnten die Forscher dann alle diese Bilder zusammenführen.

Ein solcher Ansatz liefert viel schärfere Bilder als die frühere Arbeit mit Zufallskameras, da das im Voraus erworbene Wissen über die Welt in den Algorithmus eingebaut ist. Die Forscher kannten die Form der Pflanze, waren der Ansicht, dass natürliche Bilder glatt sein sollten, und konnten unter Berücksichtigung mehrerer anderer Annahmen bestimmte Schlussfolgerungen hinsichtlich rauschhaltiger Signale ziehen, die dazu beitrugen, das endgültige Bild schärfer zu machen. Die Technologie, mit einem Lichtfeld zu arbeiten, "erfordert Wissen über die umgebende Welt, um eine Rekonstruktion zu erreichen, aber sie liefert auch viele Informationen", sagte Torralba.

Streulicht


In der Zwischenzeit enthüllen Freeman, Torralba und ihr Schützling Bilder, die an anderer Stelle auf dem MIT-Campus versteckt waren. Ramesh Raskar, ein Computer-Vision-Spezialist, der bei TED sprach, beabsichtigt, "die Welt zu verändern" und wählt einen Ansatz namens "Active Imaging". Es werden spezielle, teure Laserkamerasysteme verwendet, um hochauflösende Bilder zu erstellen, die zeigen, was um die Ecke ist.


Ramesh Raskar

Im Jahr 2012 entwickelten Raskar und sein Team im Rahmen der Realisierung einer Idee, die ihn vor fünf Jahren besuchte, erstmals eine Technologie, bei der Laserpulse in eine Wand abgegeben werden müssen. Ein kleiner Teil des gestreuten Lichts kann das Hindernis umgehen. Kurz nach jedem Impuls verwenden sie eine „Blitzkamera“, die einzelne Photonen mit einer Rate von Milliarden von Bildern pro Sekunde aufzeichnet, um Photonen zu erkennen, die von der Wand abprallen. Durch die Messung der Zeit, die die Photonen bei ihrer Rückkehr verbringen, können die Forscher herausfinden, wie weit sie weggeflogen sind, und im Detail die dreidimensionale Geometrie der Objekte nachbilden, die sich hinter dem Hindernis verstecken, auf dem die Photonen gestreut haben. Eine der Schwierigkeiten besteht darin, dass zur Erzeugung eines dreidimensionalen Bildes ein Raster-Scan der Wand mit einem Laser durchgeführt werden muss. Nehmen wir an, eine Person versteckt sich um die Ecke. "Dann das Licht, Reflexionen von einem bestimmten Punkt auf dem Kopf, von einem bestimmten Punkt auf der Schulter und von einem bestimmten Punkt auf dem Knie können gleichzeitig in die Kamera gelangen “, sagte Raskar. Wenn Sie den Laser jedoch ein wenig an einen anderen Ort richten, trifft das Licht dieser drei Punkte nicht gleichzeitig auf die Kamera. “ Es ist notwendig, alle Signale zu kombinieren und das "inverse Problem" zu lösen, um die verborgene dreidimensionale Geometrie wiederherzustellen.

Raskars ursprünglicher Algorithmus zur Lösung des inversen Problems erforderte zu viel Rechenaufwand, und das Gerät selbst kostete eine halbe Million Dollar. Es wurden jedoch ernsthafte Anstrengungen unternommen, um die Mathematik zu vereinfachen und die Kosten zu senken. Im März veröffentlichte die Zeitschrift Nature eine Arbeit , die einen neuen Standard für die effiziente und wirtschaftliche Konstruktion dreidimensionaler Bilder eines Objekts setzte - die Figur eines Kaninchens um die Ecke wurde in der Arbeit nachgebildet. Die Autoren Matthew O'Toole , David Lindell und Gordon Wetstein von der Stanford University haben einen neuen leistungsstarken Algorithmus zur Lösung des inversen Problems entwickelt und relativ kostengünstige SPAD-Kameras verwendet- Halbleiterbauelemente, deren Bildrate unter der von Blitzkameras liegt. Raskar, der zuvor als Kurator für zwei Autoren des Werkes tätig war, nannte es "sehr genial" und "eines meiner Lieblingswerke".





Frühere Algorithmen gingen im Detail unter: Die Forscher versuchten normalerweise, zurückkehrende Photonen zu erkennen, die nicht von dem Punkt an der Wand reflektiert wurden, an dem der Laser leuchtete, damit die Kamera das gestreute Laserlicht nicht sammeln konnte. Indem die Forscher den Laser und die Kamera auf fast denselben Punkt richteten, konnten sie ausgehende und eingehende Photonen von einem " Lichtkegel" abbilden.". Das Licht streut von der Oberfläche und bildet eine sich ausbreitende Sphäre von Photonen, die einen Kegel bildet, der sich in der Raumzeit ausbreitet. O'Toole (der seitdem von Stanford an die Carnegie Mellon University wechselte) übersetzte die Physik von Lichtkegeln - entwickelt von Lehrer Albert Einstein Hermann Minkowski am Anfang des XX Jahrhunderts - in prägnantem Ausdruck , den Flug des Photons mit dem Ort der Streuung bezüglich Flächen rief er seine Übersetzung der „Transformation des Lichtkegels.“.

Robomobili bereits mit LIDAR - Systemen usw. . Ich bin ein Live - Bild erstellen, und Sie können , dass eines Tages acquire die SPAD, sich vorstellen , Ecken zu sehen , um „in naher Zukunft diese Sensoren in einem tragbaren Format verfügbar sein wird“ , - sagt Andreas Velten, der erste Autor der ersten Arbeit von Raskar aus dem Jahr 2012, leitet nun die Gruppe, die sich an der University of Wisconsin mit der Konstruktion aktiver Bilder befasst. Die Herausforderung bestehe nun darin, „komplexere Szenen“ und realistische Szenarien zu handhaben, und „nicht nur eine Szene mit einem weißen Objekt und einem schwarzen Hintergrund sorgfältig zu erstellen. Wir brauchen Technologie, um das Gerät zu steuern und den Knopf zu drücken. “

Wo sind die dinge


Forscher der Freeman-Gruppe begannen, passive und aktive Ansätze zu kombinieren. Die unter der Anleitung des Forschers Christos Trumpulidis durchgeführte Arbeit zeigt, dass bei der aktiven Konstruktion von Bildern mit einem Laser eine punktförmige Kamera bekannter Form verwendet werden kann, die um einen Winkel herum angeordnet ist, um eine verborgene Szene nachzubilden, ohne Informationen über die Flugzeit der Photonen zu verwenden. "Und das sollte mit Hilfe einer herkömmlichen CCD-Matrix für uns funktionieren ", sagte Trampulidis.

Unsichtbare Aufnahmen werden eines Tages Rettungsteams und autonomen Robotern helfen. Welten arbeitet mit dem Jet Propulsion Laboratory der NASA an einem Projekt zur Erstellung von Distanzbildern von Objekten in den Höhlen des Mondes. Aber Raskar und das Unternehmen verwenden ihren Ansatz, um die ersten Seiten eines geschlossenen Buches zu lesen und im Nebel zu sehen.

Neben Audiorekonstruktionen kann der Freeman-Bewegungsverstärkungsalgorithmus bei der Erstellung medizinischer Geräte und Sicherheitssysteme sowie kleiner astronomischer Bewegungsmelder helfen. Dieser Algorithmus ist "eine sehr gute Idee", sagte David Hogg, Astronom und Datenwissenschaftler an der New York University und am Flatiron Institute. "Ich dachte - wir müssen es einfach in der Astronomie verwenden."

In Bezug auf Datenschutzprobleme, die durch jüngste Entdeckungen aufgeworfen wurden, greift Freeman auf seine Erfahrungen zurück. "Ich habe in meiner Karriere sehr, sehr viel über dieses Problem nachgedacht", sagt er. Freeman, ein Mann mit Brille, ein Kamera-Enthusiast, der sein ganzes Leben lang mit Fotografie zu tun hatte, sagte, er wolle zu Beginn seiner Karriere an nichts arbeiten, was militärisches oder Spionagepotenzial hätte. Aber im Laufe der Zeit begann er zu denken, dass „Technologie ein Werkzeug ist, das auf verschiedene Arten eingesetzt werden kann. Wenn Sie versuchen, alles zu vermeiden, was zumindest militärisch genutzt werden könnte, fällt Ihnen nichts Sinnvolles ein. " Er sagt, dass es auch beim Militär „sehr viele Möglichkeiten gibt, Dinge zu nutzen. Sie können jemandem helfen, zu überleben. Und im Prinzip ist es nützlich zu wissen, wo Dinge sind. “

Am meisten freute er sich jedoch nicht über technologische Fähigkeiten, sondern lediglich über die Entdeckung eines Phänomens, das in der Öffentlichkeit verborgen war. "Mir scheint, die Welt ist voll von allem, was noch zu entdecken ist", sagte er.

Jetzt auch beliebt: