Maschinelles Lernen: Scramble mit einem Raumelefanten

Ursprünglicher Autor: Kevin Hartnett
  • Übersetzung

Eins ist Null zugunsten des menschlichen Gehirns. In einer neuen Studie stellten Informatiker fest, dass künstliche Intelligenzsysteme den Test zur visuellen Erkennung von Objekten, mit denen jedes Kind problemlos umgehen kann, nicht bestehen.

„Diese qualitative und wichtige Studie erinnert uns daran, dass„ Deep Learning “selbst nicht die Tiefe aufweisen kann, die ihm zugeschrieben wird“, sagt Gary Marcus, ein Neurowissenschaftler an der New York University, der mit dieser Arbeit nicht in Verbindung gebracht wird.

Die Ergebnisse der Studie beziehen sich auf das Feld des Computer-Sehens, wenn Systeme der künstlichen Intelligenz versuchen, Objekte zu erkennen und zu kategorisieren. Zum Beispiel können sie aufgefordert werden, alle Fußgänger in der Straßenszene zu finden oder einfach einen Vogel von einem Fahrrad zu unterscheiden - eine Aufgabe, die bereits für ihre Komplexität berühmt geworden ist.

Es steht viel auf dem Spiel: Computer beginnen allmählich, wichtige Aufgaben für Menschen zu erledigen, beispielsweise die automatische Videoüberwachung und das autonome Fahren. Und für eine erfolgreiche Arbeit ist es notwendig, dass die Fähigkeit der KI zur visuellen Verarbeitung dem Menschen nicht unterlegen ist.

Die Aufgabe ist nicht einfach. Die neue Studie konzentriert sich auf die Verfeinerung des menschlichen Sehens und die Schwierigkeiten bei der Schaffung nachahmender Systeme. Wissenschaftler testeten die Genauigkeit eines Computer-Vision-Systems am Beispiel eines Wohnzimmers. AI machte es gut und identifizierte den Stuhl, die Person und die Bücher im Regal korrekt. Aber als Wissenschaftler der Szene ein ungewöhnliches Objekt hinzufügten - das Bild eines Elefanten - ließ schon die Tatsache, dass es aussah, das System alle vorherigen Ergebnisse vergessen. Plötzlich begann sie, den Stuhl als Sofa, den Elefanten als Stuhl zu bezeichnen und alle anderen Gegenstände zu ignorieren.

"Es gab eine Reihe von Kuriositäten, die die Zerbrechlichkeit moderner Objekterkennungssysteme zeigten", sagt Amir Rosenfeld, Wissenschaftler an der York University in Toronto und Mitautor einer Studie, die er und seine Kollegen John Totsotsos erstellten, ebenfalls aus York, und Richard Land von der University of Toronto.

Die Forscher versuchen immer noch, die Gründe zu klären, warum das Computer-Vision-System so leicht verwirrt ist, und sie haben bereits eine gute Vermutung. Der Punkt menschlicher Fähigkeiten, den die KI nicht hat, ist die Fähigkeit zu erkennen, dass die Szene unverständlich ist, und wir müssen sie noch einmal genauer betrachten.

Elefant im Raum


Wenn wir die Welt betrachten, nehmen wir eine erstaunliche Menge an visuellen Informationen wahr. Das menschliche Gehirn verarbeitet es unterwegs. „Wir öffnen die Augen und alles passiert von alleine“, sagt Tsotsos.

Künstliche Intelligenz hingegen erzeugt einen visuellen Eindruck, als würde man eine Beschreibung in Blindenschrift lesen. Er tastet mit seinen algorithmischen Fingerspitzen die Pixel ab und bildet aus ihnen nach und nach immer komplexere Darstellungen. Eine Vielzahl von KI-Systemen, die ähnliche Prozesse ausführen, sind neuronale Netze. Sie durchlaufen eine Reihe von „Ebenen“. Im Verlauf jeder Ebene werden einzelne Bilddetails wie Farbe und Helligkeit einzelner Pixel verarbeitet und auf der Grundlage dieser Analyse eine zunehmend abstrakte Beschreibung des Objekts erstellt.

„Die Verarbeitungsergebnisse der vorherigen Schicht werden wie auf einem Förderband auf die nächste übertragen“, erklärt Totsotsos.


Veröffentlicht von Lucy Reading-Ikkanda / Quanta Magazine

Neuronale Netze sind Experten für spezielle Routineaufgaben bei der visuellen Verarbeitung. Sie sind besser als Menschen mit hochspezialisierten Aufgaben wie der Bestimmung der Hunderasse und anderen Sortierungen von Objekten in Kategorien. Diese erfolgreichen Beispiele haben die Hoffnung geweckt, dass Computer-Vision-Systeme bald so intelligent werden, dass sie in überfüllten Straßen der Stadt Auto fahren können.

Experten wurden aufgefordert, ihre Schwachstellen zu untersuchen. In den letzten Jahren haben Forscher eine Reihe von Versuchen unternommen, feindliche Angriffe zu simulieren - sie haben Szenarien entwickelt, die neuronale Netze zu Fehlern zwingen. In einem der Experimente täuschten Informatiker das Netzwerk und zwangen es, die Schildkröte als Waffe zu nehmen. Ein andere Geschichte erfolgreichen Täuschung war , dass die Nähe von gewöhnlichen Objekten wie eine Banane Forscher platziert das Bild Toaster, in psychedelischen Farben gemalt.

In der neuen Arbeit haben Wissenschaftler den gleichen Ansatz gewählt. Drei Forscher zeigten ein neuronales Netzwerkbild eines Wohnzimmers. Es fängt einen Mann ein, der ein Videospiel spielt, auf der Kante eines alten Stuhls sitzt und sich nach vorne beugt. Als ich diese Szene "verdaute", erkannte ich schnell mehrere Objekte: eine Person, ein Sofa, einen Fernseher, einen Stuhl und ein paar Bücher.

Dann fügten die Forscher ein für ähnliche Szenen ungewöhnliches Objekt hinzu: das Bild eines Elefanten in einem Halbprofil. Und das neuronale Netz ist verwirrt. In einigen Fällen zwang das Erscheinen eines Elefanten sie, einen Stuhl für ein Sofa zu nehmen, und manchmal sah das System bestimmte Objekte nicht mehr, bei deren Erkennung zuvor keine Probleme auftraten. Dies ist zum Beispiel eine Buchreihe. Darüber hinaus traten auch bei weit vom Elefanten entfernten Objekten Fehlschläge auf.


Auf dem Original auf der linken Seite identifizierte das neuronale Netzwerk viele Objekte im Wohnzimmer, die voller verschiedener Dinge waren. Sobald der Elefant hinzugefügt wurde (Bild rechts), stürzte das Programm ab. Der Stuhl in der unteren linken Ecke verwandelte sich in ein Sofa, die Tasse in der Nähe verschwand und der Elefant wurde zu einem Stuhl.

Ähnliche Systemfehler sind für dasselbe autonome Fahren völlig inakzeptabel. Der Computer kann nicht fahren, wenn er Fußgänger nicht bemerkt, nur weil er wenige Sekunden zuvor einen Truthahn am Straßenrand gesehen hat.

Was den Elefanten selbst betrifft, so unterschieden sich auch die Ergebnisse seiner Erkennung von Versuch zu Versuch. Das System ermittelte es dann richtig, manchmal als Schaf bezeichnet, und bemerkte es dann überhaupt nicht.

„Wenn ein Elefant im Raum auftaucht, wird es wahrscheinlich jeder bemerken“, sagt Rosenfeld. "Und das System hat seine Anwesenheit nicht einmal aufgezeichnet."

Enge Beziehung


Wenn Menschen etwas Unerwartetes sehen, sehen sie es besser. Ganz gleich, wie einfach es sich anhört: Schauen Sie genauer hin, dies hat echte kognitive Konsequenzen und erklärt, warum die KI falsch ist, wenn etwas Ungewöhnliches auftritt.

Bei der Verarbeitung und Erkennung von Objekten leiten die besten modernen neuronalen Netze Informationen nur in Vorwärtsrichtung durch sich selbst weiter. Sie beginnen mit der Auswahl von Pixeln am Eingang, wechseln zu Kurven, Formen und Szenen und treffen in jeder Phase die wahrscheinlichsten Vermutungen. Irrtümer in der Anfangsphase des Prozesses führen am Ende zu Fehlern, wenn das neuronale Netzwerk seine „Gedanken“ zusammenfasst, um zu erraten, worauf es sich bezieht.

„In neuronalen Netzen sind alle Prozesse eng miteinander verbunden, sodass immer die Möglichkeit besteht, dass sich eine Funktion an einem beliebigen Ort auf ein mögliches Ergebnis auswirkt“, sagt Totsosos.

Der menschliche Ansatz ist besser. Stellen Sie sich vor, Sie erhielten einen Blick auf ein Bild mit einem Kreis und einem Quadrat, einem roten und einem blauen. Danach wurden Sie gebeten, die Farbe des Quadrats zu benennen. Ein kurzer Blick reicht möglicherweise nicht aus, um sich die Farben richtig zu merken. Sofort stellt sich die Einsicht ein, dass Sie sich nicht sicher sind und erneut suchen müssen. Und vor allem wissen Sie bereits beim zweiten Betrachten, worauf Sie sich konzentrieren müssen.

"Das menschliche visuelle System sagt:" Ich kann immer noch nicht die richtige Antwort geben, also gehe ich zurück und überprüfe, wo der Fehler aufgetreten sein könnte ", erklärt Totsosos, der eine Theorie namens" Selektive Abstimmung "entwickelt, die diese Funktion der visuellen Wahrnehmung erklärt.

Den meisten neuronalen Netzen fehlt die Fähigkeit, zurückzukehren. Diese Funktion ist sehr schwierig zu entwerfen. Einer der Vorteile von unidirektionalen Netzwerken besteht darin, dass sie relativ einfach zu trainieren sind. Führen Sie die Bilder einfach durch die sechs genannten Ebenen und erhalten Sie das Ergebnis. Aber wenn neuronale Netze genau hinsehen sollen, müssen sie auch zwischen einer feinen Linie unterscheiden, wann es besser ist, zurückzukehren und wann sie weiterarbeiten. Das menschliche Gehirn wechselt leicht und natürlich zwischen solchen unterschiedlichen Prozessen. Und neuronale Netze benötigen eine neue theoretische Grundlage, damit sie dasselbe tun können.

Führende Forscher aus der ganzen Welt arbeiten in diese Richtung, aber sie brauchen auch Hilfe. Google AI hat kürzlich einen Wettbewerb angekündigtdurch eine Vielzahl von Bildklassifizierern, die in der Lage sind, zwischen Fällen absichtlicher Verzerrung des Bildes zu unterscheiden. Die Lösung, die das Bild des Vogels vom Bild des Fahrrads deutlich unterscheiden kann, wird gewinnen. Dies wird ein bescheidener, aber sehr wichtiger erster Schritt sein.

Bild

Jetzt auch beliebt: