Das neuronale Netz sagt auf dem Foto 1 Sekunde der Zukunft voraus

Published on November 29, 2016

Das neuronale Netz sagt auf dem Foto 1 Sekunde der Zukunft voraus


    Generatives, für die Videoverarbeitung optimiertes, adversariales neuronales Netzwerk zeigt, was als Nächstes passiert.Die

    Fähigkeit, die nahe Zukunft vorherzusagen, ist eine wichtige Fähigkeit für jede Person. Die Reaktionsgeschwindigkeit des Menschen reicht nicht aus, um in Echtzeit auf umgebende Ereignisse zu reagieren. Wir sagen sie daher im konstanten Modus mit einer Wahrscheinlichkeit von nahezu 100% voraus. Die Athleten wissen, wohin der Ball fliegen wird. Geschäftsleute wissen, wann der Befragte nach einem Handschlag greifen wird. Wir prognostizieren die Flugbahn von Autos auf der Straße und die unmittelbaren Handlungen von Menschen auf den Gesichtsausdruck und das Motiv in ihren Händen.

    Künstliche Intelligenz muss auch die Zukunft kennen. Er muss verstehen, welche Ereignisse zu welchem ​​Ergebnis führen, um offensichtliche Fehltritte zu vermeiden und seine Handlungen zu planen. Eine Gruppe von Forschern ausDie Computer Science and Artificial Intelligence Laboratories (CSAIL) am Massachusetts Institute of Technology lehren das neuronale Netzwerk, die Zukunft vorherzusagen, indem es auf Millionen von Videos trainiert.

    Ein trainiertes neuronales Netzwerk mit einem einzelnen statischen Rahmen (Fotos) versucht, zukünftige Ereignisse vorherzusagen. Das Programm ist auf eine Bildgröße von 64 × 64 Pixeln und eine Vorhersagezeit von 32 Bildern, dh etwa eine Sekunde in der Zukunft, beschränkt.

    Das Wissen um die Zukunft ermöglicht es, die Gegenwart besser zu verstehen. Dies ist eine grundlegende Fähigkeit, die jeder Roboter in der realen Welt besitzen muss. Wenn man eine Person mit einer Gabel und einem Messer in den Händen vor einem Teller mit Lebensmitteln beobachtet, sollte man definitiv vorhersagen, dass diese Person bald anfängt zu essen. Ohne ein solches Verständnis kann der Roboter nicht effektiv funktionieren - Sie möchten nicht, dass der Roboter den Stuhl beiseite nimmt, wenn Sie auf einem Stuhl sitzen? Nein, er muss verstehen, was in einer Sekunde passieren wird und darf nichts anfassen. Oder umgekehrt, bewegen Sie den Stuhl schnell genau an die Stelle, an der die Person sitzt.

    Im Moment fehlen selbst den fortschrittlichsten KI-Systemen die grundlegenden Fähigkeiten zur Vorhersage der nahen Zukunft. Daher ist diese Studie so wichtig. Forschergruppen an der New York University und bei Facebook machen einen ähnlichen Job, aber ihre neuronalen Netze geben nur ein paar Aufnahmen aus der Zukunft ab oder zeigen, dass sie zu verschwommen sind.

    Das in CSAIL entwickelte Programm sagt die banalsten und offensichtlichsten Ereignisse ziemlich genau voraus. Zum Beispiel sagt sie auf einem Foto eines Zuges auf einem Bahnsteig seine Bewegung voraus.

    Beispiele für die Vorhersage von Ereignissen durch Fotografie. Bewegungsmuster von Menschen, Tieren, Naturphänomenen, Transport

    In einer wissenschaftlichen Studie lösen Entwickler das grundlegende Problem des Studierens eines Skripts, wenn sich die Ereignisse im Frame im Laufe der Zeit entfalten. Offensichtlich ist eine solche Aufgabe für eine formale Annotation sehr schwierig. Daher wurde das neuronale Netzwerk direkt am fertigen Material trainiert - auf Millionen von Videos ohne semantische Annotationen. Ein derartiger Ansatz hat bestimmte Vorteile, da die KI offline trainiert werden kann, indem man nur das Geschehen im Auge behält und eine große Menge von Videos im Internet verarbeitet.

    Das trainierte neuronale Netzwerk hat dann die Aufgabe, kleine Videos in einem einzelnen statischen Frame zu generieren. Um ein realistisches Ergebnis zu erzielen, verwendeten die Autoren der Studie ein generatives Gegnernetz (generatives Gegnernetz, GAN). Ein neuronales Netzwerk erzeugt Video, und das zweite Diskriminator-Netzwerk lernt, gefälschtes Video von dem gegenwärtigen zu unterscheiden, und blockiert Fälschungen. Wie der Diskriminator erfährt, muss der Netzwerkgenerator immer realistischere Videos generieren, um den Test zu bestehen.


    Im generativen Modell werden zwei Ströme verwendet, die den Vordergrund und den Hintergrund getrennt modellieren, um sie voneinander zu trennen und die Bewegung des Objekts klar zu unterscheiden.



    Mit der Zeit wird ein solches Programm in der Lage sein, Menschen in unterschiedlichen Situationen effektiver zu helfen. Zum Beispiel kann ein Roboter vorhersagen, wann eine Person fallen wird - und ihn davon abhalten, zu fallen. Der digitale Assistent im Auto lernt, die Handlungen des Fahrers bei der Bewegung von Händen und Augen vorherzusagen, um einen Unfall zu vermeiden.

    Alle Videos, auf die das neuronale Netz trainiert wurde, sowie der Quellcode des Programms werden im Open Access veröffentlicht . Der Code für das generative konsensuale neuronale Netzwerk liegt auf GitHub . Mit den Trainingsdaten (ca. 10,5 Terabyte Video) können Sie das Experiment selbst wiederholen. Optional stehen bereits trainierte Modelle zum Download zur Verfügung (1 GB im Archiv).

    Videomaterial für die Schulung wird von Flickr-Foto- und -Videohosting entnommen und unterliegt einer kostenlosen Lizenz. Dies sind Themenszenen: Strandveranstaltungen, Golfspiele, Bahnhöfe und Babys in Krankenhäusern.



    Zwei Millionen Videos sind nur zwei Jahre Video. "Dies ist im Vergleich zu der Menge an Videoinformationen, die das Gehirn eines 10-jährigen Kindes durchlaufen hat, oder im Vergleich zu der Menge an Informationen, die während des Evolutionsprozesses der Lebensentwicklung auf der Erde verarbeitet wurden, sehr gering ", gibt Carl Vondrick zu, einer der Autoren von arbeiten.

    Aber dies ist nur der Anfang, die KI unternimmt die ersten Schritte, Sie müssen irgendwo anfangen. In Zukunft wird das neuronale Netz an längeren Videofragmenten trainiert. Die Autoren hoffen, dass die KI angesichts der Beschränkungen der physikalischen Gesetze und der Eigenschaften von Objekten allmählich die Auswahl möglicher Optionen für die Zukunft einschränkt. Experimente zeigen, dass das neuronale Netzwerk sie aufnehmen kann. Allmählich wird das Programm lernen, eine weiter entfernte Zukunft vorherzusagen, und nicht nur eine Sekunde. Mit Sicherheit werden weitere Module angeschlossen, wie z. B. die Identifizierung von Personen, das Ablesen von Lippen, die Vorhersage von Straftaten im Gesicht einer Person usw.

    Wissenschaftlicher Artikel veröffentlichtauf der Website des Massachusetts Institute of Technology. Die Studie wird dank der Finanzierung durch die United States National Science Foundation fortgesetzt, und Google gewährt zwei der drei Mitglieder des Forschungsteams Zuschüsse. Der Bericht wurde für die 29. Konferenz über Neuroinformationsverarbeitungssysteme (NIPS 2016) erstellt, die vom 5. bis 10. Dezember in Barcelona stattfinden wird.