Neuronale Netzwerkarchitektur

Ursprünglicher Autor: Eugenio Culurciello
  • Übersetzung
Translation neuronale Netzwerkarchitekturen

Algorithmen für tiefe neuronale Netzwerke haben heutzutage eine große Popularität erlangt, was weitgehend durch die durchdachte Architektur sichergestellt wird. Schauen wir uns die Geschichte ihrer Entwicklung in den letzten Jahren an. Wenn Sie an einer tieferen Analyse interessiert sind, beziehen Sie sich auf diese Arbeit .


Vergleich populärer Architekturen für Top-1-Einzelgenauigkeit und die Anzahl der Operationen, die für einen Durchlauf erforderlich sind. Lesen Sie hier mehr .

LeNet5


1994 wurde eines der ersten neuronalen Faltungsnetzwerke entwickelt, das den Beginn des tiefen Lernens markierte. Diese Pionierarbeit von Yan Lekun (Yann LeCun) nach vielen erfolgreichen Wiederholungen seit 1988 hat den Namen LeNet5 erhalten !



Die Architektur von LeNet5 ist grundlegend für tiefes Lernen, insbesondere hinsichtlich der Verteilung der Bildeigenschaften im gesamten Bild. Konvolutionen mit trainierten Parametern ermöglichten es, mit Hilfe mehrerer Parameter die gleichen Eigenschaften an verschiedenen Stellen effizient zu extrahieren. In diesen Jahren gab es noch keine Grafikkarten, die den Lernprozess beschleunigen könnten, und selbst die zentralen Prozessoren waren langsam. Daher war der entscheidende Vorteil der Architektur die Möglichkeit, die Parameter und Ergebnisse der Berechnungen zu speichern, im Gegensatz zur Verwendung jedes Pixels als separate Eingangsdaten für ein großes neuronales Mehrschichtnetzwerk. In LeNet5 werden in der ersten Ebene keine Pixel verwendet, da die Bilder räumlich stark korreliert sind. Wenn Sie also separate Pixel als Eingabeeigenschaften verwenden, können Sie diese Korrelationen nicht nutzen.

LeNet5-Funktionen:

  • Ein Faltungs-Neuronales Netzwerk mit einer Abfolge von drei Schichten: Faltungsschichten (Faltung), Gruppierungsschichten (Pooling) und Nichtlinearitätsschichten (Nichtlinearität) -> seit der Veröffentlichung von Lekuns Arbeit ist dies wahrscheinlich eines der Hauptmerkmale des eingehenden Trainings, das auf Bilder angewendet wird.
  • Verwendet Faltung, um räumliche Eigenschaften zu extrahieren.
  • Probenahme durch räumliche Mittelung von Karten.
  • Nichtlinearität in Form eines hyperbolischen Tangens oder Sigmoid.
  • Der letzte Klassifikator in Form eines mehrschichtigen neuronalen Netzwerks (MLP).
  • Eine spärliche Konnektivitätsmatrix zwischen den Schichten reduziert den Rechenaufwand.

Dieses neuronale Netzwerk bildete die Grundlage für viele nachfolgende Architekturen und inspirierte viele Forscher.

Entwicklung


Von 1998 bis 2010 befanden sich die neuronalen Netzwerke in einem Zustand der Inkubation. Die meisten Leute bemerkten ihre wachsenden Fähigkeiten nicht, obwohl viele Entwickler die Algorithmen nach und nach verfeinerten. Durch das Aufblühen von Handykameras und die Verbilligung von Digitalkameras standen uns immer mehr Trainingsdaten zur Verfügung. Gleichzeitig wuchsen die Rechenfähigkeiten, die Prozessoren wurden leistungsfähiger und die Grafikkarten wurden zum wichtigsten Rechenwerkzeug. All diese Prozesse ermöglichten die Entwicklung neuronaler Netzwerke, wenn auch eher langsam. Zunehmendes Interesse an Aufgaben, die über neuronale Netze gelöst werden konnten, und schließlich wurde die Situation offensichtlich ...

Dan Ciresan Net


2010 veröffentlichten Dan Kireshan (Dan Claudiu Ciresan) und Jörgen Schmidhuber eine der ersten Beschreibungen der Implementierung von GPU-neuronalen Netzwerken . Ihre Arbeit umfasste die direkte und umgekehrte Implementierung eines 9-Schichten-Neuronalen Netzwerks auf der NVIDIA GTX 280 .

AlexNet


Im Jahr 2012 veröffentlichte Alexey Krizhevsky AlexNet , eine vertiefende und erweiterte Version von LeNet, die im schwierigen Wettbewerb ImageNet mit großem Vorsprung gewann.



In AlexNet werden die Ergebnisse der LeNet-Berechnungen auf ein viel größeres neuronales Netzwerk skaliert, das wesentlich komplexere Objekte und deren Hierarchien untersuchen kann. Merkmale dieser Lösung:

  • Verwendung von linearen Rektifikationseinheiten (ReLU) als Nichtlinearitäten.
  • Verwenden Sie die Drop-Technik, um einzelne Neuronen während des Trainings selektiv zu ignorieren und so ein Übertraining des Modells zu vermeiden.
  • Überlappen Sie maximales Pooling, um die Auswirkungen der Durchschnittsbildung im Durchschnitt zu vermeiden.
  • Verwenden Sie die NVIDIA GTX 580 , um das Lernen zu beschleunigen.

Zu diesem Zeitpunkt war die Anzahl der Kerne in den Videokarten stark angestiegen, wodurch die Trainingszeit um das Zehnfache verkürzt werden konnte. Dadurch konnten wesentlich größere Datensätze und Bilder verwendet werden.

Der Erfolg von AlexNet löste eine kleine Revolution aus, konvolutionelle neuronale Netzwerke wurden zu einem Arbeitspferd des tiefen Lernens - dieser Begriff bedeutete fortan "große neuronale Netzwerke, die nützliche Aufgaben lösen können".

Überfeature


Im Dezember 2013 veröffentlichte das NYU-Labor Yana Lekuna eine Beschreibung von Overfeat , einer Vielzahl von AlexNet. In dem Artikel wurden auch die Umrandungskästen beschrieben, und anschließend wurden viele andere Werke zu diesem Thema veröffentlicht. Wir glauben, dass es besser ist zu lernen, Objekte zu segmentieren und keine künstlichen Begrenzungsrahmen zu verwenden.

VGG


In von Oxford entwickelten VGG- Netzwerken wurden zum ersten Mal für jede Faltungsschicht 3 × 3-Filter verwendet, und sie kombinierten diese Schichten auch in einer Folge von Faltungen.

Dies steht im Gegensatz zu den Prinzipien in LeNet, wonach große Bündel verwendet wurden, um dieselben Bildeigenschaften zu extrahieren. Anstelle von 9x9- und 11x11-Filtern, die in AlexNet verwendet werden, wurden viel kleinere Filter verwendet, die gefährlich nahe an 1x1-Faltungen lagen, was die LeNet-Autoren zumindest in den ersten Schichten des Netzwerks zu vermeiden versuchten. Der große Vorteil von VGG war jedoch die Entdeckung, dass mehrere 3x3-Bündel, die in einer Sequenz zusammengefasst sind, größere Rezeptionsfelder emulieren können, beispielsweise 5x5 oder 7x7. Diese Ideen werden später in der Inception- und ResNet-Architektur verwendet.



VGG-Netzwerke verwenden mehrere 3x3-Faltungsschichten, um komplexe Eigenschaften darzustellen. Die Notizblöcke 3, 4 und 5 in VGG-E: 256 × 256 und 512 × 512 3 × 3-Filterserien werden verwendet, um komplexere Eigenschaften zu extrahieren und sie zu kombinieren. Dies ist gleichbedeutend mit großen Faltungsklassifizierern 512x512 mit drei Schichten! Dies gibt uns eine Vielzahl von Parametern und hervorragende Lernfähigkeiten. Es war jedoch schwierig, solche Netzwerke zu erlernen, es war notwendig, sie in kleinere aufzuteilen und Schichten nacheinander hinzuzufügen. Der Grund war das Fehlen effektiver Möglichkeiten zum Regularisieren von Modellen oder einige Methoden zum Einschränken eines großen Suchraums, der von vielen Parametern unterstützt wird.

VGG verwendet in vielen Schichten eine Vielzahl von Eigenschaften, so dass die Schulung einen hohen Rechenaufwand erforderte. Sie können die Belastung reduzieren, indem Sie die Anzahl der Eigenschaften reduzieren, wie dies in den Engpassschichten der Inception-Architektur der Fall ist.

Netzwerk im Netzwerk


Die Network-in-Network- Architektur (NiN) basiert auf einer einfachen Idee: Durch Verwendung von 1x1-Bündeln werden die kombinatorischen Eigenschaften der Faltungsschichten erhöht.

In NiN werden räumliche MLP-Schichten nach jeder Faltung aufgebracht, um die Eigenschaften vor dem Einbringen in die nächste Schicht besser zu kombinieren. Es mag den Anschein haben, dass die Verwendung von 1x1-Paketen den ursprünglichen Prinzipien von LeNet widerspricht, aber tatsächlich können Sie Eigenschaften besser kombinieren, als nur mehr Faltungsschichten zu füllen. Dieser Ansatz unterscheidet sich von der Verwendung nackter Pixel als Eingabe für die nächste Ebene. In diesem Fall werden 1x1-Faltungen für die räumliche Kombination von Eigenschaften nach der Faltung in Eigenschaftskarten verwendet. Es können also viel weniger Parameter verwendet werden, die allen Pixeln dieser Eigenschaften gemeinsam sind!



MLPs können die Effizienz einzelner Faltungsschichten erheblich verbessern, indem sie zu komplexeren Gruppen zusammengefasst werden. Diese Idee wurde später in anderen Architekturen wie ResNet, Inception und deren Varianten verwendet.

GoogLeNet und Inception


Christian Szegedy von Google beteiligte sich an der Reduzierung des Rechenaufwands in tiefen neuronalen Netzwerken und schuf GoogLeNet, die erste Inception-Architektur .

Bis zum Herbst 2014 haben sich tiefe Lernmodelle für die Kategorisierung des Inhalts von Bildern und Frames aus Videos als sehr nützlich erwiesen. Viele Skeptiker haben den Nutzen von Deep Learning und neuronalen Netzwerken erkannt, und Internet-Giganten, einschließlich Google, waren sehr daran interessiert, effiziente und große Netzwerke auf ihren Serverkapazitäten bereitzustellen.

Christian suchte nach Wegen, um die Rechenlast in neuronalen Netzwerken zu reduzieren und die höchste Leistung zu erzielen (beispielsweise in ImageNet). Oder die Anzahl der Berechnungen einhalten und gleichzeitig die Leistung verbessern.

Als Ergebnis erstellte das Team das Inception-Modul:



Auf den ersten Blick ist dies eine parallele Kombination von 1x1-, 3x3- und 5x5-Faltungsfiltern. Das Highlight war jedoch die Verwendung von 1x1-Faltungsblöcken (NiN), um die Anzahl der Eigenschaften zu reduzieren, bevor sie in „teuren“ parallelen Blöcken eingesetzt werden. Normalerweise wird dieser Teil als Engpass bezeichnet. Er wird im nächsten Kapitel ausführlicher beschrieben.

In GoogLeNet wird ein Stamm ohne Inception-Module als anfängliche Schicht verwendet. Außerdem wird ein durchschnittlicher Pooling- und Softmax-Klassierer verwendet, der dem NiN ähnelt. Dieser Klassifikator führt im Vergleich zu AlexNet und VGG nur wenige Operationen aus. Es half auch, eine sehr effiziente neuronale Netzwerkarchitektur zu schaffen .

Engpassschicht


Diese Schicht verringert die Anzahl der Eigenschaften (und damit der Operationen) in jeder Schicht, so dass die Geschwindigkeit zum Erzielen des Ergebnisses auf einem hohen Niveau gehalten werden kann. Vor der Übertragung von Daten in „teure“ Faltungsmodule nimmt die Anzahl der Eigenschaften ab, beispielsweise um das Vierfache. Dies reduziert den Rechenaufwand erheblich, wodurch die Architektur populär wurde.

Lass es uns herausfinden. Lassen Sie uns 256 Eigenschaften am Eingang und 256 am Ausgang haben, und lassen Sie die Inception-Schicht nur 3 x 3 Faltungen ausführen. Wir erhalten 256 x 256 x 3 x 3 Faltungen (589 000 Multiplikationsoperationen mit Akkumulation, dh MAC-Operationen). Dies kann über unsere Anforderungen an die Rechengeschwindigkeit hinausgehen. Beispielsweise wird eine Schicht in 0,5 Millisekunden auf Google Server verarbeitet. Reduzieren Sie dann die Anzahl der Eigenschaften für das Falten auf 64 (256/4). In diesem Fall führen wir zuerst die Faltung 1x1 256 -> 64 aus, dann weitere 64 Faltungen in allen Inception-Zweigen und wenden dann erneut die Faltung 1x1 mit 64 -> 256 Eigenschaften an. Anzahl der Operationen:

  • 256 × 64 × 1 × 1 = 16 000
  • 64 × 64 × 3 × 3 = 36 000
  • 64 × 256 × 1 × 1 = 16.000

Insgesamt etwa 70.000, die Anzahl der Operationen um fast das Zehnfache reduziert! Gleichzeitig haben wir in dieser Schicht jedoch die Verallgemeinerung nicht verloren. Engpass-Layer zeigten eine überragende Leistung bei ImageNet-Datensätzen und wurden in späteren Architekturen wie ResNet verwendet. Der Grund für ihren Erfolg ist, dass die Eingabeeigenschaften korreliert sind. Dies bedeutet, dass Sie Redundanz beseitigen können, indem Sie die Eigenschaften mit 1x1-Faltungen richtig kombinieren. Und nach der Koagulation mit einer geringeren Anzahl von Eigenschaften ist es auf der nächsten Schicht möglich, diese wieder zu einer sinnvollen Kombination zu erweitern.

Inception V3 (und V2)


Christian und sein Team waren sehr effektive Forscher. Im Februar 2015 wurde die Architektur von Batch-normalized Inception als zweite Version von Inception eingeführt . Bei der Batch-Normalisierung (Batch-Normalization) werden der Mittelwert und die Standardabweichung aller Eigenschaftsverteilungskarten im Ausgabe-Layer berechnet und ihre Antworten mit diesen Werten normalisiert. Dies entspricht dem "Bleichen" der Daten, dh die Antworten aller neuronalen Karten liegen im gleichen Bereich und mit dem Mittelwert Null. Dieser Ansatz erleichtert das Lernen, da sich die nachfolgende Schicht nicht an die Offsets der Eingabedaten erinnern muss und nur nach den besten Kombinationen von Eigenschaften suchen kann.

Im Dezember 2015 wurde eine neue Version der Inception-Module und der entsprechenden Architektur veröffentlicht.. In dem Artikel des Autors wird die ursprüngliche GoogLeNet-Architektur am besten erläutert. Die getroffenen Entscheidungen sind viel detaillierter. Schlüsselideen:

  • Maximierung des Informationsflusses im Netzwerk aufgrund des sorgfältigen Gleichgewichts zwischen Tiefe und Breite. Vor jedem Pooling erhöhen sich die Eigenschaftskarten.
  • Mit zunehmender Tiefe nimmt auch die Anzahl der Eigenschaften oder die Breite der Schicht systematisch zu.
  • Die Breite jeder Ebene wird vergrößert, um die Kombination der Eigenschaften vor der nächsten Ebene zu erhöhen.
  • Soweit möglich werden nur 3 × 3 Windungen verwendet. Angenommen, die 5x5- und 7x7-Filter können mit einigen



    neuen 3x3- Inception-Modulen zerlegt werden.

  • Filter können auch mithilfe von geglätteten Bündeln in komplexere Module zerlegt werden :

  • Inception-Module können durch Pooling die Datengröße während Inception-Berechnungen reduzieren. Dies ähnelt dem Ausführen einer Faltung mit parallelen Schritten mit einer einfachen Pooling-Ebene:


Als letzten Klassifikator verwendet Inception die Softmax-Pooling-Ebene.

ResNet


Im Dezember 2015, etwa zur gleichen Zeit, als die Inception v3-Architektur vorgestellt wurde, kam es zu einer Revolution - veröffentlichte ResNet . Es enthält einfache Ideen: Wir geben die Ausgabe zweier erfolgreicher Faltungsschichten aus und umgehen die Eingabedaten für die nächste Ebene!



Solche Ideen wurden beispielsweise hier bereits vorgeschlagen . In diesem Fall umgehen die Autoren jedoch die TWO-Schichten und wenden den Ansatz in großem Maßstab an. Die Umgehung einer Ebene bringt keinen großen Nutzen, und die Umgehung von zwei Ebenen ist eine wichtige Erkenntnis. Dies kann als kleiner Klassifikator betrachtet werden, als Netzwerk im Netzwerk!

Es war auch das erste Beispiel, in dem ein Netzwerk aus mehreren hundert oder sogar tausenden Schichten gelernt wurde.
In mehrschichtigem ResNet wurde eine Engpassschicht angewendet, ähnlich der in Inception verwendeten:



Diese Schicht reduziert die Anzahl der Eigenschaften in jeder Schicht, indem zuerst eine 1x1-Faltung mit geringerer Leistung (normalerweise ein Viertel des Eintritts) verwendet wird, dann eine 3x3-Schicht und dann wieder eine 1x1-Faltung in weitere Eigenschaften. Wie bei Inception-Modulen spart es Rechenressourcen und behält gleichzeitig eine Fülle von Kombinationen von Eigenschaften bei. Vergleiche mit einem komplexeren und weniger offensichtlichen Stamm in Inception V3 und V4.

ResNet verwendet eine Softmax-Pooling-Schicht als abschließenden Klassifikator.
Jeden Tag gibt es weitere Informationen zur ResNet-Architektur:

  • Es kann als ein System von parallelen und seriellen Modulen betrachtet werden: In vielen Modulen wird das Inout-Signal parallel geschaltet, und die Ausgangssignale jedes Moduls werden in Reihe geschaltet.
  • ResNet kann als mehrere Ensembles von parallelen oder sequentiellen Modulen betrachtet werden .
  • Es stellte sich heraus, dass ResNet normalerweise mit Blöcken mit relativ geringer Tiefe von 20 bis 30 Schichten arbeitet, die parallel arbeiten, anstatt sie konstant über die gesamte Länge des Netzwerks zu fahren.
  • Da die Ausgabe zurückgeht und als Eingabe dient, wie dies beim RNN der Fall ist, kann ResNet als verbessertes plausibles Modell der Großhirnrinde angesehen werden .

Inception V4


Wieder einmal zeichneten sich Christian und sein Team durch die Veröffentlichung einer neuen Version von Inception aus .

Das Inception-Modul nach dem Vorbau ist das gleiche wie in Inception V3:



In diesem Fall wird das Inception-Modul mit dem ResNet-Modul kombiniert:



Diese Architektur erwies sich für meinen Geschmack als komplizierter, weniger elegant und zudem mit undurchsichtigen Heuristiklösungen. Es ist schwer zu verstehen, warum die Autoren diese oder andere Entscheidungen getroffen haben, und es ist genauso schwierig, ihnen eine Beurteilung zu geben.

Daher geht der Preis für ein sauberes und einfaches neuronales Netzwerk, das leicht zu verstehen und zu ändern ist, an ResNet.

SqueezeNet


SqueezeNet wurde kürzlich veröffentlicht. Dies ist ein Remake einer neuen Art vieler Konzepte von ResNet und Inception. Die Autoren haben gezeigt, dass durch die Verbesserung der Architektur die Größe von Netzwerken und die Anzahl der Parameter ohne komplexe Kompressionsalgorithmen reduziert werden können.

Eet


Alle Funktionen neuerer Architekturen werden mit sehr wenigen Parametern und Rechenleistung zu einem sehr effizienten und kompakten Netzwerk kombiniert, jedoch mit hervorragenden Ergebnissen. Architektur hieß ENet hat es Adam Pazke entwickelt ( von Adam Paszke ). Wir haben es beispielsweise verwendet, um Objekte auf dem Bildschirm sehr genau zu kennzeichnen und Szenen zu analysieren. Einige Beispiele für die Arbeit von Enet . Diese Videos beziehen sich nicht auf den Trainingsdatensatz .

HierSie finden technische Details von ENet. Dies ist ein Netzwerk, das auf dem Encoder und Decoder basiert. Der Codierer basiert auf dem üblichen CNN-Schema für die Kategorisierung, und der Decodierer ist ein Upsampling-Netowrk-Netzwerk, das für die Segmentierung durch Verteilen von Kategorien auf das Originalbild in Originalgröße ausgelegt ist. Für die Segmentierung von Bildern wurden nur neuronale Netzwerke verwendet, keine anderen Algorithmen.



Wie Sie sehen, hat ENet die höchste spezifische Genauigkeit im Vergleich zu allen anderen neuronalen Netzwerken.

ENet wurde so konzipiert, dass es von Anfang an so wenig Ressourcen wie möglich benötigt. Folglich belegen Encoder und Decoder zusammen nur 0,7 MB mit einer Genauigkeit von fp16. Mit dieser geringen Größe ist ENet anderen rein neuronalen Netzwerklösungen in Bezug auf die Segmentierungsgenauigkeit nicht unterlegen oder überlegen.

Modulanalyse


Veröffentlichung einer systematischen Bewertung von CNN-Modulen. Es stellte sich heraus, dass es profitabel ist:

  • Verwenden Sie ELU-Nichtlinearität ohne Batch-Normalisierung (Batchnorm) oder ReLU mit Normalisierung.
  • Wenden Sie die erlernte Transformation des RGB-Farbraums an.
  • Verwenden Sie eine lineare Abnahmerate für die Lernrate.
  • Verwenden Sie die Summe der durchschnittlichen und maximalen Pooling-Ebene.
  • Verwenden Sie ein Minipaket von 128 oder 256. Wenn dies für Ihre Grafikkarte zu viel ist, verringern Sie die Lernrate entsprechend der Größe des Pakets.
  • Verwenden Sie vollständig verbundene Layer als Faltungs- und Durchschnittsprognosen für die Ausgabe der endgültigen Lösung.
  • Wenn Sie die Größe des Trainingsdatensatzes erhöhen, stellen Sie sicher, dass Sie im Training noch nicht das Plateau erreicht haben. Saubere Daten sind wichtiger als die Größe.
  • Wenn Sie die Größe des Eingabebildes nicht vergrößern können, verringern Sie den Schritt in den nachfolgenden Ebenen. Der Effekt ist ungefähr gleich.
  • Wenn Ihr Netzwerk, wie in GoogLeNet, eine komplexe und stark optimierte Architektur aufweist, ändern Sie diese sorgfältig.

Xception


Xception hat dem Inception-Modul eine einfachere und elegantere Architektur hinzugefügt , die nicht weniger effektiv ist als ResNet und Inception V4.
So sieht das Xception-Modul aus:



Dieses Netzwerk wird durch die Schlichtheit und Eleganz seiner Architektur für jedermann interessant sein:



Es enthält 36 Faltungsschritte und ähnelt ResNet-34. Gleichzeitig ist das Modell und der Code wie in ResNet einfach und viel schöner als in Inception V4.

Die Torch7-Implementierung dieses Netzwerks ist hier verfügbar , und die Implementierung auf Keras / TF ist hier.

Seltsamerweise waren die Autoren der jüngsten Xception-Architektur auch von unserer Arbeit an separierbaren (Faltungs) -Filtern inspiriert .

MobileNets


Die neue Architektur M obileNets wurde im April 2017 veröffentlicht. Um die Anzahl der Parameter zu reduzieren, werden wie in Xception abnehmbare Faltungen verwendet. Selbst in der Arbeit wird argumentiert, dass die Autoren die Anzahl der Parameter stark reduzieren konnten: im Fall von FaceNet etwa zweimal. Vollständige Architektur des Modells:



Wir haben dieses Netzwerk in einem realen Problem getestet und festgestellt, dass es bei dem Paket von 1 (Stapel von 1) auf der Titan Xp-Grafikkarte unangemessen langsam funktioniert. Vergleichen Sie die Dauer der Ausgabe für ein Bild:

  • resnet18: 0,002871
  • alexnet: 0,001003
  • Vgg16: 0,001698
  • Squeezenet: 0,002725
  • mobilenet: 0,033251

Dies ist kein schneller Job! Die Anzahl der Parameter und die Größe des Netzwerks auf der Festplatte werden reduziert, aber es macht keinen Sinn.

Andere bemerkenswerte Architekturen


FractalNet verwendet eine rekursive Architektur, die noch nicht in ImageNet getestet wurde und eine abgeleitete oder allgemeinere Version von ResNet ist.

Zukunft


Wir glauben, dass die Entwicklung von neuronalen Netzwerkarchitekturen für die Entwicklung des tiefen Lernens von größter Bedeutung ist. Wir empfehlen Ihnen dringend, alle hier aufgeführten Werke sorgfältig zu lesen und zu berücksichtigen.

Sie fragen sich vielleicht, warum wir so viel Zeit für die Entwicklung von Architekturen aufwenden müssen und warum wir stattdessen keine Daten verwenden, die uns zeigen, was zu verwenden ist und wie die Module kombiniert werden. Verführerische Gelegenheit, aber daran wird noch gearbeitet. Hier sind einige erste Ergebnisse.
Darüber hinaus haben wir nur über Computer Vision-Architekturen gesprochen. In anderen Bereichen ist auch die Entwicklung im Gange, und es wäre interessant, die Entwicklung in anderen Bereichen zu studieren.

Wenn Sie Interesse an einem Vergleich neuronaler Netze und der Rechenleistung haben, lesen Sieunsere jüngste Arbeit .

Jetzt auch beliebt: