Verbesserung der Qualität von Klebepanoramen durch Koordinierung des Graphen projektiver Transformationen


    Hi, Habr! Heute werden wir über eine der Möglichkeiten zur Verbesserung der Qualität von Klebepanoramen berichten. Es gibt einen weit verbreiteten Ansatz zum Verkleben von Panoramen von flachen Objekten. Da dieser Ansatz jedoch nicht ohne Nachteile ist, bieten wir unsere eigenen Verbesserungen an.


    Die Aufgabe des Pannings besteht darin, ein einzelnes zusammengesetztes Bild basierend auf einem Satz von Quellbildern zu erstellen (siehe Abb. 1). Es findet Anwendung bei der Lösung solcher praktischen Aufgaben wie:


    • Erkundung der Erdoberfläche von einem Satelliten oder einer Drohne aus;
    • Spleißbilder, die mit einem Mikroskop aufgenommen wurden;
    • Video kleben;
    • Bilderfassung in Superauflösung.


    Abbildung 1 - Originalbilder und Panorama


    Im Allgemeinen kann der Algorithmus zum Einfügen eines Panoramas wie folgt formuliert werden [1] (siehe Abb. 2). Ganz am Anfang müssen Sie eine ausreichende Anzahl von Frames aus dem Videostream extrahieren. Dies kann online durch sequentielles Lesen aller Frames und Auswählen einzelner Frames mit der erforderlichen Frequenz erfolgen.



    Abbildung 2 - Ein Flussdiagramm des Panoramaverklebungsalgorithmus unter Verwendung einzelner Punkte


    Danach, indem Sie nacheinander Bildpaare aus dem Satz durchgehen, sollten Sie die Erkennung einzelner Punkte und die Berechnung ihrer Deskriptoren auf diesen Bildern durchführen [2–4]. Diese singulären Punkte ermöglichen es, eine geometrische Entsprechung zwischen zwei Frames herzustellen. Das Folgende ist eine Abbildung einzelner Punkte basierend auf ihren Deskriptoren. Es sollte beachtet werden, dass dies die Möglichkeit, falsche Übereinstimmungen zu erhalten, nicht ausschließt.


    Mit zwei Sätzen von Einzelpunkten sollte einer eine projektive Transformation finden, die die Punkte eines Frames bestmöglich auf die entsprechenden Punkte des anderen Frames übertragen würde. Zur Lösung dieses Problems kann der RANSAC-Ansatz verwendet werden [5]. Dieser Ansatz wird in [6, 7] genauer beschrieben.


    Ein optischer Strom kann auch verwendet werden, um nach einer projektiven Transformation zwischen Frames zu suchen, die häufig beim Einfügen von Panoramen verwendet wird [8].
    Nach dem Erhalten des erforderlichen Satzes von projektiven Transformationen findet das technische Verfahren des Bildsplicings statt, nämlich: für jedes Pixel des Endpanoramas (x, y) für jeden Kanal (RGB) das arithmetische Mittel der Pixelintensitäten mit den Koordinaten (x, y) aller Frames einschließlich selbst ist ein Pixel mit solchen Koordinaten.


    Durch die Suche nach projektiven Transformationen kann die Verschiebung der Kameraposition relativ zur vorherigen Position im Raum bestimmt werden. Unter Laborbedingungen reicht die Genauigkeit dieser Datenberechnungen aus, um ein Panorama eines flachen, festen Objekts zu erstellen. Unter realen Bedingungen tritt bei der Berechnung des Versatzes der Kameraposition relativ zur vorherigen Position ein Berechnungsfehler auf (Messfehler / Interferenzen / durch Algorithmen auferlegte Einschränkungen usw.). Mit der Zeit wächst der Akkumulationsfehler weiterhin so, dass trotz allgemein akzeptabler Genauigkeit der Bestimmung der Verschiebung zwischen benachbarten Positionen das allgemeine Panorama des Objekts schwerwiegende Abweichungen enthält (siehe 3).



    Abbildung 3 - Akkumulationsfehler


    Wir haben uns zum Ziel gesetzt, eine Methode zu entwickeln, mit der der Graph projizierender Transformationen koordiniert werden kann, um feststehende Objekte zu verschieben, die gegen das Problem der Fehlerakkumulation resistent sind. Ein weiteres Ziel ist es, eine Methode so zu entwickeln, dass sie nicht von der Berechnungsmethode der Parameter der projektiven Transformation abhängt.


    Eine der Bedingungen muss erfüllt sein:


    • Schießen eines festen Pseudoobjekts;
    • Filmen eines Objektes aus einer ausreichend großen Entfernung in der Nähe von flach;
    • Für alle Kamerapositionen während der Aufnahme ist die Anforderung erfüllt: Für alle Bildpunkte stimmen die Strahlen, die diese Punkte mit dem Kamerafokus verbinden, nicht überein.

    Beschreibung des Algorithmus zum Abgleichen des Graphen projektiver Transformationen


    Wir stellen das Konzept eines einheitlichen Koordinatensystems vor. Mit einem einzigen Koordinatensystem ist ein Koordinatensystem gemeint, bei dem die gleichen Punkte des Objekts aus verschiedenen Bildern die gleichen Koordinaten haben. Diese Anforderung kann durch die folgende Formel ausgedrückt werden:



    wo - Diese Anzeige wird im gemeinsamen Teil des Frames definiert und konvertiert die Punkte des ersten Frames in die Punkte des zweiten Frames. - Koordinaten eines Punktes im Koordinatensystem des ersten Rahmens - Koordinaten eines Punktes im Koordinatensystem des zweiten Rahmens.


    Beim Mapping über den Frame-Überlappungsbereich hinaus fortgesetzt werden können, können wir den zweiten Frame mit Informationen aus dem ersten ergänzen. Dies führt dazu, dass eine Karte aus zwei oder mehr Frames als Mosaik zusammengeklebt wird.


    Nach dem Auffinden der projektiven Transformationen zwischen benachbarten Frames gibt es ein anfängliches Splicing, das eine Eins-zu-Eins-Anordnung von Frames in einem einzelnen Koordinatensystem angibt (siehe 4).



    Abbildung 4 - Die eindeutige Position des Rahmens auf der Karte


    Nach dem Erstellen des primären Bildsplicings wird ein Diagramm projektiver Transformationen erstellt. :



    wo - die Menge von vieren Punkten, die die Scheitelpunkte von projeziell korrigierten Bildern sind; . - viele projektive Transformationen zwischen Frames; .


    Die Kante zwischen den Scheitelpunkten wird nur erstellt, wenn sich die Frames mindestens schneiden bei der primären Verklebung (IoU - Intersection over Union) (siehe Abb. 5, 6):




    Abbildung 5 - Die Schnittfläche


    Schwelle Sie wird in Abhängigkeit von der Methode ausgewählt, die zur Suche nach einer projektiven Transformation verwendet wird, indem zwischen der Konditionalität des Problems des Auffindens einer projektiven Transformation zwischen zwei Frames und der gewünschten erwarteten Anzahl von Kanten und Zyklen in der Grafik ausgeglichen wird.



    Abbildung 6 - Beispiel für die Diagrammkonstruktion


    Daraus ergibt sich der Graph der projektiven Transformationen sieht so aus (siehe Abb. 7):



    Abbildung 7 - Das endgültige Diagramm der projektive Transformation


    Wenn der Graph Zyklen enthält (siehe Abb. 6), erscheinen darin redundante Informationen, die auch Widersprüche enthalten können. Um festzustellen, welche Art von Widersprüchen auftreten kann, betrachten Sie einen Zyklus des Diagramms (siehe Abb. 8). Lassen Sie diesen Zyklus aus Scheitelpunkten bestehen. Dann haben wir eine Reihe von projektiven Mappings entlang dieses Zyklus:



    Betrachten Sie die Zusammensetzung dieser Zuordnungen:




    Abbildung 8 - Der Zyklus der Grafik


    Zuordnung muss das gleiche Mapping sein. Wenn das MappingAnders als beim Identischen sagen wir, dass ein Widerspruch entsteht. Der Zyklus wird in diesem Fall als inkonsistent bezeichnet . Daher gibt es ein Problem im Zusammenhang mit dem Vorhandensein inkonsistenter Zyklen in der Grafik projektiver Abbildungen, da bei idealer Verklebung Widersprüche in der Grafik projektiver Transformationen auftreten muss abwesend sein


    Beschreiben wir den Algorithmus zum Abgleichen des Graphen projektiver Transformationen, d. H. Zum Abgleichen aller seiner Zyklen. Um den akkumulativen Fehler zu minimieren, der sich beim Schließen des Zyklus in der Grafik projektiver Transformationen manifestiert, wird das Konzept der SLAM-Methode (Simultaneous Localization And Mapping) angewendet [9].


    Betrachten Sie in jedem Frame vier Punkte in der allgemeinen Position. Lassen Sie die Frames nummerieren bis zu , dann werden die vier Punkte mit bezeichnet wo . Ein solcher Satz von vier Punkten Definiert eindeutig ein einzelnes Koordinatensystem, da Sie für zwei beliebige Frames eine projektive Zuordnung eindeutig finden können, die einen Quadruple-Punkt in einen anderen übersetzt.


    Um eine Gruppe von Vierfachpunkten zu finden, die den gewünschten konsistenten Graphen definieren, können Sie die Methode der kleinsten Quadrate verwenden. Wir minimieren die Funktion, die der Summe aller Kanten des Satzes entspricht zählen und für jede Kante - die Summe von vier Punkten von . Um eine Lösung zu finden, die das Funktionelle minimiert, wird vorgeschlagen, die Methode des konjugierten Gradienten zu verwenden.



    Nach jedem Frame gibt es eine projektive Transformation, die die Position des Frames auf der Karte eindeutig angibt. Sie können ein Bild des Panoramas erhalten.


    Experimentelle Ergebnisse


    Bisher gibt es keine universelle Methode zur Beurteilung der Qualität von Klebebildern. Die Qualität der Verklebung wird in der Regel organoleptisch von Experten bewertet, für die wissenschaftliche Forschung ist jedoch eine quantitative, automatisch berechnete Qualitätsbewertung vorzuziehen.


    Um die Qualität der Verklebung ohne die Teilnahme eines menschlichen Experten beurteilen zu können, ist eine Standardverklebung erforderlich, mit der das Ergebnis verglichen wird. Der Ansatz, bei dem die Verklebung aus einem realen Video erhalten wurde und die Standardverklebung eine Fotografie des gesamten Objekts ist, erfordert gute Laborbedingungen unter Verwendung eines Manipulators, der die Position der Kamera im Raum physikalisch fixieren kann. Diese Qualitätsbewertungsmethode ist jedoch kostspielig.


    In [10] schlagen die Autoren vor, mit einem hochauflösenden Bild ein künstliches Video zu erstellen, dessen Rahmen projek- tiv verzerrte Bereiche des Originalbildes sind, um die Qualität der Kleberpanoramen zu quantifizieren (siehe Abb. 9). Alle Frames außer dem ersten sind projektiv verzerrt, da ein einzelnes Koordinatensystem relativ zum ersten Frame angegeben wird. Ferner werden diese künstlichen Videoframes in einem Panorama zusammengeklebt, das weiter mit dem ursprünglichen Referenzbild verglichen wird. Mit diesem Ansatz ist es möglich, Probleme hinsichtlich des Helligkeitsunterschieds zwischen der resultierenden und der Referenzverklebung sowie der Verzerrung der Szene zu vermeiden.



    Abbildung 9 - Originalbild und Bilder eines künstlichen Videos


    Um die Qualität der Verklebung vor und nach dem Abgleichen der Grafik zu vergleichen, wurde eine Testprobe von 50 Bildern erstellt, und aus den Originalbildern, die zum Verkleben verwendet wurden, wurden 50 künstliche Videos erstellt (siehe Abb. 10). Alle resultierenden Panoramen wurden auf die Größe der Originalbilder reduziert und für jedes Panorama wurde das Fehlermaß berechnet:



    wo - Bildhöhe, - Bildbreite, - Pixelintensität Panorama auf dem Roten Kanal erhalten ( - grüner Kanal, - blauer Kanal), - Pixelintensität Quellbild auf dem roten Kanal ( - grüner Kanal, - blauer Kanal).



    Abbildung 10 - Panorama vor der Genehmigung der Grafik (RMSE = 35.3) und danach (RMSE = 14.2)


    In der grafischen Darstellung des RMSE auf der Testprobe sieht das folgendermaßen aus (vgl. Abb. 11):



    Abbildung 11 - RMSE im Testgerät. Die Rahmen werden in aufsteigender Reihenfolge nach RMSE sortiert, bis der Graph übereinstimmt.


    In Übereinstimmung mit jedem Wert des quadratischen Fehlerwerts vor dem Abgleich werden die Werte des quadratischen Fehlerwerts nach dem Abgleich des Graphen dargestellt. Der mittlere RMSE-Wert der Testprobe vor dem Abgleichen des Diagramms beträgt 35,5 , nachdem das Diagramm abgeglichen wurde - 13,9 .


    Fazit


    Basierend auf den Ergebnissen des Vergleichs der Verklebungsqualität kann gefolgert werden, dass die Übereinstimmung des Graphen den akkumulierten Fehler signifikant verringert und die Verklebungsqualität des Panoramas verbessert. Es sollte jedoch beachtet werden, dass die Koordination des Graphen nur helfen kann, wenn Zyklen im Graphen projektiver Transformationen vorhanden sind. Wenn keine Zyklen in der Grafik projektiver Transformationen vorhanden sind, verschlechtert das Modul zur Grafikanpassung die Qualität der Panorama-Stitching nicht.


    Es ist erwähnenswert, dass diese Methode des Abgleichens des Graphen mit einer Reihe von projektiven Transformationen arbeitet und die Art und Weise, wie diese projektiven Transformationen gefunden wurden, für diese Methode keine Rolle spielt.


    In Zukunft soll die Komplexität des Algorithmus optimiert werden, da er nur für "Offline" -Anwendungsfälle anwendbar ist.


    Literatur


    [1] Gubin A.Yu., Kovin R.V. Eine einfache Herangehensweise an die Aufgabe, überlappende Bilder in ein Panorama zu kleben. // X Internationale wissenschaftliche und praktische Konferenz von Studierenden, Doktoranden und Nachwuchswissenschaftlern "Jugend und moderne Informationstechnologien", p. 79-81, 2012.
    [2] Drummond T., Rosten E. Maschinelles Lernen für die Erkennung von High-Speed-Ecken // 9. Europäische Konferenz über Computer Vision (ECCV), S. 27. 430-443, 2006.
    [3] Unterscheidende Bildmerkmale von Lowe DG aus skaleninvariablen Eckpunkten // International Journal of Computer Vision, p. 91-110, 2004.
    [4] Bay H., Ess. A., Yuitelaars T., Van Gool L. SURF: Beschleunigte robuste Funktionen // Computer Vision und Image Understanding, v. 110, p. 346–359, 2008.
    [5] Martin A. Fischler, Robert C. Bolles. Stichproben-Konsens: Comm. der ACM, v. 24, p. 381–395, 1981.
    [6] Arlazarov VL, Bulatov KB, Chernov TS Die Methode der Fuzzy-Bildsuche in großen Videodatenmengen // High Availability Systems, Band 12, Nr. 1, p. 53-58, 2016.
    [7] N. Skoryukina et al. Snapscreen: TV-Stream-Frame mit Verzerrung und rauschender Abfrage // 9. Internationale Referenz für Bildverarbeitung (ICMV) - Proc. SPIE V. 10341, S. 103410Y, 2017.
    [8] Die Implementierung der Implementierung des affinen Lucas-Kanade-Feature-Trackers Bouguet JY Pyramidal: Zerstörung des Algorithmus // Intel Corporation, V. 5, p. 1-10, 2001.
    [9] Newman P., Ho K. SLAM-Schleife mit visuell auffälligen Merkmalen // IEEE Proc. der Internationalen Konferenz für Robotik und Automatisierung, p. 635-642, 2005.
    [10] Paalanen P., Kamarainen JK, Kalviainen H. Bildbasierte quantitative Mosaikanalyse mit künstlichem Video. // Skandinavische Konferenz für Bildanalyse, Springer (Berlin, Heidelberg), p. 470–479, 2009.


    Jetzt auch beliebt: