Erkennungsprobleme von ID-Dokumenten auf mobilen Geräten am Beispiel von maschinenlesbaren Zonen


    Abb. 1 - Russischer Pass mit MRZ-Zone (Bildquelle: en.wikipedia.org/wiki/Russian_passport )

    Hallo, wir möchten Ihnen heute die Funktionen der Aufgabe des Erkennens von Ausweisdokumenten mit einem Mobiltelefon erläutern. Als Beispiel betrachten wir das Problem der Erkennung von maschinenlesbaren MRZ-Zonen auf Bildern und auf Bildern eines Videostreams, der von einer Kamera eines Mobilgeräts empfangen wird.





    1. Was ist MRZ?



    Eine maschinenlesbare Zone (MRZ) ist Teil eines Identitätsdokuments, das gemäß den internationalen Empfehlungen in Doc 9303 - Maschinenlesbare Reisedokumente der Internationalen Zivilluftfahrt-Organisation erstellt wurde .

    Ein Beispiel für eine maschinenlesbare Zone, die gemäß diesen Empfehlungen hergestellt wurde, ist die MRZ von ausländischen Pässen von Bürgern der Russischen Föderation (Abb. 1 - unten).



    2. MRZ-Erkennung mit Scannern (einschließlich spezialisierter)



    Berücksichtigen Sie die Merkmale der Verwendung von Scangeräten bei der optischen Erkennung von Dokumenten. Beim Scannen befindet sich das Dokument in der Ebene senkrecht zur optischen Achse in einem festen Abstand von der Aufzeichnungsmatrix. Dies stellt sicher, dass das Originaldokument und sein Bild homothetisch sind und geringfügige Verzerrungen mit kleinen Abweichungen von diesem Ort leicht erkannt und korrigiert werden können. Während des Scannens bleibt das Dokument während der Belichtung stehen, daher werden Fehler (Unschärfen) des Bildes, die mit der Verschiebung des Originaldokuments zusammenhängen, beseitigt. Die Beleuchtung im Scanner erfolgt durch besonders leistungsstarke Hintergrundbeleuchtungslampen, die stabile Beleuchtungseigenschaften und Schattenfreiheit gewährleisten.

    Ein Spezialfall von Scangeräten sind spezialisierte Dokumentenlesegeräte und Hardware-Software-Systeme, bei denen das Bild nach den Prinzipien eines Flachbett-, Planeten- oder Schlitz-Scanners erhalten wird. Das Dokument in solchen Geräten wird entweder gegen das Glas gedrückt oder in einen speziellen Schlitz eingeführt (Abb. 2), wodurch die Verformung der gescannten Seite des Dokuments praktisch ausgeschlossen wird.


    Abb. 2 - Beispiele für die Dokumentposition bei Verwendung von Lesegeräten

    Mit diesen Lesegeräten können Sie Bilder von Dokumenten in verschiedenen Beleuchtungsarten (Weiß, Infrarot, Ultraviolett, Weiß im Licht) empfangen. In diesem Fall kann ein Schema mit weißer und infraroter Beleuchtung zur optischen Erkennung verwendet werden, das ein kontrastreiches Bild mit einem geringen Grad an Interferenz durch Hintergrundfüllung und Sicherheitselemente ergibt.


    Abb. 3 - Scannen eines Japan-Passes in Weiß und Infrarot (Bildquelle: bersisteknoloji.com.tr/index_htm_files/Regula%208703_en.pdf ) Die

    bekannte relative Position der Beleuchtungselemente (Lampen, LEDs) relativ zur Arbeitsfläche, auf der sich das Dokument befindet, kann vollständig beseitigt werden (während des Designprozesses des Geräts) oder die Blendungskompensation (während des Betriebs) erheblich vereinfachen.

    Je nach Modell können Sie mit dieser Art von Spezialgeräten Bilder mit einer Auflösung von 200 DPI oder höher empfangen, während die meisten Modifikationen die Möglichkeit bieten, Bilder zu erhalten, die für die optische Erkennung der Textauflösung (300-400 DPI) ausreichen.

    Somit liefern Scanvorrichtungen Bilder hoher Qualität mit minimaler Verzerrung, was eine optische Erkennung von Text mit hoher Qualität und hoher Zuverlässigkeit ermöglicht.



    3. Aufnehmen mit Kleinformat-Digitalkameras



    3.1. Häufige Probleme



    Im Vergleich zu Scannern ist das optische Design der Kamera komplexer und führt an sich zu einer stärkeren Verzerrung aufgrund von Aberrationen, Blendung und Reflexionen innerhalb des optischen Systems. Die Verwendung von Photosensoren (Matrizen) und analoger Elektronik durch Geräte zum Aufzeichnen von Bildern führt zwangsläufig zum Auftreten von Bildverzerrungen, die als digitales Rauschen bezeichnet werden. Die Quellen des digitalen Rauschens sind der Vorgang des Digitalisierens eines analogen Signals (Signalquantisierungsfehler, thermisches Rauschen und Ladungstransfer auf der Matrix) und dessen weitere Verstärkung. Digitales Rauschen ist auf dem Bild in Form einer auferlegten Maske aus Pixeln mit zufälliger Farbe und Helligkeit sichtbar. In monochromen Bildbereichen ist das Rauschen stärker zu bemerken, insbesondere im Dunkeln. Im Gegensatz zum Scannen, wenn eine gute Beleuchtung garantiert ist, Beim Aufnehmen mit Digitalkameras tritt häufig eine unzureichende Beleuchtung auf, während das digitale Rauschen naturgemäß stark verstärkt wird. Eine weitere Quelle für Verzerrungen sind Bildkomprimierungsalgorithmen, die insbesondere für Frames eines Videostreams typisch sind.


    Abb. 4 - Beispiele für verzerrte Bilder von MRZ-Dokumentsymbolen

    Abhängig von den Eigenschaften des Objektivs und der Position des Dokuments relativ zur Fokusebene kann das Dokumentbild teilweise oder vollständig unscharf sein. Tritt aufgrund der Bewegung des Dokuments selbst oder der Kamera während der Belichtung eine Verschiebung auf, tritt eine „Unschärfe“ auf (Abb. 5), die sich bei schlechten Lichtverhältnissen verstärkt.


    Abb. 5 - Beispiele für „unscharfe“ Symbolbilder

    3.2. Projektive und nichtlineare Verzerrung



    Im Gegensatz zu Scannern befindet sich das Dokument beim Aufnehmen mit einer Kamera in einer beliebigen Ebene relativ zur Ebene des fokussierten Bildes. Eine Abweichung von der Ebene senkrecht zur optischen Achse führt zu einer projektiven Verzerrung des Dokumentenbildes. Bei unwesentlichen Abweichungswinkeln kann ein maschinenlesbarer Bereich ohne zusätzliche projektive Korrektur erkannt werden. Im allgemeinen Fall ist es jedoch erforderlich, die Parameter der projektiven Basis auszuwerten und eine optische Erkennung für das projektiv korrigierte Bild zu erzeugen. In diesem Fall sind Fehler bei der Bestimmung der Parameter der projektiven Korrektur möglich, die zu geometrischen Verzerrungen der Symbolbilder führen. Darüber hinaus unterliegt das Originaldokument als Objekt der physischen Welt einer mechanischen Verformung. Zum Beispiel Dokumente, die auf Papier erstellt wurden, werden (meistens entlang oder quer zur Hauptrichtung des Lesens) „gebogen“ und „gewellt“. Manchmal treten „Wellen“ auf, wenn die Biegungen an verschiedenen Stellen der Seite multidirektional sind. Wenn Sie mit einer Kamera aufnehmen, ist es schwierig oder einfach unmöglich, sicherzustellen, dass keine derartigen Verformungen auftreten (Abb. 6).




    Abb. 6 - Verschiedene Verformungsoptionen Die

    mechanische Verformung einer Dokumentseite wird mit einer projektiven Bildverzerrung kombiniert. Die Zeichen im Bild, die an parallelen Linien im Quelldokument ausgerichtet sind, haben möglicherweise auch nach der projektiven Normalisierung keine Basislinien. Darüber hinaus werden nicht nur die Linien selbst verzerrt, sondern auch die Bilder einzelner Zeichen. Das heißt, selbst nach der korrekten projektiven Normalisierung des gesamten Dokuments unterscheidet sich das Bild des Symbols aus dem Bereich, der auf dem Originaldokument physisch deformiert ist, von dem Bild desselben Symbols aus dem nicht deformierten Bereich.


    Abb. 7 - Beispiele für verzerrte Bilder von Zeichen aufgrund von projektiven und nichtlinearen Deformationen

    3.3. Hintergrundprobleme



    Für eine maschinenlesbare Zone sollte nach ICAO 9303 der Textdruck visuell lesbar und schwarz sein (bei den Wellenlängen B425 - B680 gemäß ISO 1831) und die Tinte sollte auch im nahen Infrarotbereich (im Bereich von B900 gemäß ISO 1831) gut absorbieren Standard ISO 1831). Somit werden Kontrastanforderungen nur für den Infrarotbereich des Spektralbereichs gestellt. In der Praxis führt dies dazu, dass einige Länder bei Einhaltung der Norm zum Drucken der Hintergrundfüllung der maschinenlesbaren Zone Farben verwenden, die im Infrarotbereich „transparent“ und im optischen Bereich „dicht“ sind (Abb. 8).


    Abb. 8 - Beispiele für Zonen mit "dunkler" und "bunter" Füllung im optischen Bereich

    Bei kleinformatigen Kameras mobiler Geräte ist eine Infrarotaufnahme nicht möglich. Daher erschwert ein inhomogener Hintergrund den Prozess der optischen Zonenerkennung erheblich, insbesondere bei „erfolgloser“ Beleuchtung.

    Das Dokumentenbeleuchtungsschema in Scannern minimiert das Auftreten von Schatten und Glanzlichtern selbst für „glänzende“ Dokumentseiten. Beim Aufnehmen einer Kamera in natürlichen Szenen weisen Bilder häufig Helligkeitsschwankungen (Schatten, Reflexionen, Reflexionen usw.) und Farbverzerrungen auf, die die Bildanalyse und -erkennung erschweren, beispielsweise aufgrund des Verlusts vorhandener oder des Auftretens gefälschter Objektränder. Die Seiten der meisten Dokumente mit maschinenlesbarer Zone bestehen entweder aus Spezialkunststoff oder sind mit einer Schutzfolie beschichtet und haben gute Reflexionseigenschaften. Solche physikalischen Eigenschaften des Gegenstandes führen zu einer Blendung des Dokuments (Abb. 9). Darüber hinaus enthalten Dokumentsicherheitsfunktionen häufig Bereiche mit „holographischen“ Elementen, die das Bild ebenfalls verzerren.


    Abb. 9 - Fragmente der Zone: Streulicht einer ausgedehnten Lichtquelle, holographische Sicherheitselemente

    3.4. Probleme bei der Verwendung der OCR-B-Schriftart



    Berücksichtigen Sie die Auswirkungen der oben genannten Schwierigkeiten bei der Verwendung von Kleinformat-Digitalkameras auf die Erkennung einzelner Zeichen.

    Um Textzeilen in einer maschinenlesbaren Zone zu drucken, legt die ICAO 9303 eine gültige Teilmenge von OCR-B-Schriftzeichen fest, wobei einige Zeichen ähnliche Stile aufweisen.

    Am schwierigsten zu unterscheiden sind der Buchstabe "O" und die Zahl "Null", deren Bilder sich nur in Proportionen und einem geringfügigen Unterschied in der "Krümmung" unterscheiden. Die Unbedeutung von Stilunterschieden bei selbst geringen Verzerrungen oder nicht sehr hoher Auflösung führt dazu, dass selbst eine Person sie nur schwer oder gar nicht unterscheidet (Abb. 10).

    - - - - -
    Abb. 10 - Beispiele für schwer zu unterscheidende Zeichen 0 (null, links) und O (Buchstabe, rechts)

    Daher ist es im Allgemeinen unmöglich, eine hohe Bildqualität des Symbols zu garantieren, wenn kleinformatige Digitalkameras zum Erhalten von Dokumentenbildern verwendet werden. Dies führt zu einer deutlich geringeren Qualität und Zuverlässigkeit der Erkennungsergebnisse einzelner Zeichen, und die kontextbezogenen Verarbeitungsmechanismen spielen eine viel wichtigere Rolle (im Vergleich zum Scannen).



    4. Probleme des Sprachmodells



    In modernen Systemen zur Erkennung und Identifizierung strukturierter Dokumente werden statistische Korrekturmechanismen verwendet, um die Erkennungsgenauigkeit zu verbessern. Diese Mechanismen verwenden Informationen zur Struktur des Dokuments, zum „Kontext“ der Erkennung und stützen sich auf das Sprachmodell des erkannten Dokuments (oder des erkannten Felds). Es sind Algorithmen für eine solche statistische Korrektur oder Nachbearbeitung bekannt, die auf einer Gruppe verwandter Methoden basieren, wie beispielsweise Hidden-Markov-Modelle (HMM), Finite-State-Maschinen, N-Gramm- und Dictionary-Methoden sowie Mechanismen, die gewichtete finite Konverter (Weighted) verwenden Finite-State-Wandler (WFST).

    4.1. Kontextmacht



    Betrachten Sie ein Textfeld F. Vom Standpunkt der Struktur des Dokuments hat das Feld F eine semantische Struktur. In Bezug auf die Dokumentdarstellung weist das F-Feld auch eine syntaktische Struktur auf. Basierend auf der Semantik des Dokuments und der syntaktischen Struktur der Präsentation des Dokuments für das Feld können Sie ein Sprachmodell definieren. Beispielsweise sei F das Feld "Geburtsdatum des Inhabers" einer maschinenlesbaren Zone eines ausländischen Passes der Russischen Föderation. Dann enthält F gemäß der semantischen Struktur Informationen über das Jahr, den Monat und den Geburtstag des Inhabers. Da die MRZ des ausländischen Passes der Russischen Föderation gemäß den Empfehlungen der ICAO 9303 erstellt wird, wird in der MRZ-Datenstruktur für Feld F eine separate feste Position zugewiesen (zweite Zeile MRZ, Zeichen 14-19, mit einer Prüfsumme im 20. Zeichen) und der dafür definierten Syntaxstruktur: Das Datum wird im Format YYMMDD geschrieben, wobei YY die letzten beiden Dezimalstellen des Jahres sind, MM die Dezimalzahl der Monatszahl ist, DD die Dezimalzahl der Tageszahl im Monat ist oder in der Form Zeichenfolgen "<<<<<<" von sechs Platzhaltern, wenn das Geburtsdatum unbekannt ist. Die Prüfsumme wird als einzelne Dezimalstelle dargestellt und ihr Wert wird nach dem in den Empfehlungen der ICAO 9303 angegebenen Algorithmus berechnet.

    Basierend auf den spezifischen semantischen und syntaktischen Strukturen des Feldes können Sie ein Sprachmodell definieren, das die Menge der möglichen Feldwerte codiert. Es gibt verschiedene Möglichkeiten, ein solches Sprachmodell darzustellen, z. B. mit BNF-Grammatik oder als reguläre Sprache, die von einer Zustandsmaschine codiert wird. Eine der Möglichkeiten, das Sprachmodell darzustellen, besteht darin, eine Überprüfungsgrammatik G auf einer Menge aller Arten von Zeichenfolgen aufzubauen, die aus alphabetischen Zeichen bestehen und auf dem Prädikat des Wortes P basieren. das Wort S entspricht dem Sprachmodell G, wenn das Prädikat P den wahren Wert des Wortes S annimmt. Da die ICAO 9303 für jedes Feld einige Regeln vorsieht, die den Satz möglicher Feldwerte begrenzen (d. H. Das Prädikat P stärken), sowie den Prüfsummenmechanismus,

    Die Aufgabe der statistischen Korrektur des Erkennungsergebnisses des Feldes F mit der Prüfgrammatik G ist ganz einfach gestellt: Finden Sie in der gewichteten Menge möglicher Alternativwerte des Feldes F den Wert mit dem Maximalgewicht, bei dem das Prädikat P erfüllt ist. Wenn die Anzahl aller möglichen Werte von F endlich ist (z. B. ist die maximale Feldlänge begrenzt), können Sie "Kontextleistung" als das Verhältnis der Leistung des Prädikat-Falschheitsbereichs P zur Leistung der Menge aller möglichen Werte von F definieren. Je größer dieses Verhältnis, desto "leistungsfähiger" der Feldkontext und dementsprechend ist die Wahrscheinlichkeit einer erfolgreichen Korrektur des Erkennungsergebnisses umso größer. Beispielsweise sind von allen möglichen Zeichenfolgen der Länge 7, die aus Dezimalstellen bestehen, weniger als 0,4% gültige Daten (unter Berücksichtigung der Prüfsumme), und die Kontextstärke für dieses Feld überschreitet 99,6%.

    4.2. MRZ-Dokumentcode



    Das Feld „Dokumentcode“ ist eine zweistellige Kennung für einen MRZ-Dokumenttyp. Der Dokumentcode befindet sich ganz am Anfang der ersten Zeile der MRZ-Zone, unabhängig vom Typ des MRZ-Dokuments, und das Alphabet des ersten Zeichens ist fest vorgegeben ('P' für Pässe, 'V' für Visa, 'A', 'C' oder 'I' 'für andere Ausweisdokumente), mit denen Sie für dieses Zeichen ein ziemlich zuverlässiges Verfahren zur Korrektur des Erkennungsergebnisses aufbauen können. Das zweite Zeichen des Dokumentcodes liegt jedoch im Ermessen der ausstellenden Organisation. Da die allgemeine Prüfsumme (siehe Abschnitt 4.7) nicht für das Feld „Dokumentcode“ gilt, kann für das zweite Zeichen des Dokumenttyps kein Sprachmodell (zusätzlich zur allgemeinen Einschränkung des Alphabets) erstellt werden. Es ist auch erwähnenswert, dass es Organisationen gibt, die spezielle Dokumente ausstellen, die in ihrer syntaktischen Struktur an MRZ-Dokumente erinnern, aber nicht. Solche Dokumente können das erste Zeichen des Dokumentcodes enthalten, das nicht im ICAO-Standard 9303 vorgesehen ist. Ein Beispiel für solche Dokumente ist die MRZ-ähnliche Zone unter dem Führerschein der Republik Moldau der Stichprobe von 1995-2010 (Abb. 11). Die Struktur der MRZ-ähnlichen Zone in diesem Dokumenttyp stimmt mit der Struktur der Dokumente vom Typ TD-2 überein, die in der ICAO 9303 vorgesehen sind, mit Ausnahme des Felds „Dokumentcode“.


    Abb. 11 - MRZ-ähnliche Zone auf dem Führerschein von Moldawien Probe 1995-2010 (Bildquelle: www.skyscrapercity.com/showthread.php?t=1540248 )

    4.3. Code der ausstellenden Behörde und Staatsbürgerschaft



    Die Felder „ausstellender Staat / Behörde“ und „Staatsangehörigkeit“ bestimmen jeweils den eindeutigen Code der Organisation, die das Dokument mit der MRZ-Zone ausgestellt hat, und die Staatsangehörigkeit des Dokumenteninhabers. Diese Codes basieren auf dreibuchstabigen Staatscodes gemäß ISO 3166-1 mit einigen Erweiterungen (Codes, die speziellen Nichtregierungsorganisationen entsprechen, die zur Ausstellung von Ausweisdokumenten berechtigt sind, und Codes für Personen ohne eine bestimmte Staatsangehörigkeit wurden hinzugefügt). Das Sprachmodell beider Felder kann ein Wörterbuch sein - d.h. nur eine endliche Menge aller Arten von Drei-Buchstaben-Codes. Der Anteil gültiger Codes aus verschiedenen Wörtern mit drei Buchstaben beträgt ~ 1,4%, daher ist die Aussagekraft des Kontexts eines solchen Sprachmodells mit ~ 98,6% recht hoch.

    4.4. Name des Dokumenteninhabers



    Das Feld „Name“ ist eines der komplexesten Felder im Hinblick auf die Standardisierung, da die unterschiedlichen Namensstrukturen in verschiedenen Ländern und Sprachen berücksichtigt werden. Das ICAO-Dokument 9303 beschreibt einige Anforderungen für die Gestaltung eines Namens, anhand derer die Regeln für die Erstprüfung aufgestellt werden können: Das Feld „Name“ kann aus einem oder zwei Abschnitten bestehen, die durch zwei Platzhalterzeichen („<“) voneinander getrennt sind. Jeder Abschnitt kann aus einem oder bestehen mehrere Wörter durch einen Platzhalter getrennt. Jedes Wort sollte nur aus Buchstaben des lateinischen Alphabets bestehen. Die ICAO 9303 stellt keine zusätzlichen Überprüfungsmechanismen bereit (die Gesamtsumme des MRZ-Dokuments gilt nicht für das Feld "Name"). Für das Feld "Name" können Sie bekannte Methoden verwenden, um solche Felder nachzubearbeiten.

    4.5. Dokumentennummer und persönliche Nummer



    Die Felder "Dokumentennummer" und "Persönliche Nummer" (persönliche Nummer / optionale Daten) sind Felder mit einer schwach festgelegten syntaktischen Struktur, und daher ist es schwierig, einen ausreichend leistungsfähigen Mechanismus zur statistischen Korrektur zu konstruieren. Das Alphabet für diese Felder ist nicht begrenzt (d. H. Nur durch die im MRZ-Dokument möglichen Zeichen begrenzt). Wenn es eine Empfehlung für das Feld "Dokumentennummer" gibt, wonach die Nummer am Anfang und in der Mitte der Nummer keine Platzhalter enthalten soll (dh das Feld kann mit Platzhaltern auf die gewünschte Länge ergänzt werden, aber nur am Ende), dann die Syntaxstruktur des Feldes " persönliche Nummer “liegt ausschließlich im Ermessen der ausstellenden Organisation. Beide Felder haben eine Prüfsumme, aber auch damit ist die Wirksamkeit des Nachbearbeitungsmechanismus nicht hoch genug: Da das Alphabet sowohl Buchstaben als auch Zahlen enthält, verringert sich die Effizienz der Nachbearbeitung aufgrund der Besonderheiten bei der Berechnung der Prüfsumme nach dem in ICAO 9303 beschriebenen Algorithmus (siehe Abschnitt 4.7). Die Aussagekraft des Kontexts für beide Felder kann mithilfe des Ergebnisses anderer Felder, z. B. des Codes der ausstellenden Behörde, erhöht werden. Einige Organisationen, die Ausweisdokumente ausstellen, definieren ihre eigene syntaktische Struktur der Felder „Dokumentennummer“ und „Persönliche Nummer“. Dementsprechend kann die syntaktische Struktur der Felder "Dokumentennummer" und / oder "Persönliche Nummer" nach Erkennen des Feldes "Code der ausstellenden Behörde" (und Korrigieren siehe Abschnitt 4.3) geklärt werden, wenn die Einschränkungen der ausstellenden Organisation im Voraus bekannt sind. Die Nachverarbeitungseffizienz nimmt aufgrund der Merkmale der Berechnung der Prüfsumme mit dem in ICAO 9303 beschriebenen Algorithmus ab (siehe Abschnitt 4.7). Die Aussagekraft des Kontexts für beide Felder kann mithilfe des Ergebnisses anderer Felder, z. B. des Codes der ausstellenden Behörde, erhöht werden. Einige Organisationen, die Ausweisdokumente ausstellen, definieren ihre eigene syntaktische Struktur der Felder „Dokumentennummer“ und „Persönliche Nummer“. Dementsprechend kann, nachdem das Feld "Code der ausstellenden Behörde" erkannt (und korrigiert, siehe Abschnitt 4.3) wurde, die syntaktische Struktur der Felder "Dokumentennummer" und / oder "Persönliche Nummer" geklärt werden, wenn die Einschränkungen der ausstellenden Organisation im Voraus bekannt sind. Die Nachverarbeitungseffizienz nimmt aufgrund der Merkmale der Berechnung der Prüfsumme mit dem in ICAO 9303 beschriebenen Algorithmus ab (siehe Abschnitt 4.7). Die Aussagekraft des Kontexts für beide Felder kann mithilfe des Ergebnisses anderer Felder, z. B. des Codes der ausstellenden Behörde, erhöht werden. Einige Organisationen, die Ausweisdokumente ausstellen, definieren ihre eigene syntaktische Struktur der Felder „Dokumentennummer“ und „Persönliche Nummer“. Dementsprechend kann die syntaktische Struktur der Felder "Dokumentennummer" und / oder "Persönliche Nummer" nach Erkennen des Feldes "Code der ausstellenden Behörde" (und Korrigieren siehe Abschnitt 4.3) geklärt werden, wenn die Einschränkungen der ausstellenden Organisation im Voraus bekannt sind. Einige Organisationen, die Ausweisdokumente ausstellen, definieren ihre eigene syntaktische Struktur der Felder „Dokumentennummer“ und „Persönliche Nummer“. Dementsprechend kann die syntaktische Struktur der Felder "Dokumentennummer" und / oder "Persönliche Nummer" nach Erkennen des Feldes "Code der ausstellenden Behörde" (und Korrigieren siehe Abschnitt 4.3) geklärt werden, wenn die Einschränkungen der ausstellenden Organisation im Voraus bekannt sind. Einige Organisationen, die Ausweisdokumente ausstellen, definieren ihre eigene syntaktische Struktur der Felder „Dokumentennummer“ und „Persönliche Nummer“. Dementsprechend kann die syntaktische Struktur der Felder "Dokumentennummer" und / oder "Persönliche Nummer" nach Erkennen des Feldes "Code der ausstellenden Behörde" (und Korrigieren siehe Abschnitt 4.3) geklärt werden, wenn die Einschränkungen der ausstellenden Organisation im Voraus bekannt sind.

    4.6. Geburtsdatum und Ablaufdatum des Dokuments



    Die syntaktische Struktur der Felder "Geburtsdatum" und "Ablaufdatum" ist oben in Absatz (4.1) beschrieben. Diese Felder sind aus Sicht des Sprachmodells am erfolgreichsten - das Alphabet ihrer Zeichen ist fest vorgegeben (nur Zahlen, mit Ausnahme des separat betrachteten Falls eines unbekannten Datums) und auf der Grundlage der semantischen Struktur des Datumsfelds können Sie ein Sprachmodell mit einem ziemlich starken Kontext erstellen. Bei der Erstellung eines Algorithmus zur kombinierten Nachbearbeitung mehrerer Felder kann auch berücksichtigt werden, dass das Ablaufdatum eines Dokuments nicht vor dem Geburtsdatum des Inhabers liegen darf, sodass die Aussagekraft des Kontexts für die gemeinsame Berücksichtigung dieser Felder weiter erhöht werden kann.

    4.7. Prüfsummen



    Gemäß ICAO-Dokument 9303 wird eine Prüfsumme für die Felder "Dokumentennummer", "Geburtsdatum", "Ablaufdatum" und "Persönliche Nummer" bereitgestellt. Es ist auch eine sogenannte "zusammengesetzte Prüfziffer" vorgesehen, mit deren Hilfe die vier Felder erneut validiert werden. Die allgemeine Prüfsumme ist jedoch nicht für alle Arten von Dokumenten vorgesehen (sie fehlt bei den sogenannten MRV-A- und MRV-B-Visa - bei maschinenlesbaren Visa). Die Prüfsumme nimmt für jedes Feld ein Zeichen der MRZ-Zone an und wird wie folgt berechnet:

    • Jedem Feldzeichen wird sein Gewicht zugewiesen. Das erste Zeichen erhält eine Gewichtung von 7, das zweite von 3, das dritte von 1. Das vierte von 7, das fünfte von 3 usw. zyklische Wiederholung der Gewichte 7, 3 und 1.
    • Der Code jedes Zeichens wird mit seinem Gewicht multipliziert. Der Platzhalterzeichencode ('<') ist Null, der Code jeder Dezimalziffer ist der Wert dieser Ziffer, der Code jedes Buchstabens des lateinischen Alphabets ist 9 + <die Nummer des Buchstabens im Alphabet> (Der Code des Buchstabens 'A' ist 10, der Code von 'B' ist 11 und so weiter. Der Buchstabencode 'Z' ist 35).
    • Die daraus resultierenden Arbeiten sind zusammengefasst. Der Wert der Prüfziffer ist der Rest des empfangenen Betrags modulo 10.


    Da die letzte Summe der gewichteten Zeichencodes modulo 10 genommen wird, tritt eine signifikante Anzahl von Kollisionen auf. Besondere Schwierigkeiten ergeben sich durch Kollisionen mit Zeichenpaaren, die bei den Bedingungen für die Erkennung mobiler Geräte von der Kamera durch Einzelzeichenerkennungsmechanismen nur schwer zu unterscheiden sind (siehe Absätze 3.1, 3.2). Dieselben Codes (Modulo 10) haben also die Buchstaben 'F' und 'P', 'H' und 'R', 'G' und '6', 'S' und '8'. In Feldern wie „Dokumentennummer“ und „Persönliche Nummer“ können sowohl Ziffern als auch Buchstaben des lateinischen Alphabets gefunden werden. Die Hauptvalidierungsmethode ist die Prüfsumme. Wenn jedoch beim Erkennen einzelner Zeichen eines der Zeichen aus den obigen Paaren fälschlicherweise als das andere Mitglied dieses Paares erkannt wurde, ändert sich die Prüfsumme nicht und die Wahrscheinlichkeit
    Die Gewichte, mit denen die Zeichencodes des zu überprüfenden Feldes multipliziert werden, werfen ebenfalls Fragen auf. Zum Beispiel ergeben die Gewichte 7 und 3, die auf benachbarte Symbole angewendet werden, eine Summe von 10. Dies bedeutet, dass dieselben Symbole (oder unterschiedliche Symbole, aber mit denselben Codes modulo 10) nebeneinander mit den Gewichten 7 und 3 zusammen einen Beitrag von Null ergeben Prüfsumme, unabhängig davon, was diese Zeichen sind. Dies bedeutet wiederum, dass bei einer lokalen Verzerrung im Foto oder im Frame des Videostreams, auf dem das MRZ-Dokument erkannt wird, zwei benachbarte Zeichen mit einem Fehler erkannt wurden (z. B. wurde ein Ziffernpaar '00' als Buchstabenpaar erkannt). OO '), und diese beiden Zeichen befinden sich an den Positionen des Feldes mit den Gewichten 7 und 3, und können dann mithilfe der Prüfsumme nicht repariert werden.

    Um die Zuverlässigkeit des Mechanismus zur Validierung sensibler Daten zu erhöhen, bietet die ICAO 9303 eine gemeinsame Prüfsumme für einige Arten von MRZ-Dokumenten. Die Gesamtprüfsumme gilt jedoch nicht für das gesamte MRZ-Dokument, sondern nur für die Felder, die bereits durch eine eigene Prüfsumme geschützt sind.

    Aus der Sicht der Sprachmodellierung mit dem Ziel, Mechanismen zur Korrektur der Erkennungsergebnisse eines MRZ-Dokuments zu konstruieren, ermöglichen es einige von der ICAO 9303 bereitgestellte Felder, sehr leistungsfähige Kontexte zu erstellen. Für einzelne Felder (z. B. „Dokumentennummer“, „Persönliche Nummer“) würde die Definition einer strengeren syntaktischen Struktur jedoch die Erkennungsqualität erhöhen, und zwar sowohl in Systemen, die mit Kameras mobiler Geräte arbeiten, als auch in herkömmlichen Systemen, die auf Scannern basieren. Die Einführung von Prüfsummen für alle wichtigen Felder oder gemeinsamer Prüfsummen, die für das gesamte Dokument gelten, würde auch eine Verbesserung der Qualität und Zuverlässigkeit der Erkennung von MRZ-Dokumenten ermöglichen.



    5. Fazit



    Wir haben Ihnen die Hauptprobleme beschrieben, mit denen wir bei der Entwicklung unserer Software Smart 3D OCR MRZ - Softwareentwicklungskit für die Offline-Erkennung von MRZ-Dokumenten auf Mobilgeräten konfrontiert waren. Wir planen, Ihnen in Zukunft einen Übersichtsartikel zur Architektur und eine Reihe von Artikeln zu Algorithmen vorzustellen, die wir in unseren Entwicklungen zur Erkennung von Dokumenten in einem Videostream verwenden.

    Jetzt auch beliebt: