Wir kämpfen mit Fehlern und "Krücken" in der USRLE - dem staatlichen Register der juristischen Personen



    Letzte Woche haben wir einen Artikel über das  Incorporation- Gerät veröffentlicht - ein Staatsregister mit den Daten von 10 Millionen Unternehmen. In diesem Material geht es um grundlegende Dinge, also ist es besser, damit zu beginnen.

    Hier werden wir ein reichhaltiges und fruchtbares Thema enthüllen - Probleme der Eingliederung, die unsere Entwickler nicht langweilen lassen.

    Die XML-Struktur bricht regelmäßig zusammen.


    2017 brachten Aktualisierungen alle zwei oder drei Monate XML-Dateien in das falsche Format. Es gibt einen vollständigen Satz: unbekannte Tags, nicht geschlossene Tags, nicht übereinstimmender Datentyp. Beispielsweise wird das Typdatum in xsd angegeben, und tatsächlich ist eine unverständliche Zeile vorhanden.

    In diesem Fall müssen Sie dem technischen Support schreiben und demütig warten. Mehr kann man nicht tun. Aber ich muss zugeben, dass es 2018 keine Probleme gab, alles ist klar.

    Und im vollen Entladen für 2015 liegt das kaputte XML, das niemals repariert werden wird. Das FTS sagte, dass es davon wusste, aber nicht beabsichtigte, es zu reparieren: Nehmen Sie zum Beispiel die folgenden Updates.

    Aktualisierungen werden in Ordnern mit längst vergangenen Daten angezeigt.


    Situation: Sie haben das vollständige Nachschlagewerk für Anfang 2018 heruntergeladen und alle Aktualisierungen und Rollupdates täglich angewendet. Sie sind entspannt und ungestört, weil Sie wissen, dass Ihre Datenbank die aktuellsten Daten zu juristischen Personen enthält.

    Aber Sie haben dennoch eine Tatsache übersehen: Heute Abend hat der Federal Tax Service nicht nur ein weiteres Update veröffentlicht, sondern auch neue Dateien in einen drei Monate alten Ordner gepflanzt. Wessen, Ihre Basis ist irrelevant.

    Es gibt zwei Arten von Backdating-Updates:

    • bestehende Dateien ändern;
    • neue hinzufügen.

    Um etwas zu entfernen, haben wir nicht gesehen.

    Kämpfe hier gegen alles. In unserem lokalen Verzeichnis befindet sich die aktuelle Datenscheibe vom FTS-Server - der Standard. Jede Nacht laden wir absolut alle Archive vom Unified State Registration Server herunter und vergleichen sie mit dem Standard.

    Neue Dateien werden eindeutig gefunden als: Im lokalen Verzeichnis existieren sie einfach nicht. Vergleichen Sie die Prüfsummen, wenn es sich um eine Datei handelte, deren Änderungsdatum in der Referenzdatenbank und in den neuen Datenbanken jedoch abweicht. Wenn sie unterschiedlich sind, nimm eine neue xml-ku und wende das Update an.

    Aber es gibt eine Nuance! Manchmal sind bei einem Update-Backdating irrelevante Informationen enthalten, die dann nicht mehr verwendet werden können. Jetzt wird es ein leicht verworrenes Beispiel geben, achte auf deine Hände.

    Beispielsweise wurde am 21. Mai ein Update für Chamomile LLC veröffentlicht. Es liegt im Ordner 21.06.2008 . Und am 22. Mai legte der Federal Tax Service die Datei in das Verzeichnis20.06.2008 , da steckt auch was von "Kamille" drin. Das werden wir nicht anfassen. Obwohl die neue Datei frisch ist, ist ihr Inhalt aufgrund des Updates am 21. Mai irrelevant.

    Die Aufzeichnungen verschwinden zwischen den Jahren


    Es scheint , dass , wenn Sie das Archiv übernehmen 01.01.2015_FULL und konsequent rollte vorwärts alle Updates für das Jahr 2015, Sie Daten aus erhalten  01.01.2016_FULL . Und nein!

    Die übliche Situation aus unserer unvollkommenen Welt:

    1. Während des gesamten Jahres 2016 ist nichts über das Unternehmen im Register verzeichnet. Nicht im vollständigen Archiv zu Beginn des Jahres, noch in den Updates.
    2. Am  01.01.2017_VOLL taucht die Firma plötzlich auf und lebt das ganze Jahr leise.
    3. Und dann bam - in  01.01.2018_FULL Unternehmen nicht wieder. Wenn Sie Glück haben, wird sie später in einem der Updates kommen, aber es ist überhaupt keine Tatsache.

    Etwa 1000 juristische Personen verschwinden von Jahr zu Jahr.


    Diese wundervolle LLC wurde nur einmal in das Unified State Register of Companies eingetragen: im Update vom 21.02.2017. Das Unternehmen ist nirgendwo anders zu finden,

    und es wird daher nicht möglich sein, zu Beginn des Jahres die vollständige Entladung vorzunehmen und alle Aktualisierungen auf diesen Tag anzuwenden. Entschuldigen Sie, dass ich 2015 anfange, sonst sind Ihre Unables unvollständig.

    Xsd ändert sich plötzlich


    Seit 2015 hat der FTS einige Male plötzlich xsd geändert. Es sieht so aus: Das Update kommt, Sie versuchen es nach dem alten Format zu zerlegen, aber es passiert nichts. Aufmunterung!

    Sich an den neuen xsd anzupassen, ist im Allgemeinen alltäglich. Das Problem ist, dass niemand vor den Änderungen warnt. Kunstflug - Hängen Sie eine Anzeige in einem beliebigen Bereich der FTS-Website auf, in der Regel jedoch nicht. Sie werden alles in der Tat lernen.

    Es ist nicht klar, wie man Zweige identifiziert


    Wie bereits im vorherigen Artikel erwähnt, handelt es sich bei den Zweigen der Unified Statements Incorporation nicht um separate Datensätze, sondern um Attribute juristischer Personen. Nach dem Gesetz können Zweigniederlassungen und Repräsentanzen nicht für sich allein existieren, weshalb sie im Protokoll der Hauptgesellschaft geführt werden.

    Unsere Kunden haben jedoch ihre eigenen Bedürfnisse: Sie erbringen Dienstleistungen für Niederlassungen anderer Unternehmen, unterzeichnen gemeinsame Dokumente mit ihnen und unterhalten Niederlassungen in ihren Buchhaltungssystemen als separate Einheiten. Aus diesem Grund werden wir Niederlassungen und Repräsentanzen von Incorporation in separate Karten umwandeln und mit dem Stammsatz verknüpfen.

    Erstellte Zweigkarten müssen identifiziert werden. Die Struktur der Gründung sieht KPP, abgekürzten Namen, vollständigen Namen und sogar den lateinischen Namen vor. Damit es aber noch mehr Spaß macht, gibt der FTS garantiert nur die Adresse ein. Anzeigen von Zweigen, nicht von Adressen derselben Ausgabe.


    Ein typisches Beispiel: Die Filialen in der Entladung haben nur die Adresse.

    Zuerst schauen wir noch im Feld mit dem abgekürzten Namen: Da liegt plötzlich etwas. In 50% der Fälle ist das Feld nicht wirklich leer, aber es ist noch zu früh, um sich darüber zu freuen: Der Name ist möglicherweise für alle Zweigniederlassungen einer juristischen Person gleich. Als Bezeichner ist dies nicht nützlicher als ein leeres Feld.

    Wenn der Filialname leer oder nicht eindeutig ist, erstellen wir ihn selbst.

    Nehmen Sie zum Beispiel alle LLC "Daisy". Es hat drei Zweige mit leeren Namen und solchen Adressen:

    • Moskau, Turchaninov Lane;
    • Moskau, Ozerkovskaya Damm;
    • St. Petersburg, Newski-Prospekt.

    Wir nehmen diese Daten über das Unternehmen, das heißt, und wandeln sie in eine aussagekräftige Kennung für den Namenszweig um.

    1. Fügen Sie dem Namen das Wort "Branch" oder "Division" hinzu, für USR gaben sie verschiedene Attribute an.
    2. Wir geben im Namen den Kurznamen der Hauptorganisation an. Jetzt haben wir drei identische Namen "Branch Romashka LLC".
    3. Nimm die Adressen von Filialen und in Klammern werden die Namen der verschiedenen Teile der Adressen hinzugefügt.

      Wir weisen die Adresse dem eindeutigen Teil zu: für die ersten beiden Zweige von „Kamille“ ist es die vollständige Adresse, und für die dritte - nur „St. Petersburg“. Wenn alle Städte unterschiedlich wären, würden sie nur Städte zu den Namen der Zweigstellen hinzufügen.

    In unserem Beispiel sehen die Zweige folgendermaßen aus:

    • "Filiale Romashka LLC (Moskau, Turchaninov Lane)";
    • "Branch Romashka LLC (Moskau, Ozerkovskaya Embankment)";
    • "Filiale Romashka LLC (St. Petersburg)".

    Ja, wenn eine Zweigstelle im Unified State Register of Companies einen Namen hat, der jedoch nicht eindeutig ist, überspringen wir die ersten beiden Schritte. Wir fügen den Adressteil zu diesem nicht eindeutigen Namen hinzu.

    Adresse für den namen nehmen wir maximal auf die straße, denn die hölle beginnt mit dem heimteil wie "dmvld 3, r. 5, pom. 14/51, of. 145 ". Dies zu zerlegen ist schwierig, aber als Teil des Zweignamens sieht es lächerlich aus. Deshalb vereinigen wir Zweige, die sich in derselben Straße befinden. Es gibt sogar verschiedene Filialen im selben Gebäude! Zum Glück gibt es nur wenige.

    Einfach nehmen und verbinden, die Registrierkasse funktioniert nicht


    Zusätzlich zu den aufgelisteten Problemen ist das Unified Statements Register voll von Fehlern auf der Ebene von Symbolen, Adressen und anderen Kleinigkeiten. Wenn Sie beispielsweise anstelle von "LLC" drei Nullen im Verzeichnis finden, wundert es Sie nicht einmal.

    Es gibt auch Adressen mit Fehlern, wo ohne. Zum Beispiel ist „Leningrad“ anstelle von „St. Petersburg“ ein sehr wichtiger Fall. Eine bodenständigere Version: Die Adresse der Organisation Zheleznodorozhny der Moskauer Region wird als Stadt bezeichnet, obwohl sie sich bereits seit mehreren Jahren in der Nähe von Balashikha befindet.

    Tatsächlich ist das Nachschlagewerk in Ordnung, da im einheitlichen Register der Rechtsdienste die Details der wesentlichen Dokumente der Organisation gespeichert sind. Um jedoch mit der Datenbank zu arbeiten und danach zu suchen, müssen die Daten in die Realität umgesetzt werden. Unsere Benutzer suchen nach Organisationen in St. Petersburg, die nicht einmal in Leningrad registriert sind.

    Daher ist es eine weitere Aufgabe, die Unified Statements zu parieren und eine Basis zu schaffen, die für die industrielle Nutzung geeignet ist. Lassen Sie mich an die Bände erinnern: Wenn Sie ein vollständiges Nachschlagewerk für Anfang 2015 und alle Aktualisierungen für heute nehmen, erhalten Sie 100 Millionen Datensätze.

    Für das Parsen der Incorporation haben wir einen Algorithmus geschrieben: Am Eingang erhält er alle Einträge von 2015 und am Ausgang gibt er 10 Millionen aktuelle. Irgendwo in einer Stunde fertig. Ein wichtiger Teil des Prozesses ist unser Single Client- Produkt . Er ordnet die Daten: Adressen bereinigen, Duplikate finden, Tippfehler korrigieren.

    Wenn Sie komplexe Nachschlagewerke analysieren, die Daten strukturieren und einem Menschen näher bringen möchten, kommen Sie zu uns, um zu arbeiten. Jetzt suchen wir einen Javista, das Gehalt beträgt 195.000-250.000 vor dem Abzug, Details sind auf hh.ru. Und Sie brauchen auch QA: von 115.000 bis 150.000 ₽, die Details auf dem gleichen hh .

    Jetzt auch beliebt: