Archivierung als Antwort auf das "Frühlingspaket"



    Eine der Hauptnachrichten der letzten Tage ist die Unterzeichnung des sogenannten „ Frühlingspakets “. Der Höhepunkt des Programms ist die Anforderung, Datenverkehr für bis zu sechs Monate und Metadaten für drei Jahre zu speichern. Aus dieser Gesetzesinitiative sind umfassende Gesetze geworden, die eingehalten werden müssen. In der Tat geht es um die weitverbreitete Erstellung von ständig aktualisierten Archiven, die die Lösung verschiedener Probleme erfordert, einschließlich derer, die mit der Auswahl geeigneter Speichersysteme zusammenhängen.

    Das Archivieren von Datenverkehr und Metadaten erfordert keinen schnellen Zugriff. Diese Informationen werden nicht für die täglichen Aktivitäten von Unternehmen verwendet, sondern sollten nur auf Anfrage der Behörden gespeichert werden. Dies erleichtert die Erstellung von Archiven erheblich und macht es möglich, deren Architektur zu vereinfachen.

    Im Allgemeinen sollte das Archiv fünf Hauptfunktionen ausführen:

    • Daten für zukünftige Verwendung speichern.
    • Sicherstellung des kontinuierlichen Benutzerzugriffs auf gespeicherte Daten.
    • Gewährleistung der Vertraulichkeit des Zugriffs.
    • Entlastung der Arbeitssysteme durch Übertragung statischer Daten in das Archiv.
    • Verwendung von Speicherrichtlinien.

    Der Verkehr und die von den Nutzern übermittelten Metadaten zeichnen sich durch eine große Vielfalt und mangelnde Struktur aus. Hinzu kommt das enorme Volumen und die Geschwindigkeit des Informationswachstums, die besonders für große Unternehmen und Dienstleistungen charakteristisch sind, und Sie erhalten die klassische Definition von Big Data. Mit anderen Worten, Änderungen in der Gesetzgebung erfordern eine massive Lösung des Problems der Speicherung von Big Data, die in Archivsystemen ständig und mit großer Geschwindigkeit ankommt. Archive sollten daher nicht nur leistungsfähig sein, sondern auch eine hervorragende horizontale Skalierbarkeit aufweisen, so dass es bei Bedarf relativ einfach wäre, die Speicherkapazität zu erhöhen.

    Big Data Archivierung


    Um diese Probleme zu lösen , ist Plattform EMC Info Archiv , von denen wir schrieben vor einem Jahr. Es handelt sich um eine flexible und leistungsstarke Archivierungsplattform der Enterprise-Klasse, die aus einer Kombination von Speichersystemen (NAS oder SAN) und einer Software-Archivierungsplattform besteht.

    Zu den Vorteilen von InfoArchive gehören:

    • Unterstützung internationaler Standards, einschließlich Open XML- und OAIS- Standards (Open Archival Information System)
    • hohe Sicherheit der gespeicherten Daten,
    • die Bequemlichkeit der Verwaltung großer Mengen strukturierter und unstrukturierter Daten,
    • sowie umfangreiche Konfigurations- und Skalierungsmöglichkeiten.

    InfoArchive besteht aus folgenden Komponenten:

    • Webanwendung : Die Hauptanwendung, die einfachen Zugriff auf die meisten Einstellungen und Funktionen des Systems bietet.
    • Server : Archivierungsdienste für Web Server.
    • XML Repository (xDB) : Speicherdienste für InfoArchive Server. Die xDB-Datenbank ist in der InfoArchive-Distribution enthalten und wird automatisch als Teil des Kernels installiert.
    • Shell [optional] : Ein Befehlszeilentool zum Ausführen von Verwaltungsaufgaben, Hinzufügen von Daten, Verwalten und Abfragen von Objekten.
    • Das Framework zum Hinzufügen von Daten [optional] .


    Allgemeine InfoArchive-Architektur:



    Abhängig von Sicherheit, Lizenzierung und anderen Überlegungen kann InfoArchive auf einem einzelnen Host installiert oder auf mehrere Hosts verteilt werden. Im Allgemeinen wird jedoch empfohlen, beim Erstellen eines Repositorys die einfachste Architektur zu verwenden, um die Verzögerung bei der Datenübertragung zu verringern.

    Die logische Architektur von InfoArchive sieht folgendermaßen aus:



    Server können vertikal skaliert werden oder sich auf verschiedene Funktionen von REST-Diensten "spezialisieren" - Daten hinzufügen, suchen, verwalten usw. Auf diese Weise können Sie einen beliebigen Grad an Skalierbarkeit implementieren und das Archiv entsprechend den Anforderungen erweitern. Mit dem „klassischen“ HTTP-Balancer kann der Lastausgleich problemlos durchgeführt werden.

    xDB


    Eine der Schlüsselkomponenten von InfoArchive ist das automatisch bereitgestellte xDB-Datenbankmodul. Ihre Eigenschaften bestimmen weitgehend die Fähigkeiten des gesamten Systems. Schauen wir uns diese Komponente genauer an.

    In xDB werden XML-Dokumente und andere Daten in einer integrierten, skalierbaren, leistungsstarken und objektorientierten Datenbank gespeichert. Dieses DBMS ist in Java geschrieben und ermöglicht es Ihnen, sehr große Datenmengen mit hoher Geschwindigkeit zu speichern und zu bearbeiten. Das xDB-Transaktionssystem entspricht den ACID- Regeln : Atomizität, Konsistenz, Isolation und Haltbarkeit.

    Physikalisch besteht jede Datenbank aus einem oder mehreren Segmenten . Jedes Segment ist in einer oder mehreren Dateien verteilt.und jede Datei besteht aus einer oder mehreren Seiten .

    Die Beziehung zwischen der physischen und der logischen Struktur von xDB:



    Der sogenannte Page Server , der Datenseiten an Front-End-Anwendungen (Client-Anwendungen) überträgt, fungiert in xDB als Back -End-Anwendungsserver. In Umgebungen, in denen der Zugriff auf die Datenbank von einem einzelnen Anwendungsserver aus erfolgt, ist die Leistung normalerweise besser, wenn der Seitenserver in derselben JVM wie der Anwendungsserver ausgeführt wird.

    Wenn der Seitenserver andere Aufgaben ausführt, wird er als interner Server bezeichnet . Und wenn Sie verhängen keine zusätzliche Aufgaben auf die Seite Server, heißt es ein dedizierter Server(dedizierter Server). Ein dedizierter Server in Kombination mit einer TCP / IP-Verbindung zwischen ihm und den Clients weist im Vergleich zum internen Server eine bessere Skalierbarkeit auf. Je größer das Archiv ist, desto mehr verschiedene Front-End-Anwendungen greifen auf den Seitenserver zu und desto mehr Argumente sprechen dafür, ihn zu einem dedizierten Server zu machen.

    XDB-Clustering


    xDB kann sowohl auf einem einzelnen Knoten als auch in einem Cluster bereitgestellt werden - mithilfe einer Shared-Nothing-Architektur mit Apache Cassandra . Sie müssen Cassandra nicht verstehen, obwohl die Kenntnis der Grundlagen die Konfiguration und Verwaltung des Clusters erleichtert.

    Das Clustering von xDB erfolgt durch horizontale Skalierung, bei der Daten physisch auf mehrere Server (Datenknoten) verteilt werden. Sie haben kein gemeinsames Dateisystem und interagieren über das Netzwerk miteinander. Cluster verwenden auch Konfigurationsknoten, die vollständige Informationen über die Struktur des Clusters enthalten.

    Sowohl ein einzelner Knoten als auch ein Cluster fungieren als logischer Datenbankcontainer. Der Seitenserver arbeitet mit dem Datenverzeichnis des Knotens - einer Struktur, die eine oder mehrere Datenbanken enthält. Jeder Knoten enthält einen eigenen Seitenserver, und alle diese Server werden über einen Konfigurationsknoten gruppiert.

    Dank des xDB-Clusters können InfoArchive-Benutzer mit hoher Geschwindigkeit mit Big Data arbeiten. Dies gilt insbesondere für die permanente Aufzeichnung des Benutzerverkehrs großer Webdienste und Telekommunikationsanbieter: Ein einzelner Knoten kann sich gegen den Prozessor und / oder die Kapazität des Festplattensubsystems abstützen.

    Cluster-Beispiel:



    xDB-Cluster besteht aus drei Arten von Komponenten:

    • Datenknoten . Informationsspeicher. Jeder Knoten fungiert als separater Back-End-Server, der Anforderungen anderer Cluster-Mitglieder überwacht und entgegennimmt. Mit den Treibern des Clients können Sie den Cluster so darstellen, als bestünde er aus einem einzelnen Knoten. In diesem Fall sollte der Treiber nicht direkt mit Datenknoten verbunden werden, sondern nur über Konfigurationsknoten.
    • Konfigurationsknoten . Sie speichern Metadaten mit Informationen zu allen Datenknoten: Datenbanken, Segmente, Dateien, Benutzer, Gruppen und Datenverteilung nach Knoten. Wenn die Konfigurationsknoten ausfallen, stirbt der Cluster. Daher sollte der Inhalt dieser Knoten dupliziert werden.
    • Treiber Kunden . Remote-xDB-Treiber, die mithilfe der Bootstrap-URL mit einem der Konfigurationsknoten initialisiert wurden. Anwendungen interagieren mit dem Cluster über den Client-Treiber, um beispielsweise neue Datenbanken zu erstellen, Informationen zwischen Knoten zu verschieben, neue XML-Dokumente hinzuzufügen usw. Der Client-Treiber sendet automatisch Datenanforderungen an die entsprechenden Datenknoten und konzentriert sich dabei auf die Informationen der Konfigurationsknoten.

    Datenpartitionierung


    Die Verteilung der Daten in xDB erfolgt auf der Ebene der abnehmbaren Bibliotheken. Eine nicht verbundene Bibliothek ist ein Datenblock, der innerhalb eines Clusters verschoben wird. Sie werden normalerweise zur Partitionierung verwendet. Jede Bibliothek wird immer an einen beliebigen Datenknoten gespeichert oder gebunden. Gleichzeitig kann ein Knoten Bibliotheken speichern, die mit anderen Knoten verknüpft sind.

    Mit deaktivierten Bibliotheken können Sie auch das Ungleichgewicht in der Clusterleistung bekämpfen. Wenn beispielsweise einige Datenknoten im Cluster überlastet sind, werden möglicherweise einige Bibliotheken auf andere Knoten übertragen.

    Mögliche Anwendung der Datenpartitionierung in InfoArchive:



    Verwenden von EMC Isilon für EMC InfoArchive


    Sie können EMC Isilon als Speichersystem für InfoArchive verwenden - ein horizontal skalierbares Netzwerkspeichersystem, das die Funktionalität des gesamten Unternehmens bietet und es Ihnen ermöglicht, das wachsende Volumen an Archivdaten effektiv zu verwalten. Die Cluster-Architektur, die EMC Isilon zugrunde liegt, ermöglicht die Kombination von Benutzerfreundlichkeit und Zuverlässigkeit in einem System sowie die Gewährleistung eines linearen Volumenwachstums und der Systemleistung.

    Anfänglich kann das System relativ klein sein, aber im Laufe der Zeit kann seine Größe erheblich zunehmen. Mit der EMC Isilon-basierten Lösung können Sie ab 18 TB ein System aufbauen und in einem einzigen Dateisystem auf bis zu 50 PB anwachsen. Mit dem Wachstum der Volumes wächst nur die Anzahl der Knoten im Cluster. Ein einziger Verwaltungspunkt und ein einziges Dateisystem werden gespeichert. Somit kann EMC Isilon effektiv als ein einziges konsolidiertes Speichersystem und über den gesamten Lebenszyklus der Informationsspeicherung hinweg verwendet werden. Dieser Ansatz vermeidet die Verwendung verschiedener Speichersysteme, was die Implementierung, Wartung, Erweiterung und Modernisierung des Systems vereinfacht. Infolgedessen sind die Kosten für den Betrieb und die Wartung einer einzelnen EMC Isilon-Lösung erheblich niedriger als bei einer Lösung, die aus mehreren herkömmlichen Systemen besteht.

    Auf diese Weise ergänzt EMC Isilon Storage die InfoArchive-Archivierungsplattform effektiv.

    Hauptvorteile:

    • Die Integration in die SmartLock-Software bietet Kompatibilität mit einem einzigen WORM-Schema (Write, Multiple Read) auf Datenbank- und Speicherebene, um ein versehentliches, vorzeitiges oder böswilliges Ändern oder Löschen von Daten zu verhindern.
    • Kostensenkung und Infrastrukturoptimierung. Der skalierbare NAS von Isilon bietet eine Speicherauslastung von mehr als 80%, während Isilon SmartDedupeTM den Speicherbedarf um weitere 35% senkt.
    • EMC Isilon, das auf EMC Federated Business Data Lake basiert, unterstützt HDFS, sodass alle Datentypen in InfoArchive für alle Arten von Hadoop bereitgestellt werden können.
    • Mit EMC Isilon können Sie Speicherressourcen schnell und ohne Ausfallzeiten hinzufügen, Daten manuell migrieren oder die Anwendungslogik neu konfigurieren, wertvolle IT-Ressourcen sparen und Transaktionskosten senken.

    Beispiele aus dem Leben


    Am Ende des Artikels geben wir einige Beispiele für die Verwendung von InfoArchive zum Erstellen verantwortungsbewusster Archivierungssysteme.

    Beispiel 1 . Das Unternehmen verarbeitet Finanztransaktionen, die Daten werden in komprimiertem XML in 12 simultanen Streams archiviert, etwa 20 Millionen Vorgänge pro Tag (etwa 320 GB XML), 3,6 Millionen / 56 GB pro Stunde, 1017 Vorgänge / 16 MB pro Tag zweitens.



    Die Belastung beim Hinzufügen von Daten und die Suchleistung hängen nicht von der Anzahl der bereits archivierten Objekte ab. Die Verarbeitung einer Diskriminanzanforderung dauert ungefähr 1 Sekunde (1 Ergebnis), nichtdiskriminant - 4 Sekunden (200 Ergebnisse).

    Beispiel 2 . Bei einem anderen Kunden werden die Daten in Form von AFP-Dokumenten, strukturierten und unstrukturierten Daten archiviert.

    Durchschnittliche / Spitzenlast pro Tag:

    • 0,5 / 4 Millionen Dokumente
    • 20/60 Millionen Datensätze
    • 50.000 / 70.000 Suchvorgänge

    Systemleistung beim Hinzufügen von Daten zum Archiv:

    • 1,5 Millionen Dokumente pro Stunde in 12 simultanen Streams (ca. 60% der Zeit werden für die Konvertierung von AFP nach PDF aufgewendet),
    • oder 45 Millionen strukturierte Datensätze pro Stunde in 10 simultanen Streams.

    Dies entspricht weniger als 0,5% der theoretischen Maximalleistung der im Projekt verwendeten EMC Centera-Speichersysteme.



    • Die durchschnittliche Dokumentensuchzeit beträgt 0,5 Sekunden.
    • Die durchschnittliche Empfangszeit eines Dokuments beträgt 1,5 Sekunden.
    • Die durchschnittliche Suchzeit für strukturierte Daten unter 1 Milliarde Datensätzen beträgt 2,5 Sekunden.
    • Bis zu 15.000 Suchvorgänge pro Stunde.

    Fazit


    Die Unterzeichnung des „Frühlingspakets“ ist ein schwieriger Test für die gesamte IT- und Telekommunikationsbranche. Die schwierige Aufgabe, zahlreiche schnelle und umfangreiche Archive zu erstellen, kann mit Hilfe von EMC InfoArchive gelöst werden - einem Paket von Speichersystemen und einer auf xDB DBMS basierenden Softwareplattform, die zahlreiche Möglichkeiten zur Skalierung und Konfiguration bietet.

    Jetzt auch beliebt: