Disaster Recovery-Planung. Zweiter Teil

    Immer bereit für alle Stürze




    Dies ist die Fortsetzung einer Reihe von Veröffentlichungen zur Disaster Recovery-Planung. In einem früheren Artikel haben wir uns mit der Definition einer Planungszone und der Ermittlung von Fehlerquellen befasst, die zu Störungen bei den Benutzerdiensten führen können. Der nächste Schritt besteht darin, basierend auf den Informationen zu den Ausfallpunkten die minimal möglichen Fristen für die Beseitigung von Vorfällen zu bestimmen, die von technischen Spezialisten mit allen erforderlichen Ressourcen bereitgestellt werden können.

    Tatsächlich werden die erforderlichen Ressourcen mit der Unternehmensleitung weiter ausgehandelt, um ein Gleichgewicht zwischen Investitionen in Informationstechnologie, Ausfallzeiten und Datenverlust im Falle eines Ausfalls zu finden. Dies ist jedoch später, aber vorerst müssen wir bestimmen, welche Art von Wiederherstellungszeit wir im Falle eines Ausfalls im Prinzip aus der IT-Infrastruktur herausholen können. Lass uns gehen:

    1. Machen Sie sich bereit, um fehlerhafte Elemente schnell zu erkennen - wir erstellen Lokalisierungsverfahren

    Die größte Ausfallzeit tritt auf, wenn ein Spezialist für technischen Support hartnäckig versucht, den Mail-Client auf dem Computer des kontaktierenden Benutzers zu reparieren, während der Mail-Server selbst repariert werden muss. Unsere Aufgabe in dieser Phase ist es, sicherzustellen, dass Informationen über kritische Ausfälle schnell die richtigen Spezialisten finden, die Arbeiten zur Wiederherstellung des Dienstes ausführen können, ohne sie umsonst zu stören. Um dies zu tun, haben wir:

    • Wir erstellen Verfahren zur Überprüfung der Funktionsweise von Benutzerdiensten und Fehlerquellen. Im Rahmen des Abhängigkeitsprogramms ( Artikel 1 ) sollte ein Spezialist für technischen Support in der Lage sein, den Betrieb des Benutzerdienstes und die Fehlerquellen, von denen seine Arbeit abhängt, zu diagnostizieren.
    • Konfigurieren Sie die Fehlerüberwachung. In einigen Situationen können Probleme vor Benutzern gemeldet werden. In anderen Fällen können einige Fehlerpunkte von der Liste der Verdächtigen ausgeschlossen werden.
    • Wir legen die Regeln für die Eskalation fest. Informieren Sie den zuständigen Systemadministrator unverzüglich, falls Probleme auftreten, die das Unternehmen betreffen. Beeinträchtigung der Einheit - Lokalisierung (nicht länger als 5 Minuten) und Einschaltung der entsprechenden Fachkräfte zur Wiederherstellung oder Benachrichtigung des diensthabenden Systemadministrators, wenn die Ursache des Ausfalls nicht lokalisiert werden konnte usw.
    • Wir stellen Spezialisten für technischen Support zur Verfügung, damit sie die Rolle verschiedener Infrastrukturelemente in der Arbeit von Benutzerdiensten verstehen, über gemeinsame Fähigkeiten zur Fehlerdiagnose verfügen, ihre Ziele und Vorgaben verstehen und keine Angst haben, ältere Genossen erneut zu stören, wenn etwas passiert.

    Danach können Sie die Zeit für die Lokalisierung des Fehlers in Bezug auf jeden der Fehlerpunkte abschätzen. Der größte dieser Werte ist Ihre „Lokalisierungszeit“, die für weitere Berechnungen von Nutzen ist.

    2. Wir ermitteln die notwendigen Ressourcen und Bedingungen für die Wiederherstellung

    Bei der Notfallwiederherstellung können vier Phasen unterschieden werden:

    1. Benutzerdienst funktioniert nicht.
    2. Der Benutzerdienst funktioniert mit Einschränkungen (schlechte Qualität oder Problemumgehung).
    3. Der Benutzerdienst wurde vollständig wiederhergestellt, jedoch mit dem Verlust eines oder mehrerer IT-Systeme und / oder dem Fehlen der erforderlichen Reserven.
    4. Alle IT-Systeme werden wiederhergestellt, die notwendigen Reserven werden aufgefüllt.

    Bei der Planung einer Notfallwiederherstellung sind wir in erster Linie an den erforderlichen Ressourcen und Bedingungen für das Erreichen der dritten Stufe interessiert, da dies eine notwendige und ausreichende Voraussetzung für die vollständige Wiederherstellung des Endbenutzerdienstes ist. Dies ist normalerweise:

    • Geräte mit ähnlicher Funktionalität und Leistung reservieren.
    • Sicherungskopien von Daten / Konfigurationen und deren Zugriff zum Zeitpunkt des Unfalls.
    • Softwareverteilungen.
    • Zugriff auf Hardware und Anwendungen (sowohl physische als auch Kennwortinformationen).
    • Fachkraft mit einschlägigen Qualifikationen.

    Abhängig von den Ausfallstellen kann eine Besonderheit eingeführt werden: Im Falle einer Stromversorgung ist entweder ein Dieselmotor oder eine Backup-Plattform zum Starten der Systeme erforderlich. Im Falle eines Ausfalls der USV ist eine Umschaltung auf den Netzstrom erforderlich. Im Falle eines Ausfalls des externen DNS-Hostings sind die Kontaktinformationen gemäß einer Vereinbarung mit dem Registrar erforderlich um eine Domain auf ein neues Hosting zu übertragen, etc.

    Schreiben Sie alle notwendigen Ressourcen auf, binden Sie sie an die Fehlerstellen und markieren Sie, welche Sie bereits haben und welche Sie noch benötigen.

    3. Wir bestimmen die garantierte Mindestwiederherstellungszeit des Benutzerservices

    Im Allgemeinen ist das Verfahren zum Wiederherstellen eines Benutzerdienstes wie folgt:



    Die größte Schwierigkeit in dieser Phase besteht darin, die garantierte Zeit zum Wiederherstellen des Fehlerpunkts zu bestimmen. Im Wiederherstellungsverfahren gibt es nur einen Weg mit einem vorhersehbaren Zeitraum - wenn nach einer kleinen, aber ausreichenden Untersuchung der Fehlerursachen eine vollständige Wiederherstellung des Fehlerorts durchgeführt wird. Ja, in den meisten Fällen ist das Beheben eines Fehlers schneller als das Ausführen einer vollständigen Wiederherstellung. Sie können jedoch jederzeit nur im zweiten Szenario garantieren, und aus diesem Grund können wir uns nur darauf konzentrieren.

    Das Wiederherstellen einer Fehlerstelle bedeutet jedoch nicht immer das Wiederherstellen des Benutzerdienstes, da abhängige Fehlerstellen auch fehlerhaft sein können (siehe Abhängigkeitsdiagramm inerster Artikel ). Nachdem Sie auf der Grundlage dieses Schemas das längstmögliche Szenario ermittelt haben, erhalten Sie die „minimale Wiederherstellungszeit“ des Benutzer-Service, die der IT-Service dem Unternehmen garantieren kann. Wenn dieser Zeitraum auch Ihrer Meinung nach alle vernünftigen Grenzen überschreitet, ist dies ein Anlass, über seine Optimierung nachzudenken:

    • Machen Sie eine Vorernte, um die Erholung zu beschleunigen.
    • Reduzieren Sie den Zeitaufwand für die Untersuchung von Vorfällen (erhöhen Sie die Wahrscheinlichkeit von Datenverlusten).
    • Ändern Sie die Architektur der Fehlerquellen, um die Wiederherstellungsgeschwindigkeit zu erhöhen.

    Tatsächlich sollten Ihre Schlussfolgerungen zu den Restaurierungsbedingungen und den Methoden ihrer Reduktion dokumentiert werden - sie werden später im Dialog mit der Führung nützlich sein. Dies hätte diese Phase beenden können, wenn nicht einige Überraschungen bestanden hätten, die wir noch nicht berücksichtigt haben:

    4. Wir ermitteln die Risikofaktoren des Disaster Recovery-Verfahrens und planen Maßnahmen zu deren Kontrolle

    Wie unangenehm es ist, zum Zeitpunkt des Unfalls herauszufinden, dass kein Benzin im Generator ist oder dass die Batterie leer ist, dass die Anweisungen zur Notfallwiederherstellung (ganz zu schweigen von Passwörtern) auf demselben Server gespeichert wurden, der abgestürzt ist, und dass der Sicherheitsdienst des Gebäudes nachts einfach niemanden in den Serverraum gelassen hat Zeit oder was für ein dringend benötigtes Backup wurde für mehrere Monate hintereinander nicht erstellt.

    Um dies zu verhindern, müssen Sie im Voraus die Gründe ermitteln, aus denen Sie möglicherweise nicht zur richtigen Zeit, am richtigen Ort und in der richtigen Qualität die erforderlichen Ressourcen erhalten. Planen Sie anschließend Aufgaben (oder ganze Ereignisse), mit denen Sie Risikofaktoren kontrollieren und, wenn nicht vollständig ausgeschlossen, zumindest deren Auswirkungen auf die Notfallwiederherstellung reduzieren können. Ein Beispiel für solche Aufgaben ist:

    • Überprüfung der Richtigkeit von Backups,
    • Qualitätskontrolle der Backup-Kommunikationskanäle,
    • Überwachung der Verfügbarkeit notwendiger Ausrüstungsreserven,
    • Überwachung des Status von unterbrechungsfreien Stromversorgungen und Generatoren,
    • Analyse der Konformität der Pläne zur vollständigen Wiederherstellung des aktuellen Zustands,
    • usw.,

    Vergessen Sie natürlich nicht, die Verfahren zur vollständigen Wiederherstellung der Fehlerstellen direkt zu testen.

    Ich empfehle, dass Sie die Häufigkeit der Ausführung von Routineaufgaben nach eigenem Ermessen festlegen, basierend auf der Kritikalität des Risikofaktors, der Wahrscheinlichkeit seines Auftretens und der Komplexität der Aufgaben, um ihn zu kontrollieren. Ich erinnere Sie daran, dass Sie zur Ausführung von Routineaufgaben und damit zur Kontrolle von Risikofaktoren möglicherweise zusätzliche Ressourcen benötigen.

    5. Definieren Sie Situationen, die über die Planung hinausgehen



    Die stärksten negativen Auswirkungen auf das Geschäft sind nicht auf einzelne (oder aufeinander folgende) Ausfälle zurückzuführen, auf die die Techniker in gewissem Maße vorbereitet sind, sondern auf Situationen höherer Gewalt, die zum parallelen Zusammenbruch mehrerer identischer Systeme führen. Brände, starke Spannungsspitzen, Virenangriffe und sogar illegale Handlungen Dritter können nicht nur schwerwiegende Schäden verursachen, sondern auch das Geschäft zum Scheitern bringen. In solchen Situationen ist es schwierig, den Begriff "operative Wiederherstellung" zu verwenden, aber es gibt eine Reihe von Maßnahmen, die den Schlag abmildern können:

    • Das Problem der Datensicherung im Falle höherer Gewalt zu lösen. Der Speicherort für Sicherungsmedien sollte nicht nur das Büro des Unternehmens sein, sondern beispielsweise auch eine Bankzelle. Wenn das Unternehmen mehrere Standorte hat, können Sie Cross-Backup bereitstellen.
    • Priorisieren Sie die Wiederherstellung von Benutzerdiensten. Es gibt immer eine Sache, ohne die ein Unternehmen nicht überleben kann - alles andere wird warten.
    • Reserven gegen den Einfluss höherer Gewalt sichern. Wenn die Reserven voll ausgestattet sind, werden Sie mindestens einen Dienst auf ihnen starten.
    • Bereiten Sie einen Sicherungsstandort für die Bereitstellung vor (oder skizzieren Sie ihn zumindest). Obwohl in der Wohnung des Generaldirektors - im Krieg sind alle Mittel gut.

    Generell ist das Thema der Planung höherer Gewalt ein eigenständiges großes Thema. Im Rahmen der Disaster Recovery-Planung wird dieser Begriff eher für Situationen verwendet, die nicht in den Wiederherstellungszeitraum fallen. Typischerweise klingen solche Situationen wie "gleichzeitiger Ausfall von zwei oder mehr Geräten oder Software derselben Klasse", weil In den seltensten Fällen verfügt jemand über doppelte Reserven und einen Stab von Spezialisten, die in der Lage sind, parallel an zwei oder mehr identischen Systemen zu arbeiten. Nichtsdestotrotz sind die Situationen anders, und in Ihrem Fall wird das Management möglicherweise ein solches zusätzliches Maß an Zuverlässigkeit anstreben.

    Wenn Sie alle Schlussfolgerungen zusammenfassen, können Sie die erforderlichen Ressourcen und regulatorischen Aufgaben festlegen, um die Wiederherstellungszeit von Benutzerdiensten in der vorhandenen IT-Infrastruktur zu minimieren, und eine Liste von Situationen hervorheben, in denen kein Zeitrahmen garantiert werden kann. Schematisch wird Ihr Plan so aussehen: Es



    bleibt nur, ihn mit den Realitäten und Bedürfnissen des Unternehmens zu korrelieren und zusammen mit der Führung eine Lösung zu finden, die allen passt, aber mehr dazu im nächsten Artikel.

    Teil 1: habrahabr.ru/post/225719
    Teil 3: habrahabr.ru/post/228115

    Erfolg!

    Ivan Kormachev
    IT-Abteilung Unternehmen
    www.depit.ru

    Jetzt auch beliebt: