Rechenzentrumsbetrieb: Was Sie selbst tun müssen


    Ich überprüfe auf der Checkliste die Wartung der USV durch den Auftragnehmer.

    Hallo habr Ich heiße Cyril of Shad. Jetzt entwerfe und baue ich Rechenzentren und Server. Zuvor leitete er lange Zeit den DataLine-Rechenzentrumsbetrieb (damals rund 3.000 Racks). Zusammen mit meinem Team habe ich ein Uptime-Audit für Management und Operations mit einer Punktzahl von 92 von 100 bestanden, und auch mit meinen Kollegen, die an der NORD 4-Zertifizierung teilgenommen haben und Auftragnehmer.


    Es ist schwierig, ein Rechenzentrum allein oder von einem Auftragnehmer zu steuern . Im Laufe meiner Erfahrung habe ich keine einzige Option in ihrer reinen Form getroffen, hauptsächlich eine Art Hybrid. Was Ihr Team tun wird und was die Auftragnehmer sind, bestimmt jedes Unternehmen für sich, basierend auf Finanzen, Komfort, der Verfügbarkeit qualifizierter Ingenieure (versuchen Sie, einen Spezialisten für DDIBP in Tula zu finden) und manchmal auch der Politik. Egal wie wunderbar Ihr Auftragnehmer ist, es gibt Momente, die Sie selbst am besten überlassen. Wir werden weiter unten darauf eingehen.


    Was ist der gesamte Betrieb des Rechenzentrums / Servers


    Bevor wir die Operation zwischen unserem eigenen Team und dem Auftragnehmer teilen, erinnern wir uns, was in diesem Prozess enthalten ist. Ich werde nicht auf jeden Punkt näher eingehen - zu diesem Thema können Sie ganze Bücher schreiben. Ich werde nur die Hauptpunkte hervorheben, die bedingt in technische und organisatorische unterteilt werden können .


    Technische Punkte:


    • Wartung von technischen Geräten und Systemen;
    • reparieren;
    • Ersatz / Modernisierung;
    • Überwachung und Umwege / Inspektion von Geräten und Systemen;

    Organisatorische Highlights:


    • Aufzeichnungen (Anweisungen, Vorschriften);
    • Sammlung und Analyse von Statistiken über Geräteausfälle und Reparaturen;
    • Kauf, Lagerung von Ersatzteilen und Verbrauchsmaterialien;
    • Kontrolle über die Installation von IT-Geräten;
    • Wartungsplanung, Zuordnung von Arbeitsaufträgen;
    • Schulung und Ausbildung des Personals.

    Was kann nicht an den Auftragnehmer gegeben werden


    Alles, was im technischen Teil steht, kann und muss ausgelagert werden. In diesem Fall haben Sie nur die Funktion, Auftragnehmer zu verwalten und zu kontrollieren. Wer dies von Ihrer Seite aus tun sollte, werde ich etwas weiter unten erläutern.


    Mit der organisatorischen Komponente wird es schwieriger. Fast alle dieser Listen müssen unabhängig voneinander erstellt werden. Mal sehen warum.


    Aufzeichnungen . Vorschriften und Anweisungen sind erforderlich, um sicherzustellen, dass das gesamte Betriebsteam die gleichen Vorstellungen von Prozessen und Algorithmen für Aktionen hat (z. B. Testen des Dieselaggregats). Und damit das „heilige Wissen“ bei dem kranken oder ausscheidenden Ingenieur Vasya nicht verschwindet. Theoretisch kann die Dokumentation auch einem Auftragnehmer anvertraut werden, zumal nicht jeder Serveringenieur mit Papierstücken umgehen kann oder will. Die Wahrheit ist jedoch, dass niemand Ihre Prozesse besser kennt als Sie. Alle Änderungen im Auge zu behalten und die Aktualität der Dokumentation aufrechtzuerhalten, ohne ständig an der Site zu arbeiten, gehört zur Kategorie „Mission unmöglich“. Alternativ ist es möglich, gemeinsam mit dem Auftragnehmer eine Dokumentation zu erstellen und deren Relevanz bereits vor Ort zu überwachen.


    Erhebung und Analyse von Statistiken . Die Situation ist ungefähr die gleiche wie im vorherigen Absatz, daher nehmen wir einen Stift / eine Tastatur und schreiben methodisch die „Krankengeschichte“ jeder Klimaanlage, DGU und weiter unten die Liste der Geräte auf. Einmal im Quartal, sechs Monate oder mindestens ein Jahr schauen wir dort nach, um zu verstehen, was und wie oft wir ausfallen. Diese Informationen sind nützlich, wenn Sie ein Budget für den Betrieb erstellen, Ersatzteile planen und feststellen, ob es Geräte gibt, die nicht mehr repariert werden können und die komplett geändert werden müssen.



    Liste der Pannen und Arten von Reparaturen für eine der Klimaanlagen.


    Kontrolle über die Installation von IT-Geräten und Energieverwaltung . Viele vergessen es, aber vergebens. Ein IT-Spezialist sah eine freie Einheit und steckte in der Ausrüstung fest. Er sah nicht, ob in diesem Rack genügend Strom vorhanden war, ob es kalt war und ob es im Allgemeinen richtig installiert war . Und dann sind alle Beschwerden an den Betriebsingenieur wegen blinkender Stromversorgung (aufgrund der Tatsache, dass der Server mit einem Netzteil ohne ATS oder beide Netzteile an die gleiche PDU angeschlossen sind) oder wegen lokaler Überhitzung des Geräts.
    Um die Anzahl der Probleme in diesem Bereich zu verringern, machen Sie klare Anweisungen und Checklisten für die an der Installation der Geräte Beteiligten und überprüfen Sie regelmäßig, wie die IT-Geräte installiert sind (besonders sorgfältig, wenn die Raumlast 50% übersteigt). Die Häufigkeit der Inspektionen hängt davon ab, wie oft neue Geräte im Maschinenraum auftauchen.



    Ein Algorithmus zum Verarbeiten einer Anforderung für die Installation neuer Geräte.


    Arbeitsplanung (Wartungs- und Arbeitsaufträge) . Gemeinsam mit dem Auftragnehmer vereinbaren wir einen Arbeitsplan, der auf der Arbeitsbelastung des Personals basiert (in einer Woche sollten nicht alle Systeme bearbeitet werden). Wir erteilen auch Arbeitsaufträge und stimmen mit dem Auftragnehmer die Form der Arbeitsannahme (Bescheinigung, Checkliste usw.) ab.


    Budgetierung . Mach es besser selbst. Je nachdem, wie Sie es haben, monatlich, vierteljährlich oder sofort für ein Jahr, betriebsbereit oder investitionsbereit. Ich schreibe separat über die Budgetierung. Wenn Sie es dem Auftragnehmer geben, raten Sie, was mit dem Budget passieren wird? Richtig, höchstwahrscheinlich wird er wachsen. Dies wird nicht einmal aufgrund der Söldnerabsicht des Auftragnehmers geschehen, sondern nur, weil er sich nicht so große Sorgen um das Speichern macht, wie Sie es tun würden.


    Selbst wenn Sie es irgendwie geschafft haben, dem Auftragnehmer all das zu geben, wird es nicht funktionieren, mit den Beinen auf dem Tisch zu sitzen und nur Rechnungen zu bezahlen: Auftragnehmer müssen geschult und beaufsichtigt werden .


    Auftragnehmer müssen zuerst unterrichtet werdendes LebensArbeitsregeln im Rechenzentrum und Server. Darüber hinaus gibt es "nicht trinken, rauchen oder rudern" technische Nuancen. Zum Beispiel sollte der Auftragnehmer von Ihnen erfahren, dass es bei der Wartung von Klimaanlagen nicht möglich ist, mehr als eine Verbindung gleichzeitig zu trennen. Vor dem Trennen müssen Sie überprüfen, ob die übrigen Klimaanlagen ordnungsgemäß funktionieren.


    Die Kontrolle über den Zugang zur Einrichtung bleibt ebenfalls auf Ihren Schultern. Überprüfen Sie die Relevanz der Listen, den Zeitplan für den Zugriff auf das Objekt (rund um die Uhr oder nur an Werktagen), das Vorhandensein von Krusten für die elektrische Sicherheit und andere erforderliche Zertifikate - Ihre und nur Ihre Aufgabe.


    Denken Sie im Allgemeinen daran, dass Sie und nicht der Auftragnehmer letztendlich für die Leistung des Servers oder Rechenzentrums verantwortlich sind.



    Auszug aus den Arbeitsregeln in unseren Rechenzentren für Auftragnehmer.


    "Chefingenieur" - verantwortlich für alles


    Die Anzahl der Mitarbeiter in Ihrem Betriebsservice hängt von der angegebenen SLA, dem Umfang der Infrastruktur und der geplanten Eigenleistung ab. Ich werde Ihnen die universelle Formel nicht nennen, aber darauf können Sie sich verlassen.


    In welchem ​​Modus erbringen wir Dienstleistungen? Wenn Sie rund um die Uhr arbeiten, benötigen Sie einen 24-Stunden-Support von mindestens vier Mitarbeitern, die in vier Schichten arbeiten - ein Tag in drei. Wenn 8x5, dann werden die Leute halb so viel brauchen.


    Wie viele Ingenieure brauchen Sie? Hier hängt vieles von den Funktionen ab. Wenn Sie nur der Überwachung folgen müssen, ist eine ausreichend, wenn Sie Umwege machen müssen - mindestens zwei Personen. Wenn Sie etwas mit Ihren Händen tun müssen (Frequenzweichen ziehen, Ausrüstung montieren, Filter in Klimaanlagen wechseln), dann brauchen Sie drei.


    Bewahren Sie Ersatzteile und Verbrauchsmaterialien zu Hause auf? Wenn Sie fast alles lagern, benötigen Sie einen Ladenbesitzer oder einen Einkäufer, der die Salden überwacht und neue bestellt.


    So sieht das Team unserer NORD 2720 Rack-Site aus.




    Der Name der Stellen und die Anzahl der Personen sind von Fall zu Fall unterschiedlich, es muss jedoch in jeder Situation eine Funktion vorhanden sein. Dies ist die Funktion, verantwortlich zu sein. Herkömmlicherweise nenne ich diese Position "Chefingenieur". In unserer Hierarchie ist dies der Betriebsleiter. Seine Hauptaufgabe besteht darin, Entscheidungen zu treffen, die nicht besprochen werden: ob es notwendig ist, den Auftragnehmer für einen Notruf anzurufen, ob es möglich ist, die Reparatur der Reserveklimaanlage zu verschieben. Er gibt auch den Befehl, die Ausrüstung während der Wartung auszuschalten, dringende Reparaturarbeiten zu koordinieren, ungeplante Einkäufe vorzunehmen und die Operation zur Rettung des Rechenzentrums bei Unfällen durchzuführen. Es kann wie bei einem Schiedsgericht angesprochen werden, wenn sich der Betriebsingenieur oder Auftragnehmer plötzlich nicht mit dem Leistungstechniker auf Teststarts des Dieselaggregats einigen kann.


    Im Allgemeinen ist der „Chefingenieur“ letztendlich für die gesamte Betriebs- und Engineering-Infrastruktur für das Unternehmen oder die Kunden verantwortlich.


    Um es zusammenzufassen. Das Mindestprogramm für den Rechenzentrums- oder Serverbetriebsdienst lautet wie folgt:


    • Überwachung und Schulung von Auftragnehmern;
    • Regelung des Zugangs zur Einrichtung;
    • Zuordnung von Arbeitsaufträgen;
    • Koordination von Wartungsplänen;
    • Aufzeichnungen und Buchhaltung;
    • Analyse und Sammlung von Statistiken;
    • Budgetierung.

    Wenn Sie Fragen haben, eine persönliche E-Mail schreiben oder am 4. Juli zu meinem nächsten Seminar kommen , können Sie alles persönlich erfragen.


    Weitere Artikel zur Verwaltung der Engineering-Infrastruktur des Rechenzentrums und des Servers:


    Der Strompfad im Rechenzentrum
    Fehler in der Auslegung des Rechenzentrums, die nur während der Betriebsphase auftreten
    Informationen zum relevanten Betrieb des Rechenzentrums
    Testen von Dieselaggregaten im Rechenzentrum
    Überwachung der technischen Infrastruktur im Rechenzentrum. Teil 1. Highlights
    Überwachung der Engineering-Infrastruktur im Rechenzentrum. Teil 2. Stromversorgungssystem
    Wartung von Rechenzentrums-Engineering-Systemen: Was sollte im Arbeitsvertrag enthalten sein?
    Dumme Arten zu sterben oder warum Rechenzentren „fallen“


    Jetzt auch beliebt: