Rechenzentrum und digitale Transformation

    Die Energie- und Kühlungsinfrastruktur von Rechenzentren generiert heute etwa dreimal so viele Daten und Nachrichten wie vor 10 Jahren. Herkömmliche Fernüberwachungstools sind nicht für einen solchen Informationsfluss ausgelegt. Versuchen wir herauszufinden, wie Sie aus einer großen Datenmenge wertvolle Informationen extrahieren und die Effizienz des Rechenzentrumsbetriebs steigern können, und welche potenziellen Möglichkeiten sich daraus ergeben.



    Frühere Überwachungstools unterscheiden sich erheblich von modernen Tools für Cloud Computing, Analytics und mobile Anwendungen. Navigatoren und Fitness-Tracker sind bekannte Geräte geworden, aber in den meisten Rechenzentren werden moderne Technologien wie Big Data Analytics und maschinelles Lernen immer noch nicht verwendet, obwohl sie den Betrieb von Rechenzentren buchstäblich revolutionieren können. In Anlehnung an den inzwischen weit verbreiteten Begriff „digitale Transformation“ werden wir die Überwachung einer neuen Generation der digitalen Überwachung nennen.
    Funktion
    Traditionelle Fernüberwachung
    Digitale Fernüberwachung
    Online-Modus
    Nein
    Ja
    Ferndiagnose
    Normalerweise nicht
    Ja
    Network Operations Center (NOC)
    Ja
    Ja
    Incident Tracking
    Selten
    Ja
    Analytics
    Nein
    Ja
    Mobile Anwendung mit Betriebsbenachrichtigungen
    Nein
    Ja
    Chat
    Nein
    Ja
    Echtzeitüberwachung
    Nein
    Ja
    Sichere Netzwerkverbindung
    Kein netzwerk
    Ja
    Cloud-Speicher
    Nein
    Ja
    Status "in Ausführung"
    Nein
    Ja
    Unterstützte Geräte
    Normalerweise UPS
    Alle SNMP-Geräte

    Der Hauptunterschied zwischen digitaler Überwachung und herkömmlicher Überwachung besteht in der ständigen Verbindung zu einem Computer über einen dedizierten Kanal oder über das Internet und dem Einsatz der neuesten Technologien - vom maschinellen Lernen bis zum Internet der Dinge. Die herkömmliche Überwachung ist kein Onlinedienst und funktioniert nicht in Echtzeit. Sie werden lediglich per E-Mail über eine Statusänderung informiert.

    Die digitale Überwachung funktioniert online: Durch eine ständige Verbindung zum Rechenzentrum (normalerweise über ein Gateway) können Sie in Echtzeit arbeiten. Darüber hinaus werden IT-Services wie Cloud-Speicher und Datenanalyse verwendet.

    Bisherige Überwachungstools basierten auf einem PC, der eine begrenzte Datenmenge erfassen und darstellen konnte, und ermöglichten im Grunde genommen, nur in Abhängigkeit von der Interpretation der erhaltenen Informationen auf die Situation zu reagieren. Die digitale Fernüberwachung beseitigt diese Einschränkungen.

    Wem gehören die Informationen ...


    Die folgenden Trends wirken sich heute auf die Überwachung von Rechenzentren aus: produktive und kostengünstige eingebettete Systeme, Cybersicherheit, Cloud Computing, Big Data-Analyse, Mobile Computing und maschinelles Lernen.

    Eingebettete Systeme werden in fast allen Rechenzentrumsgeräten verwendet, einschließlich Kühlsystemen, USVs, Fernbedienungen, Kühlern usw., die deren Betrieb steuern. Sie liefern Daten zur Überwachung. In den letzten Jahren wurden diese Systeme hinsichtlich Rechen- und Kommunikationsfähigkeiten sowie Datenspeicherung erheblich verbessert. Gleichzeitig wurden sie billiger. Infolgedessen generieren die im Rechenzentrum verwendeten Geräte viel mehr Daten - mindestens dreimal so viel wie vor einem Jahrzehnt.


    Je mehr Daten - desto mehr nützliche Informationen enthalten sie.

    Gleichzeitig wird die Cybersicherheit zu einem immer ernsteren Problem. Dies gilt nicht nur für die Anfälligkeit von IT-Geräten, sondern auch für Rechenzentrumsinfrastruktursysteme. Bei der digitalen Fernüberwachung und anderen Cloud-Diensten sollten diese Risiken zunächst berücksichtigt werden, beginnend in der Entwicklungsphase und endend mit Sicherheitsrichtlinien. In der Regel wird ein Gateway (in der Regel ein Software-Gateway) als Netzwerkeinstiegspunkt verwendet, und alle Geräte arbeiten damit.


    Empfohlene digitale Überwachungsarchitektur.

    Clouds sind eine hoch skalierbare Methode zum Speichern und Verarbeiten von Daten. Cloud Computing ist die Basis für Fernüberwachungsdienste. Dienste wie Predictive Analytics und Maschinelles Lernen können in der Cloud funktionieren und das Potenzial der Fernüberwachung des Rechenzentrums aufzeigen und ihm wertvollere Funktionen verleihen.


    Mit maschinellem Lernen können Sie beispielsweise den PUE eines sehr komplexen Rechenzentrums wie dem Goggle-Rechenzentrum simulieren.

    Die Big-Data-Analyse mag exotisch erscheinen, wird heute jedoch für Dienste wie vorbeugende Wartung und Kapazitätsplanung verwendet. Dies ist erforderlich, wenn das Datenvolumen auf Petabyte-Werte ansteigt, unstrukturiert wird oder eine Echtzeitverarbeitung erforderlich ist. Mit der Datenanalyse sind Methoden des maschinellen Lernens verbunden, die es ermöglichen, Prognosen auf der Grundlage zuvor erhaltener Ergebnisse zu erstellen.


    Automatisierung und mobile Anwendungen erleichtern die Arbeit von Rechenzentrumsadministratoren und ermöglichen es Ihnen, mit weniger mehr zu erreichen.

    Nicht in einem Meer von Daten ertrinken


    Mit dem wachsenden Daten- und Informationsfluss fällt es den Administratoren von Rechenzentren zunehmend schwer, die richtigen Entscheidungen zu treffen. Hier sind nur einige der Probleme:

    • Viele Nachrichten vom selben Gerät in Fällen, in denen eine ausreicht. Übermäßige Informationen führen zu Ermüdung des Bedieners und werden am Ende ignoriert.
    • Jedes Stromversorgungs- oder Kühlgerät verfügt normalerweise über eigene Steuerelemente. Das Fehlen einer einheitlichen Überwachungsplattform und einer einheitlichen Architektur erschwert den Betrieb des Rechenzentrums, in dem das Personal häufig knapp ist.
    • Die Eskalation des Problems und seine Weitergabe an den zuständigen Spezialisten ist kompliziert.


    Eine einheitliche Überwachungsplattform vereinfacht die Fehlerbehebung.

    Die digitale Fernüberwachung hilft Ihnen, diese Herausforderungen zu meistern und bietet die folgenden Vorteile:

    • Reduzieren Sie Ausfallzeiten / Wiederherstellung.
    • Betriebsoptimierung.
    • Reduzierung der Kosten für Support und Wartung der Geräte.
    • Energieeffizienz verbessern.
    • Verbesserte Skalierbarkeit

    Überwachungszentrum


    Die Überwachungszentren haben die Aufgabe, das Ausfallrisiko zu verringern, indem sie eine Situation erkennen und beseitigen, bevor eine andere eintritt. In diesem Zusammenhang muss ein digitaler Fernüberwachungsdienst die folgenden Anforderungen erfüllen:


    Network Operations Center (NOC). Es beschäftigt Experten für den Support von Rechenzentren.

    • NOC-Experten, die Vorfälle in Rechenzentren diagnostizieren, sollten über ein Informationssicherheitstraining und umfangreiche Erfahrung verfügen. Die Analyse und Dokumentation von Vorfällen verringert die Wahrscheinlichkeit von Fehlern in der Zukunft.
    • Jedes digitale Fernüberwachungssystem sollte eine Dokumentation aller Vorfälle enthalten.
    • Der Service sollte die Zeit zur Behebung des Problems mithilfe von Alarmmeldungen (Alarm), Remote-Fehlerbehebung und Transparenz des Lebenszyklus des Geräts verkürzen. Die Fehlerbehebung sollte von Experten durchgeführt werden, die das Rechenzentrum im 7 x 24-Modus überwachen.
    • Dieselben Experten sollten bei kritischen Ereignissen eine Kontaktliste haben. Es ist gut, wenn diese Liste in der mobilen Anwendung ständig aktualisiert wird.
    • Die Kenntnis des Status aller Geräte erhöht die Wahrscheinlichkeit, das Problem schnell zu beheben oder zumindest dessen Ursache zu verstehen.  
    • Um sicherzustellen, dass das Wartungspersonal seltener in Geräte eindringen muss, ist die Verwendung von Predictive Analytics und Remote Diagnostics hilfreich.


    Der Servicetechniker sollte genau wissen, was zu ersetzen oder zu reparieren ist, damit er nicht erneut vor Ort ist.

    Was soll die digitale Fernüberwachung leisten?


    Die folgenden Anforderungen helfen dem digitalen Fernüberwachungsdienst, die Arbeitseffizienz zu verbessern und seine Mitarbeiter auf die wichtigsten Aufgaben zu konzentrieren.

    • Die mobile Anwendung kann automatisch ein Trouble Ticket erstellen. Dies spart Zeit und kommt ohne Anrufe beim Support-Service aus, der die Situation verschiedenen Spezialisten mehrmals erklärt.


      Mit der mobilen Anwendung können Rechenzentrumsmanager und -administratoren jederzeit und von jedem Ort aus auf Daten zum Status des Rechenzentrums zugreifen.

    Chats, Instant Messenger usw. können ebenfalls hilfreich sein: Chats und Instant Messenger helfen nicht nur bei der Arbeit im Team, sondern auch bei der schnellen Kontaktaufnahme mit NOC-Experten.

    Ein schneller Start bedeutet, dass Sie innerhalb von 30 Minuten ein Gateway installieren, die automatische Geräteerkennung einstellen, Software registrieren, die Anwendung konfigurieren und mit der Überwachung des Rechenzentrums beginnen können.

    Wenn Sie alle zu überwachenden Geräte manuell einstellen, verlieren Sie viel Zeit. Es erhöht auch die Wahrscheinlichkeit von Fehlern. Ein digitales Überwachungssystem verwendet das SNMP-Protokoll, um kritische Infrastrukturgeräte automatisch zu erkennen. Modbus TCP-Geräte werden jedoch normalerweise nicht automatisch erkannt - Sie benötigen eine Gerätedefinitionsdatei (DDF). In der Regel scannen Gateways einen bestimmten Bereich von IP-Adressen, erkennen die entsprechenden Geräte und präsentieren diese Daten dem Benutzer.

    Ereignisse werden nach Priorität verarbeitet - die kritischste zuerst. Diese Vorgehensweise entlastet die Rechenzentrumsbetreiber, die wissen, dass NOC-Experten gewarnt werden und die Situation verstehen, wenn mehrere Ereignisse gleichzeitig eintreten.

    Eine Analyse der Korrelation und der Ursachen von Ereignissen ermöglicht es uns, mehrere Alarme zu bewerten, mögliche Ursachen zu minimieren und Lösungen vorzuschlagen. Dieser Korrelationsprozess kann von NOC-Experten durchgeführt oder als Kombination aus maschinellem Lernen und Expertenurteil implementiert werden.

    Durch die Konsolidierung von Alarmmeldungen werden mehrere Meldungen von einem Gerät zu einem Ereignis. Dies spart Zeit bei mehreren identischen Nachrichten. Darüber hinaus können Sie für den Vorfall automatisch eine Anfrage zur Fehlerbehebung generieren und darüber informieren, wer sich derzeit mit diesem Problem befasst und wie lange, was derzeit nicht getan wird, um den Arbeitsfortschritt bis zur endgültigen Lösung zu überwachen.

    Der Alarmmeldungskontext kann nützliche Informationen enthalten, wie z. B. die Informationsquelle (z. B. die Rack-Nummer), auf welche Systeme sich diese beziehen und was überprüft werden sollte. Alle diese Informationen können in der mobilen Anwendung abgerufen werden.

    Jeder, der versucht hat, eine Lösung für das Problem im Internet zu finden, weiß wahrscheinlich, wie viele Posts von verschiedenen Benutzern studiert werden müssen, um die richtige Antwort zu finden. Ein solches Crowdsourcing ist zeitaufwändig. Digitale Fernüberwachungsdienste sollten durch ihre eigenen Online-Communities ergänzt werden.




    Eine Ausfallzeit führt in der Regel nicht zu einem einzelnen Ereignis, sondern zu deren Abfolge.

    Energieeffizienz


    Je mehr Geräte überwacht werden, desto mehr Möglichkeiten bestehen, die Energieeffizienz von Rechenzentren zu verbessern. Um jedoch nützliche Rückschlüsse auf die Effizienz des Rechenzentrums zu ziehen, müssen Sie mindestens die Last am Ausgang der USV messen. Ohne Kenntnis der Grundwerte des Stromverbrauchs von IT-Geräten ist es unmöglich, den Kühlungsbedarf zu bestimmen. Wenn beispielsweise ein Chiller mehr Energie verbraucht, ist nicht klar, ob dies ein Chiller-Problem oder eine Folge einer erhöhten IT-Auslastung ist. Mit vollständigeren Daten ist es möglich, die von allen Geräten und Kühlparametern verbrauchte Gesamtleistung zu vergleichen, um Anomalien zu identifizieren.


    Mit der Energieeffizienzquote von PUE können Sie die Überkapazität bei einer bestimmten IT-Auslastung quantifizieren.

    Eine noch effektivere Methode ist die Echtzeit-PUE-Messung . Mit der richtigen Implementierung des Ansatzes können Sie Berichte über Trends in der Energieeffizienz erhalten und Nachrichten generieren, wenn sich die Bedingungen ändern. Darüber hinaus können Sie mit einem effektiven System die Ursachen von Problemen identifizieren und die Situation korrigieren. Die Überwachung kann in diesem Fall von NOC-Mitarbeitern durchgeführt werden.

    Echtzeit-PUE-Überwachung.

    Skalierbarkeit


    Skalierbarkeit ist die Fähigkeit eines digitalen Fernüberwachungssystems, eine zunehmende Anzahl von Geräten (Knoten) zu steuern. Abhängig von der Architektur des Systems können dies Tausende von Geräten sein. In kleinen Rechenzentren mit einer IT-Last von bis zu 500 kW ist die Skalierbarkeit im Gegensatz zu großen Rechenzentren, in denen die Anzahl der Geräte Hunderttausende erreichen kann und die Messwerte alle paar Sekunden erfasst werden, normalerweise kein Problem.

    In diesem Fall muss das Überwachungssystem eine horizontal skalierbare Cloud-Architektur verwenden. Mit dem Cloud-Dienst können Sie automatisch Rechenknoten hinzufügen, um zusätzliche Daten zu verarbeiten. Ein vielversprechender Bereich ist die Internet of Things (IoT) -Technologie.

    Neue Ansätze


    In Zukunft werden Rechenzentren viel weniger vom „menschlichen Faktor“ abhängig sein - möglichen Fehlern. Automatisierung und maschinelles Lernen helfen dabei. Je mehr Daten über die Ursachen von Ausfallzeiten gesammelt werden, desto besser kann das Überwachungssystem die Wahrscheinlichkeit von Ausfallzeiten vorhersagen und Maßnahmen empfehlen, um dies zu verhindern.


    Die Betriebseffizienz von Rechenzentren kann durch genauere Modelle und die Anhäufung von Daten zum tatsächlichen Betrieb verschiedener Rechenzentren verbessert werden.

    Ein Rechenzentrumsmodell, das maschinelles Lernen verwendet, verfügt über genügend Informationen, um das Kühlsystem zu optimieren und den Stromverbrauch zu minimieren. Durch Simulationen kann auch der Stromverbrauch vorhergesagt werden.

    Über die mobile Anwendung erhält der Administrator des Rechenzentrums eine Benachrichtigung. Wenn ein Fehler auftritt, sehen Sie, welche Schritte er zur Behebung der Situation ausführen muss. Bei komplexeren Vorgängen können Sie die Virtual-Reality-Technologie verwenden.

    Durch das Sammeln einer Vielzahl von Daten können Sie von geplanten zu situativen Diensten in das Rechenzentrum wechseln. Zahlreiche Sensoren und Algorithmen helfen dabei, Komponentenfehler vorherzusagen, generierte Meldungen verständlicher zu machen und letztendlich die Wartungskosten zu senken. Durch die Analyse von Big Data können Hersteller die Zuverlässigkeit der hergestellten Komponenten erhöhen.


    Der digitale Fernüberwachungsdienst generiert automatisch Arbeitsaufträge für Wartungstechniker.

    Lebenserhaltungssysteme des Rechenzentrums bestehen aus hoch entwickelten Geräten und erfordern besondere Aufmerksamkeit. Dies sind Kälte- und Klimaanlagen, Feuerlöschanlagen, Energieversorgungssysteme, Telekommunikation und strukturierte Kabelnetze. In dem Rechenzentrum, das gemäß den Anforderungen der Stufe III gebaut wurde, kann die Wartung oder Reparatur eines Infrastrukturelements durchgeführt werden, ohne das Rechenzentrum zu stoppen und ohne die Arbeitskapazität zu verringern: Alle Geräte sind gemäß dem N + 1-System reserviert, sodass wir über die Verfügbarkeit der Einrichtung auf einem Niveau von 99,982% sprechen können.


    Dies alles führt letztendlich zu einer Verringerung der Ausfallzeiten des Rechenzentrums und zu einer Erhöhung der Zuverlässigkeit.

    Das Rechenzentrumsüberwachungssystem trägt zur Verbesserung der betrieblichen Effizienz bei, indem es den IT-Service mit Informationen unterstützt. Die Aufgabe eines modernen Überwachungssystems besteht nicht nur darin, eine Notfallsituation zu beheben und umgehend darüber zu informieren, sondern proaktive Überwachung und Analyse bereitzustellen, um Vorfälle zu verhindern. Fällt beispielsweise eine Komponente des Geräts aus, leitet ein solches System den Austauschvorgang sofort automatisch ein, gegebenenfalls bis zur Beantragung des Kaufs einer neuen Komponente. Mit dem digitalen Fernüberwachungsdienst können Sie die wertvollen Funktionen von Analyse- und Situationsdiensten auf noch höherem Niveau nutzen. Diese Zukunft wird sehr schnell kommen.

    Jetzt auch beliebt: