Integritätsüberwachung eines Servers mit VMware vSphere ESXi v5-Hypervisor

  • Tutorial
Auf Servern, auf denen der VMware vSphere ESXi v5.5-Hypervisor ausgeführt wird, musste der ordnungsgemäße Betrieb der LSI MegaRAID-Controllerfamilie überwacht werden. Dementsprechend erhalten Sie automatisch Benachrichtigungen, wenn ein Fehler auftritt, z. B. ein Ausfall einer der Festplatten. Bei der Ausarbeitung stellte sich heraus, dass die gefundene Lösung nicht nur auf Hypervisor-Datenspeicher beschränkt ist.

Zu meiner Verfügung stand ein Testserver auf der Basis eines Supermicro X9DR3 / iF-Motherboards mit einem LSI MegaRAID SAS 9260-4i-Controller, an den zwei Festplatten angeschlossen und RAID1 konfiguriert waren.
Obwohl LSI MegaRAID SAS 9260-4i in ESXi offiziell unterstützt wird, können Sie im Abschnitt "Integritätsstatus" des VMware vSphere-Clients keine Informationen zum RAID-Status abrufen:


Zum Glück ist dies behebbar. Wir gehen auf die Seite lsi.com und finden dort ein Archiv mit dem "SMIS Provider" für den gewünschten Controller:


Downloaden, entpacken und finden Sie die Datei mit der Endung "vib". Dies ist ein Paket, das den Status des Controllers mithilfe der integrierten ESXi-Sensor-Engine überwacht. Wir kopieren diese vib auf den Server, stellen eine Verbindung über SSH her und installieren: Wir
esxcli software vib install -v /vmfs/volumes/datastore1/500.04.V0.53-0003.vib


starten den Server neu, stellen die Verbindung über SSH wieder her und stellen sicher, dass das Paket installiert ist:
esxcli software vib list | grep -i lsi


Jetzt können wir im Abschnitt "Integritätsstatus" den Status des LSI MegaRAID-Controllers beobachten:


Für die automatische Überwachung reicht das natürlich nicht aus. Weil wir den Fehler erst kennen, wenn wir den VMware vSphere-Client starten. Es ist notwendig, den Prozess der Abfrage von Sensoren zu automatisieren. Dazu verwenden wir das Skript "check_esxi_hardware.py", das unter http://www.claudiokuenzler.com/nagios-plugins/check_esxi_hardware.php verfügbar ist. Zunächst ist es eine Erweiterung für Nagios. Es ist jedoch sehr vielseitig und der Anschluss an ein anderes Überwachungssystem wird nicht schwierig sein.
Das Skript ist in der Programmiersprache Python geschrieben und benötigt die PyWBEM- Bibliothek . Unter Linux, Debian und Ubuntu wird es über Standard-System-Repositorys installiert:
apt-get install python-pywbem

Die Syntax zum Ausführen von check_esxi_hardware.py ist sehr einfach:
check_esxi_hardware.py -H XXX.YYY.WWW.ZZZ -U root -P XXXXXXXX

Als Antwort erhalten Sie einen kurzen Bericht über den Status des Servers: Sie können
OK - Server: Supermicro X9DR3-F s/n: 0123456789 System BIOS: 3.0a 2013-07-31

sicherstellen, dass das Skript den Status aller Sensoren, einschließlich des LSI MegaRAID-Controllers, abruft, indem Sie die detaillierte Ausgabe der Informationen aktivieren:
check_esxi_hardware.py -H XXX.YYY.WWW.ZZZ -U root -P XXXXXXXX -v


Der Nachteil des Skripts besteht darin, dass zum Abrufen der Sensoren eine Autorisierung erforderlich ist Hypervisor-Verwaltungsdaten Es muss nicht unbedingt root sein, aber es muss über die entsprechenden Rechte verfügen, da es sonst nicht funktioniert, um die Sensoren abzufragen.
Versuchen wir, einen Ausfall einer der Festplatten zu simulieren. Wir starten den Server neu und gehen zum WebBIOS-Controller. Wir wählen eine der Festplatten aus:


Gehen Sie zu ihren Eigenschaften:


Und schalten Sie sie aus: Wir


laden den Hypervisor und im VMware vSphere-Client sehen wir, dass wirklich ein Fehler vorliegt:


Und das gibt check_esxi_hardware.py:

Jetzt auch beliebt: