Distributed Data Warehouse im Data Lake-Konzept: Clusterverwaltung

    Das Administrationsthema des Cloudera-Clusters ist groß genug und kann nicht in einem Artikel behandelt werden. In diesem Beitrag konzentrieren wir uns auf Anweisungen zur Lösung der am häufigsten auftretenden Aufgaben im Zusammenhang mit dem Cluster und den darin installierten Diensten. Für ein tieferes Eintauchen empfehle ich die offizielle Dokumentation und das Forum. Dort finden Sie Informationen zu fast allen Themen.




    Cluster-Start


    Klicken Sie auf der Cloudera Manager-Startseite auf die Schaltfläche mit dem Pfeil rechts neben dem Clusternamen und wählen Sie Start:




    Cluster neu starten


    Machen Sie dasselbe wie das vorherige Element und wählen Sie Neustart.


    Cluster stoppen


    Machen Sie dasselbe wie im vorherigen Absatz und wählen Sie Stopp.


    Starten von Service-Rollen


    Klicken Sie auf der Cloudera Manager-Startseite auf die Schaltfläche Cluster, und wählen Sie den Dienst im erforderlichen Cluster aus, dessen Rolle Sie ausführen müssen:




    Gehen Sie zur Registerkarte Instanzen dieses Dienstes:




    Servicerollen haben rechts neben ihrem Namen einen Status. Gestoppte Rollen entsprechen Stopped. In der Tabelle vermerken wir die Rolle des Dienstes, der gestartet werden muss:




    Klicken Sie auf die Schaltfläche Aktionen für Ausgewählt und wählen Sie Start:




    Drücken Sie die Start-Taste, um den Start zu bestätigen:




    Dienstrollen neu starten


    Wiederholen Sie die Aktionen des vorherigen Elements und wählen Sie Neu starten, nachdem Sie auf die Schaltfläche Aktionen für Ausgewählt geklickt haben.


    Beenden Sie die Servicerollen


    Gehen Sie wie beim vorherigen Element vor und wählen Sie Stopp, nachdem Sie auf die Schaltfläche Aktionen für Ausgewählt geklickt haben.


    Rolle hinzufügen


    Klicken Sie auf der Cloudera Manager-Startseite auf die Schaltfläche Cluster, und wählen Sie den Dienst im erforderlichen Cluster aus, für den Sie eine Rolle hinzufügen müssen:




    Wechseln Sie zur Registerkarte Instanzen dieses Dienstes und klicken Sie auf Rolleninstanzen hinzufügen:




    Wählen Sie für die Rollen, die Sie hinzufügen möchten, die Hosts aus, auf denen sie installiert werden müssen:




    Bestätigen Sie die Installation der ausgewählten Rollen auf den angegebenen Hosts:




    Eine Rolle löschen


    Klicken Sie auf der Cloudera Manager-Startseite auf die Schaltfläche Cluster und wählen Sie den Dienst aus, für den Sie die Rolle im gewünschten Cluster löschen möchten:




    Gehen Sie zur Registerkarte Instanzen dieses Dienstes:




    Beachten Sie die Rollen, die entfernt werden müssen (nachdem Sie sie gestoppt haben):




    Klicken Sie auf die Schaltfläche Aktionen für Ausgewählt und wählen Sie Löschen:




    Bestätigen Sie den Löschvorgang durch Drücken der Löschtaste:




    Dienst hinzufügen


    Das Hinzufügen des Dienstes wurde bereits im Abschnitt "Zusätzliche Pakete installieren" beschrieben, so dass wir nicht näher auf diesen Vorgang eingehen.


    Dienst löschen


    Klicken Sie auf der Cloudera Manager-Startseite auf die Schaltfläche Cluster und wählen Sie den Dienst aus, der im erforderlichen Cluster gelöscht werden soll:




    Gehen Sie zur Registerkarte Instanzen dieses Dienstes:




    Aktive Rollen beachten:




    Klicken Sie auf die Schaltfläche Aktionen für Ausgewählt und wählen Sie Stopp:




    Bestätigen Sie den Stopp durch Drücken der Stop-Taste:




    Gehen Sie zur Cloudera Manager-Startseite, klicken Sie auf die Schaltfläche mit dem Pfeil rechts neben dem Namen des Dienstes, den Sie löschen möchten, und wählen Sie Löschen:




    Bestätigen Sie den Löschvorgang durch Drücken der Löschtaste:




    Erneutes Bereitstellen von Diensten nach dem Ändern von Konfigurationsdateien


    Nach dem Ändern der Dienstkonfigurationsdateien müssen Sie diese Dienste erneut bereitstellen. In diesem Fall erscheint rechts neben dem entsprechenden Dienst ein Dateisymbol mit einem Pfeil. Klicken Sie darauf:




    Klicken Sie in der rechten unteren Ecke auf Restart Stale Services:




    Bestätigen Sie den Neustart, indem Sie in der rechten unteren Ecke auf Jetzt neu starten klicken. Wenn Sie die Client-Konfiguration nicht bereitstellen müssen, entfernen Sie die Markierung auf dieser Seite:




    Auf der Seite für den Neustart wird der Status der neu gestarteten Dienste angezeigt. Bei falschen Konfigurationen wird durch Klicken auf den Pfeil rechts neben der Aufgabe das Fehlerdetail angezeigt. Klicken Sie nach dem Neustart auf Fertig stellen:




    Überwachungs-Tools einrichten


    Beim Hinzufügen von Hosts zu einem Cluster installiert Cloudera Manager seine Agenten darauf, um die Systemmetriken dieser Computer zu überwachen. Diagramme aller erfassten Messdaten sind auf der Registerkarte "Diagrammbibliothek" im Abschnitt "Alle Hosts \ Hostname" verfügbar. Cloudera Manager verfügt auch über einen flexiblen Mechanismus zur Visualisierung von Metriken auf der Grundlage von SQL-Abfragen und -Filtern. Dadurch können Sie schnell und einfach eine Auswahl von Monitoren auf Ihrem Startbildschirm erstellen und erhalten so ein ziemlich umfassendes Bild des Systems. Betrachten Sie diese Mechanismen am Beispiel des Hinzufügens eines Diagramms einer der Systemmessdaten zur Startseite.


    Klicken Sie auf der Cloudera Manager-Startseite auf die Schaltfläche Hosts und wählen Sie Alle Hosts aus:




    Wählen Sie den Server aus, dessen Monitor Metriken hinzufügen soll:




    Wählen Sie eines der Diagramme aus, klicken Sie auf die Schaltfläche mit dem Zahnrad in der oberen rechten Ecke und wählen Sie Zum Dashboard hinzufügen (auf ähnliche Weise können Sie auf die Registerkarte "Diagrammbibliothek" wechseln und das gewünschte Diagramm aus dem gesamten Katalog auswählen):




    Geben Sie den Namen des Diagramms an (Sie können es standardmäßig belassen), wählen Sie das Feld aus, in dem wir es platzieren möchten (wenn Sie es auf der Cloudera Manager-Startseite platzieren möchten, wählen Sie die Startseite aus) und klicken Sie auf Diagramm speichern:




    Danach erscheint das ausgewählte Diagramm im entsprechenden Fenster:




    Bei Bedarf kann das hinzugefügte Diagramm geändert werden, indem Sie auf die Schaltfläche mit dem Zahnrad in der oberen rechten Ecke klicken und In Diagramm-Generator öffnen auswählen.


    Fazit


    Nach dem Einrichten der Überwachung ist der Cloudera-Cluster betriebsbereit: Sie können die Daten laden, konvertieren und die Data Mining-Tools anschließen. Und obwohl es noch ein weiter Weg ist, um die endgültigen Ziele zu erreichen, kann dieser Punkt als Ausgangspunkt betrachtet werden.


    Durch dieses Projekt konnten alle Ziele erreicht werden: Die Routineaufgaben der Abteilung Kreditrisikoberechnung waren automatisiert und die Datenwissenschaftler erwarben "qualitativ hochwertige" Werkzeuge für die Zusammenarbeit. Auf dem Weg zu diesen Zielen gab es auch einige Nuancen und schwierige Momente, die ich in den folgenden Abschnitten gerne mit Ihnen teilen möchte. Sie konzentrieren sich auf den Aufbau einer kontinuierlichen Integration zur Beschleunigung der Entwicklungsprozesse sowie auf die Installation und Konfiguration von Data Mining-Tools.


    Zusammenfassend möchte ich sagen, dass das Arbeiten mit einem Stapel von Anwendungen, die um Apache Hadoop herum gebildet werden, nicht immer einfach, aber sehr interessant ist. Ihre Technologien bieten viele Möglichkeiten und haben bereits eine ziemlich große Gemeinschaft gebildet, die in schwierigen Zeiten immer bereit ist zu helfen. Ein wenig Übung und du wirst Erfolg haben.


    PS Im nächsten Artikel werde ich erklären, wie eine kontinuierliche Integration für Projekte mit Entwicklung unter CDH effizient organisiert werden kann. Bis bald!


    Links zu vorherigen Artikeln:
    Verteilte Datenspeicherung im Data Lake-Konzept: Start der
    verteilten Datenspeicherung im Data Lake-Konzept: Installation von CDH


    Jetzt auch beliebt: