Splunk: Maschinelles Lernen auf ein neues Niveau



    Etwas mehr als vor einem Jahr haben wir eine Rezension über die Anwendung Splunk Maschine des Learning - Toolkit , mit dem Sie Maschinendaten auf Splunk Plattform analysieren, verschiedene Maschinenlernalgorithmen verwenden.

    Heute möchten wir über die Aktualisierungen sprechen, die im letzten Jahr veröffentlicht wurden. Es wurden viele neue Versionen veröffentlicht, verschiedene Algorithmen und Visualisierungen wurden hinzugefügt, die es Splunk ermöglichen, die Daten auf einer neuen Ebene zu analysieren.

    Neue Algorithmen


    Bevor Sie über Algorithmen sprechen, sollten Sie beachten, dass es eine ML-SPL-API gibt, mit der Sie Open-Source-Algorithmen aus mehr als 300 Algorithmen in der Python-Sprache laden können. Dazu müssen Sie jedoch in gewissem Umfang in Python programmieren können.

    Daher werden wir auf jene Algorithmen achten, die zuvor nur nach Manipulationen mit Python verfügbar waren und nun in die Anwendung eingebettet sind und von jedem problemlos verwendet werden können.



    ACF (Autokorrelationsfunktion) Die

    Autokorrelationsfunktion zeigt die Beziehung zwischen einer Funktion und ihrer verschobenen Kopie anhand der Zeitverschiebung. ACF hilft, sich wiederholende Bereiche zu finden oder die Frequenz eines Signals zu bestimmen, das aufgrund von Überlappungen von Rauschen und Vibrationen bei anderen Frequenzen verborgen ist.

    PACF(partielle Autokorrelationsfunktion) Die

    private Autokorrelationsfunktion zeigt die Korrelation zwischen zwei Variablen abzüglich der Auswirkung aller internen Autokorrelationswerte. Die private Autokorrelation ist mit einer gewissen Verzögerung der gewöhnlichen Autokorrelation ähnlich, aber bei der Berechnung wird der Einfluss von Autokorrelationen mit kleineren Verzögerungen ausgeschlossen. In der Praxis ergibt die private Autokorrelation ein "saubereres" Bild der periodischen Abhängigkeiten.

    ARIMA (integrierter Autoregression- und gleitender Durchschnittsprozess)

    Das ARIMA-Modell ist eines der beliebtesten Modelle für kurzfristige Vorhersagen. Die Werte der Autoregression drücken die Abhängigkeit des aktuellen Wertes der Zeitreihe von den vorherigen aus, und der gleitende Mittelwert des Modells bestimmt den Einfluss früherer Prognosefehler (auch weißes Rauschen genannt) auf den aktuellen Wert.



    Gradientenverstärkungsklassifikator und Gradientenverstärker

    Gradientenverstärkung ist eine maschinelle Lernmethode, die für Regressions- und Klassifizierungsprobleme verwendet wird und ein Vorhersagemodell in Form eines Ensembles aus schwachen Modellen, normalerweise Entscheidungsbäumen, erstellt. Er baut ein Modell in Stufen auf, in dem jeder aufeinanderfolgende Algorithmus die Mängel der Zusammensetzung aller vorherigen Algorithmen kompensieren soll. Anfangs entstand das Konzept des Boostings in den Werken im Zusammenhang mit der Frage, ob es möglich ist, mit vielen schlechten (etwas von der zufälligen Definition abweichenden) Lernalgorithmen einen guten zu erhalten. In den letzten zehn Jahren war das Boosten neben neuronalen Netzwerken eine der beliebtesten Methoden des maschinellen Lernens. Die Hauptgründe sind Einfachheit, Vielseitigkeit, Flexibilität (die Möglichkeit, verschiedene Modifikationen zu erstellen) und vor allem eine hohe Generalisierungsfähigkeit.

    X bedeutet

    Der X-Means-Clustering-Algorithmus ist ein erweiterter K-Means-Algorithmus, der automatisch die Anzahl der Cluster anhand des Bayes'schen Informationskriteriums (BIC) bestimmt. Dieser Algorithmus ist praktisch, wenn es keine vorläufigen Informationen zur Anzahl der Cluster gibt, in die diese Daten aufgeteilt werden können.

    RobustScaler

    Dies ist ein Vorverarbeitungsalgorithmus. Die Anwendung ähnelt dem StandardScaler-Algorithmus, der die Daten so transformiert, dass für jedes Feature der Durchschnitt 0 ist und die Varianz gleich 1 ist, was dazu führt, dass alle Vorzeichen dieselbe Skalierung haben. Diese Skalierung garantiert jedoch nicht den Erhalt bestimmter Mindest- und Höchstwerte von Features. RobustScaler ähnelt StandardScaler in dem Sinne, dass die Zeichen aufgrund ihrer Verwendung die gleiche Skalierung haben. RobustScaler verwendet jedoch Mediane und Quartile anstelle von Mittelwert und Varianz. Dadurch kann RobustScaler Ausreißer oder Messfehler ignorieren, die bei anderen Skalierungsmethoden ein Problem darstellen können.



    Tfidf

    Eine statistische Kennzahl, mit der die Bedeutung eines Wortes im Kontext eines Dokuments beurteilt wird, das Teil einer Dokumentensammlung ist. Das Prinzip lautet: Wenn ein Wort häufig in einem Dokument gefunden wird, während es in allen anderen Dokumenten selten vorkommt, ist dieses Wort für dieses Dokument von großer Bedeutung.

    MLPClassifier

    Der erste Algorithmus für neuronale Netzwerke in Splunk. Der Algorithmus basiert auf einem mehrschichtigen Perzeptron , mit dem nichtlineare Beziehungen in den Daten erfasst werden können.



    Verwaltung


    In den neuen Versionen hat sich die Verwaltung der Anwendung erheblich geändert.

    Zunächst wird das Rollenmodell für den Zugriff auf verschiedene Modelle und Experimente hinzugefügt .

    Zweitens wurde eine neue Modellverwaltungsschnittstelle eingeführt . Jetzt können Sie leicht sehen, welche Arten von Modellen Sie haben, die Einstellungen jedes Modells überprüfen (z. B. welche Variablen zum Trainieren verwendet wurden) und die Freigabeeinstellungen für jedes Modell anzeigen oder aktualisieren.



    Drittens das Aufkommen des Konzepts der Kontrollexperimente. Jetzt können Sie die Ausführung von Experimenten anpassenRichten Sie nach Bedarf Zeitpläne ein. Benutzer können sehen, wann jedes Experiment ausgeführt werden soll, welche Verarbeitungsschritte und Parameter für jedes Experiment konfiguriert sind.
    Das neue Konzept des Verwaltens von Experimenten gibt Ihnen jetzt die Möglichkeit, mehrere Experimente gleichzeitig zu erstellen und zu verwalten. Zeichnen Sie auf, wann diese Experimente durchgeführt wurden und welche Ergebnisse erzielt wurden.



    Visualisierung


    In der neuesten Version von MLTK 3.4 wurde eine neue Art der Visualisierung hinzugefügt. Das berühmte Box-Plot oder, wie wir es auch nennen, "Die Boxen mit Schnurrbart".


    Box Plot wird in der deskriptiven Statistik verwendet. Mit dieser Funktion können Sie bequem den Median (oder ggf. den Durchschnitt), das untere und das obere Quartil, die minimalen und maximalen Abtastwerte sowie Ausreißer anzeigen. Mehrere dieser Boxen können nebeneinander gezeichnet werden, um eine Verteilung visuell mit einer anderen zu vergleichen. Die Abstände zwischen verschiedenen Teilen der Box ermöglichen es Ihnen, den Dispersionsgrad (Dispersion) und die Asymmetrie der Daten zu bestimmen und Ausreißer zu identifizieren.



    Zusammenfassend lässt sich sagen, dass das maschinelle Lernen in Splunk einen großen Schritt nach vorne gemacht hat. Erschienen:

    1. Viele neue integrierte Algorithmen wie: ACF, PACF, ARIMA, Gradientenverstärkungsklassifizierer, Gradientenverstärkungsregler, X-Mittel, RobustScaler, TFIDF, MLPC-Klassifizierer;
    2. Rollenmodell für den Zugriff und die Fähigkeit, Modelle und Experimente zu verwalten;
    3. Box Plot Visualisierung

    Wenn Sie Splunk noch nicht ausprobiert haben, ist es an der Zeit, die kostenlose Version mit bis zu 500 MB pro Tag für alle verfügbar zu machen. Und wenn Sie Fragen oder Probleme mit Splunk haben, können Sie uns diese fragen , und wir helfen Ihnen weiter.

    Wir sind der offizielle Premier Splunk Partner .


    Jetzt auch beliebt: