Data Science Tools als Alternative zur klassischen IT-Systemintegration

Im Moment können wir bereits davon ausgehen, dass die Leidenschaften von Big Data und Data Science etwas nachgelassen haben und die Erwartung eines Wunders, wie üblich, stark von der Realität der physischen Welt beeinflusst wurde. Es ist Zeit für konstruktive Aktivitäten. Die Suche nach Themen zu Habré nach verschiedenen Stichwörtern ergab eine äußerst dürftige Anzahl von Artikeln. Daher entschied ich mich, die gesammelten Erfahrungen mit der praktischen Anwendung von Data Science-Tools und -Ansätzen zur Lösung alltäglicher Probleme im Unternehmen zu teilen.

Was ist der Zusammenhang zwischen Routine- und Integrationsaufgaben?

  1. Während des gesamten Arbeitstages werden sowohl normale Benutzer als auch Manager verschiedener IT-Ränge nur als Mittel verwendet, um Entscheidungen zu treffen und eine Reihe von rituellen Aktionen durchzuführen, in den meisten Fällen in einem Geschäftsprozess.

  2. Die Benutzer sind von mehreren stückweise integrierten Informationssystemen umgeben. Für die Entscheidungsfindung ist es erforderlich, die „zehn“ Quellen zu betrachten, die Daten leicht zu „verfeinern“, etwas zu überdenken und die Maus entsprechend ihrer Vertrautheit mit MS Office und Mathematik in Excel zu ziehen.

  3. Für eine Reaktion, die komplizierter ist als das Ausfüllen von 5 Bildschirmen und Klicken auf Weiter-Weiter-Weiter, müssen Sie auf die Kappe klicken, um ein Miniprojekt für ein oder zwei Wochen zu starten und Korrekturmaßnahmen einzuleiten.

Der klassische Ansatz zur Automatisierung solcher Aufgaben besteht darin, Berater für Geschäftsprozesse zu gewinnen. Erarbeitung von Vorschlägen für den Übergang zu einer einheitlichen Plattform mit globaler Integration; Analyse und Auswahl; RFI / RFP; Ausschreibungen; langjährige Umsetzung; Einige ergeben eine Menge Geld für eine Plattform, die während der Implementierung moralisch überholt war.

Natürlich übertreibe ich ein wenig, aber selbst die Zeit und das Geld, die für endlose Gruppensitzungen aufgewendet wurden, während die Lösung ausgearbeitet wurde, kosten zig Millionen Rubel in der Gehaltsabrechnung, und viele Initiatoren arbeiten am Ende des Projekts bereits an einem anderen Ort.

Es ist paradox, dass es für eine akzeptable Befriedigung der anfänglichen Bedürfnisse in der Tat ausreichte, die Daten vor Ort schnell zusammenzufügen, zu verarbeiten und verständlich zu visualisieren. Zur gleichen Zeit, wenn Sie in die Sprache der realen Analogien wechseln und in Bezug auf die Reparatur und den Bau eines Hauses sprechen, ist alles für jeden klar und niemand schlägt vor, sofort ein neues Haus zu bauen, da die Tapete von einer Katze zerrissen wurde.

Aus diesem Grund haben wir uns entschlossen, die Tools der Data Science-Community zu verwenden, um solche Probleme zu lösen. Die Mindestmenge, die uns vollständig zusagt , ist die R- Sprache , die IDE ist RStudio , das Integrationsgateway ist DeployR , der Client-Webanwendungsserver ist Shiny. Wenn wir über Visualisierung sprechen, handelt es sich natürlich nicht um PieCharts, sondern um moderne ergonomische Prinzipien für die Darstellung von Informationen, einschließlich interaktiver JS-Elemente.

Es ist wichtig, dass in der Anfangsphase alle Produkte im Open Source- oder Community Edition-Format verwendet werden. Wenn sich plötzlich herausstellt, dass das Problem sehr erfolgreich gelöst wurde und erweitert und beschleunigt werden muss, verfügt jede Komponente über eine kostengünstige kommerzielle Version, wodurch die umfangreichen Einschränkungen kostenloser Produkte beseitigt werden.

Was ist mit Big Data?


Bei der Lösung praktischer Probleme waren wir erneut davon überzeugt, dass die Welt der Big Data äußerst begrenzt und gefragt ist, vor allem von großen IT- oder Netzwerkunternehmen. Die anfängliche Interpretation des Begriffs Big Data als Datenmenge, die unter Berücksichtigung der Entwicklung von Computertools nicht in den Arbeitsspeicher des Computers passt, verliert für normale Aufgaben ihre Bedeutung. Sie können 16 GB in einen Laptop, ~ 500 GB in einen Server stecken und in der Cloud generell einen Server mit 2 TB DDR4-RAM + 4 TB SSD (Amazon EC2 X1) bestellen.

Der Bequemlichkeit halber haben wir die Bezeichnung innerhalb der Arbeitsabläufe solcher Daten, die groß zu sein scheint, aber immer noch kleiner als die Größe des RAM des Computers ist, den Begriff Compact Data übernommen .

Also, in den realen Aufgaben gewöhnlicher Unternehmen Compact DataEs reicht aus, um Entscheidungen mit der erforderlichen Genauigkeit und Geschwindigkeit zu treffen.

Zur Information übersetzen Kollegen von Google die Konversation im Allgemeinen von räumlichen Dimensionen in zeitliche: „Für mich bezieht sich der Begriff Big Data nicht auf die Größe der Daten. Es geht darum, stundenlange harte Arbeit beim Analysieren von Daten in Sekundenschnelle in entspannte Verarbeitung umzuwandeln “, sagte Felipe Hoffa, Softwareentwickler bei Google.

R Erfolgsgeschichten


Als erste Erfolgsgeschichte haben wir in einer Woche das nächste BI-System herausgebracht. Ganz unerwartet stellte sich heraus, dass das Management mit dem Berichtswesen der derzeit verfügbaren Systeme nicht zufrieden war. Aus diesem Grund wurde sechs Monate lang eine Überprüfung, Analyse und sogar ein Pilot des BI-Systems unter den Finalisten durchgeführt. Die Liefer- und Ausführungsvereinbarung lag bereits auf dem Managementtisch. Im letzten Moment schlüpften wir mit dem Fuß in die Tür und baten um 3-4 Tage, um auf der Grundlage der R-Tools einen alternativen Standpunkt einzunehmen. In diesen 5 Tagen gelang es uns beiden, alle schlechten BI-Pilotfunktionen (teilweise auf synthetischen Daten von ICs von Drittanbietern basierend) zu wiederholen Viele zusätzliche Analysen in Dashboards, Erkennen einiger Lücken in der Leistung des Geräts und Beheben von Vorhersageanalysen. Dementsprechend lag der Vertrag mit BI nach einer Woche dort, wo er sein sollte (Papierkorb). und wir bekamen einen Freibrief für die Umsetzung. Sechs Monate später wurde das Projekt in der Entwicklung eingefroren, da es den Höhepunkt der Wünsche von Management und Anwendern erreichte. Während der Entwicklung haben wir eine weitere Ausschreibung zur Erweiterung des bestehenden Systems verlangsamt (und für eine Sekunde sind es fast 400.000 US-Dollar) und alles getan, was für das Geschäft selbst erforderlich war.

Der nächste Fall von Data Science befasste sich mit der modischen Aufgabe des „Smart Farming“, nämlich der Steuerung der Bewässerung von Pflanzen. Die einfache Frage „Wie viele Liter muss ich einfüllen?“ Wird eine ganze Reihe von Aufgaben aufwerfen. Hierbei handelt es sich um die Kalibrierung und Datenerfassung von verschiedenen Sensoren, die Daten unregelmäßig und äußerst ungenau erfassen (zum Beispiel funktioniert die Messung der Bodenfeuchtigkeit nicht anders), die geografische Position dieser Sensoren optimieren und eine gewichtete Wettervorhersage unter Verwendung frei gestreuter Daten und eines komplexen physikalischen und mathematischen Austauschmodells erstellen Wasserpflanze je nach aktuellen Bedingungen. Und Sie müssen auch alles auf dem Computer des Agronomen klar und verständlich interaktiv verstehen. Nach ca. 3 Monaten Betriebszeit wurde der Prototyp zusammengebaut. Und alles wird mit den oben genannten Tools R + Bash gemacht.

Was ist attraktiver als R im Gegensatz zu verschiedenen Mäuseträgern?

  1. Dies ist eine vollständige Programmiersprache. Mit den neuesten Hadley Wickham- Paketen wurde das R so erweitert, dass die Arbeit mit Daten fast in den Weltraum geht. Die Unterstützung der funktionalen Programmierung wird ebenfalls aktiv erweitert.
  2. Eine breite Palette von mathematischen Paketen und Algorithmen.
  3. Wir sind elementar in Devops eingebettet. In Git-Quellen gibt es einen Selbsttest-Mechanismus, die Möglichkeit der Selbstdokumentation ( R Markdown ). Zusammenarbeit und Anwendung agiler Methoden.
  4. Stackoverflow-Community.
  5. ... und viele andere Leckereien.

Schlussfolgerungen


Es wird immer noch aktiv an Aufgabenpaaren gearbeitet, aber die gesammelten Erfahrungen ermöglichen es uns, nahezu jede Aufgabe in Bezug auf das Problem des lokalen „Nähens“ sicher anzugehen. Im Allgemeinen kann das Gefühl der Fähigkeiten von R durch gewöhnliche Benutzer wie folgt beschrieben werden:


Wenn man die Erfahrung verallgemeinert, dann ist eine solche „Naht“ fast überall gefragt. Die Hauptsache ist, mit einem frischen Blick zu schauen (wir lesen Literatur über TRIZ und über Erfindungen, die hundert oder zwei Jahre zu spät sind), und das Management hat keine Angst, Risiken einzugehen. Die grundlegende These zu Beginn einer solchen Aktivität ist die Förderung in kleinen Schritten.

Im Idealfall entsteht durch die Arbeit eine kleine Komponente, die:

  1. sammelt Daten aus allen erforderlichen Quellen und führt eine anspruchsvolle Verarbeitung hinter den Kulissen durch;
  2. gibt dem Benutzer ein schönes interaktives Bild (Wow-Effekt ist wünschenswert, aber kein Selbstzweck);
  3. Zusätzlich zum Bild enthält es einen detaillierten interaktiven Bericht und Empfehlungen zur Auswahl der besten Lösung.
  4. führt die erforderlichen Änderungen in anderen Informationssystemen (die Anfänge der betrieblichen Analytik) nach Möglichkeit selbständig durch.

Der Arbeitsumfang ist bewusst auf maximal 2 Monate begrenzt. Die iterative und interaktive Entwicklung ermöglicht es in der Regel, in dieser Zeit lokale Probleme in der Lücke verschiedener geistiger Eigentumsrechte konzeptionell zu lösen. Nach Abschluss der Arbeiten ist es notwendig, die resultierende Komponente in reale Geschäftsprozesse zu „treiben“ und den Effekt mit dem erwarteten zu vergleichen. Wenn noch Aufgaben vorhanden sind oder neue Aufgaben angezeigt werden, legen Sie Prioritäten fest und starten Sie eine neue Iteration.

Das Wichtige ist, dass jede Iteration:

  1. basierend auf tatsächlichen Geschäftsanforderungen;
  2. bringt eine echte Wirkung für das Geschäft;
  3. fertig und autark.

Gleichzeitig entsteht kein Aufwand für umfangreiches Projektmanagement, die Aufgabe ist im Umfang sichtbar, die Dokumentation ist nur minimal erforderlich.

Ich stelle noch einmal fest, dass es unwahrscheinlich ist, dass Data Science als komplexe mathematische Algorithmen in der Anwendung von Big Data diskutiert wird. Echte Geschäftsaufgaben sind viel prosaischer, aber die Vorteile ihrer Lösung können sehr, sehr groß sein. R-Tools und Data-Science-Ansätze können hier großartige Arbeit leisten.

Das Tolle ist, dass die Intrige bis zuletzt anhält. Sie wissen nie im Voraus, was der nächste Schritt und die nächste Anfrage sein werden, und kompetente Hände und ein heller Kopf können nicht nur dabei helfen, aktuelle Mängel zu beheben, sondern bieten auch neue Geschäftsmöglichkeiten.

Nächster Beitrag:„Ökosystem R als Werkzeug zur Automatisierung von Geschäftsaufgaben“

Jetzt auch beliebt: