Big Data vs Data Mining

In letzter Zeit bin ich sowohl innerhalb als auch außerhalb des Teams häufig auf unterschiedliche Interpretationen der Konzepte „Big Data“ und „Data Mining“ gestoßen. Dies führt zu einem wachsenden Missverständnis zwischen dem Auftragnehmer und dem Kunden in Bezug auf die vorgeschlagenen Technologien und das gewünschte Ergebnis für beide Parteien.
Die Situation wird durch das Fehlen klarer Definitionen einiger allgemein anerkannter Standardisierer sowie die unterschiedliche Reihenfolge der Arbeitskosten in den Augen eines potenziellen Käufers verschärft.

Auf dem Markt herrschte die Meinung, dass „Data Mining“ zum Zeitpunkt des Versands eines Dumps an den Auftragnehmer eine Reihe von Trends feststellte, einen Bericht erstellte und seine Million Rubel erhielt. Bei „Big Data“ ist alles viel interessanter. Die Leute denken, dass dies etwas von schwarzer Magie ist und Magie teuer ist.

Der Zweck dieses Artikels ist es, das Fehlen signifikanter Unterschiede zwischen der Interpretation dieser Konzepte zu beweisen und die wichtigsten dunklen Flecken beim Verständnis des Themas zu verdeutlichen.

Was ist Big Data?


Das gibt uns Wikipedia auf de.wikipedia.org/wiki/Big_Data :

Big Data in der Informationstechnologie ist eine Reihe von Ansätzen, Werkzeugen und Methoden zur Verarbeitung strukturierter und unstrukturierter Daten in großem Umfang und mit großer Vielfalt, um vom Menschen wahrgenommene Ergebnisse zu erhalten. Effektiv unter den Bedingungen eines kontinuierlichen Wachstums, Verteilung auf die zahlreichen Knoten des Ende der 2000er Jahre gebildeten Computernetzwerks, Alternative zu herkömmlichen Datenbankverwaltungssystemen und Lösungen der Business Intelligence-Klasse.

Was sehen wir? Die Definition, die das Erscheinungsbild eines bestimmten Objekts (großes Fahrrad, kleiner Baum, Roller usw.) bestimmen soll, definiert tatsächlich eine Reihe von Methoden und Zielen und definiert tatsächlich eine Reihe von Prozessen. Kann man einer solchen Definition zustimmen, wenn man annimmt, dass Joggen (Prozess) als Teekanne (Objekt) bezeichnet werden kann? Es ist schwer zu sagen, lassen Sie uns versuchen, die Definition zu zerlegen.

Big Data ist:

  • bestimmte Technologien, Werkzeuge und Methoden;
  • Daten können strukturiert und unstrukturiert sein;
  • Daten müssen riesig sein;
  • Als Ergebnis der Datenverarbeitung sollten wir einen gewissen Gewinn erzielen.

In diesen Bestandteilen der Definition ist nicht klar, was ist:

  • unstrukturierte Daten;
  • riesige Größe.

Zu den Aufgaben, die mit Big-Data-Methoden gelöst werden, gehören:

  • Datenerfassung (Parser, Gates usw.);
  • Datenspeicherung (Erstellen komplexer CDs);
  • Arbeit mit Daten (Aggregation, Analyse, Beschreibung);
  • Identifizierung von Beziehungen und Aufbau von Trends (möglicherweise mit dem Endziel der Vorhersage).

Unstrukturierte Daten

Das gibt uns Wikipedia unter de.wikipedia.org/wiki/Unstructured_data :

Unstrukturierte Daten (oder unstrukturierte Informationen) beziehen sich auf Informationen, die entweder kein vordefiniertes Datenmodell haben oder nicht in einer vordefinierten Weise organisiert sind. Unstrukturierte Informationen sind in der Regel textintensiv, können jedoch auch Daten wie Daten, Zahlen und Fakten enthalten.

Mit anderen Worten, sie versuchen uns zu sagen, dass es Daten ohne Struktur gibt ... Außerdem geben sie das tödlichste Beispiel für solche Daten - Text. Es ist interessant, was meine Lehrerin für russische Sprache und Literatur sagen würde, wenn sie wüsste, dass die russische Sprache / der russische Text nicht klar strukturiert ist und daher die Jahre ihres Studiums bedeutungslos sind, da wir Regeln unterrichten, von denen manche behaupten, dass sie nicht existieren.

Um meine Sichtweise zu verstehen, werde ich ein Beispiel geben - das Textfeld in Postgres. Angenommen, ich habe JSON dort abgelegt. Bei Version 8 handelt es sich nur um Text (unstrukturierte Daten), bei Version 9 handelt es sich bereits um JSON (strukturierte Daten). Das heißt, die gleichen Daten sind sowohl strukturiert als auch unstrukturiert? Wieder der unvorstellbare Dualismus aus Vorlesungen über Physik? Die Antwort ist einfach - es gibt keine unstrukturierten Daten, nur für einige Datentypen gibt es keine allgemein akzeptierten und gleichzeitig weit verbreiteten Methoden zum Arbeiten mit diesen Daten.

Ein kompetenter Leser wird natürlich ausrufen - aber was ist mit den Videodaten? Jedes Video besteht aus einer Reihe von Frames. Jeder Rahmen ist ein Bild. Es gibt zwei Arten von Bildern:

  • Vektor
  • Raster.

Es ist äußerst schwierig, Vektorbilder als unstrukturiert zu bezeichnen. Hier können Sie zumindest das SVG-Format nachlesen, bei dem es sich im Wesentlichen um XML handelt. Rasterbilder sind in der Tat eine Reihe von Punkten, von denen jedes durch eine vollständig klare Datenstruktur beschrieben wird.

Total - unstrukturierte Daten existieren nicht.

Riesige Größe

Hier habe ich keine Meinungsverschiedenheiten. Sobald Probleme mit der Datenmenge auftreten (schwer zu empfangen, schwer zu speichern, schwer zu verarbeiten usw.), haben Sie eine große Datenmenge. Das Konzept ist ziemlich subjektiv, für mich wird eine riesige Größe in Stücken gemessen. Für mich sind Big Data eine Million Datensätze. Begründung - Abfragen an ein DBMS mit der Komplexität von Typ Θ (n2) auf einem solchen Datenträger dauern mehrere Minuten, was für mich eine lange Zeit ist.

Für andere Menschen kann das Grundprinzip / Kriterium unterschiedlich sein, daher ist die Untergrenze einer riesigen Größe unterschiedlich.

Was ist Data Mining?


Das gibt uns Wikipedia unter en.wikipedia.org/wiki/Data_mining :

Data Mining (russisches Data Mining, Data Mining, Data Mining) ist ein Sammelname, der eine Reihe von Erkennungsmethoden in bisher unbekanntem, praktisch nichttrivialem Format bezeichnet nützliche und zugängliche Interpretation des Wissens, das für die Entscheidungsfindung in verschiedenen Bereichen der menschlichen Tätigkeit erforderlich ist. Der Begriff wurde 1989 von Grigory Pyatetskiy-Shapiro eingeführt.

Übersetzen in eine einfache Sprache - Sie haben bereits eine Art Datenarray, das bereits verarbeitet wurde, aber jetzt verarbeiten Sie dieses Datenarray erneut, möglicherweise anders als zuvor, und Sie erhalten einige nützliche Schlussfolgerungen, die Sie später verwenden Gewinn.
Es stellt sich heraus, dass nach der Definition von Wikipedia die Zerlegung von „Data Mining“ Folgendes umfasst:

  • bestimmte Technologien, Werkzeuge und Methoden;
  • die Daten sind schon strukturiert, da sie schon irgendwie gespeichert sind und irgendwie schon damit arbeiten;
  • Daten können von beliebiger Größe sein;
  • Als Ergebnis der Datenverarbeitung sollten wir einen gewissen Gewinn erzielen.

Zu den Aufgaben, die mit Data Mining-Methoden gelöst werden, gehören:

  • Arbeit mit Daten (Aggregation, Analyse, Beschreibung);
  • Identifizierung von Beziehungen und Aufbau von Trends (möglicherweise mit dem Endziel der Vorhersage).

Schlussfolgerungen


Entsprechend der obigen Zerlegung der Definitionen „gewinnt“ Data Mining sozusagen Big Data aufgrund der demokratischen Herangehensweise an das Datenvolumen.

Laut der Liste der Aufgaben, die mit den Methoden Big Data und Data Mining gelöst werden können, gewinnt Big Data bereits, weil es die Aufgaben des Sammelns und Speicherns von Daten löst.

Wenn wir also der Ansicht sind, dass es grundsätzlich nicht ratsam ist, kleine Datenmengen zu untersuchen, ist die Bedeutung des Konzepts von Data Mining vollständig in der Bedeutung des Konzepts von Big Data enthalten. Daher sagen diejenigen, die sagen, dass diese Aufgabe nur "Data Mining" und nicht "Big Data" ist, so etwas - "Dies ist kein Vogel, dies ist nur eine Taube", was vom Standpunkt der formalen Logik nicht wahr ist. das respektieren wir alle so sehr.

Preislich wird in beiden Wissensgebieten ein identischer Stapel von Technologien, Werkzeugen und Methoden für sich überschneidende Aufgaben eingesetzt. Infolgedessen sollte auch der Arbeitspreis in der gleichen Größenordnung liegen.

Zusammenfassend ist es sinnvoll hinzuzufügen, dass viele versuchen, diese Konzepte miteinander und mit anderen Konzepten zu vergleichen (zum Beispiel mit der Highload-Aufgabe, wie der Autor es hier getan hat: habrahabr.ru/company/beeline/blog/218669 ) auf dem Software-Stack. Wenn wir beispielsweise RDBMS verwenden, handelt es sich bereits zu 100% nicht um Big Data.

Diesem Standpunkt kann ich nicht zustimmen, da moderne RDBMS mit beeindruckenden Datenmengen arbeiten und es Ihnen ermöglichen, Daten fast aller Art in sich zu speichern, die bei richtiger Indizierung schnell aggregiert und auf Anwendungsebene angezeigt werden können und Sie können Ihren eigenen Indizierungsmechanismus schreiben.

Im Allgemeinen ist es falsch, die Aufgabenklasse nach dem Stapel von Software und Hardware zu klassifizieren, da für jede einzelne Aufgabe ein eindeutiger Ansatz erforderlich ist, der die Tools einschließt, die zur Lösung dieses speziellen Problems am effektivsten sind.

Jetzt auch beliebt: