Arbeiten mit Daten: Neue Wissenschaft



    Zunehmende Mengen wissenschaftlicher Daten mit bemerkenswerter Geschwindigkeit, denn es gibt ein Bedürfnis nach neuen mathematischen Methoden und Analyseverfahren. Datensätze werden in vielen Disziplinen immer komplexer, zum Beispiel in Bezug auf neuronale Netze, Astrophysik oder Medizin.

    Der Physiker der Northeastern University (USA) Alessandro Vespignani (Alessandro Vespignani) beschäftigt sich mit der Modellierung des Börsenverhaltens, der Vorhersage von Wahlergebnissen und anderen statistischen Problemen. Er verfügt über mehrere Terabyte an Daten aus sozialen Netzwerken, von denen fast alle [Daten] unstrukturiert sind.

    Vespignani verwendet eine breite Palette mathematischer Werkzeuge und Methoden, um die gesammelten Daten zu verarbeiten. Er sortiert Millionen von Tweets und sucht nach Stichwörtern. Vespignani verfolgt bei der Big-Data-Analyse einen schrittweisen Ansatz. Ronald Coifman, Mathematiker an der Yale University, argumentiert jedoch, dass es nicht ausreicht, nur riesige Mengen an Informationen zu sammeln und zu speichern, sondern dass sie ordnungsgemäß organisiert werden müssen. Dies erfordert eine spezielle Struktur.

    Ecken und Rippen


    Die im 13. Jahrhundert entstandene Stadt Königsberg (heute Kaliningrad) bestand aus drei formal eigenständigen Stadtsiedlungen, die an den Inseln und Ufern des Flusses Pregol lagen und die Stadt in vier Hauptteile teilten. Diese vier Grundstücke waren durch sieben Brücken miteinander verbunden. Der Mathematiker Leonhard Euler rätselte im 18. Jahrhundert über ein damals beliebtes Rätsel: Wie kommt man über alle sieben Brücken des Königsbergs und kehrt zum Ausgangspunkt zurück, ohne die Brücken zweimal zu betreten?

    Um dies zu lösen, baute Euler ein Modell aus Punkten und Linien und stellte fest, dass das Problem nur dann gelöst werden kann, wenn eine gerade Anzahl von Brücken zu jeder "Insel der Erde" führt. Da es in Königsberg eine ungerade Anzahl von Brücken gab, war diese Reise nicht möglich.

    Aufbauend auf Eulers Idee begann der Mathematiker der Stanford University, Gunnar Carlsson, Datenkarten zu erstellen, die schwerfällige Datensätze als ein Netzwerk von Eckpunkten und Kanten darstellen. Der Ansatz nennt sich Topological Data Analysis (TDA) und ermöglicht laut Gunnar, "unstrukturierte Daten so zu strukturieren, dass Sie sie später mithilfe von Methoden des maschinellen Lernens analysieren können". In dem Video erklärt Karlsson, wie die topologische Analyse den Forschern hilft, große Datenmengen zu interpretieren.

    Wie im Fall des Rätsels um Brücken ist hier alles mit Verbindungen „verbunden“, entschuldigen Sie das Wortspiel. Soziale Netzwerke sind eine Karte der Beziehungen zwischen Menschen, bei denen die Eckpunkte Namen und die Kanten Verbindungen sind. Karlsson glaubt, dass dieser Ansatz in anderen Bereichen verwendet werden kann, um beispielsweise mit genomischen Sequenzen zu arbeiten. „Sie können die Sequenzen vergleichen und die Anzahl der Unterschiede ermitteln. Die resultierende Zahl kann als eine Funktion der Entfernung dargestellt werden, die zeigt, wie sehr sie sich unterscheiden “, erklärt Karlsson.

    Dafür wurde das Carlsson Ayasdi-Projekt erstellt: Es vereinfacht die Darstellung von hochdimensionalen Daten. Wenn Ihr mehrdimensionaler Datensatz 155 Variablen enthält, wie sieht dann die Abfrage unter gleichzeitiger Berücksichtigung aller Variablen aus? Karlsson vergleicht diese Aufgabe damit, einen Hammer in einer dunklen Garage zu finden. Wenn Sie eine Taschenlampe haben, sehen Sie nacheinander den Inhalt der Garage durch, bis Sie auf das Werkzeug stoßen, das Sie benötigen - dieser Vorgang ist ziemlich lang und kann Sie verrückt machen. Es ist viel effizienter, das Licht einzuschalten - Sie werden sofort einen Hammer und eine Schachtel Nägel finden, obwohl Sie nicht geahnt haben, dass Sie sie brauchen würden. Die Ayasdi-Technologie zündet nur eine Glühbirne an.

    Mit topologischen Methoden projizieren wir ein komplexes Objekt auf eine Ebene. Die Gefahr ist, dass einige Muster ähnlich sindIllusionen im Theater der Schatten, und in der Tat gibt es nicht. Darüber hinaus glauben eine Reihe von Wissenschaftlern, dass topologische Methoden für einige Datensätze im Allgemeinen nicht anwendbar sind. Wenn Ihr Datensatz verzerrt oder unvollständig ist, kann dies zu völlig falschen Ergebnissen führen.

    Occams Rasiermesser


    Im Februar 2004 versuchte der Mathematiker der Stanford University, Emmanuel Candes, einen Weg zu finden, verschwommene Bilder zu verbessern. Candes wendete einen der entwickelten Algorithmen an und erwartete geringfügige Verbesserungen, hatte jedoch ein klares Bild. Laut Candes war die Wahrscheinlichkeit gleich der Wahrscheinlichkeit, zehn Ziffern einer Bankkartennummer zu erraten, wenn man die ersten drei kennt. Das war aber kein Zufall. Die Methode funktionierte auch mit anderen Bildern.

    Der Schlüssel zum Erfolg war sozusagen die mathematische Version von Occams Rasierer: Von den Millionen möglichen Optionen zur Rekonstruktion eines bestimmten unscharfen Bildes ist die einfachste Version am besten geeignet. Diese Entdeckung führte zur Methode der komprimierten Erfassung.

    Heute wird es in Videosendungen über das Netzwerk verwendet. Die Datenmenge beim Übertragen von Videos ist so groß, dass Sie sie komprimieren müssen. Normalerweise müssen Sie zum Komprimieren von Daten zuerst alle Bits abrufen und dann die unbedeutenden verwerfen. Mit der Compressed-Sensing-Methode können Sie signifikante Bits bestimmen, ohne dass eine vorherige Speicherung erforderlich ist.

    „Wenn ich eine Population nach einer seltenen Krankheit absuche, benötige ich dann für alle Menschen Bluttests? Die Antwort lautet nein. Es genügt, nur wenige Tests durchzuführen, denn der gewünschte „Faktor“ ist sehr selten, das heißt, er ist spärlich “, so Candes. Angenommen, wir haben einen Infizierten in einer Gruppe von 32 Personen. Wir haben jedem von ihnen Blut zur Analyse entnommen. Wenn der Test negativ ist, gibt es keine infizierten. Aber wenn das Ergebnis positiv ist, wie kann man dann die Infizierten finden?

    Candes glaubt, dass die Hälfte der Proben entnommen (16) und erneut analysiert werden kann. Wenn das Ergebnis positiv ist, befindet sich die infizierte Person in dieser Gruppe, wenn nicht, in einer anderen. Dann wird die Gruppe erneut in zwei Hälften geteilt und der Test wiederholt. Auf diese Weise erhalten Sie die Antwort für 5 Tests anstatt für 32, wenn Sie jeden einzeln testen. Dies ist die Essenz der Compressed-Sensing-Methode.

    Die Compressed-Sensing-Methode kann bei großen Datenmengen hilfreich sein, von denen einige verloren gegangen oder beschädigt sind. Ein gutes Beispiel wäre die Verarbeitung von Krankenakten, von denen einige Tippfehler des Klinikpersonals aufweisen. Ein weiteres Beispiel ist das Gesichtserkennungssystem: Wenn eine Person eine Brille aufsetzt, kann sie immer noch erkannt werden.

    Während Candes Compressed Sensing preist, verfolgt Karlsson einen topologischen Ansatz. Diese beiden Methoden ergänzen sich jedoch nur, konkurrieren aber nicht. „Data Science ist schließlich mehr als nur die Summe von Methoden“, betont Vespignani. „Durch die Kombination mehrerer Methoden können wir etwas völlig Neues schaffen.“

    PS Vor kurzem veröffentlichten wir eine Zusammenstellung von Quellen auf maschinelles Lernen für Anfänger und sprachen über tiefgreifendes Lernen. Natürlich teilen wir unsere eigenen Erfahrungen: ein wenig über die Entwicklung eines Quantenkommunikationssystems und wie fortgeschrittene Programmierer von gewöhnlichen Studenten vorbereitet werden .

    Jetzt auch beliebt: