Die Spezialität Data Science bei Coursera beherrschen: Persönliche Erfahrung (Teil 1)



    Vor kurzem hat Vladimir Podolsky vpodolskiy , Analyst im IBS -Bildungsministerium , bei Coursera einen Abschluss in Data Science gemacht. Dies ist eine Zusammenstellung von 9 Studienleistungen der Johns Hopkins University +, deren erfolgreicher Abschluss das Recht auf ein Zertifikat verleiht. Für unseren Blog über Habré schrieb er einen ausführlichen Beitrag über sein Studium. Der Einfachheit halber haben wir es in zwei Teile geteilt. Wir fügen hinzu, dass Vladimir auch Redakteur des Projekts zur Übersetzung der Spezialisierung Data Science ins Russische wurde, das im Frühjahr von IBS und ABBYY LS ins Leben gerufen wurde .

    Teil 1.Über die Spezialität Data Science im Allgemeinen. Kurse: Datenanalyse-Tools (R-Programmierung); Datenvorverarbeitung; Datenverarbeitung dokumentieren.

    Hallo habr


    Vor nicht allzu langer Zeit endete mein 7-monatiger Marathon für die Beherrschung der Spezialisierung „Data Science“ bei Coursera. Die organisatorischen Aspekte der Spezialisierung werden hier sehr genau beschrieben . In meinem Beitrag werde ich meine Eindrücke über den Inhalt der Kurse mitteilen. Ich hoffe, dass nach der Lektüre dieses Artikels jeder selbst Schlüsse ziehen kann, ob es sich lohnt, Zeit zu investieren, um sich über Datenanalysen zu informieren oder nicht.

    Über den Beruf im Allgemeinen


    Die Datara-Spezialität bei Coursera besteht aus 9 miteinander verbundenen Kursen zu verschiedenen Themen im Zusammenhang mit verschiedenen Aspekten der Datenanalyse: von der Datenerfassung bis zur Entwicklung eines vollwertigen analytischen Produkts (Online-Bewerbung). Die Kirsche auf dem Neun-Schicht-Kuchen ist ein Diplomprojekt in einer Spezialität (dem sogenannten Data Science Capstone), das es ermöglicht, nicht nur alle in dem Komplex erworbenen Fähigkeiten zu üben, sondern auch zu versuchen, das eigentliche Problem zu lösen. Das Projekt hat eine Laufzeit von bis zu 2 Monaten und beginnt dreimal im Jahr. Jeder der 9 regulären Kurse dauert einen Monat und beginnt jeden Monat.

    Das Beherrschen der gesamten Spezialität „Data Science“ mit Zertifikaten für jeden der 9 Kurse ist kein billiges Vergnügen. Ich hatte Glück mit der Bezahlung der Kurse - IBS hat meine Ausbildung voll gesponsert. Das Unternehmen suchte nach Freiwilligen für das Erlernen von Data Science und bot an, jedem Mitarbeiter, der die Ausbildung bei Coursera erfolgreich abgeschlossen hatte, ein Zertifikat zu überreichen. Wenn Sie sich jedoch nicht die Mühe machen und drei Kurse im Monat belegen, reicht Ihr eigenes Geld aus - jeder Kurs kostet 49 USD, mit Ausnahme des ersten Kurses, der billiger ist als der Rest (in Rubel, in der Regel wird der Preis ebenfalls festgelegt, ändert sich jedoch regelmäßig) ) Die kostenlose Option wird jedoch von niemandem storniert, wenn keine Zertifikate erforderlich sind.

    Ehrlich gesagt war das Training nicht einfach - Vorlesungen zu sehen und Aufgaben zu erledigen, wurde entweder in den späten Abenden nach der Arbeit (Hallo, geliebte Region Moskau!) Oder an Wochenenden erlangt. Und es war nicht ungewöhnlich für Situationen, die typisch für Studenten aus der Kategorie „Im letzten Moment bestehen“ sind. Zusätzliche Probleme wurden durch die begrenzte Zeit für das Bestehen von Tests und das Melden von Materialien verursacht. Wenn Sie dies nicht rechtzeitig getan haben, geben Sie sich selbst die Schuld. Die Punkte für Verspätung werden entfernt. Wenn Klassenkameraden die Aufgabe bewerten, erhält der Nachzügler überhaupt keine Punkte. Trotzdem bleibt dieser Ansatz in guter Verfassung.

    Und schließlich, was ich von der Spezialität "Data Science" bekommen habe , zusätzlich zu schlaflosen Nächten und Wochenenden vor dem Computer . Ich habe ehrlich gesagt eine Menge:

    • Systematisierte Kenntnisse der Datenanalyse. Schon bevor ich DSS beherrschte, musste ich Analysen mit verschiedenen Komplexitätsstufen erstellen, aber mein Wissen und meine Fähigkeiten waren ziemlich fragmentiert. Zwar erhielt Baumanka qualitative Statistiken und Theorie, aber es wurde kein Wort darüber gesagt, wie die Daten verarbeitet werden sollten (es gab einen Kurs über Datenbanken, aber es ging um Oracle- und SQL-Abfragen);
    • lernte mit der Sprache R und RStudio zu arbeiten. Übrigens sehr praktische Werkzeuge. Wenn Sie den Verarbeitungsprozess irgendwie ändern müssen, stellte sich heraus, dass es für mich viel einfacher war, Änderungen am R-Code vorzunehmen und ihn neu zu starten, als die gleiche Abfolge von Aktionen mit der Maus in Excel zu wiederholen. Dies ist jedoch Geschmackssache. In jedem Fall sind die Befehle und Funktionen von R für die Verarbeitung von Daten aller Art sehr gut geeignet: Fast alle erforderlichen Funktionen können in frei verteilten Paketen gefunden werden, und die nicht gefundenen Funktionen können unabhängig hinzugefügt werden (sofern entsprechende Codierungsfähigkeiten in C vorhanden sind);
    • Ich habe eine Idee, wie ich die Leistung der Datenrecherche maximieren kann. Wie in jeder Studie gibt es eine eigene Struktur, eigene Regeln, Ausgangsdaten und Ergebnisse. Nehmen wir an, alles ist in Ordnung: Wir holen die Daten, löschen und normalisieren sie, führen eine explorative Analyse durch (und zeichnen die Ergebnisse auf), führen eine vollständige Studie durch, zeichnen die Ergebnisse auf und erstellen erforderlichenfalls einen Antrag auf Datenverarbeitung nach einer erfundenen Methode. In groben Zügen hat jeder Prozess seine eigenen Feinheiten und Fallstricke. Ich war zum Beispiel besonders daran interessiert, Berichte über die Ergebnisse der Datenanalyse zu erstellen. Die Dozenten präsentierten eine sehr gute Berichtsstruktur aus Sicht des Verständnisses eines nicht vorbereiteten Benutzers.
    • Ein weiteres Problem war das Vorhandensein von speziellen Paketen für die Verarbeitung und Visualisierung von Grafiken in R. Tatsache ist, dass ich auch mit einer Doktorarbeit beladen bin, in der der Löwenanteil der verwendeten Methoden auf graphischen Ansätzen basiert. Vielleicht habe ich nichts einfacher und visueller gesehen als die Implementierung von R-Operationen auf Graphen. Das Rad musste nicht neu erfunden werden ...


    Über Kurse


    Nach meinem subjektiven Empfinden lassen sich alle 9 Spezialisierungskurse in fünf Blöcke einteilen. Jeder dieser Blöcke deckt gleichzeitig eine Reihe grundlegender datenwissenschaftlicher Momente ab. Die Gruppierung ist in der Tabelle angegeben.



    1 Die Namen werden gemäß der offiziellen Übersetzung von DSS auf Coursera ins Russische vergeben

    Datenanalyse-Tools (Kurse 1 und 2)


    Es besteht die allgemeine Meinung, dass die Sitzung als erfolgreich angesehen werden kann, wenn die Schüler in der ersten Minute nicht mit den Tools (Software usw.) eingeschlafen sind. In dieser Hinsicht waren die DSS-Instrumentierungskurse voll erfolgreich - es ist interessant zuzuhören, und es ist hundertmal interessanter, Instrumente unterwegs zu testen, als zuzuhören. Die Aufmerksamkeit beider Kurse auf Datenanalyse-Tools konzentriert sich auf die Programmiersprache R. Tatsächlich werden die Studenten nahtlos in das Thema Datenanalyse eingeführt und haben sofort die Möglichkeit, die Tools in der Praxis auszuprobieren, um sich vertraut zu machen. Die Kurse sind weitgehend ohne Eile, decken aber alle wesentlichen Punkte ab. In den verbleibenden Kursen werden - je nach Bedarf - tiefere Kenntnisse über R vermittelt. Irgendwo wird dplyr unterrichtet und irgendwo näher an ggplot eingeführt. Dieser praxisorientierte Ansatz, bei Bedarf zu erklären, ist meiner Meinung nach sehr effektiv - trockene anweisungen für den gebrauch von werkzeugen verdunsten schnell vom kopf. Wenn Sie die Fertigkeit nicht verwenden, trocknet sie aus. L Auf dem Bildschirm - typisches RStudio.



    Aber wie üblich, es ist nicht ohne eine Fliege in der Salbe ... Obwohl die Autoren eindeutig nicht beabsichtigten, alle R-Werkzeuge vollständig zu überprüfen und die Möglichkeit zu geben, jedes Werkzeug richtig zu testen, schien mir die obige Überprüfung immer noch unzureichend. Insbesondere das Thema, eigene Funktionspakete für R zu erstellen, stellte sich als sehr mangelhaft heraus. Vielleicht würde es sich lohnen, eine fortgeschrittene Einheit zu erstellen, die nicht in den Testfragen enthalten wäre. Aus Erfahrung mit R kann ich sagen, dass das Schreiben von Modulen für diejenigen, die sich ernsthaft für die Datenanalyse mit R entscheiden, äußerst wichtig ist. Ich würde mich gerne mit diesem Thema befassen (was ich anscheinend tun werde, aber alleine).

    Ich hätte auch gerne detailliertere Informationen im Videoformat zu Beispielen für die Verwendung von Funktionen aus verschiedenen Hilfspaketen, aber es ist ziemlich blöd - zum größten Teil ist das Arbeiten mit Funktionen aus verschiedenen Paketen beim Lesen der entsprechenden Handbücher ziemlich transparent.

    Datenverarbeitung (Kurse 3 und 4)


    In dieser Gruppe habe ich Kurse über Datenerfassung, deren vorläufige Verarbeitung und explorative Analyse absolviert. Im Allgemeinen sind dies in der Tat alle Phasen, die dem Prozess der Tiefenanalyse von Daten vorausgehen. Diese Kurse erschienen mir sehr interessant, wenn nicht aufregend. Und warum? Im Rahmen dieser Kurse zeigen und erklären sie uns: a) wie Daten aus einer Vielzahl von Quellen (einschließlich sozialer Netzwerke und Webseiten) gesammelt werden und b) wie einfache Diagramme erstellt werden, die erklären, was die gesammelten Daten über uns aussagen können. Im Allgemeinen stellt sich heraus, dass dies ein so spärlicher, aber mehr oder weniger vollständiger Ansatz für die Datenanalyse ist.

    Bei der Vorverarbeitung lohnt es sich vielleicht, äußerst nützliche Informationen darüber hervorzuheben, wie die Daten am besten in eine normale Form gebracht werden können. Eine normale Form bedeutet eine Form der Datenorganisation, bei der jede Spalte der Datentabelle nur einer Variablen entspricht und jede Zeile nur einer Beobachtung entspricht. Es sind diese Tabellen, die in Zukunft am einfachsten verarbeitet und analysiert werden können. Daten gelangen jedoch in der Regel schlecht organisiert oder völlig unstrukturiert zu uns (z. B. Nachrichten in sozialen Netzwerken sind Arrays aus Zeichen, Text). Für die weitere Verarbeitung müssen solche Datenfelder wieder in die normale Form gebracht werden, was mit verschiedenen Befehlen des Pakets dplyr erfolgen kann. Darüber hinaus ist es wichtig zu verstehen, dass für jede neue Datenquelle eine eigene Abfolge von Übergängen für die Implementierung der endgültigen Normalisierung festgelegt werden muss. Ohne manuelle Codierung, hier wie gewohnt, nirgendwo ...

    Anhand von zwei Tabellen habe ich versucht zu zeigen, was für ein Biest das ist - "Normalisierung". Die Daten für die Tabellen wurden auf der Grundlage eines Arbeitsprojekts erfunden ...

    Wenn die Originaltabelle mit den Daten ungefähr so ​​aussieht:



    Dann sollten wir während der Normalisierung ungefähr so ​​etwas erhalten:



    Stimmen Sie zu, die zweite Option lässt sich mithilfe von Formeln und Funktionen einfacher automatisch verarbeiten, und sie sieht viel ansprechender aus. Hier hat jede Beobachtung einen eindeutigen Bezeichner, und der Wert jeder Variablen kann separat ausgewählt werden, und im Allgemeinen stellt sich heraus, dass die Struktur für die Wahrnehmung logischer und einfacher ist. Das Verarbeiten von Tabellen in normalisierter Form ist mithilfe von Automatisierungstools einfach und schnell (in der Regel ist dieses Formular für Benutzer nicht immer praktisch). Auf der Grundlage dieser Daten können mit R leicht verschiedene beschreibende Diagramme erstellt werden, z. B. das folgende. Die Daten für die Diagramme wurden der offiziellen Website des Ministeriums für Bildung und Wissenschaft der Russischen Föderation entnommen .



    Ich mag den Stil von R-Diagrammen - sie verbinden Einfachheit mit der Genauigkeit eines wissenschaftlichen Stils und Sichtbarkeit. Mit dieser Funktion können Sie die Diagramme einfärben, aber Sie sollten sich nicht zu sehr mitreißen lassen - es wird für Benutzer schwierig sein, in dem Diagramm voller Regenbogenfarben zu navigieren. Darüber hinaus können Diagramme in separaten Dateien gespeichert und später als Illustrationen in wissenschaftlichen Artikeln, Präsentationen oder anderen Werken verwendet werden. Übrigens, um ein Diagramm zu erstellen, genügt es, nur eine einfache Codezeile zu schreiben (obwohl Sie manchmal mit der Datenvorverarbeitung basteln müssen, um ein Diagramm zu erstellen).

    Ich fasse diesen Teil meines Werks zusammen und stelle fest, dass die in diesem Abschnitt beschriebenen Schritte für die Durchführung von Analysen auf hoher Ebene außerordentlich wichtig sind. In der Datenanalyse sowie bei der Arbeit mit Flugabwehrinstallationen - wenn das Visier um mindestens ein halbes Grad abfällt, trifft das Projektil das Ziel nicht. Um eine hohe Genauigkeit des „Sehens“ zu gewährleisten, ist es erforderlich, die Daten bereits in den ersten Phasen für die Analyse vorzubereiten und herauszufinden, welche Fragen und wie sie zu beantworten sind. Die genaue Analyse der Aufklärungsdaten hilft viel für das zweite Ziel - die einfachsten Grafiken, die bereits in der Anfangsphase erstellt wurden, können die grundlegenden Muster veranschaulichen und auch allgemein die Frage beantworten, ob weitere Analysen erforderlich sind und ob sie mit den verfügbaren Daten durchgeführt werden können oder nicht.

    Datenverarbeitung dokumentieren (Kurs 5)


    Es war mir immer unglaublich langweilig, etwas zu dokumentieren. Wenn alles erledigt ist und gut funktioniert, warum sollten die ergriffenen Maßnahmen dokumentiert werden? Warum neue und neue Dokumente erstellen? Warum all das Altpapier?

    In der Analytik reichen jedoch die Daten einer durchgeführten Studie und die Ergebnisse nicht aus. Um die anderen Vertreter der Analystenkohorte zu überzeugen, muss angegeben werden, wie und welche Daten verarbeitet wurden. Wenn Ihre Forschung nicht wiederholt werden kann, ist diese Forschung wertlos. In einem der DSS-Kurse wird daher vermittelt, wie die durchgeführte Datenverarbeitung am besten dokumentiert wird. In der Tat lehren sie die Regeln der guten Manieren in der Wissenschaft: erledigt - erzählen Sie allen, wie Sie es getan haben.

    Die Dokumentation für den Kurs ist sehr umfangreich. Für diesen Vorgang wird das integrierte RStudio-Toolkit verwendet. Ein Dokument, das Ihre Datenrecherche beschreibt, wird auf der Grundlage einer Rmd-Datei erstellt, in der Sie nur beschreiben, wie und woran Sie gearbeitet haben. Beispiele für Dokumente finden Sie hier .

    Im Allgemeinen wurde empfohlen, im Rahmen des Kurses ungefähr die folgende Struktur für die Darstellung von Informationen einzuhalten:

    • eine Zusammenfassung der geleisteten Arbeit (einschließlich des Ziels);
    • Beschreibung des Datensatzes (Interpretation der Variablen, Beschreibung der Reihenfolge des Eingangs, Links zu Datensätzen);
    • Beschreibung der Datenvorverarbeitung (Datenbereinigung, Normalisierung);
    • Beschreibung der Datenverarbeitungsbedingungen (z. B. Auslösen eines Zufallszählerwerts);
    • Ergebnisse der explorativen Datenanalyse;
    • eingehende Analyseergebnisse;
    • Schlussfolgerungen;
    • Anwendungen: Tabellen, Grafiken usw.


    Natürlich ist dies kein Allheilmittel - Sie sollten von der vorgegebenen Struktur zurücktreten, wenn Sie etwas zusätzlich beschreiben müssen oder etwas unpraktisch ist. Dennoch ist es diese Struktur, die es dem Leser ermöglicht, das Wesentliche Ihrer Forschung schnell zu verstehen und gegebenenfalls zu wiederholen.

    Was ich an R in Bezug auf die Dokumentation mag, ist, dass Sie in einer Rmd-Datei eine Textbeschreibung mit Einfügungen des Datenverarbeitungscodes bereitstellen können, die beim Kompilieren einer Rmd-Datei in PDF in Verarbeitungsergebnisse umgewandelt wird: Berechnungsergebnisse, schöne Grafiken usw. Tatsächlich ist dies sehr praktisch - Sie müssen nicht darüber nachdenken, wo und wie Sie eine weitere Illustration hinzufügen können.

    Aus einer Rmd-Datei kann ein sehr ordentliches PDF- oder HTML-Dokument (einschließlich einer Präsentation, dies ist jedoch eine etwas andere Geschichte) erstellt werden. Ein solches Dock ist keine Schande, um Kollegen in der Datenanalyse-Werkstatt zu zeigen. Und es wird für Sie selbst nützlich sein: Glauben Sie mir, wenn Sie nach einem Jahr zu Ihrer Forschung zurückkehren möchten, werden Sie sich höchstwahrscheinlich nicht erinnern, woher die Daten kamen, wie sie verarbeitet wurden und warum die Forschung überhaupt durchgeführt wurde.

    Ende des ersten Teils


    Lesen Sie im zweiten Teil : Stat Kurse. Datenverarbeitung und maschinelles Lernen; Übung: Erstellen von Software für die Datenverarbeitung (Abschlussprojekt); andere nützliche Kurse über Kurser.

    Jetzt auch beliebt: