"Storytelling with Data", Cole Nussbaumer Knaflic: ein informeller Überblick über das Buch

    „Unsere Cyntists haben eine Reihe von Grafiken erstellt, und wir wissen absolut nicht, wo wir sie platzieren sollen. Lass uns versuchen, sie irgendwie anzubringen. “ (c) belauscht

    “Schlechte Grafik überall. In meiner Arbeit treffe ich ständig extrem zweifelhafte Datenvisualisierungen. Niemand macht absichtlich schlechte Grafiken. Aber es passiert Immer wieder. In jedem Unternehmen in allen Wirtschaftsbereichen von Mitarbeitern aller Ebenen. Dies geschieht in den Medien. Dies passiert, wenn Sie erwarten, dass die Leute die Daten visualisieren können. “ (c) der Autor des Buches.

    Dies geschieht hier auf Habré: Wenn ich die Artikel im Stream "Datenvisualisierung" durchsehe, denke ich oft, dass ich nicht verstehe und nicht verstehen kann, was angezeigt wird. Der Artikel wird einige Beispiele betrachten. Und was für mich am unangenehmsten ist, passiert auch in meiner Arbeit. Nicht ständig, aber öfter als wir möchten.



    Der Titel des Buches "Storytelling with Data" klang überzeugend. Ich habe es für die Abendlesung gewählt und habe es nicht bereut. In dem Buch gibt es keine Formeln, gerissene und ungewöhnliche Diagramme, komplexe Fälle. Englisch ist verständlich. Qualitätsdruck Liest wie eine Fiktion. Das Buch wird für alle nützlich sein, die Präsentationen basierend auf Daten erstellen müssen. Ich denke, dass dies besonders für die Datenanalytiker von Vorteil sein wird.

    Diese Rezension ist sehr informell: Die Gedanken des Buchautors, meine Gedanken, Situationen aus meiner Arbeit sowie die Krippen auf Matplotlib folgen den Links. Es wird viele Bilder geben. Fast alle Illustrationen stammen aus einem Buch in Python.

    An der Universität wurde mir Statistik beigebracht, jetzt werden Studenten maschinelles Lernen beigebracht, Datenschulen aus großen Unternehmen sind erschienen. Bislang habe ich jedoch noch nicht gehört, dass Datenanalysten ernsthaft gelehrt werden, anhand von Daten "Geschichten zu erzählen". Dies ist jedoch ein notwendiger Schritt, um aus Daten Informationen und Wissen zu machen. Es ist wichtig, die Erkenntnisse des Kunden hervorzuheben. Und zu sagen, dass er verständlich und faszinierend war, so dass er sofort etwas im Geschäft verbessern wollte (vielleicht mit unserer Hilfe), und nicht einfach nur sagte: „Nun, okay, das hört sich interessant an“ und ging zu seinem Tagesgeschäft .

    Ein paar Zitate von Habr:
    In einem Gespräch mit Jonathan Nolis, einem der führenden Datenanalysten von Seattle, der mit Unternehmen der Fortune 500-Gruppe zusammenarbeitet, haben wir die folgende Frage diskutiert: „Welche der beiden Fähigkeiten ist für einen Datenverarbeiter wichtiger? oder lernen, gute Folien in PowerPoint zu zeichnen? " Nolis sprach sich für die zweite aus und war der Ansicht, dass eine leicht verständliche Erklärung der Analyseergebnisse nach wie vor ein Schlüsselelement beim Umgang mit Informationen ist.
    Was machen Datenanalytiker eigentlich? Befunde aus 35 Interviews
    Aber das zweite Zitat über Soft Skills:
    - Beginnen wir mit Soft Skills - weil sie nicht ausreichen. Trotz der Tatsache, dass der Datenwissenschaftler ein technischer Beruf ist, ist es äußerst wichtig, das Ergebnis Ihrer Arbeit richtig / schön präsentieren zu können. Grob gesagt, es ist wie ein iPhone - nicht nur die Füllung ist gut, sondern auch das Aussehen, die Verpackung und die Geschichte. Die Menschen müssen lernen, wie sie ihre Ergebnisse präsentieren: Blogbeiträge schreiben, sprechen, Code teilen. Die besten Datenwissenschaftler verstehen das sehr gut und das tun sie auch. Ansonsten können Sie in Ihrem Loch stecken bleiben und sogar mit einem coolen Ergebnis unbemerkt bleiben.
    „Ich finde es schwierig, die Motivation eines Datenwissenschaftlers zu verstehen, der in der Mathematik keine Schönheit sieht“ - Kirill Danilyuk, Data Scientist

    Einleitung


    Das Buch beginnt mit Beispielen für die Transformation von erfolglosen Visualisierungen in verständliche. Hier ist einer von ihnen.

    Es war:




    Es wurde:




    Jupyter Notebook on GitHub

    Wenn im ersten Fall meine Reaktion auf das Diagramm war: "Was ist das?", Dann dauerte es im zweiten Fall nur wenige Sekunden, um die Essenz der Informationen zu erfassen und dann auf die Details einzugehen.

    Praktisch jede Visualisierung für eine Präsentation ist eine Arbeit. Ich baue Diagramme mit matplotlib und dem Autor des Buches - mit Excel. Um die Arbeit in der Zukunft zu erleichtern, implementierte ich für mich die Erstellung einiger Grafiken aus einem Buch in Python. Der Code enthält eine Reihe von "Feinabstimmung" -Dateien. Es stellte sich eine Art Spickzettel mit Kommentaren heraus. Verfügbar als Referenz .

    Werfen wir einen kurzen Blick auf den Inhalt der Teile des Buches.

    Teil 1: Die Bedeutung des Kontexts


    Explorativ vs erklärend. Das Analysieren von Daten ähnelt dem Finden von Perlen: Manchmal müssen Sie 100 Austern öffnen (überprüfen Sie 100 Hypothesen), um ein Paar Perlen zu finden. Dabei visualisieren wir die Daten für uns. Wenn es an der Zeit ist, über die Ergebnisse zu sprechen, besteht oft der Wunsch, die gleichen Diagramme zu verwenden und über die geleistete Arbeit zu berichten: „Wir öffnen die erste Auster. Ist leer Aber keine Sorge, wir haben noch 99 Austern. Öffne die zweite. Tu das nicht Es ist notwendig, die Forschungs- ( explorative ) Analyse von den erklärenden ( erklärenden ) Analysen zu trennen . Im Stadium der erklärenden Analyse ist es notwendig, Zeit dafür zu legen, je nach Kontext sind weitere Visualisierungen erforderlich: an wen, was und wie.

    Eines der interessanten Beispiele, bei dem ich anstelle einer Recherche eine erklärende Analyse wünschen würde - der Artikel " Analyse von Habrahabr- und Geektimes-Artikeln ". Der Autor gab eine Reihe von Diagrammen und Tabellen heraus, aber ich sah keine Schlussfolgerungen daraus. Es wäre sehr interessant zu wissen, wann Artikel veröffentlicht werden sollten, um möglichst viele Ansichten zu erhalten. Nach einem Zeitplan ist es Sonntag, nach einem anderen Zeitplan - 6 Uhr. Aber wird der Sonntag um 6 Uhr eine gute Zeit für die Veröffentlichung sein? Nicht sicher. Einer der Kommentare:



    An.Es ist offensichtlich, dass der Inhalt und die Details vom Publikum abhängen. Aber hier kann man vermissen. Einmal erzählte mir einer der verärgerten Zuhörer: "Vor Ihnen sitzen 10 Ingenieure, die den größten Teil des Lebens in der Ölförderung tätig waren, und Sie haben uns gesagt, wie man eine Analyse der Produktionsverfallskurven für 20 Minuten macht?". Und es ist gut, dass er das gesagt hat, da ich für weitere 20 Minuten einen ähnlichen Inhalt hatte.

    WasUnsichtbar für mich, dachte ich. Es ist wichtig, klar zu definieren, welche Aktion Sie vom Publikum erwarten. Zum Beispiel können Sie weitere 10 Mio. Rubel zuweisen, 5 Entwickler einstellen, die Abteilung reduzieren, die Temperatur im Kessel auf 700 ° C erhöhen und das Projekt mit der Prognose der Betriebsverschuldung beginnen. Das ist unangenehm. Es gibt immer das Gefühl, dass das "Geschäft" viel besser weiß, und es ist schrecklich, ein verrücktes Angebot zu machen. Aber wenn das Publikum nicht verstanden hat, was es tatsächlich will, kann sich alles auf den belauschten Bericht beschränken. Hören Sie zu, sagen Sie Danke und gehen Sie weiter.

    Das „Geschäft“ weiß es wahrscheinlich besser, aber das „Geschäft“ kann sich in diesem Moment mit ganz anderen Dingen beschäftigen: Die Anlage brennt oder die Hacker haben einige der historischen Daten der Sensoren unwiederbringlich gelöscht. (All dies sind reale Situationen). Verhalten Sie sich als Experte im Themenbereich: Sie haben die Daten analysiert, den Prozess von innen betrachtet. In jedem Fall kann sogar ein fehlerhafter Vorschlag zu einer konstruktiven Diskussion führen.

    Vor kurzem habe ich für einen Kunden eine hervorragende Arbeit geleistet: Ich habe drei Jahre lang Daten aus verschiedenen Quellen analysiert. Ich stellte die Funde in mehreren umfangreichen Excel-Tabellen und Word-Dokumenten zusammen, schickte eine E-Mail und hoffte, dass mehrere Projekte gestartet würden. Als Antwort erhielt er: "Ja, das ist sehr interessant!" Und alle. Jetzt verstehe ich, dass es keine andere Antwort geben könnte.

    WieDiagramme für Präsentationen unterscheiden sich von Diagrammen für Buchstaben. Im ersten Fall sehen wir die Reaktion des Publikums, jederzeit können wir Fragen beantworten, Erklärungen geben. Daher sollte der Detaillierungsgrad von Diagrammen für Buchstaben höher sein.

    Teil 2: Effektive Visualisierung auswählen


    Der Autor bietet eine Liste guter Möglichkeiten zur Visualisierung von Daten. Für mich ungewöhnlich: Visualisierung mit einfachen Text- und Steigungsgrafiken.

    Einfacher Text. Wenn etwas in einer Ziffer ausgedrückt werden kann, wird die Grafik möglicherweise nicht benötigt.


    Jupyter Notebook auf GitHub

    Vor kurzem nutzte man diese Idee, um das Projekt der Überwachung und Prognose von Siedlungen mit Agenten vorzustellen: " 7.000.000 Rubel angesammelter Schulden zum Zeitpunkt einer Insolvenz eines Agenten." Der Effekt war bemerkenswert, das Publikum stellte sich sofort auf die gewünschte Stimmung ein.

    Diagramm neigenIch habe einmal sehr lange parallele Plots von SAS JMP verwendet. Etwas ähnliches Leider ist in vielen Umgebungen ist diese Methode der Visualisierung nicht, und doch ist es ideal für multivariate Vergleich geeignet:


    Jupyter Notebook Software auf GitHub

    kürzlich Habré war ein Artikel „ Bester Arbeitgeber in der IT: Die ersten Ergebnisse des Dienstes“ MK Bewertungen „“ Es gab einen Zeitplan, weshalb es in den Kommentaren eine Diskussion gab:



    Kleine Unternehmen sind im Durchschnitt in fast allen Parametern höher eingestuft als große Unternehmen. Es wurde interessant für mich, aber macht es Sinn, von einem durchschnittlichen kleinen Unternehmen zu einem guten großen zu wechseln? Das Ergebnis des Vergleichs mithilfe der Steigungskurve:



    Schlechte Visualisierungsmöglichkeiten.Der Autor des Buches warnt vor der Verwendung von Kreisdiagrammen und Donut-Diagrammen und rät auch, niemals 3D zu verwenden.

    Kreisdiagramme Ich weiß es für mich: Wenn ich ein Kreisdiagramm sehe, suche ich sofort nach Zahlen (Prozentzahlen). Und wenn es keine Zahlen gibt, dann überspringe ich es einfach. Ohne Winkelmesser ist es schwierig, Winkel zu vergleichen. Das einzige, was beim Übergang vom Kreisdiagramm verloren geht, ist die Visualisierung der Tatsache, dass alle Teile zusammen ein Ganzes bilden (100%). Wenn das Kreisdiagramm als Ganzes nicht funktioniert, ist es nicht mehr wichtig.

    Donut-Charts. Schlimmer als kreisförmige, da anstelle des Winkels die Längen der Bögen verglichen werden müssen.

    3D. Einige Beispiele aus Excel.

    Was denkst du ist D?



    Sie müssen nicht nur Ihren Finger auf den Wert 35 (der Blick mit den Augen lässt sich nur schwer drehen), sondern auch 35 ist nicht korrekt. Der richtige Wert ist 40!

    3D kombiniert mit Kreisdiagrammen wirkt Wunder. Wie viel C ist größer als B? Zumindest ungefähr?



    Tatsächlich ist C um 5% kleiner als B und sie entsprechen 30% bzw. 35%! Verwenden Sie 3D nicht zur Datenvisualisierung.

    Teil 3: Müll ist dein Feind!


    Jedes Element in der Grafik trägt eine kognitive Belastung. Je höher der Rauschabstand der Visualisierung ist, desto besser. Natürlich nicht auf Kosten der Klarheit. Die zusätzlichen Elemente machen den Graph auf den ersten Blick visuell viel komplizierter als er tatsächlich ist. Daher wird ein Teil des Publikums entscheiden, sich nicht zu bemühen und die Visualisierung zu sortieren. Bei mir passiert das oft auf Habré: „Oh! Diese Grafik scheint interessant zu sein, aber einige davon sind zu kompliziert. Vielleicht werde ich ein Lesezeichen hinterlassen und das nächste Mal verstehen. “ Autoren von Artikeln über Habré verlieren durch eine solche Entscheidung nichts. Aber an meiner Stelle könnte es einen potenziellen Kunden, Investor, Mitarbeiter oder Arbeitgeber geben.

    Der Autor des Buches erklärt, was Müll in den Charts ist und wie man damit umgeht. Gib nur ein Beispiel.

    Es war:




    Trotz der Tatsache, dass die Grafik einen sehr einfachen "Fund" visualisiert, dachte ich zunächst an "Uh-äh?". Das Gehirn weigert sich, Energie zu verschwenden, um in die Informationen einzudringen.

    Es wurde:



    Jupyter Notebook auf GitHub

    Das Gehirn gerät nicht mehr in Panik. Es gab einen Wunsch zu verstehen.

    Teil 4: Konzentrieren Sie die Aufmerksamkeit des Publikums


    Eine kleine Übung. Zählen Sie die Anzahl der Ziffern "3" im nächsten Bild.



    Ich würde diese Aufgabe definitiv nicht tun, wahrscheinlich haben Sie es auch nicht getan. Die einzige Möglichkeit für einen gewöhnlichen Menschen (kein Genie) ist es, alle Zahlen in einer Reihe von oben nach unten von links nach rechts anzuzeigen. Die richtige Antwort lautet 6.

    Schauen Sie sich das folgende Bild an. Wie viel einfacher ist es jetzt, die Aufgabe auszuführen:



    Laut einer Studie entscheidet eine Person in 8–10 Sekunden, ob sie eine Tabelle anzeigt, ob sie mehr Zeit verbringen oder sich lieber auf etwas anderes konzentrieren soll. Diagramme ohne aufmerksamkeitsstarke Attribute ähneln dem ersten Bild. Höchstwahrscheinlich ist das Publikum zu faul, um es zu verstehen, und nach 8 Sekunden verliert es das Interesse, ohne Informationen zu erhalten. Wenn das Diagramm wie das zweite Bild aussieht, erfasst das Publikum die hervorgehobenen Informationen auf einen Blick. Schneller als es bewusst ist. Und selbst wenn sich die Leser nach 8 Sekunden auf etwas anderes konzentrieren, wird der wichtigste Teil der Informationen erhalten.

    Die einzige Möglichkeit, Informationen aus diesem Zeitplan zu erhalten, besteht darin, sie vollständig zu lesen: Der



    überarbeitete Zeitplan lenkt die Aufmerksamkeit des Publikums sofort auf ein bestimmtes „Finden“: etwas muss mit Schalldämmung geschehen.


    Jupyter Notebook auf Github

    Teil 5: Denken Sie wie ein Designer


    Designer sind für mich Menschen, die wunderschöne Bilder zeichnen. Ich bin kein Designer, ich habe noch nie schöne Bilder bekommen. Glücklicherweise ist die Situation mit der Datenvisualisierung einfacher. Die Entwicklung von Grafiken ist unter folgenden Gesichtspunkten erforderlich: Möglichkeiten ( Erschwinglichkeit ), Zugänglichkeit ( Zugänglichkeit ) und Ästhetik ( Ästhetik ).

    Möglichkeiten. Wenn wir eine Schneiderschere nehmen, wird sofort klar, wo und wo Sie Ihren Daumen platzieren sollen - ein paar andere Finger. Auch bei Diagrammen: Das Publikum sollte sofort verstehen, wo es zu suchen ist und was mit diesem Zeitplan zu tun ist. Dafür:

    1. Markieren Sie wichtige Punkte. Es wird empfohlen, nicht mehr als 10% der Visualisierungselemente zuzuweisen, andernfalls geht der Effekt verloren. "Es ist leicht, einen Falken unter den Tauben zu finden, aber es wird immer schwieriger, wenn es mehr Vogelarten gibt."
    2. Beseitigen Sie Ablenkungen. „Perfektion wird nicht erreicht, wenn nichts hinzuzufügen ist, sondern wenn nichts zu entfernen ist“, Antoine de Saint-Exupery.
          a. Nicht alle Daten sind gleich wichtig. Nicht kritische Komponenten entsorgen.
          b. Wenn Teile nicht benötigt werden, aggregieren Sie.
          c. Fragen Sie sich regelmäßig: Wenn sich etwas herauswirft, ändert sich etwas? Nicht ändern - wegwerfen.
          d. Hintergrundelemente nach hinten senden. Verwenden Sie hierfür grau.
    3. Erstellen Sie eine klare Hierarchie von Informationen. Verwenden Sie verschiedene Attribute, die Aufmerksamkeit erregen, und zeigen Sie Ihrem Publikum, wie Sie Informationen in der Sequenz erhalten. Zum Beispiel wie in der folgenden Grafik:


    Jupyter Notebook auf GitHub

    Accessibility. Das Konzept der Barrierefreiheit legt nahe, dass das Design für Personen mit unterschiedlichen Fähigkeiten geeignet sein sollte. Dies bezieht sich auf Personen mit unterschiedlichen Erfahrungen, Kenntnissen, technischen Fähigkeiten und Grad der Einbindung in das Fachgebiet. Sie sind möglicherweise Ingenieur, benötigen jedoch kein Publikum mit einer höheren technischen Ausbildung, um Ihre Zeitpläne zu verstehen:

    1. Nicht zu kompliziert Verwenden Sie möglichst visuell reine Schriftarten (Arial), verständliche Wörter und kurze Sätze.
    2. Der Text ist dein Freund. Zumindest sollten Titel und Achsennamen im Diagramm enthalten sein. Mal sehen, wie einfacher Text die Wahrnehmung von Grafiken verändern kann:

    Kein Text


    Worum geht es in dieser Tabelle?



    Minimaler erforderlicher Text


    Es beginnt sich etwas zu zeigen: Es gibt einige Anwendungen, die weniger verarbeitet wurden als seit Mai.



    Viel text


    Jetzt ist alles klar: Die Leute sind gegangen, das Team schafft es nicht, wir müssen zwei weitere Spezialisten einstellen.



    Jupyter Notebook auf GitHub

    Aesthetics. Vor kurzem gab es auf Habré einen Artikel " Visualisierung von Kommentaren von YouTube-Kanälen internationaler und lokaler Touhou-Gemeinschaften ". Ehrlich gesagt habe ich nicht verstanden, warum ich es brauche und welche Informationen ich aus den Charts entnehmen kann ... Aber wie schön sind sie! Ich habe alles gern gesehen (ohne etwas zu verstehen). Wenn Sie sich mehr Zeit und Mühe in die Ästhetik Ihrer Zeitpläne investieren, erhöhen Sie die Chance, dass das Publikum geduldiger und aufmerksamer wird. Dementsprechend werden die Chancen erhöht, dass das Publikum versteht, was Sie vermitteln möchten.

    Dafür:

    1. Verwenden Sie Farbe weise.
    2. Achten Sie auf die Ausrichtung.
    3. Machen Sie mehr Leerzeichen (Leerzeichen).

    Ein Beispiel, wie Sie den Graphen in ästhetischer Form bringen können:

    War




    Es wurde



    Jupyter Notebook auf Github

    Teil 6: Kritische Überprüfung von Visualisierungen


    Der Autor gibt 5 Beispiele für gute Visualisierungen und untersucht im Detail, warum sie so gemacht werden.

    Mir gefiel dieses Beispiel:


    Jupyter Notebook auf GitHub

    1. Verständliche visuelle Hierarchie: Lesen Sie die Überschrift, wechseln Sie zu den fettgedruckten Zahlen, von rechts nach links gelangen Sie zum Text "Unmet Need (gap)". Fassen Sie für einige Sekunden an: Wenn Sie nichts tun, steigt der Bedarf nicht mehr.
    2. Von "Nicht erfüllter Bedarf (Lücke)" lesen wir alle Tags. Wir wissen, wo die Direktoren und die Hauptquellen der neuen Direktoren verloren gehen, dank der Tatsache, dass die Spalten direkt signiert sind.
    3. Eine sehr interessante Idee von negativen Spalten.

    Teil 7: Erzählstunden


    Gute Geschichte ist aufregend. Basierend auf den Erfahrungen von Literatur und Kino zeigt der Autor, wie man anhand von Daten interessante Geschichten erzählt. Einer der Tipps: Schreiben Sie vor der Vorbereitung einer Präsentation eine „große Idee“ (die wichtigsten Ideen in einem Satz) und eine „dreiminütige Geschichte“ (beschreiben Sie die wichtigsten Ergebnisse auf einer halben Textseite).

    Jede Geschichte hat drei Hauptteile: den Anfang, die Mitte und das Ende.

    1. Start Zeigt ein Problem an. Wenn es kein klares Problem gibt, wird die Präsentation möglicherweise auch nicht benötigt. "Warum sollte mich das interessieren?"
    2. Mitte . Zeigt, wie das Problem gelöst werden kann. "Warum kann ich eine vorgeschlagene Entscheidung treffen?"
    3. Das Ende Aufruf zum Handeln "Was muss ich jetzt tun, um das Problem zu lösen?"

    Es gibt zwei Hauptgeschichtenstrategien:

    1. In chronologischer Reihenfolge:

           a. Problem identifizieren
           b. Erfasste Daten zum besseren Verständnis der Situation
           c. Analyse der Daten (Überprüfung der Situation aus verschiedenen Blickwinkeln, Berücksichtigung anderer Faktoren)
           d. Eine Lösung gefunden
           e. Auf dieser Grundlage empfehlen wir die folgenden Schritte

    : 2. Beginnen Sie am Ende:

           a. Wir empfehlen, dies und das zu tun.
           B. Wir unterstützen diese Empfehlung mit Daten

    Teil 8: Alles zusammenstellen


    Der Autor führt den Leser am Beispiel aller Schritte und Lektionen des Buches an:

    • Zeigt einen schlechten Zeitplan
    • Beschreibt den Kontext der Präsentation
    • Wählt eine gute Visualisierungsmethode aus.
    • Entfernt alle Abfälle,
    • Legt fest, wo die Aufmerksamkeit des Publikums fokussiert werden soll, und verwendet dazu Anreizattribute,
    • Bringt Grafiken zu einem ästhetischen Look.
    • Bereitet eine vollständige Präsentation vor.

    Und Sie können ein Beispiel im Buch sehen. Ich empfehle zu lesen.

    Jetzt auch beliebt: