Wie kann man die Kausalität ohne Experiment überprüfen?

Ursprünglicher Autor: Edwin Chen
  • Übersetzung


Heute werden wir darüber sprechen, kausale Beziehungen zwischen Phänomenen herzustellen, wenn es unmöglich ist, ein Experiment und A / B-Tests durchzuführen. Dies ist ein ziemlich einfacher Artikel, der für Anfänger in Statistik und maschinellem Lernen oder für diejenigen nützlich sein wird, die zuvor noch nicht über solche Probleme nachgedacht haben.

Werden Patienten, die ein neues Medikament testen, aufgrund des Medikaments wirklich besser oder hätten sie sich immer noch erholt? Sind Ihre Verkäufer wirklich effektiv oder sprechen sie mit Kunden, die bereits bereit sind, einen Kauf zu tätigen? Ist Soylent (oder eine Werbekampagne, die das Unternehmen eine Million Dollar kostet) Ihre Zeit wert?

Kausalzusammenhänge herstellen


Ursache ist unglaublich wichtig, aber manchmal ist es sehr schwierig festzustellen.

Ein Kollege kommt an Ihren Tisch. Er knetet Soylent , einen löslichen Lebensmittelersatz, und schlägt vor, dass Sie es versuchen. Soylent sieht ekelhaft aus und Sie fragen sich, warum es nützlich ist. Ein Kollege antwortet, dass seine Freunde, die dieses Getränk seit mehreren Monaten trinken, kürzlich einen Marathon gelaufen sind. Und davor sind sie nicht gelaufen? - Wir sind gelaufen, letztes Jahr sind sie auch einen Marathon gelaufen.

In einer idealen Welt könnten wir jederzeit ein Experiment durchführen - den Goldstandard für die Herstellung von Kausalzusammenhängen. In der Realität ist dies nicht immer möglich. Es gibt Zweifel an der ethischen Verwendung von Placebo oder gefährlichen ungetesteten Medikamenten. Das Management möchte möglicherweise nicht versuchen, das Produkt an eine zufällige Gruppe von Käufern zu verkaufen, um eine mögliche kurzfristige Gewinnsteigerung zu erzielen, und das Team, das Verkaufsboni erhält, kann sich gegen diese Idee auflehnen.

Wie kann man Kausalzusammenhänge ohne A / B-Tests herstellen? Hier kommen Propensity Modeling und andere Methoden zur Herstellung von Kausalzusammenhängen ins Spiel.

Neigungsmodellierung


Angenommen, wir möchten den Effekt der Verwendung von Soylent mithilfe der Propensity Modeling-Methode (der Methode zur Auswahl von Kontrollgruppen gemäß dem Compliance-Index) simulieren. Um seine Idee zu erklären, führen wir ein Gedankenexperiment durch.

Stellen Sie sich vor, Brad Pitt hat einen Zwillingsbruder - eine exakte Kopie von ihm. Brad 1 und Brad 2 wachen zur gleichen Zeit auf, essen gleich, bekommen die gleiche körperliche Aktivität. Sobald Brad 1 es schafft, die letzte Packung Soylent von einem Straßenhändler zu kaufen, und Brad 2 keine Zeit mehr hat, beginnt nur Brad 1, Soylent in seine Ernährung aufzunehmen. In einem solchen Szenario ist jeder weitere Unterschied im Wohlbefinden der Zwillinge definitiv eine Folge der Verwendung von Solent.

Um das obige Szenario in das wirkliche Leben zu übertragen, besteht eine Möglichkeit, die gesundheitlichen Auswirkungen von Soylent zu bewerten, darin, Folgendes zu tun:

Für jede Person, die Soylent verwendet, finden wir den Nichtbenutzer in beobachtbaren Merkmalen mit dem ersten vergleichbar. Zum Beispiel könnten wir Kanye West, die Soylent Jay-Z trinkt, Natalie Portman, die Kira Knightley nicht benutzt, und Soylent-Liebhaber J.K. Rowling, die Stephanie Meyer liebt, nicht trinken.
Wir messen den Solent-Effekt als die Unterschiede zwischen jedem Paar von „Zwillingen“.

In der Praxis ist es jedoch unglaublich schwierig, die ähnlichsten Personen zu finden. Passt Jay-Z wirklich zu Kanye, wenn Jay-Z durchschnittlich eine Stunde länger schläft als Kanye? Können wir Jonas Brothers und One Direction zusammenbringen?

Neigungsmodellierung- Dies ist eine Vereinfachung der obigen Methode zur Auswahl von Kontrollgruppen. Anstatt ähnliche Individuen auf der Grundlage zahlreicher Merkmale zu finden, stellen wir eine Korrespondenz auf der Grundlage eines einzigen Index her, der die Wahrscheinlichkeit charakterisiert, dass die Person Soylent trinkt („Neigung“, „Neigung“).

Im Einzelnen ist die Methode zur Auswahl von Kontrollgruppen basierend auf dem Compliance-Index wie folgt:

  • Zunächst bestimmen wir, welche der Merkmale des Individuums als Auswahlkriterien dienen (z. B. wie eine Person isst, wenn sie schläft, wo sie lebt usw.).

  • Dann konstruieren wir ein probabilistisches Modell (z. B. logistische Regression) basierend auf den ausgewählten Variablen, um vorherzusagen, ob der Benutzer Soylent trinken wird. Zum Beispiel kann unsere Schulungsprobe aus vielen Personen bestehen, von denen einige in der ersten Märzwoche 2016 ein Getränk bestellt haben, und wir werden den Klassifikator schulen, um zu bestimmen, welcher der Benutzer ein Benutzer von Soylent wird.

  • Eine probabilistische Bewertung einer Person, die Benutzer unseres Produkts wird, wird als Compliance-Index bezeichnet .

  • Wir werden mehrere Gruppen bilden, zum Beispiel nur 10 Gruppen: Die erste Gruppe umfasst Benutzer mit einer Wahrscheinlichkeit, Soylent zu verwenden, gleich 0-0,1, die zweite - mit einer Wahrscheinlichkeit von 0,1-0,2 usw.

  • Zuletzt vergleichen wir Soylent-Anhänger und Nicht-Anhänger in jeder Gruppe (z. B. vergleichen Sie ihre körperliche Aktivität, ihr Gewicht oder einen anderen Gesundheitsindikator), um die Wirkung des Getränks zu bewerten.

Zum Beispiel ist hier eine hypothetische Verteilung der Trinker und Nichttrinker von Soylent nach Alter. Wir können feststellen, dass diejenigen, die das Getränk trinken, größtenteils älter sind, und dieser störende Faktor ist einer der Gründe, warum wir nicht einfach eine Korrelationsanalyse durchführen können.


Nach dem Training des Modells zur Bewertung des Konformitätsindex und der Verteilung der Benutzer in Gruppen in Abhängigkeit vom angegebenen Index sieht dies möglicherweise wie ein Diagramm aus, das die Auswirkung des Getränks auf die Entfernung charakterisiert, die der Verbraucher pro Woche zurücklegt.


In diesem hypothetischen Diagramm entspricht jeder der Teile der Gruppe gemäß dem Compliance-Index, und die Woche des Beginns der Exposition ist die erste Märzwoche, in der die Probandengruppen die ersten Teile von Soylent erhielten. Wir sehen, dass bis zu dieser Woche alle Probanden eine gute Strecke gelaufen sind. Nachdem die Gruppe, die das Medikament erhält, mit der „Behandlung“ begonnen hat, beginnen sie jedoch mehr zu laufen, so dass wir die Wirkung des Trinkens des Getränks bewerten können.

Andere Kausalitätstechniken


Ohne Zweifel gibt es viele andere Methoden, um kausale Beziehungen zwischen beobachteten Phänomenen herzustellen. Ich werde kurz über meine beiden Favoriten sprechen (ich habe diesen Beitrag ursprünglich als Antwort auf eine Frage von Quora geschrieben, also habe ich Beispiele von dort genommen).

Aufbau eines diskontinuierlichen Regressionsmodells


Quora hat kürzlich damit begonnen, Statusausweise (Badges) auf den Profilseiten der aktivsten Benutzer anzuzeigen . Angenommen, wir möchten den Effekt dieser Innovation bewerten (nehmen wir an, dass es unmöglich ist, A / B-Tests durchzuführen, da bereits Funktionen hinzugefügt wurden). Insbesondere interessiert uns, ob das Top Author-Abzeichen dem Benutzer hilft, mehr Abonnenten zu gewinnen.

Nehmen wir zur Vereinfachung an, dass jedem Benutzer, der im Vorjahr 5.000 oder mehr Stimmen erhalten hat, ein Ausweis ausgestellt wird. Die Idee, die einer diskontinuierlichen Regression zugrunde liegtliegt in der Tatsache, dass der Unterschied zwischen Benutzern, die sich in der Nähe des Schwellenwerts befinden, der den Erhalt oder Nichterhalt eines Ausweises bestimmt (z. B. diejenigen, die 4.999 Stimmen erhalten und keinen Ausweis erhalten haben, und diejenigen, die 5.000 Stimmen erhalten und einen Ausweis erhalten haben), als mehr oder weniger zufälliges Ereignis angesehen werden kann . Dies bedeutet, dass wir eine Stichprobe verwenden können, die in unmittelbarer Nähe des angegebenen Schwellenwerts entnommen wurde, um kausale Zusammenhänge herzustellen.

In der nachstehenden imaginären Tabelle lässt sich beispielsweise aufgrund der Lücke in der Region von 5.000 Abonnenten der Schluss ziehen, dass das Top Author-Abzeichen im Durchschnitt zu einer Erhöhung der Abonnentenzahl um 100 führt.


Natürliches Experiment


Dennoch ist es keine sehr interessante Frage, die Auswirkung von Abzeichen auf die Anzahl der Abonnenten zu klären (dies ist nur ein einfaches Beispiel). Man könnte eine tiefere Frage stellen: Was passiert, wenn ein Benutzer seinen Lieblingsautor findet? Wird der Autor des Lesers die Erstellung seiner eigenen Materialien und weitere Forschungen inspirieren und so die weitere Interaktion mit der Website fördern? Wie wichtig ist der Kontakt zu den besten Autoren im Vergleich zum Lesen einer zufälligen Auswahl der besten Artikel?

Ich habe einen ähnlichen Fall untersucht, als ich bei Google gearbeitet habe. Statt eines imaginären Beispiels mit Quora sollte ich Ihnen daher besser von der Arbeit erzählen, die ich dort geleistet habe.

Angenommen, wir möchten verstehen, was passieren würde, wenn wir jedem Nutzer einen idealen YouTube-Kanal zuordnen könnten.

  • Führt ein Ein-Kanal-Hobby zu einer erhöhten Nutzerinteraktion außerhalb dieses Kanals, beispielsweise weil ein Nutzer YouTube besucht, um seinen Lieblingskanal anzusehen, und dann noch etwas anderes zu sehen bleibt? Dieses Phänomen wird als Multiplikatoreffekt bezeichnet . Ein Beispiel aus der Welt des Fernsehens: Der Zuschauer bleibt am Sonntagabend zu Hause, um sich die nächste Folge von „Desperate Housewives“ anzusehen, und wechselt am Ende der Serie den Kanal, um nach etwas anderem Interessantem zu suchen.

  • Führt die Begeisterung für einen Kanal zu einer Steigerung der Aktivität auf diesem Kanal (sogenannter additiver Effekt )?

  • Ersetzt Ihr Lieblingskanal andere Kanäle in der Voreinstellungsliste des Benutzers? Am Ende ist die Zeit, die der Benutzer auf der Site verbringen kann, begrenzt. Dies wird als neutraler Effekt bezeichnet .

  • Im Gegenteil, verringert sich die Zeit, die der Benutzer auf der Website verbringt, mit dem Aufkommen des idealen Kanals, da weniger Zeit für das Durchsuchen und Suchen interessanter Videos aufgewendet wird? Dann würden wir einen negativen Effekt beobachten.

Wie immer wäre es ideal, A / B-Tests durchzuführen, aber in diesem Fall ist es unmöglich: Wir können den Benutzer nicht dazu bringen, einen bestimmten Kanal zu mögen (wir können Benutzern Kanäle empfehlen, aber sie mögen sie nicht unbedingt), wir können sie auch nicht verbieten andere Kanäle ansehen.

Einer der Ansätze zur Untersuchung dieses Effekts ist ein natürliches Experiment - ein Szenario, in dem das Universum selbst eine für uns nahezu zufällige Stichprobe generiert. Das ist seine Idee.

Stellen Sie sich einen Benutzer vor, der jeden Mittwoch ein neues Video hochlädt. Eines Tages informiert er die Abonnenten darüber, dass er im Urlaub mehrere Wochen lang keine neuen Videos veröffentlichen wird.

Wie werden Abonnenten folgen? Werden sie mittwochs aufhören, YouTube zu schauen, weil sie die Website normalerweise nur wegen dieses Kanals besuchen? Oder ändert sich ihre Aktivität nicht, da sie den genannten Kanal nur sehen, wenn er auf der Hauptseite erscheint?

Stellen wir uns im Gegenteil vor, der Kanal hat freitags neue Videos hochgeladen. Werden Abonnenten die Website auch freitags besuchen? Und werden sie, sobald sie auf YouTube sind, nur ein neues Video ansehen oder wird dies zu einem Wasserfall von Suchanfragen und verwandten Inhalten führen?

Es stellt sich heraus, dass all diese Szenarien stattfinden können. Hier ist beispielsweise ein Kalender zum Hochladen von Videos für einen beliebten YouTube-Kanal. Wie Sie sehen können, haben sie 2011 normalerweise dienstags und freitags Videos veröffentlicht, aber am Ende des Jahres haben sie die Veröffentlichungstage auf Mittwoch und Samstag verschoben.


Wenn wir diese Änderung im Zeitplan als natürliches Experiment verwenden, bei dem das Anschauen Ihres Lieblingskanals an bestimmten Tagen pseudozufällig abgebrochen und an anderen Tagen eingegeben wird, können wir versuchen, die Auswirkungen einer erfolgreichen Empfehlung eines idealen Kanals zu verstehen.

Dieses Beispiel eines natürlichen Experiments mag etwas verwirrend erscheinen. Das folgende Beispiel kann möglicherweise zur klareren Veranschaulichung der Idee dienen. Angenommen, wir möchten die Auswirkungen des Einkommens auf die psychische Gesundheit untersuchen. Dieser Artikel in der New York Times beschreibt ein natürliches Experiment, bei dem die Cherokee-Indianer die Casino-Einnahmen unter den Mitgliedern des Stammes verteilten und so „versehentlich“ einige von ihnen aus der Armut entfernten.

Bestimmung von Wachstumsfaktoren


Zurück zur Neigungsmodellierung.

Stellen Sie sich vor, wir sind Mitarbeiter der Entwicklungsgruppe unseres Unternehmens und stehen vor der Aufgabe, einen Weg zu finden, zufällige Website-Besucher in Benutzer zu verwandeln, die jeden Tag dorthin zurückkehren. Was machen wir

Wenn wir Propensity Modeling verwenden würden, wäre der Ansatz wie folgt. Wir könnten eine Liste von Ereignissen (Installation einer mobilen Anwendung, Autorisierung, Abonnement eines Newsletters oder eines bestimmten Benutzers usw.) erstellen und ein Modell erstellen, das auf dem Compliance-Index für jedes dieser Ereignisse basiert. Dann könnten wir jedes der Ereignisse in Abhängigkeit von der Auswirkung auf die Benutzerinteraktion bewerten und unsere geordnete Liste in der nächsten Iteration verwenden (oder diese Zahlen verwenden, um das Management davon zu überzeugen, dass wir mehr Ressourcen benötigen). Dies ist eine etwas komplizierte Idee, ein Regressionsmodell für die Kundenbindung (oder ein Regressionsmodell für den Abfluss) zu erstellen und das Gewicht jeder Funktionalität zu schätzen.

Trotz der Tatsache, dass ich diesen Beitrag schreibe, bin ich kein großer Fan von Propensity Modeling für viele Anwendungen auf dem Gebiet der Technologie (ich habe nicht auf dem Gebiet der Medizin gearbeitet, daher habe ich keine definitive Meinung über seine Nützlichkeit in diesem Bereich, obwohl ich denke, hier ist es mehr notwendig). Ich werde alle meine Argumente für das nächste Mal speichern, ich kann nur sagen, dass die Analyse von Kausalzusammenhängen eine unglaublich komplizierte Sache ist, und wir werden niemals in der Lage sein, alle versteckten Faktoren zu berücksichtigen, die die Einstellung des Benutzers beeinflussen. Allein die Tatsache, dass wir auswählen müssen, welches der Ereignisse in unser Modell aufgenommen werden soll, bedeutet, dass wir zunächst an den Nutzen jedes einzelnen Ereignisses glauben, während wir in Wirklichkeit verborgene Faktoren entdecken möchten, die das Engagement beeinflussen daran hätten wir nie gedacht.

Fazit


Zusammenfassend lässt sich sagen: Propensity Modeling ist eine leistungsstarke Technik zur Identifizierung von Kausalzusammenhängen, wenn keine Möglichkeit besteht, ein zufälliges Experiment durchzuführen.

Eine reine Beobachtungskorrelationsanalyse kann schließlich äußerst gefährlich sein. Lassen Sie mich Ihnen mein Lieblingsbeispiel geben: Wenn wir feststellen, dass in den Städten mit dem größten Polizeipersonal die Kriminalitätsrate normalerweise höher ist, bedeutet dies, dass wir die Anzahl der Polizisten reduzieren müssen, um die Kriminalität im Land zu reduzieren?

Ein weiteres Beispiel ist der Artikel zur Hormonersatztherapie im Rahmen der Nurses 'Health Study.

Und denken Sie daran, dass das Modell normalerweise so gut ist wie die Daten, die Sie übermitteln. Die Berücksichtigung aller versteckten Variablen, die wichtig sein können, ist eine sehr schwierige Aufgabe, und in einem Kausalmodell, das gut durchdacht zu sein scheint, können Sie tatsächlich einige Faktoren übersehen (ich habe irgendwo gehört, dass Propensity Modeling bei Krankenschwestern der Fall ist zu falschen Schlussfolgerungen geführt). Daher lohnt es sich immer, alternative Ansätze zur Lösung Ihres Problems in Betracht zu ziehen, gibt es einfachere Methoden zum Herstellen von Kausalzusammenhängen oder müssen Sie nur die Benutzer fragen. Und selbst wenn Ihnen ein zufälliges Experiment jetzt als unmögliche Aufgabe erscheint, kann ein Versuch helfen, in Zukunft viele Probleme zu vermeiden.

Jetzt auch beliebt: