Wahrscheinlichkeits-, P-Werte- und Reproduzierbarkeitskrise

Ursprünglicher Autor: Eliezer Yudkowsky
  • Übersetzung
Oder: Wie der Übergang von der Veröffentlichung von P-Werten zur Veröffentlichung von Wahrscheinlichkeitsfunktionen zur Bewältigung der Reproduzierbarkeitskrise beiträgt: die persönliche Meinung von Eliezer Yudkovsky.

Wenn Monroe etwa 75% der vorhandenen interessanten Probleme mit Comics gemalt hat und ein Viertel meiner Artikel interessant ist, wie hoch ist dann die Wahrscheinlichkeit, dass ich früher oder später woanders nach dem KDPV suchen muss?

Kommentar des Übersetzers: Yudkovsky, der Autor von HPMOR , der Schöpfer von Lesswrong usw., äußerte sich in Form eines Dialogs zur Verwendung der Bayes'schen Statistik in den Naturwissenschaften. Direkt klassisch ein solcher Dialog aus der Antike oder der Renaissance, mit Charakteren, die Ideen vortragen, Widerhaken austauschen, die mit verschlungenen Argumenten durchsetzt sind und unvermeidlich Simplicio stumpf machen. Der Dialog ist ziemlich lang, etwa zwanzig Minuten zu lesen, aber meiner Meinung nach ist es das wert.

Haftungsausschluss
  • Этот диалог был написан сторонником байесовского подхода. Реплики Учёного в нижеприведённом диалоге могут и не пройти идеологический тест Тьюринга на фреквентизм. Возможно, что они не отдают должное аргументам и контраргументам сторонников частотного подхода к вероятности.
  • Автор не рассчитывает, что описанные ниже предложения будут приняты широким научным сообществом в ближайшие десять лет. Тем не менее, это стоило написать.

Если вы ещё не знакомы с правилом Байеса, на сайте Arbital есть подробное введение.

Moderator: Guten Abend. Heute in unserem Studio: Ein Wissenschaftler , ein praktizierender Spezialist auf dem Gebiet der ... chemischen Psychologie oder so etwas; sein Gegner ist Bayesian , der beweisen will, dass die Krise der Reproduzierbarkeit in der Wissenschaft irgendwie überwunden werden kann, indem die P-Werte durch etwas aus der Bayesianischen Statistik ersetzt werden ...
Student: Entschuldigung, wie schreibt man das?
Moderator: ... und schließlich verstehe ich nichts Studentisches zu meiner Rechten.

Moderator: Bayesian , könnten Sie damit beginnen, Ihnen zu sagen, was der Kern Ihres Vorschlags ist?
Bayesianer: Grob gesagt, das Wesentliche ist dies. Angenommen, wir haben eine Münze. Wir werfen es sechsmal hoch und schauen uns die Serie "OOOOOR" an (Anmerkung: hier und im Folgenden O - Orel, R - Reshka) . Sollten wir vermuten, dass etwas mit der Münze nicht stimmt?
Wissenschaftler: Nein.
Bayesian: Münze hier nur zum Beispiel. Angenommen, wir bieten einem Probanden einen Teller mit zwei Keksen an: einen mit grünem Dressing und einen mit rotem. Die ersten fünf nehmen die grünen Kekse und die sechste die roten. Stimmt es, dass die Leute Kekse mit grünem Dressing bevorzugen, oder ist es besser, ein solches Ergebnis als zufällig zu betrachten?
Student: Ich denke du kannstvermuten, dass die Leute grünes Topping bevorzugen. Zumindest Psychologiestudenten, die dazu neigen, sich freiwillig für seltsame Experimente zu melden, wie zum Beispiel mehr grünes Brot. Selbst nach sechs Beobachtungen kann man so viel vermuten, obwohl ich vermute, dass es hier eine Art Trick gibt.
Wissenschaftler: Ich denke, das ist noch nicht verdächtig. Viele dieser Hypothesen sehen bei N = 6 vielversprechend aus, bei N = 60 jedoch nicht bestätigt.
Bayesian: Persönlich würde ich vermuten, dass unsere Freiwilligen rote Kleidung nicht oder zumindest nicht sehr bevorzugen. Aber im Allgemeinen habe ich diese Beispiele nur aufgestellt, um zu zeigen, wie P-Werte in der modernen wissenschaftlichen Statistik berücksichtigt werden und was aus Bayes'scher Sicht daran falsch ist.
Wissenschaftler:Können Sie sich kein realistischeres Beispiel mit 30 Freiwilligen vorstellen?
Bayesian: Ja, aber der Student versteht nichts.
Student: Das ist sicher.
Bayesian: Also, liebe Experten: Adler, Adler, Adler, Adler, Adler, Schwänze. Achtung, Frage: Nennen Sie dieses Ergebnis "statistisch signifikant" oder nicht?
Wissenschaftler: Mr. Leading, es ist nicht signifikant. Unter der Nullhypothese, dass eine Münze ehrlich ist (oder mit einer ähnlichen Nullhypothese, dass die Farbe des Verbands die Auswahl der Kekse nicht beeinflusst), kann in 14 von 64 Fällen das gleiche oder ein stärkeres Ergebnis erzielt werden.
Student: Ja. Ich verstehe das richtig: Dies liegt daran, dass wir die Ergebnisse von OOOOOOO und РРОРРР als "gleich oder stärker ausgeprägt" betrachten. Es gibt insgesamt 14 und die Summe der möglichen Ergebnisse mit 6 Schüssen 26 = 64. 14/64 ist 22%, was über 5% liegt, so dass das Ergebnis bei einem Wert von p <0,05 nicht als signifikant angesehen wird. Also?
Wissenschaftler: Richtig. Ich würde auch bemerken, dass es sich in der Praxis nicht lohnt, das Experiment zu stoppen und einen Artikel darüber zu schreiben, dass die Münze immer aus einem Adler fällt.
Bayesianer: Tatsache ist, dass Sie sich die Frage stellen müssen, wie wahrscheinlich es ist, dass ich einen Moment finde, um das Experiment zu stoppen, in dem die Anzahl der Adler öffentlich erscheint , wenn Sie jederzeit aufhören können , eine Münze zu werfen ist eine ganz andere Geschichte.
Wissenschaftler: Ich meinte nur, dass nur sechs Experimente - das ist nicht ernst, auch wenn wir die Farbe der Kekse studieren. Aber ja, du hast auch recht.
Student:Und warum ist es überhaupt wichtig, kann ich aufhören, eine Münze zu werfen, oder kann ich nicht?
Bayesian: Was für eine wundervolle Frage.
Wissenschaftler: Die Sache ist, P-Werte sind knifflige Sachen. Sie können die Zahlen nicht einfach nehmen, in das Programm werfen und veröffentlichen, was dieses Programm herausgibt. Wenn Sie genau sechs Mal im Voraus eine Münze werfen und dann unabhängig vom Ergebnis stoppen, wird das Ergebnis von OOOOOO oder PPPPPP im Durchschnitt zwei Mal von 64 oder 3,1% der Fälle erzielt. Dies ist bei p <0,05 signifikant. Angenommen, Sie sind ein falscher und schamloser Fälscher. Oder einfach ein inkompetenter Student, der selbst nicht versteht, was er tut. Anstatt die Anzahl der Schüsse im Voraus zu bestimmen, werfen Sie eine Münze und werfen sie, bis Sie ein statistisch signifikantes Ergebnis erhalten. Er undEs wäre statistisch signifikant, wenn Sie sich dazu entschließen würden, eine Münze genau in der gleichen Höhe im Voraus zu werfen. Tatsächlich haben Sie sich aber nicht im Voraus entschieden. Sie haben beschlossen, erst anzuhalten, nachdem Sie die Ergebnisse erhalten haben. So kann man das nicht machen.
Student: Okay, ich habe irgendwo darüber gelesen, aber ich habe nicht verstanden, was daran falsch war. Dies ist meine Forschung, und ich sollte besser wissen, ob es genügend Daten gibt oder nicht.
Wissenschaftler:Der springende Punkt bei P-Werten ist es, einen Test zu erstellen, den die Nullhypothese nicht bestehen kann. Mit anderen Worten: Rauch ohne Feuer kommt nicht allzu oft vor. Dazu müssen Sie die Forschung so organisieren, dass keine „statistisch signifikanten“ Entdeckungen generiert werden, wenn das gewünschte Phänomen nicht vorliegt. Wenn Sie genau sechs Mal eine Münze werfen (und diese Zahl im Voraus festlegen), beträgt die Wahrscheinlichkeit, sechs Adler oder sechs Schwänze von einer ehrlichen Münze zu erhalten, weniger als 5%. Wenn Sie eine Münze so oft werfen, wie Sie möchten , und nach jedem Wurf den P-Wert neu berechnen ( indem Sie vorgeben, dass die Anzahl der Würfe im Voraus bekannt war), liegt die Chance, weniger als p <0,05 zu erhalten, weit über 5%. Ein solches Experiment detektiert daher viel häufiger Rauch ohne Feuer als in 1 von 20 Fällen.
Bayesian: Persönlich formuliere ich dieses Problem gerne so: Nehmen wir an, Sie werfen eine Münze und erhalten OOOOOR. Wenn Sie zur gleichen Zeit nur für Allah im Sklaven sind (denn Allah ist weise und weiß), hat die Tiefe Ihres Herzens die Anzahl der Schüsse im Voraus bestimmt , dann ist das Ergebnis nicht signifikant. p = 0,22. Wenn Sie nach einem dreimonatigen Fasten dem heiligen Franziskus das Gelübde abgelegt haben, eine Münze zu werfen, bis alles erledigt ist , ist dasselbe Ergebnis mit einem recht guten p = 0,03 statistisch signifikant. Denn die Chance, dass bei Wahrscheinlichkeiten von 1: 1 Schwänzen sechs oder mehr Schläge abgewartet werden müssen, ist 1/32.
Student: Was?
Wissenschaftler:Es ist natürlich eher eine Parodie. In der Praxis wird niemand eine Münze werfen, bis ein einzelner Schwanz fällt und dann anhalten. Aber im Allgemeinen hat Bayesian Recht, genau das tun P-Werte. Genau genommen versuchen wir herauszufinden, wie selten das Ergebnis bei denjenigen ist, die wir erzielen konntenzu bekommen. Eine Person, die eine Münze vor dem ersten Schwanz wirft, kann die Ergebnisse {R, OR, OOR, OOOR, OOOOR, OOOOOR ...} usw. erhalten. Die Ergebnisklasse, in der sechs oder mehr Aufnahmen gemacht werden, ist {OOOOOR, OOOOOOR, OOOOOOOOO ...}, deren Gesamtwahrscheinlichkeit 1/64 + 1/128 + 1/256 ... = 1/32 beträgt. Wer genau sechs Mal eine Münze wirft, erhält eines der Ergebnisse der Klasse {РРРРРР, OOOOOR, OOOORO, OOOOORR ...} mit 64 Elementen. Für die Zwecke unseres Experiments ist OOOOOR gleichwertig mit OOOORO, OOOROO und anderen. Also ja, das ist alles ziemlich kontraintuitiv. Wenn wir wirklich das erste Experiment durchführen würden - LLCOOR wäre ein signifikantes Ergebnis, was mit einer ehrlichen Münze unwahrscheinlich ist. Und wenn wir das zweite Experiment durchführen würden - OOOOOR wäre nicht von Bedeutung, denn selbst mit einer ehrlichen Münze passiert es von Zeit zu Zeitso etwas .
Bayesian: Sie befürchten nicht aus Versehen, dass die Ergebnisse des Experiments von Ihrer Meinung abhängen?
Wissenschaftler: Das ist eine Gewissensfrage. Jede Art von Forschung wird wenig kosten, wenn Sie über ihre Ergebnisse lügen, das heißt buchstäblich die Wahrheit darüber sagen, auf welcher Seite die Münze herausgefallen ist. Wenn Sie darüber lügen, welche Art von Experiment durchgeführt wurde- Der Effekt ist derselbe. Man muss also ehrlich sagen, nach welchen Regeln geworfen wurde. Natürlich ist der Inhalt des Kopfes des Wissenschaftlers weniger offensichtlich als die Seite der Medaille. Daher ist es immer möglich, die Analyseparameter zu optimieren, nicht zu schreiben, wie die Anzahl der Probanden bestimmt wurde, sondern den statistischen Test zu wählen, der Ihre Lieblingshypothese bestätigt ... Wenn Sie möchten, können Sie an viele Dinge denken. Und es wird einfacher sein, als die Originaldaten zu verfälschen. Im Englischen wird dies als p-Hacking bezeichnet. Und in der Praxis werden natürlich viel weniger offensichtliche Methoden zur Erzeugung von Rauch ohne Feuer verwendet als die nachträglich erfundene dumme Nullhypothese. Dies ist ein ernstes Problem, mit dem zum Teil eine Krise der Reproduzierbarkeit einhergeht, bei der jedoch nicht klar ist, um welches Problem es sich handelt.
Student:Klingt das ... vernünftig? Wahrscheinlich ist dies eines der Dinge, mit denen Sie sich lange Zeit befassen und eine Reihe von Beispielen durchsuchen müssen, und dann wird alles klar?
Bayesian: Nein.
Student: Ich meine?
Bayesian: Im Sinne von "Student, Sie hatten von Anfang an Recht." Wenn das, was der Experimentator denkt, die Seite, auf die die Münze fällt, nicht beeinflusst, sollten seine Gedanken nicht die Tatsache beeinflussen, dass die Ergebnisse des Wurfs uns über das Universum informieren. Mein lieber Student, die Statistik, die Ihnen beigebracht wird, ist nichts weiter als ein Haufen von krummen Krücken, die Sie intern nicht einmal konsequent machen. Um Gottes willen gibt sie anders ausfalsche ergebnisse je nachdem was in deinem kopf los ist! Und dies ist ein weitaus gravierenderes Problem als die Tendenz einiger Wissenschaftler, leicht in den „Materialien und Methoden“ zu liegen.
Wissenschaftler: Das ist ... gelinde gesagt eine ernsthafte Aussage. Aber sag mir, ich frage dich: Was sollen wir, die Unglücklichen, tun?
Bayesian:Analysieren Sie wie folgt: Dieses spezielle Ergebnis von OOOOOP kann mit sechs Schüssen einer perfekt ausbalancierten Münze mit einer Wahrscheinlichkeit von 1/64 oder ungefähr 1,6% erhalten werden. Nehmen wir an, wir haben bereits vermutet, dass unsere Münze nicht perfekt ausbalanciert ist. Und das nicht nur unvollkommen, sondern so, dass es durchschnittlich fünf von sechs Mal herausfiel. Dies ist natürlich eine wilde Vereinfachung, aber ich werde etwas später zu realistischen Hypothesen übergehen. Und so gibt diese hypothetische Shulersky-Münze eine OOOR-Sequenz mit einer Wahrscheinlichkeit von (5/6) 5 * (1/6) 1 aus . Dies ist ungefähr 6,7%. Wir haben also zwei Hypothesen: "Die Münze ist die häufigste" und "Die Münze fällt in 5/6 Fällen aus einem Adler." Dieses spezielle Ergebnis ist im zweiten Fall 4,3-mal wahrscheinlicher .als in der ersten. Die Wahrscheinlichkeit der Sequenz von OOOOOR für eine andere hypothetische Cheat-Münze, die in 5 von sechs Fällen auf einen Schwanz fällt, beträgt 0,01%. Wenn also jemand plötzlich dachte, dass diese zweite Münze vor uns liegt, dann haben wir jetzt ein gutes Argument gegen seine Hypothese. Dieses besondere Ergebnis ist 146-mal wahrscheinlicher für eine ehrliche Münze als für eine Münze, die nur einmal von sechs aus einem Adler fällt. Ebenso würden unsere hypothetischen Liebhaber von roten Keksen viel seltener grün essen.
Student: Okay, ich scheine Mathe zu verstehen. Aber ehrlich gesagt verstehe ich nicht, was es bedeutet.
Bayesovets: Lassen Sie mich erklären, aber zuerst die Aufmerksamkeit auf die folgende zahlen: die Ergebnisse meiner Berechnungen tathängen Sie nicht davon ab, warum die Münze genau sechsmal gepflanzt wurde. Vielleicht haben Sie nach der sechsten Aufnahme festgestellt, dass bereits genügend Daten vorhanden sind. Vielleicht erschien Ihnen Namagiri Tayyar nach einer Serie von fünf Schüssen in einem Traum und riet Ihnen, die Münze erneut zu werfen. Münze sowieso. Die Tatsache bleibt: Diese spezielle Serie von OOOOOR für eine ehrliche Münze ist viermal weniger wahrscheinlich als für eine Münze, die fünfmal von sechs aus einem Adler fällt.
Wissenschaftler: Ich stimme zu, Ihre Berechnungen haben mindestens eine nützliche Eigenschaft. Was kommt als nächstes
Bayesian:Und dann veröffentlichen Sie die Ergebnisse im Journal. Dies ist zusammen mit den Rohdaten wünschenswert, da dann jeder die Plausibilität einer Hypothese berechnen kann. Angenommen, jemand hat sich unerwartet für die Hypothese interessiert: "Eine Münze fällt aus einem Adler 9 mal aus 10, nicht 5 mal aus 6." In diesem Fall hat die Beobachtungsreihe von OOOOOR eine Wahrscheinlichkeit von 5,9%, was etwas weniger ist als unsere Hypothese über fünf Adler aus sechs Würfen (6 , 7%), aber 3,7 mal mehr als die Hypothese, dass die Münze perfekt ausbalanciert ist (1,6%). Es ist unmöglich und nicht notwendig, im Voraus alle möglichen Hypothesen aufzustellen. Es reicht aus, vollständige Daten zu veröffentlichen - dann kann jeder, der eine Hypothese hat, leicht die Wahrscheinlichkeit berechnen, die er benötigt. Das Bayes'sche Paradigma erfordert die Veröffentlichung von Rohdaten, da es sich genau auf ein bestimmtes Ergebnis konzentriert.und nicht auf einer Klasse von vermeintlich identischen Ergebnissen.
Wissenschaftler: Da stimme ich Ihnen zu, dass die Veröffentlichung vollständiger Datensätze einer der wichtigsten Schritte zur Überwindung der Reproduzierbarkeitskrise ist. Aber persönlich verstehe ich nicht , was ich später zu tun mit all diesen „Und so oft eher als B“.
Student: Ich auch.
Bayesian: Es ist nicht ganz trivial ... haben Sie unsere Einführung in die Bayes-Regel gelesen ?
Student: Großartig. Hier ist nur ein weiteres dreiseitiges statistisches Lehrbuch, und ich hatte nicht genug.
Bayesian: Man kann es tatsächlich in einer Stunde lesen . Es ist nur so, dass es buchstäblich nicht trivial ist.Das heißt, bedarf einer Erklärung. Aber okay, da es keine vollständige Einführung gibt, werde ich versuchen, mir etwas auszudenken. Höchstwahrscheinlich wird es vernünftig klingen - und die Logik ist in der Tat richtig -, aber keine Tatsache, die selbstverständlich ist. Lass uns gehen. Es gibt einen Satz, der die Richtigkeit der folgenden Argumentation beweist:
(Bayesian gewinnt Luft)
Bayesian:Angenommen, Professor Plume und Miss Scarlet werden des Mordes verdächtigt. Nachdem wir die Biografien beider untersucht haben, gehen wir davon aus, dass es für einen Professor doppelt so einfach wäre, einen Mann zu töten als für Miss Scarlet. Mit dieser Annahme fangen wir an. Es stellt sich jedoch heraus, dass der Verstorbene vergiftet wurde. Wir wissen, dass wenn Professor Plume jemanden töten wird, er Gift mit einer Wahrscheinlichkeit von 10% verwenden wird (und in 9 von 10 Fällen wird er zum Beispiel einen Revolver bevorzugen). Wenn Miss Scarlet beschließt zu töten, verwendet sie Gift mit einer Wahrscheinlichkeit von 60%. Mit anderen Worten, der Giftgebrauch eines Professors ist sechsmal seltener als der Giftgebrauch von Miss Scarlet. Da wir neue Informationen haben, nämlich die Mordmethode, müssen wir unsere Vermutung aktualisieren und annehmen, dass Plume ungefähr dreimal weniger wahrscheinlich tötet: 2 * 1/6 = 1/3.
Student:Ich bin mir nicht sicher, ob ich das verstanden habe. Was bedeutet der Ausdruck "Professor Plume bedeutet dreimal weniger wahrscheinlicher Mörder als Miss Scarlet"?
Bayesian: Wenn wir keine anderen Verdächtigen haben, ist die Wahrscheinlichkeit, dass das Opfer von Plume getötet wurde, 1/4. Die restlichen 3/4 machen die Wahrscheinlichkeit aus, dass der Mörder Miss Scarlet ist. Daher ist die Wahrscheinlichkeit der Schuld des Professors dreimal niedriger als die von Miss Scarlet.
Wissenschaftler: Und jetzt möchte ich wissen, was Sie mit "Wahrscheinlichkeit der Schuld" meinen. Entweder hat Plume den Mord begangen oder er hat ihn nicht begangen. Wir können uns das Attentatsmuster nicht ansehen und feststellen, dass Plume tatsächlich ein Viertel von ihnen für schuldig befunden hat.
Bayesian:Ich hatte gehofft, nicht darauf einzugehen, aber na ja. Mein guter Wissenschaftler, ich meine, wenn Sie mir eine Wette mit 1: 1-Wetten darauf anbieten würden, ob Plume das Opfer getötet hat oder nicht, würde ich wetten, dass er es nicht getan hat. Aber wenn gemäß den Wettbedingungen ich Ihnen im Falle seiner Unschuld 1 Dollar zahlen würde und Sie mir im Falle seiner Schuld 5 Dollar zahlen würden, würde ich gerne auf die Schuld wetten. Die Präsidentschaftswahlen 2012 wurden nur einmal abgehalten, und Obamas Wahrscheinlichkeit des Sieges ist die gleiche konzeptionell vage Sache wie Plumes Wahrscheinlichkeit der Schuld. Aber wenn Ihnen am 7. November angeboten würde, 10 Dollar auf Obama zu setzen, und Sie 1000 Dollar für den Fall seines Sieges versprachen, würden Sie eine solche Wette kaum ablehnen. Im Allgemeinen tritt dieses Ereignis in etwa 60% der Fälle auf, wenn Prognosemärkte und große liquide Wettpools 6: 4-Wetten für ein Ereignis annehmen. Märkte und Poolsgut kalibriert durch Wahrscheinlichkeiten in diesem Bereich. Wenn sie schlecht kalibriert wären, das heißt, wenn die Ereignisse, für die um 6-4 geboten wird, in 80% der Fälle stattgefunden hätten, hätte sich jemand auf Kosten dieser Kurse selbst bemerkt und bereichert. Gleichzeitig würde er den Kurs erhöhen, bis der Markt gut kalibriert ist. Und da Ereignisse mit einer Marktschätzung einer Wahrscheinlichkeit von 70% ungefähr sieben Mal von zehn auftreten, verstehe ich nicht, warum ich darauf bestehen soll, dass eine solche Wahrscheinlichkeit keinen Sinn ergibt.
Student: Ich gebe zu, es klingt überzeugend. Aber sicher scheint es mir nur, und tatsächlich gibt es eine ganze Reihe kniffliger Argumente dafür und dagegen.
Bayesian: Es gibt wirklich eine Reihe von ArgumentenAber die allgemeine Schlussfolgerung daraus ist, dass Ihr intuitives Verständnis der Wahrheit ziemlich nahe kommt.
Wissenschaftler: Nun, wir werden darauf zurückkommen. Aber was ist, wenn es zwei Agenten gibt, die beide Ihrer Meinung nach „gut kalibriert“ sind, von denen einer jedoch „60%“ und der andere „70%“ angibt?
Bayesian:Angenommen, ich werfe eine Münze und sehe nicht, auf welche Seite sie gefallen ist. In diesem Fall ist meine Unwissenheit keine Information über eine Münze, sondern Information über mich. Es existiert im Kopf, nicht in der umgebenden Welt, so wie die weißen Flecken auf der Karte nicht bedeuten, dass es an diesem Ort kein Territorium gibt. Wenn Sie sich die Münze angesehen haben, ich aber nicht, ist es durchaus vernünftig, dass Sie und ich unsicher sind. Da ich nicht hundertprozentig sicher bin, ist es für mich sinnvoll, meine Unsicherheit in Bezug auf die Wahrscheinlichkeit auszudrücken. Es gibt dreihundert Theoreme , die behaupten, dass wenn jemand Ungewissheit zum Ausdruck bringt, dies nicht der Fall istTatsächlich ist die Wahrscheinlichkeitsverteilung das, was er im Allgemeinen benötigt. Aus irgendeinem Grund kommt es immer vor, dass sich die Erde öffnet, wenn das Denken eines Agenten unter Unsicherheitsbedingungen gegen eines der Standardaxiome der Wahrscheinlichkeitstheorie verstößt, Wasser in Blut verwandelt und Strategien dominiert und offensichtlich Verluste vom Himmel ausgehen.
Wissenschaftler: Hier habe ich mich geirrt. Wir werden auch darauf zurückkommen, aber zunächst meine Frage beantworten: Was sollen wir mit Glaubwürdigkeit tun, nachdem wir sie erhalten haben?
Bayesovets: Nach den Gesetzen der Wahrscheinlichkeit, die Wahrscheinlichkeit istBeweise. Sie zwingen uns, unsere vorherigen Wahrscheinlichkeiten von 2: 1 zugunsten von Plume auf 3: 1 zugunsten von Scarlet zu ändern. Wenn ich zwei Hypothesen und die Wahrscheinlichkeit von Daten für beide habe, sollte ich meine Meinung auf die oben beschriebene Weise ändern. Wenn ich es irgendwie anders ändere - dann öffnen sich die Himmel, Strategien strömen ein und so weiter. Bayes-Theorem: Dies ist nicht nur eine statistische Methode, es ist ein GESETZ.
Student: Ich entschuldige mich, aber ich verstehe immer noch nicht. Angenommen, wir führen ein Experiment durch. Nehmen wir an, die Ergebnisse wären sechsmal wahrscheinlicher, wenn Herr Troopa von Professor Plume getötet worden wäre als wenn Fräulein Scarlet der Mörder gewesen wäre . Der Student hat offensichtlich die Wahrscheinlichkeit verwechselt, dass zwei Mörder Gift verwenden.. Verhaften Sie uns Professoren oder nicht?
Wissenschaftler: Ich denke, zuerst müssen wir eine mehr oder weniger realistische Wahrscheinlichkeit von vornherein ausarbeiten, zum Beispiel " a priori glaube ich, dass die Wahrscheinlichkeit, die Truppe durch Plume zu töten, 20% beträgt." Dann muss mit einem Wahrscheinlichkeitsverhältnis von 6: 1 und dem Verhältnis der a posteriori-Wahrscheinlichkeiten von 3: 2 multipliziert werden, dass Plume die Truppe getötet hat. Danach können Sie Plume mit einer Wahrscheinlichkeit von 60% für schuldig erklären und die Staatsanwaltschaft verständigen.
Bayesovets: Keine . Um Himmels willen! Glauben Sie wirklich, dass die Bayes'schen Statistiken so funktionieren?
Wissenschaftler:Arbeitet sie falsch? Ich habe immer geglaubt, dass sein Hauptvorteil darin besteht, dass es uns nachträgliche Wahrscheinlichkeiten gibt, die P-Werte nicht wirklich geben, und der Hauptnachteil ist, dass es vorherige Wahrscheinlichkeiten erfordert. Da sie mehr oder weniger von der Decke genommen werden müssen, kann die Richtigkeit der a posteriori-Wahrscheinlichkeiten bis zum Ende der Zeit in Frage gestellt werden.
Bayesian: Artikel müssen Wahrscheinlichkeit veröffentlichen . Genauer gesagt ist es notwendig, Rohdaten zu veröffentlichen und für diese einige interessante Wahrscheinlichkeiten zu berechnen. Aber mit Sicherheit keine nachträglichen Wahrscheinlichkeiten.
Student: Ich bin wieder verwirrt. Was ist a posteriori Wahrscheinlichkeiten?
Bayesian: A posteriori Wahrscheinlichkeit- Dies ist eine Aussage wie "Mit einer Wahrscheinlichkeit von 60% der Herr Troupe, Professor Plume getötet." Wie mein Kollege bereits angemerkt hat, ergeben sich solche Aussagen nicht aus P-Werten. Und meiner Meinung nach haben sie keinen Platz in experimentellen Artikeln, weil dies nicht die Ergebnisse eines Experiments sind .
Student: Aber ... ok, Wissenschaftler, eine Frage an Sie: Nehmen wir an, wir haben Ergebnisse mit p <0,01, also etwas mit einer Wahrscheinlichkeit von weniger als 1% mit der Nullhypothese "Professor Plume hat Herrn Troupe nicht getötet". Verhaften Sie uns oder nicht?
Wissenschaftler:Erstens ist es keine realistische Nullhypothese. Höchstwahrscheinlich lautet die Nullhypothese "Niemand hat Herrn Troupe getötet" oder "alle Verdächtigen sind gleich schuldig". Aber selbst wenn die von Ihnen beschriebene Nullhypothese funktionieren würde, selbst wenn wir Plumes Unschuld mit p <0,01 ablehnen könnten, wäre es unmöglich zu sagen, dass Plume mit einer Wahrscheinlichkeit von 99% schuldig ist. P-Werte hiervon werden uns nicht mitgeteilt.
Student: Und was berichten sie dann?
Wissenschaftler: Sie berichten, dass die beobachteten Daten in einer bestimmten Klasse möglicher Ergebnisse enthalten sind und dass die Ergebnisse dieser Klasse in weniger als 1% der Fälle beobachtet werden, wenn die Nullhypothese korrekt ist. Mehr p-Wert bedeutet nichts. Sie können nicht einfach von p <0,01 zu "Professor Plume ist mit einer Wahrscheinlichkeit von 99% schuldig" gehen. Ein Bayesianer erklärt eher, warum. Im Allgemeinen kann man in der Wissenschaft eine Sache nicht als etwas anderes interpretieren. Zahlen bezeichnen genau das, was sie bezeichnen, nicht mehr und nicht weniger.
Student: Im Allgemeinen ausgezeichnet. Anfangs habe ich nicht verstanden, was ich mit Plausibilität anfangen soll, und jetzt verstehe ich immer noch nicht, was ich mit P-Werten anfangen soll. Welches Experiment ist erforderlich, um Plume endgültig ins Gefängnis zu schicken?
Wissenschaftler: In der Praxis? Wenn ein anderes Paar von Experimenten in anderen Labors seine Schuld mit p <0,01 bestätigt, ist er höchstwahrscheinlich wirklich schuldig.
Bayesian:Eine „Reproduzierbarkeit Krise“ - das ist , wenn die Sache angehoben und später stellt sich heraus , dass er hatte nicht den Mord begehen.
Wissenschaftler: Im Allgemeinen ja.
Student: Irgendwie ist es unangenehm.
Wissenschaftler: Das Leben ist im Allgemeinen eine unangenehme Sache.
Student: Also ... Bayesian, haben Sie wahrscheinlich eine ähnliche Antwort? So etwas wie die Tatsache, dass wenn das Wahrscheinlichkeitsverhältnis groß genug ist, beispielsweise 100: 1, können wir dann in der Praxis annehmen, dass die entsprechende Hypothese wahr ist?
Bayesian:Ja, aber es ist etwas komplizierter. Angenommen, ich werfe 20 Mal eine Münze und bekomme OOOROOOROROROROOOOORROR. Der Haken ist, dass die Plausibilität der Hypothese "Die Münze gibt garantiert eine Folge von OOOROOOROROROOOOORROR" ungefähr eine Million Mal höher ist als die Plausibilität der Hypothese "Münze fällt gleich einem Adler oder Schwanz aus". Wenn Sie mir diese Hypothese in der Praxis nicht vor Beginn des Experiments in einem versiegelten Umschlag übergeben haben, werde ich sie als stark umgeschult betrachten. Ich werde dieser Hypothese eine Strafe für die Komplexität von mindestens 2 : 20 : 1 geben müssen, da die Sequenzbeschreibung allein 20 Bits dauert. Mit anderen Worten, verringern Sie die vorherige Wahrscheinlichkeit so weit, dass sie den Wahrscheinlichkeitsvorteil mehr als ausgleicht. Und dies ist nicht der einzige Unterwasserfelsen. Aber trotzdemWenn Sie verstehen, wie und warum die Bayes-Regel funktioniert, können Sie dies auf jedem Weg nachvollziehen. Wenn das Verhältnis der Glaubwürdigkeit von Plume zu einem anderen Verdächtigen 1000: 1 beträgt und es im Allgemeinen nur sechs Verdächtige gibt, kann davon ausgegangen werden, dass die a priori-Wahrscheinlichkeit kaum mehr als 10: 1 betrug, wenn man davon ausgeht, dass er ein Mörder war. Wenn ja, können wir davon ausgehen, dass er mit einer Wahrscheinlichkeit von 99% schuldig ist.
Der Wissenschaftler: Aber trotzdem, der Artikel ist es nicht wert, geschrieben zu werden ?
Bayesian: Richtig. Wie formuliert man ... Die Schlüsselbedingung für die Bayes'sche Analyse ist, dass das Ganzerelevante Informationen. Sie können Daten nicht von der Analyse ausschließen, nur weil sie Ihnen nicht gefallen. Dies ist eigentlich die Schlüsselbedingung der Wissenschaft als solche, unabhängig von den verwendeten Statistiken. Es gibt viele Artikel, deren Schlussfolgerungen sich nur herausstellten, weil ein Faktor nicht berücksichtigt wurde oder die Stichprobe in einem Parameter nicht repräsentativ war. Ich rede über was? Und außerdem, woher weiß ich (als Experimentator), was "alle relevanten Informationen" sind? Wer bin ich, um a posteriori Wahrscheinlichkeiten zu berechnen? Vielleicht hat jemand einen Artikel veröffentlicht, in dem es zusätzliche Daten und Wahrscheinlichkeiten gibt, die ich hätte berücksichtigen sollen, die ich aber noch nicht gelesen habe. Also veröffentliche ich nur meine Daten und meine Wahrscheinlichkeitsfunktionen - und das wars! Ich kann nicht sagen, dass ich an alles gedacht habeArgumente und jetzt kann ich zuverlässige a posteriori Wahrscheinlichkeiten anbieten. Und selbst wenn ich könnte, könnte in einer Woche ein weiterer Artikel herauskommen, und diese Wahrscheinlichkeiten werden hinfällig.
Student: Grob gesagt muss der Experimentator nur seine Daten veröffentlichen, eine Wahrscheinlichkeit für sie berechnen und das ist alles? Und dann wird jemand anderes entscheiden, wie er mit ihnen umgeht?
Bayesian: Jemand muss a priori-Wahrscheinlichkeiten auswählen - gleich oder mit maximaler Entropie oder mit Geldstrafen für Komplexität oder einer anderen - und dann versuchen, alle möglichen Daten zu sammeln, Wahrscheinlichkeiten zu berechnen, sicherzustellen, dass das Ergebnis nicht verrückt ist , und so weiter. andere Und sie müssen noch erzählen, ob in einer Woche ein neuer Artikel herauskommt.
Student:Es klingt ziemlich mühsam .
Bayesian: Es wäre viel schlimmer, wenn wir die Metaanalyse der P-Werte aufgreifen würden. Das Aktualisieren der Bayes'schen Wahrscheinlichkeiten ist viel einfacher. Es reicht aus, die alten a posteriori-Wahrscheinlichkeiten einfach mit den neuen Wahrscheinlichkeitsfunktionen zu multiplizieren und zu normalisieren. Alle Wenn Experiment 1 ein Wahrscheinlichkeitsverhältnis von 4: 1 für die Hypothesen A und B ergibt und Experiment 2 ein Wahrscheinlichkeitsverhältnis von 9: 1 für sie ergibt, ergeben sie zusammen ein Verhältnis von 36: 1. Das ist alles.
Student: Und mit P-Werten geht das nicht? Ein Experiment mit p = 0,05 und ein anderes Experiment mit p = 0,01 bedeutet nicht, dass tatsächlich p <0,0005 ist.
Wissenschaftler: Nein .
Bayesian:Sehr geehrte Zuschauer, bitte achten Sie auf mein arrogantes Lächeln.
Wissenschaftler: Aber ich mache mir immer noch Sorgen über die Notwendigkeit, a priori Wahrscheinlichkeiten zu erfinden.
Bayesian: Warum stört es Sie mehr als die Tatsache, dass sich alle dafür entschieden haben, ein Experiment und zwei Wiederholungen mit einem p <0,01-Wahrheitskriterium in Betracht zu ziehen?
Wissenschaftler: Sie wollen sagen, dass die Wahl von a priori Werten nicht subjektiver ist als die Interpretation von P-Werten? Hm Ich wollte sagen, dass eine Anforderung, beispielsweise p <0,001, Objektivität garantieren sollte. Aber dann werden Sie antworten, dass die Zahl 0.001 (anstelle von 0.1 oder 1e-10) auch vom Finger gesaugt wird.
Bayesian:Und ich werde hinzufügen, dass es weniger effektiv ist, einen beliebigen P-Wert zu verlangen, als eine vorherige Wahrscheinlichkeit von demselben Finger zu saugen. Einer der ersten Theoreme, die mit ägyptischen Strafen gegen Verstöße gegen Wahrscheinlichkeitsaxiome drohten, wurde 1947 von Abraham Wald bewiesen. Er hat versucht, alle akzeptablen Strategien zu beschreiben , wobei er die Strategie so bezeichnet hat, dass sie auf das reagiert, was Sie beobachten. Natürlich können verschiedene Strategien unter verschiedenen Umständen mehr oder weniger rentabel sein. Akzeptable StrategieEr nannte eine, die unter allen möglichen Bedingungen von keiner anderen Strategie dominiert wird. Also entdeckte Wald, dass die Klasse akzeptabler Strategien mit der Klasse von Strategien übereinstimmt, die eine Wahrscheinlichkeitsverteilung enthalten, sie basierend auf Beobachtungen unter Verwendung der Bayes-Regel aktualisiert und die Nutzenfunktion optimiert.
Student: Entschuldigung, ist das auf Russisch möglich?
Bayesianer: Wenn Sie etwas tun, weil Sie etwas beobachten und mehr oder weniger Geld verdienen, zum Beispiel, je nachdem, was die reale Welt ist, dann ist eines von zwei Dingen wahr. Entweder enthält Ihre Strategie in gewissem Sinne eine Wahrscheinlichkeitsverteilung und aktualisiert sie gemäß der Bayes-Regel, oderEs gibt eine andere Strategie, die Ihrer niemals unterlegen ist und sie manchmal übertrifft. Das heißt zum Beispiel, Sie sagen: „Ich werde nicht mit dem Rauchen aufhören, bis ich einen Artikel sehe, der den Zusammenhang zwischen Rauchen und Krebs bei p <0,0001 belegt.“ Zumindest theoretisch kann man sagen: „Meiner Meinung nach besteht der Zusammenhang zwischen Rauchen und Krebs mit einer Wahrscheinlichkeit von 0,01%. Was sind Ihre Wahrscheinlichkeiten? “, Die nicht schlechter als die erste Formulierung sein wird, unabhängig von den a priori Wahrscheinlichkeiten für das Bestehen einer solchen Verbindung.
Wissenschaftler: Wirklich?
Bayesian:Ja Mit diesem Satz begann die Bayes'sche Revolution; seitdem hat es langsam an Dynamik gewonnen. Es ist erwähnenswert, dass Wald sein Theorem einige Jahrzehnte nach der Erfindung der P-Werte bewiesen hat. Dies erklärt meiner Meinung nach, wie es dazu kam, dass die gesamte moderne Wissenschaft mit offensichtlich ineffektiven Statistiken in Verbindung gebracht wurde.
Wissenschaftler: Also schlagen Sie vor, P-Werte wegzuwerfen und stattdessen nur Wahrscheinlichkeitsverhältnisse zu veröffentlichen?
Bayesian: Kurz gesagt, ja.
Wissenschaftler: Ich glaube nicht wirklich an ideale Lösungen, die für alle Bedingungen geeignet sind. Ich vermute - bitte betrachten Sie es nicht als Beleidigung -, dass Sie ein Idealist sind. Nach meiner Erfahrung werden in unterschiedlichen Situationen unterschiedliche Werkzeuge benötigt, und es wäre unklug, alle außer einem wegzuwerfen.
Bayesian:Nun, ich bin bereit zu erklären, was ich ein Idealist bin und was nicht. Likelihood-Funktionen allein lösen die Reproduzierbarkeitskrise nicht. Es kann nicht vollständig gelöst werden, indem einfach jeder angewiesen wird, effizientere Statistiken zu verwenden. Die Popularität von Open-Access-Zeitschriften hängt nicht von der Wahl zwischen Plausibilität und P-Werten ab. Probleme mit dem Überprüfungssystem hängen auch nicht davon ab.
Der Wissenschaftler: Und alles andere hängt also davon ab?
Bayesovets: Nicht alles, aber sie haben eine Menge , was zu helfen . Lass uns zählen.
Bayesian:Erstens. Likelihood-Funktionen zwingen uns nicht, eine Grenze zwischen „statistisch signifikanten“ und „nicht signifikanten“ Ergebnissen zu ziehen. Ein Experiment kann kein „positives“ oder „negatives“ Ergebnis haben. Was als Nullhypothese bezeichnet wird, ist nur eine der Hypothesen, die sich nicht grundlegend von allen anderen unterscheidet. Wenn Sie eine Münze werfen und ein OORRRROOO erhalten, kann man nicht sagen, dass das Experiment "die Nullhypothese bei p <0,05 nicht ablehnen" oder "das zuvor erhaltene Ergebnis reproduzieren" konnte. Er fügte lediglich Daten hinzu, die die Hypothese einer ehrlichen Münze gegen die 5/6-Adler-Hypothese mit einem Wahrscheinlichkeitsverhältnis von 3,78: 1 stützen. Mit der massiven Akzeptanz der Bayes'schen Statistik werden die Ergebnisse solcher Experimente weniger wahrscheinlich auf den Tisch kommen. Gar nicht, weil die Herausgeber von Zeitschriften unerwartete Ergebnisse haben, die interessanter sind als ehrliche Münzen, und dies muss direkt behandelt werden. Aber P-Werte kämpfen nicht nur nicht mit diesem Ansatz, sie sind seineanregen ! Wegen ihm gibt es überhaupt P-Hacking. Der Übergang zur Wahrscheinlichkeit wird also nicht allen Glück und ein Geschenk bringen, aber es wird definitiv helfen .
Bayesian: Zweitens. Das Likelihood-System betont die Bedeutung der Quelldaten viel stärker und stimuliert deren Veröffentlichung, wo immer dies möglich ist, da die Bayes'sche Analyse darauf basiert, wie wahrscheinlich diese bestimmten Ergebnisse in einem bestimmten Modell sind. Im Gegensatz dazu lässt das System der P-Werte den Forscher die Daten nur als eines der Mitglieder der Klasse der „ebenso extremen“ Ergebnisse betrachten. Einige Wissenschaftler möchten all ihre wertvollen Daten bei sich behalten. Es ist nicht nur Statistik. Aber P-Werte stimulierenund dies, weil für den Artikel nicht die Daten selbst wichtig sind, sondern ob sie zu einer bestimmten Klasse gehören. Nachdem dies festgestellt wurde, werden alle darin enthaltenen Informationen zu einem einzigen Bit von "Bedeutung" oder "Bedeutungslosigkeit" zusammengefasst.
Bayesian: Drittens. Unter dem Gesichtspunkt der Wahrscheinlichkeitstheorie und unter dem Gesichtspunkt von Bayes sind verschiedene Größenordnungen von Effekten verschiedene Hypothesen. Dies ist logisch, da sie unterschiedlichen Wahrscheinlichkeitsfunktionen und dementsprechend unterschiedlichen Wahrscheinlichkeiten der beobachteten Daten entsprechen. Wenn ein Experiment eine Effektgröße von 0,4 und ein anderes Experiment einen "statistisch signifikanten" Wert des gleichen Effekts von 0,1 ergab, reproduzierte das Experiment nicht.und wir wissen nicht, was der Effekt wirklich ist. Dies vermeidet eine recht häufige Situation, in der die Stärke des „statistisch signifikanten“ Effekts mit zunehmender Stichprobengröße abnimmt und abnimmt.
Bayesian: Viertens. Likelihood-Funktionen vereinfachen die Datenintegration und die Metaanalyse erheblich. Sie können uns sogar dabei helfen, festzustellen, dass Daten unter heterogenen Bedingungen erfasst werden oder dass wir die wahre Hypothese nicht berücksichtigen. In diesem Fall sind entweder alle Funktionen für alle möglichen Parameter nahe Null, oder die beste Hypothese ergibt eine viel geringere Wahrscheinlichkeit für die kombinierten Daten, als sie selbst vorhersagen . Ein strengerer Ansatz für die Reproduzierbarkeit ermöglicht es Ihnen, schnell zu verstehen, ob ein solches Experiment als Wiederholung von solchem ​​und solchem ​​angesehen werden kann.
Bayesian: Fünfter. Wahrscheinlichkeitsfunktionen hängen nicht davon ab, was sie über sie denken. Dies sind objektive Aussagen zu den Daten. Wenn Sie Wahrscheinlichkeitswerte veröffentlichen, gibt es nur einen Weg, den Leser zu täuschen - die Daten selbst zu verfälschen. P-Hacking wird nicht funktionieren.
Wissenschaftler: Das ist, was ich stark bezweifle. Angenommen, ich entscheide mich, Sie davon zu überzeugen, dass die Münze oft aus einem Adler fällt, obwohl es ehrlich ist. Ich werde eine Münze nehmen, ich werde sie werfen, bis ich versehentlich ein bisschen mehr Adler bekomme, und dann höre ich auf. Was dann?
Bayesian: Mach weiter. Wenn Sie die Daten nicht verfälschen, werden Sie mich nicht täuschen.
Wissenschaftler:Die Frage war, was passieren würde, wenn ich das Wahrscheinlichkeitsverhältnis nach jedem Wurf überprüfe und aufhöre, sobald es meine Lieblingstheorie unterstützt.
Bayesian: Als Idealist, verführt von der trügerischen Schönheit der Wahrscheinlichkeitstheorie, antworte ich Ihnen: Solange Sie mir ehrliche Rohdaten geben, kann und muss ich nur eines tun - Multiplizieren nach Bayes 'Regel.
Wissenschaftler: Wirklich?
Bayesian: Im Ernst.
Wissenschaftler: Interessiert es Sie also nicht, dass ich das Wahrscheinlichkeitsverhältnis überprüfen kann, bis es mir gefällt?
Bayesian: Mach weiter.
Wissenschaftler: Okay. Dann werde ich ein Skript auf Python schreiben, das den Wurf einer ehrlichen Münze nach simuliertSagen wir, 300 Mal, und sehen Sie, wie oft es mir gelingt, ein Verhältnis von 20: 1 zugunsten des "Münzadlers fällt in 55% der Fälle aus" zu erzielen ... Was?
Bayesian: Nur ein lustiger Zufall. Als ich zum ersten Mal davon erfuhr und bezweifelte, dass die Wahrscheinlichkeitsbeziehung nicht auf irgendeine knifflige Weise getäuscht werden konnte, schrieb ich dasselbe Programm auf Python. Später erfuhr ein Freund von mir auch von der Wahrscheinlichkeitsbeziehung und schrieb dasselbe Programm, auch aus irgendeinem Grund auf Python . Er startete es und stellte fest, dass das 20: 1-Verhältnis für die Hypothese "55% der Adler" mindestens einmal in 1,4% der Serie von Schüssen gefunden wurde. Wenn Sie beispielsweise 30: 1 oder 50: 1 benötigen, sinkt ihre Frequenz noch schneller.
Wissenschaftler:Wenn Sie Ihren anderthalb-prozentigen P-Wert zählen, sieht es gut aus. Dies ist jedoch eine sehr unhöfliche Methode zur Trickanalyse. Vielleicht gibt es komplexere und effektivere?
Bayesian: Ich war ... ungefähr fünf Jahre alt, wahrscheinlich, wenn nicht weniger, als ich zum ersten Mal etwas über das Hinzufügen erfuhr. Eine meiner frühesten Erinnerungen. Ich setzte mich, addierte 3 zu 5 und versuchte, mir einen Weg auszudenken, um 8 nicht zu bekommen. Das ist natürlich sehr schön und allgemein ein wichtiger Schritt, um zu verstehen, was Addition ist (und Mathematik im Allgemeinen). Aber genau das ist jetzt schön, denn wir sind Erwachsene und wir verstehen, dass 5 plus 3 zwangsläufig gleich 8 ist. Das Drehbuch, das ständig das Wahrscheinlichkeitsverhältnis testet, macht das Gleiche wie ich es in meiner Kindheit getan habe. Nachdem ich die Theorie verstanden hatte, wurde mir klar, dass Versuche, Bayes 'Herrschaft zu täuschen, offensichtlich sindzum Scheitern verurteilt. Es ist so, als würde man versuchen, 3 auf knifflige Weise in 2 und 1 zu zerlegen und sie getrennt zu 5 hinzuzufügen, oder versuchen, zuerst 1 und dann erst 2 hinzuzufügen. Weder das noch 7 oder 9 funktionieren. Das Ergebnis der Addition ist ein Theorem , und es spielt keine Rolle, welche Abfolge von Operationen wir ausführen. Wenn es wirklich der Addition von 3 zu 5 entspricht, kann am Ausgang nichts außer 8 erhalten werden. Der Satz der Wahrscheinlichkeitstheorie ist auch ein Satz. Wenn das Skript wirklich funktionieren könnte, würde es einen Widerspruch in der Wahrscheinlichkeitstheorie bedeuten, was einen Widerspruch in der Peano-Arithmetik bedeutet, auf der die Analyse von Wahrscheinlichkeiten unter Verwendung rationaler Zahlen konstruiert wird. Was Sie und ich versucht haben, war genau so schwierig wie das Hinzufügen von 3 und 5 in Standard-Arithmetik-Axiomen und das Erhalten von 7.
Student: Äh, warum?
Wissenschaftler: Ich habe es auch nicht verstanden.
Bayesian: Es bezeichnen e Beobachtungen, H die Hypothese ,! X bezeichnet "nicht X", P ( H ) bezeichnet die Wahrscheinlichkeit der Hypothese und P ( X | Y ) bezeichnet die bedingte Wahrscheinlichkeit von X, vorausgesetzt, Y ist wahr dass

P (H) = P ( H | e ) * P ( e )) + (P ( H |! e ) * P ( ! e )

Daher gibt es für die Wahrscheinlichkeitsfunktionen keinebeliebig komplexes Analogon von p-Hacking, abgesehen von Datenfälschung, da kein einem Bayes-Agenten bekanntes Verfahren ihn zwingen wird, seine a priori-Wahrscheinlichkeiten in einer absichtlich falschen Richtung zu aktualisieren. Für jede Änderung , die wir aus der Beobachtung bekommen eine E gibt es eine inverse Variation , die sich aus der Beobachtung zu erwarten ist ! Eine e .
Student: Was?
Wissenschaftler: Ich habe es auch nicht verstanden.
Bayesian: Okay, lass es uns bis zur Mathematik verschieben und sehen ... ja, bis zur Krise der Reproduzierbarkeit. Der Wissenschaftler sagte, dass er ideale universelle Lösungen misstrauisch ist. Aber meiner Meinung nach dem Übergang zur Wahrscheinlichkeitsfunktion wirklich sollteLösen Sie viele Probleme auf einmal. Angenommen, ... jetzt kommen mit. Angenommen, ein bestimmtes Unternehmen hat erhebliche Probleme mit der Rechnungslegung. Diese Probleme sind auf die Tatsache zurückzuführen, dass alle Abrechnungen Gleitkommazahlen verwenden. und es wäre immer noch die Hälfte des Problems, aber es werden drei verschiedene Implementierungen verwendet (ungefähr in jeweils einem Drittel des Unternehmens), so dass sich herausstellt, dass Gott alles weiß. Jemand zum Beispiel nimmt 1.0, addiert tausendmal 0,0001, subtrahiert dann 0.1 und erhält 0.9999999999989. Dann reist er in eine andere Etage, wiederholt die Berechnungen auf ihren Computern und erhält 1.000000000000004. Und jeder denkt, dass dies notwendig ist. Und der Fehler ist wirklich RIESIG, alle drei Implementierungen sind das Ergebnis einer unnatürlichen Vereinigung von Höhlenmalereien und römischen Ziffern. Aufgrund der Unterschiede zwischen ihnen ist es also möglich, ziemlich greifbare Unterschiede in den Ergebnissen zu erzielen. Natürlich jeder nimmt den umsatz so auf, dass vierteljährliche berichte zusammenkommen. Daher ist es ein gutes Ergebnis, wenn das Budget der Abteilung nicht einmal sich selbst widerspricht und die Abteilung für kognitives Priming wahrscheinlich vor 20 Jahren bankrott geht. Und hier gehe ich ganz in Weiß aus und sage: „Guten Tag. Und was ist, wenn Sie anstelle Ihrer drei Implementierungen dieses coole Ding verwenden, das nicht auf diese Weise manipuliert werden kann und das die Hälfte Ihrer Probleme löst? “
( Bayesian , in der Stimme des Wissenschaftlers ) : „Ich bin solchen universellen Lösungen misstrauisch“, antwortet mir der Hauptbuchhalter. „Betrachte es nicht als Beleidigung, aber du, mein Freund, bist ein Idealist. Nach meiner Erfahrung sind unterschiedliche Eingaben von Gleitkommazahlen für unterschiedliche Operationen gut geeignet, daher sollten Sie nicht sofort alle Werkzeuge außer einem wegwerfen. “
Bayesian: Worauf ich ihn antworte:„ Vielleicht klingt es zu fett, aber ich werde es demonstrieren du bist perfektEine Darstellung von Brüchen, bei denen die Ergebnisse nicht von der Reihenfolge abhängen, in der Sie Zahlen hinzufügen, oder von wessen Computer die Berechnungen ausgeführt werden. Vielleicht war 1920, als Ihr System gerade erstellt wurde, zu viel Arbeitsspeicher erforderlich. Aber jetzt ist nicht das Jahr 1920, Sie können es sich leisten, keine Rechenressourcen zu sparen. Zumal Sie dort wie viele, 30 Millionen Bankkonten haben? Das ist wirklich Unsinn. Ja, meine Präsentation hat ihre Mängel. Zum Beispiel werden Quadratwurzeln viel schwieriger genommen. Aber wie oft müssen Sie ehrlich gesagt die Quadratwurzel des Gehalts einer Person ziehen? Für die meisten Aufgaben der realen Welt ist dieses System Ihrem nicht unterlegen, und außerdem kann es nicht getäuscht werden, ohne die Eingabewerte zu fälschen. “Dann erkläre ich ihnen: wie man eine ganze Zahl beliebiger Länge im Gedächtnis darstellt und wie man eine rationale Zahl in Form eines Verhältnisses von zwei ganzen Zahlen darstellt. Das ist es, was wir jetzt als eine selbstverständliche Art der Darstellung bezeichnen würdenreale rationale Zahlen im Computerspeicher. Das einzige und einzigartige System von Theoremen über rationale Zahlen, für die Gleitkommazahlen nur eine Annäherung sind. Und wenn Sie unglückliche 30 Millionen Scheine bearbeiten; wenn in der Praxis Ihre Annäherungen weder miteinander noch mit sich selbst konvergieren; wenn sie auch jedem erlauben, dein Geld zu stehlen; Wenn die Werft nicht 1920 ist und Sie sich normale Computer leisten können, ist die Notwendigkeit, die Buchhaltung auf reale rationale Zahlen zu übertragen, ziemlich offensichtlich. Ebenso sind die Bayes-Regel und ihre Korollarien das einzige auf Axiomen basierende und streng bewiesene System von Theoremen über Wahrscheinlichkeiten. Und so funktioniert P-Hacking nicht.
Wissenschaftler: Das ist ... mutig. Auch wenn alles, was Sie sagen, wahr ist, gibt es immer noch praktische Schwierigkeiten. Die Statistiken, die wir jetzt verwenden, werden seit mehr als einem Jahrzehnt erstellt. sie hat sich bewährt. Wie hat sich Ihr heller Bayes-Weg in der Praxis erwiesen?
Bayesian: In den Naturwissenschaften wird es fast nie verwendet. Beim maschinellen Lernen, wo es, wie es bescheidener zu sagen ist, ziemlich leicht zu bemerken ist, dass das Modell falsch ist - weil die darauf basierende KI nicht funktioniert -, habe ich beim maschinellen Lernen zuletzt vor zehn Jahren den Frequenzansatz für die Wahrscheinlichkeit gesehen. Und ich kann mich an keinen erinnern .Arbeit, bei der die KI den P-Wert einer Hypothese berücksichtigen würde. Wenn die Wahrscheinlichkeit in der Studie irgendwie auftaucht, dann ist es mit ziemlicher Sicherheit Bayesian. Wenn etwas nach einheitlichen Codes klassifiziert ist, ist die Kreuzentropie minimiert, aber nicht ... Ich weiß nicht einmal, was analog zu den P-Werten in AI sein könnte. Ich würde es wagen vorzuschlagen, dass dies das ist, was es ist. Die Statistik beim maschinellen Lernen funktioniert entweder oder funktioniert nicht, und es ist sofort klar: Die KI macht entweder das, was sie soll oder tut es. Und in den Naturwissenschaften werden in erster Linie alle Publikationen benötigt. Da es in den Artikeln üblich ist, P-Werte anzugeben und nicht reproduzierbare Ergebnisse nicht bestraft werden, haben wir das, was wir haben.
Wissenschaftler:Sie sind also eher Mathematiker oder Programmierer als Naturwissenschaftler? Aus irgendeinem Grund überrascht mich das nicht. Ich habe keinen Zweifel, dass es einen erfolgreicheren statistischen Apparat gibt, aber die Erfahrung mit der Verwendung von P-Werten ist auch etwas wert. Ja, jetzt sind sie oft auf die eine oder andere Weise verdreht, aber wir wissen, wie man es macht und beginnen zu verstehen, wie man damit umgeht. Die Fallstricke der P-Werte sind zumindest bekannt. In jedem neuen System werden sie es auch sein. Aber genau dort stellt sich heraus, dass dies erst nach Jahrzehnten der Fall ist. Vielleicht sind sie sogar gefährlicher als die Gegenwart.
Bayesian:Ja, diebische Buchhalter werden wahrscheinlich neue aufregende Manipulationen mit rationalen Zahlen entwickeln. Vor allem dann, wenn die genauen Operationen noch zu rechenintensiv sind und irgendwie angenähert werden müssen. Aber ich glaube immer noch, dass, wenn dieselbe experimentelle Psychologie im Moment die Krise der Reproduzierbarkeit durchbricht und wenn diese Krise eindeutig mit der Verwendung von P-Werten zusammenhängt, die ehrlich gesagt nichts anderes als ein Haufen widersprüchlicher Krücken sind - dann sollten Sie zumindest versuchen, mehr zu verwenden rationale Methode. Ich rufe zwar auch nicht dazu auf, alle abzureißen und wieder aufzubauen. In der Praxis können Sie beginnen, die P-Werte in einem beliebigen Bereich (zumindest in der Psychologie) aufzugeben und zu sehen, was passiert.
Wissenschaftler:Und wie wollen Sie Psychologen von einem solchen Experiment überzeugen?
Bayesian: Ich habe keine Ahnung. Ehrlich gesagt erwarte ich nicht wirklich, dass irgendjemand etwas ändert. Höchstwahrscheinlich werden die Menschen die P-Werte einfach bis zum Ende des Zeitalters verwenden. Solche Sachen. Es besteht jedoch die Möglichkeit, dass die Idee weiterhin beliebt ist. Ich war angenehm überrascht, wie schnell Open Access Fuß gefasst hat. Es hat mich angenehm überrascht, dass die Krise der Reproduzierbarkeit allgemein bemerkt wurde und die Menschen sich darüber Gedanken machen. Vielleicht werden die P-Werte immer noch auf den Marktplatz gezogen und von einer großen Menschenmenge auf den Kopf gestellt ( Anmerkung: Mindestens eine psychologische Zeitschrift weigerte sich 2015, Nullhypothesen zu prüfen). Wenn ja, werde ich angenehm überrascht sein. In diesem Fall stellte sich heraus, dass meine Arbeit zur Popularisierung der Bayes'schen Regeln und Wahrscheinlichkeiten nicht umsonst war.
Wissenschaftler: Es kann sich auch herausstellen, dass niemand experimentelle Wissenschaft mag und P-Werte alle als praktisch und nützlich angesehen werden.
Bayesianer: Wenn das Universitätsstudium der Statistik so ungeheuerlich war, dass wenn man über die Wahrscheinlichkeitstheorie nachdenkt, sie wackelig werden, dann müssen die Veränderungen ja von außen kommen. Ich hoffe persönlich, dass unser lieber Student eine kurze und ziemlich faszinierende Einführung in die Bayes'sche Wahrscheinlichkeitstheorie liest ., vergleiche es mit seinem großartigen Lehrbuch über Statistik und werde dich für die nächsten sechs Monate anflehen: "Nun, bitte, kann ich nur die Wahrscheinlichkeit und alles in Betracht ziehen, bitte, nun, erlaube es mir."
Student: Äh ... nun, ich habe ihn zuerst gelesen, okay?
Bayesian: Lieber Student, denke über deine Wahl nach. Einige Veränderungen in der Wissenschaft treten nur deshalb auf, weil die Schüler mit unterschiedlichen Ideen aufwachsen und die richtigen auswählen. Dies ist der berühmte Aphorismus von Max Planck, und Max Planck wird keinen Unsinn sagen. Ergo hängt die Fähigkeit der Wissenschaft, schlechte von guten Ideen zu unterscheiden, allein von der Intelligenz der Schüler ab.
Wissenschaftler: Nun, das ist schon ...
Moderator: Und hier vervollständigen wir unsere Übertragung. Vielen Dank für Ihre Aufmerksamkeit!

Jetzt auch beliebt: