p-Hacking

Hilf Forschi, in den Daten doch noch ein interessantes Ergebnis zu finden.

Scroll, um in die Geschichte einzusteigen

Hallo 👋🏻, ich bin Forschi 👩🏻‍🔬

Ich bin Wissenschaftlerin. Und vielleicht wusstest du es schon: In der Forschung ist es ziemlich wichtig, relevant zu bleiben. Und relevant bleibt man mit Studien, Ergebnissen und Publikationen.

Denn wer publiziert, bekommt eher Aufmerksamkeit, eher Fördergelder und eher neue Chancen. Und wer keine spannenden Ergebnisse hat, hat es oft schwerer.

Und genau darum geht es heute.

Der Auftrag

Nehmen wir ein Beispiel: Die Apfellobby möchte zeigen, dass der Konsum von Äpfeln Autounfälle reduziert.

Klingt erst einmal ziemlich seltsam. Warum sollten Äpfel etwas mit Autounfällen zu tun haben?

Aber der Apfellobby ist das wichtig. Ein positiver Befund wäre gut für ihr Image.

Also mache ich eine Studie und finde heraus, ob Äpfel vielleicht doch Autounfälle reduzieren.

Die Hypothese

Bevor wir loslegen mit der ganzen Forscherei, brauchen wir unsere Forschungsfrage, die wir ganz generell Hypothese nennen.

Zuerst formulieren wir die sogenannte Nullhypothese und kürzen sie mit H₀ ab. Sie beschreibt in unserem Fall die Annahme, dass Äpfel keinen Einfluss auf Autounfälle haben.

H₀

Essen von Äpfeln hat keinen Einfluss auf Autounfälle.

Die zweite mögliche Erklärung

Die zweite mögliche Erklärung ist die Behauptung, die die Apfellobby natürlich besonders gerne bestätigt sehen würde. Wir nennen sie Alternativhypothese oder auch H₁:

H₁

Der Konsum von Äpfeln reduziert Autounfälle.

Die beiden Hypothesen

Nun haben wir also unsere beiden Hypothesen.

H₀

Essen von Äpfeln hat keinen Einfluss auf Autounfälle.

H₁

Der Konsum von Äpfeln reduziert Autounfälle.

Jetzt geht es also darum, Daten zu sammeln und mit den Daten zu prüfen, welche dieser beiden Aussagen besser zu dem passt, was wir beobachtet haben.

Die Datensammlung

Also sammeln wir Daten.

Wir befragen viele Menschen: Wer isst Äpfel, wer nicht? Welche Farbe haben die Äpfel: rot oder grün? Woher kommen sie: aus Grönland, der Sahara oder der Antarktis? Welche Form haben sie: rund, quadratisch oder spitzwinklig? Und wie riechen sie: würzig, metallisch oder fischig?

Gleichzeitig fragen wir auch nach dem Fahrverhalten: Wer fährt überhaupt Auto? Wie oft? Schon mal einen Unfall gehabt?

So erhalten wir am Ende ganz viele Daten mit ganz unterschiedlichen Informationen über ganz unterschiedliche Personen.

Und genau das ist wichtig. Denn je mehr Daten wir haben, desto verlässlicher können wir sagen, ob das Essen von Äpfeln nun tatsächlich Unfälle verhindert oder nicht.

Was ist der p-Wert?

Und hier kommt der p-Wert ins Spiel.

Das p steht dabei für probability, also Wahrscheinlichkeit.

Der p-Wert gibt an, wie wahrscheinlich unsere beobachteten Daten wären, wenn die Nullhypothese stimmen würde.

Stellen wir uns also zwei Gruppen vor: Menschen, die Äpfel essen, und Menschen, die keine Äpfel essen. Dann schauen wir, ob sich die Unfallzahlen zwischen diesen Gruppen unterscheiden.

Der p-Wert hilft uns einzuschätzen, ob der Unterschied bei den Unfallzahlen auch einfach zufällig entstanden sein könnte.

Grob gesagt gilt: Je kleiner der p-Wert, desto schwieriger lässt sich das Ergebnis allein mit Zufall erklären.

Liegt der p-Wert unter einer bestimmten Schwelle, meistens 5 % bzw. 0.05, spricht man oft von einem statistisch signifikanten Ergebnis.

Warum das wichtig ist

So ein kleiner p-Wert gilt in der Forschung oft als etwas besonders Wertvolles.

Ein signifikantes Ergebnis wirkt spannend. Es klingt nach Entdeckung, nach Relevanz, nach einer guten Geschichte.

Und genau deshalb entsteht Druck.

Denn wenn ein Ergebnis nicht signifikant ist, wirkt es schnell unspektakulär. Und unspektakuläre Ergebnisse bekommen oft weniger Aufmerksamkeit.

Das erste Resultat

Wir haben nun alle Daten beisammen. Also wird gerechnet.

Die Gruppen werden verglichen: Menschen mit Apfelkonsum gegen Menschen ohne Apfelkonsum. Und dann kommt das erste Resultat:

Erstes Resultat

p = .85

«Mist!» Kein signifikanter Unterschied. Kein überzeugender Befund. Kein Ergebnis, über das sich die Apfellobby besonders freuen würde.

Erst einmal sieht es also so aus, als hätten Äpfel mit Autounfällen schlicht nichts zu tun.

Die Versuchung

Hm.

Unser p-Wert ist zu hoch. Noch kein signifikantes Ergebnis.

Aber vielleicht haben wir nur noch nicht genau genug hingeschaut. Vielleicht steckt der Effekt ja doch irgendwo in den Daten. Vielleicht muss man nur etwas genauer auswählen und etwas gezielter vergleichen.

Und genau hier beginnt die Versuchung.

Wenn man genug Daten hat, kann man vieles ausprobieren. Und manchmal findet man irgendwann tatsächlich ein Ergebnis, das plötzlich signifikant aussieht.

Die Einladung ins Labor

Was wäre also, wenn wir die Daten noch einmal genauer untersuchen?

Was, wenn wir nur bestimmte Äpfel auswählen?
Was, wenn wir so lange suchen, bis sich doch noch ein kleiner p-Wert zeigt?

Hilfst du mir, die Daten weiter zu untersuchen?

p-Hacking

Hallo 👋🏻, ich bin Forschi 👩🏻‍🔬

Der Auftrag

Die Hypothese

Die zweite mögliche Erklärung

Die beiden Hypothesen

Die Datensammlung

Was ist der p-Wert?

Warum das wichtig ist

Das erste Resultat

Die Versuchung

Die Einladung ins Labor

Analyselabor

Unfallanteil

Ein statistisch signifikanter Zusammenhang wurde gefunden

Befund

Was haben wir eigentlich gezeigt?

Nur für eine ausgewählte Teilgruppe

Viele Wege, ein Ergebnis zu finden

Signifikant heisst nicht automatisch wichtig oder wahr

Die gefährliche Abkürzung

Ehrlich formuliert

Klingt besser, ist aber irreführend

Kernproblem

Welche Schlagzeile würdest du glauben?

Was gegen p-Hacking hilft

Präregistrierung

Registered Reports

Offene Daten und Code

Replikation und Meta-Analysen

Danke!