p-Wert
aus Wikipedia, der freien Enzyklopädie
Die Artikel Irrtumswahrscheinlichkeit, Falschklassifikationsrate und p-Wert überschneiden sich thematisch. Hilf mit, die Artikel besser voneinander abzugrenzen oder zu vereinigen. Bitte äußere dich in der Diskussion über diese Überschneidungen, bevor du diesen Baustein entfernst. ~ğħŵ ₫ 00:20, 28. Dez. 2007 (CET) |
Der p-Wert (auch Überschreitungswahrscheinlichkeit genannt) ist eine Kennzahl zur Auswertung von statistischen Tests. Er steht in enger Beziehung mit dem Signifikanzniveau, lässt sich aber nicht so einfach in Tabellen fassen, sodass die praktische Anwendung erst mit Einführung von Computern und Statistik-Software möglich geworden ist.
Inhaltsverzeichnis |
[Bearbeiten] Mathematische Formulierung
Bei einem statistischen Test wird eine Vermutung (Nullhypothese) H0 überprüft, indem ein passendes Zufallsexperiment durchgeführt wird, das die Zufallsgrößen liefert. Diese Zufallsgrößen werden zu einer einzelnen Zahl („Statistik“)
zusammengefasst. Für einen konkreten Versuchsausgang des Experiments erhält man einen Wert
- .
Der p-Wert des Versuchsausgangs ist dann die Wahrscheinlichkeit, dass ein zufälliger Versuch bei gültiger Nullhypothese mindestens so „extrem“ ausgeht wie der beobachtete, also abhängig von der genauen Wahl der Statistik. Bei rechtsseitiger Test:
Bei linksseitiger Test:
Und bei zweiseitiger Test:
Der p-Wert gibt an wie extremal der gefundene Wert der Teststatistik ist. Es ist unter der Nullhypothese die Wahrscheinlichkeit der Menge Werte zu der der gefundene Wert noch gerade gehört. Je kleiner der p-Wert, umso eher sollte die Nullhypothese verworfen werden. Üblicherweise wird vor dem Test ein Signifikanzniveau α festgelegt und die Nullhypothese dann verworfen, wenn der p-Wert kleiner oder gleich α ist.
[Bearbeiten] Beispiel
Gegeben sei eine Münze. Die zu prüfende Nullhypothese sei, dass die Münze fair ist, dass also Kopf und Zahl gleich wahrscheinlich sind; die Alternativhypothese sei, dass ein Ergebnis wahrscheinlicher ist, wobei nicht festgelegt wird, welches der beiden wahrscheinlicher sein soll. Das Zufallsexperiment zum Testen der Nullhypothese bestehe nun darin, dass die Münze zwanzig Mal geworfen wird. K bezeichne die Anzahl der Würfe, die „Kopf“ als Ergebnis liefern. Bei einer fairen Münze wäre 10 Mal Kopf zu erwarten, als Statistik wählt man daher sinnvollerweise
- Y = | K − 10 | .
Angenommen, der Versuch liefert k = 14 Mal das Ergebnis Kopf, also y = 4. Unter der Nullhypothese ist die Anzahl der Köpfe binomialverteilt mit n = 20 und . Der p-Wert für diesen Versuchsausgang ist daher
Bei einem Signifikanzniveau von 5% würde man die Nullhypothese nicht verwerfen, d.h., man kann aus den Daten nicht folgern, dass die Münze nicht fair sei.
Wäre das Versuchsergebnis k = 15 Mal Kopf, also y = 5, dann wäre der p-Wert für diesen Versuchsausgang
Bei einem Signifikanzniveau von 5% würde man also in diesem Fall die Nullhypothese verwerfen, also schließen, dass die Münze nicht fair ist, bei einem Signifikanzniveau von 1% hingegen weiterhin akzeptieren. (Genauer gesagt: Man würde die Datenlage für unzureichend ansehen, um den Schluss zu rechtfertigen, die Münze sei nicht fair. Dies als einen Beweis zu nehmen, dass die Münze fair ist, wäre jedoch falsch.)