Signifikanztest
aus Wikipedia, der freien Enzyklopädie
Die Artikel Statistischer Test und Signifikanztest überschneiden sich thematisch. Hilf mit, die Artikel besser voneinander abzugrenzen oder zu vereinigen. Bitte äußere dich in der Diskussion über diese Überschneidungen, bevor du diesen Baustein entfernst. Falk Lieder 15:04, 13. Aug 2006 (CEST) |
Ein Signifikanztest ist ein Hypothesentest aus der Stochastik, einem Teilgebiet der Mathematik.
Als Signifikanztest (von lateinisch significans = deutlich) bezeichnet man einen Hypothesentest, wenn man überprüft, ob die Wahrscheinlichkeit dafür, dass eine zu prüfende Hypothese auf Grund einer willkürlichen Entscheidungsregel abgelehnt wird, obwohl sie richtig ist, kleiner oder gleich einer bestimmten Grenzwahrscheinlichkeit, dem so genannten Signifikanzniveau ist.
Inhaltsverzeichnis |
[Bearbeiten] Allgemeine Beschreibung
[Bearbeiten] Grundlagen
Man betrachtet ein Zufallsexperiment mit dem Ergebnisraum Ω und interessiert sich für ein bestimmtes Ergebnis ω. Es wird erwartet, dass dieses Ergebnis mit der Wahrscheinlichkeit p0 auftritt.
- Erwartung: P(ω) = p0
Man stellt die so genannte Nullhypothese H0 auf, die die Behauptung beinhaltet, das betrachtete Experiment verhalte sich wie erwartet, die Wahrscheinlichkeit für das Eintreten des Betrachteten Ereignisses {ω} sei also gleich p0.
- H0: P(ω) = p0
[Bearbeiten] Hypothesentests
Man möchte nun herausfinden, ob die Erwartung tatsächlich zutrifft. Deshalb führt man einen so genannten Hypothesentest durch. Hierbei wird das Experiment stichprobenartig n mal durchgeführt.
Die diskrete Zufallsgröße Z gibt hierbei an, wie oft bei einer solchen Versuchsreihe das Ergebnis ω auftritt. Der Wertebereich W der Zufallsgröße erstreckt sich also von einschließlich 0 bis einschließlich n. Z wird deshalb eine Zufallsgröße genannt, weil der Wert, den sie bei einer Versuchsreihe tatsächlich annimmt, vom Zufall abhängt. Dieser Wert, den die Zufallsgröße tatsächlich bei einer Durchführung der Versuchsreihe annimmt, bezeichnet man als die Realisation z der Zufallsgröße.
Da es sich bei der Versuchsreihe um eine stichprobenartige Versuchsreihe handelt, lässt sich über die Wahrheit der Hypothese H0 keine Aussage mit absoluter Sicherheit machen. Daher definiert man die Menge A als Annahmebereich für die Hypothese.
Wenn Z ein Element des Annahmebereichs A ist, betrachtet man die aufgestellte Hypothese H0 als bestätigt, andernfalls lehnt man die Hypothese ab.
angenommen
abgelehnt
Man beachte, dass die Schreibweise gleichbedeutend ist mit
, da der Wertebereich für z nur aus dem Annahmebereich A und dem Ablehnungsbereich
(gesprochen: "nicht A") besteht:
.
[Bearbeiten] Fehlentscheidungen
Da es sich bei Hypothesentests nur um Stichproben handelt, man aber trotzdem auf Grund des Versuchsergebnisses eine Entscheidung über eine Annahme oder Ablehnung der aufgestellten Nullhypothese H0 treffen muss, bleibt die Möglichkeit einer Fehlentscheidung.
Fehler 1. Art (α-Fehler) | Die Nullhypothese ist zutreffend. Dennoch wird sie auf Grund des Versuchsergebnisses abgelehnt. |
Fehler 2. Art (β-Fehler) | Die Nullhypothese ist nicht zutreffend, wird aber auf Grund des Versuchsergebnisses angenommen. |
Beiden Fehlervarianten können Wahrscheinlichkeiten zugeordnet werden, mit denen sie eintreten. Die jeweilige Wahrscheinlichkeit ist abhängig von der Anzahl der Stichproben n, dem gewählten Annahmebereich A und außerdem von der tatsächlichen Wahrscheinlichkeit für das Eintreten des Ergebnisses ω.
Man möchte die Wahrscheinlichkeiten für das Eintreten der Fehler möglichst gering halten. Daher wählt man die Grenzwahrscheinlichkeiten α und β, so genannte Niveaus, die von den Wahrscheinlichkeiten für den jeweiligen Fehler nicht überstiegen werden dürfen. Meist entscheidet man sich, entweder die Wahrscheinlichkeit für das Eintreten eines Fehlers erster Art oder die für das Eintreten eines Fehlers zweiter Art zu minimieren.
"Fehler erster Art"
"Fehler zweiter Art"
[Bearbeiten] Signifikanzniveaus
Möchte man die Wahrscheinlichkeiten für das Eintreten eines Fehlers begrenzen, gibt man das maximal erlaubte Niveau α oder β für einen Fehler vor und bestimmt den Annahmebereich A dieser Vorgabe entsprechend.
Ist die Wahrscheinlichkeit für einen Fehler höchstens 5%, so spricht man von einem signifikanten Ergebnis. Ist sie höchstens 1%, so spricht man von einem hochsignifikanten Ergebnis. Die festgelegten Grenzwahrscheinlichkeiten bezeichnet man als Signifikanzniveaus.
"signifikantes Ergebnis"
"hochsignifikantes Ergebnis"
In der Praxis möchte man meist die Nullhypothese H0, beispielsweise die Giftigkeit eines Medikaments, ausschließen und deshalb auch die Wahrscheinlichkeit dafür, dass H0 tatsächlich zutrifft, also das Medikament giftig ist, obwohl der Stichprobentest zur Ablehnung der Hypothese führt (Fehler erster Art), möglichst geringhalten. Also wird die Minimierung des Niveaus α angestrebt.
[Bearbeiten] Bernoulli-Charakter und Binomialverteilung
Bei einer Stichprobenuntersuchung können mehrere gleichartige Versuche gleichzeitig durchgeführt werden. Beispielsweise können n Personen gleichzeitig befragt werden. Man wird dieselbe Person nicht zweimal befragen. Untersucht man einen Karton mit Schrauben, wird man n Schrauben gleichzeitig entnehmen. Die Stichproben der angesprochenen Beispiele werden, auf das Urnenmodell übertragen, "ohne Zurücklegen" durchgeführt. Deshalb ist die Verteilung der Zufallsgröße eigentlich hypergeometrisch.
Allerdings sollen für geeignete Stichprobenuntersuchungen hinreichend große Mengen n untersucht werden, so dass die Verteilung als binomialverteilt und somit das Experiment als Bernoulli Experiment angesehen werden kann, was schlicht bedeutet, dass die Wahrscheinlichkeit für das Eintreten eines bestimmten Ergebnisses ω bei allen Teilversuchen gleich ist.
Deshalb darf die Wahrscheinlichkeit für einen Fehler erster Art, wie im folgenden dargestellt wird, umformuliert werden.
Es wird die Wahrscheinlichkeit für einen Fehler erster Art betrachtet:
Hierbei ist H eine wahre Hypothese, deren Ablehnungsbereich ist. Die Hypothese beinhaltet, dass die Wahrscheinlichkeit für das Eintreten des Ergebnisses ω gleich p ist.
Auf Grund des angesprochenen Bernoulli-Charakters ändert sich diese Wahrscheinlichkeit P(ω) nicht, sondern bleibt immer gleich p. Deshalb lässt sich die Wahrscheinlichkeit für einen Fehler erster Art auch als Summe der Wahrscheinlichkeiten dafür darstellen, dass bei n Versuchen k mal das Ergebnis ω eintritt, wobei die Wahrscheinlichkeit für das Eintreten dieses Ergebnisses gleich p ist. Der Laufindex k soll jedes Element aus dem Ablehnungsbereich darstellen.
Um diese eher umständliche Schreibweise zu vermeiden, stellt man die Wahrscheinlichkeit für einen Fehler erster Art in vereinfachter aber gleichbedeutender Schreibweise dar:
[Bearbeiten] Einseitige und zweiseitige Tests
Die Zufallsgröße Z gibt an, wie oft bei n Stichproben das Ereignis ω eintritt. Der Wertebereich W von Z erstreckt sich also von einschließlich 0 bis einschließlich n. Diese Wertemenge wird in den Annahmebereich der Hypothese H0 und den Ablehnungsbereich
eingeteilt. Je nach Art des Experimentes und des gewählten Annahmebereichs kann
entweder von
umgeben sein,
einschließen, oder neben
liegen.
Die Grenzen, die bestimmen, ob ein Wert der Zufallsgröße zu oder zu
gehört, werden mit c, bzw. c1 und c2 bezeichnet und gehören jeweils noch mit zum Annahmebereich A.
[Bearbeiten] Einseitiger Test
Liegt der Annahmebereich links vom Ablehnungsbereich (siehe Abbildung rechts), lässt sich die Wahrscheinlichkeit für einen Fehler erster Art wie folgt berechnen:
"Fehler erster Art"
F ist hierbei die kumulative Verteilungsfunktion der binomialverteilten Zufallsgröße Z.
Liegt der Annahmebereich rechts vom Ablehnungsbereich (siehe Abbildung rechts), lässt sich die Wahrscheinlichkeit für einen Fehler erster Art wie folgt berechnen:
"Fehler erster Art"
[Bearbeiten] Zweiseitiger Test
Wird der Annahmebereich vom Ablehnungsbereich umgeben (siehe Abbildung rechts), lässt sich die Wahrscheinlichkeit für einen Fehler erster Art wie folgt berechnen:
"Fehler erster Art"
[Bearbeiten] Fehler erster und zweiter Art
In den obigen Abschnitten wurde exemplarisch der Fehler erster Art berechnet (α-Fehler). Die Berechnung des Fehlers zweiter Art (β-Fehler) erfolgt analog. Allerdings ist bei diesem Fehler nicht , sondern
die wahre Hypothese. Deshalb ist auch
. Statt dessen hat P(ω) jetzt eine andere Wahrscheinlichkeit, die im Folgenden mit p bezeichnet wird.
"Fehler erster Art"
"Fehler zweiter Art"
[Bearbeiten] Normalverteilung
Für hinreichend große n verhält sich die betrachtete Zufallsgröße Z normalverteilt, weshalb die Wahrscheinlichkeit für einen Fehler erster Art dann auch mit der Verteilungsfunktion Φ berechnet werden kann.
Die standardisierte Verteilungsfunktion Φ ist wie folgt definiert. Ihre Werte werden in der Praxis mit Hilfe von Tabellen zur Stochastik ermittelt.
Wegen der Normalverteilung gelte für die Zufallsgröße Z:
Erwartungswert: | ![]() |
Standardabweichung: | ![]() |
Beim einseitigen Test mit Annahmebereich rechts vom Ablehnungsbereich wäre die Wahrscheinlichkeit für einen Fehler erster Art dann wie folgt zu berechnen:
"Fehler erster Art"
[Bearbeiten] Beispiel zur Anwendung
Ein neues Medikament M soll auf seine Wirksamkeit hin untersucht werden. Es soll in Erfahrung gebracht werden, ob es besser wirkt als ein vergleichbares Medikament N.
Man führt eine Untersuchung mit n = 25 Probanden durch, die beide Medikamente vergleichend einnehmen. Das Ergebnis, für das wir uns interessieren, ist
- ω: "Das Medikament M wirkt besser als das Medikament N."
Wir gehen zunächst vom ungünstigen Fall aus, beide Medikamente seien entweder gleichwertig, oder M sei sogar weniger wirksam als N, weshalb die Wahrscheinlichkeit für ω kleiner oder gleich wäre.
Die Realisation z der Zufallsgröße Z gebe die Anzahl der Personen an, bei denen ω tatsächlich zutrifft, bei denen also M besser wirkt als N.
Wir möchten die Wahrscheinlichkeit dafür gering halten, dass das neue Medikament gleichwertig oder schlechter wirkt als das alte, also die Nullhypothese H0 zutrifft, dies aber auf Grund der Untersuchung nicht erkannt wird (Fehler erster Art).
Wir streben ein signifikantes Ergebnis an, weshalb wir ein Signifikanzniveau von wählen.
Zur Auswertung der Untersuchung muss ein Annahmebereich für die Nullhypothese festgelegt werden. Wir gehen von der Richtigkeit der Hypothese H0 aus, wenn , und dementsprechend von ihrer Falschheit, wenn
,
,
Der stochastischen Tabelle ist folgendes zu entnehmen:
Also dürfen wir mit einer Fehlerwahrscheinlichkeit von 2,2% davon ausgehen, dass, wenn bei mindestens 18 von 25 Probanden Medikament M besser wirkt als Medikament N, Medikament M tatsächlich wirksamer ist.