6.6 Statistische Entscheidungen

6.6.1 Kritische Werte

Schlussendlich interessiert es uns, ob unsere Hypothese korrekt ist oder nicht. Die erste Ernüchterung ist, dass wir diese Frage nicht beantworten können. In der Statistik, die wir in diesem Modul lernen, prüfen wir, wie wahrscheinlich die Daten unter der Nullhypothese sind (\(P(D|H_0)\)). Wir machen daher Aussagen über die Daten und nicht über die Hypothesen. Sobald die Daten sehr unwahrscheinlich gegeben der Nullhypothese sind, treffen wir die Entscheidung, dass die Alternativhypothese vorerst angenommen wird. Aber wie unwahrscheinlich?

In der Sozialforschung hat sich folgende Regel etabliert:

Liegt die Wahrscheinlichkeit für einen empirischen Kennwert (z.B. PRE, F, z, t) unter dem kritischen Wert von 5%, verwerfen wir die Nullhypothese zugunsten der Alternativhypothese.

Wir nennen diese Schwelle, die darüber entscheidet, ob wir die Null annehmen oder ablehnen den kritischen Wert oder das Alpha-Niveau. Kritisch, da dieser Wert über die Annahme oder Abhlehung der Nullhypothese entscheidet. Die 5%-Hürde ist willkürlich gewählt und stammt von Jerzy Neyman und Egon Pearson. In der Medizin wird häufig ein Alpha-Niveau von 1% oder geringer angenommen. In der Physik findet man teils viel extreme p-Werte (p < .00001). In der Sozialforschung hat sich allerdings ein Alpha-Niveau von 5% etabliert.

Stell dir einmal vor, du erhältst einen t-Wert von 2 bei einem Freiheitsgrad von 30:

t-Wert von über 2 bei einer t-Verteilungen mit df = 30

Figure 6.19: t-Wert von über 2 bei einer t-Verteilungen mit df = 30

Der kritische Bereich ist als rote Fläche gekennzeichet. Er entspricht 5% der Fläche der gesamente Verteilung. Der schwarze Strich kennzeichnet den empirischen t-Wert, welchen du durch dein Experiment ermittelt hast. Aus der Grafik kannst du erkennen, dass der empirische Kennwert innerhalb des kritischen Bereichs fällt. In anderen Worten, die Wahrscheinlichkeit für einen solchen extremen Kennwert liegt unter 5%. Da ein solches Ereignis äußerst unwahrscheinlich ist, verwirfst du die Nullhypothese zu Gunsten der Alternativhypothese.

Du empfindest in diesem Beispiel vielleicht eine gewissen Willkür. Stell dir zum Beisipel vor, der empirische t-Wert fällt auf die Grenze des kritischen Wertes:

Darstellung des empirischen Kennwertes, wenn gilt, empirischer Kennwert ist gleich kritischer Kennwert

Figure 6.20: Darstellung des empirischen Kennwertes, wenn gilt, empirischer Kennwert ist gleich kritischer Kennwert

Welche statistische Entscheidung sollen wir nun treffen? Die Nullhypothese oder die Alternativhypothese? Wäre der t-Wert ein klein wenig größer würden wir die Alternativhypothese vorläufig annehmen, wäre der t-Wert ein klein wenig kleiner, würden wir die Nullhypothese annehmen. Diese kleinen Unterschiede könnten allerdings auf willkürliche Variation zurück zu führen sein. Es könnte sein, dass sich eine Person nicht so gut bei dem Experiment konzentrieren konnte, da es im Labor laut war. Statistische Entscheidungen, die wir auf Grundlage eines einzelnen Studie stellen sind daher nicht sonderlich aussagekräftig. Im nächsten Teil werden wir auf dieses Problem weiter zu sprechen kommen.

Kritische Werte können wir ebenso anhand der F-Verteilung darstellen. Gehen wir erneut davon aus, dass das erweiterte Modell einen Freiheitsgrad von 30 hat und der Freiheitsgrad der zusätzlichen Parameter 1 beträgt. Diese F-Verteilung ist analog zu einer t-Verteilung mit einem Freiheitsgrad von 30, die wir gerade beschrieben haben. Betrachten wir zunächst, welche statistische Entscheidung wir treffen würden, wenn wir einen F-Wert von 4 erhalten:

Der empirische F-Wert ist kleiner der kritische F-Wert. Dies bedeutet, dass die Fläche rechts vom empirischen F-Wert größer als 5% ist. Als Folge werden wir bei der Nullhypothese bleiben und von keinem signifikanten Ereignis sprechen. Wäre der empirische F-Wert innerhalb des roten Bereichs, würden wir die Nullhypothese verwerfen.

Das Prinzip bleibt bei jeder Stichprobenkennwertverteilung das gleiche. Sobald der empirische Kennwert innerhalb des kritischen Bereichs liegt, welcher in der Regel durch 5% gekennzeichnet ist, sprechen wir von einem signifikanten Ereignis und verwerfen die Nullhypothese. Sobald der empirische Kennwert nicht innerhalb des kritischen Bereichs fällt, gehen wir weiterhin von der Nullhypothese aus.

6.6.2 p-Verteilungen

Wenn nun statistische Entscheidungen anhand des fixen kritischen Wertes beschlossen werden, führt das nicht dazu, dass wir häufig falsche Schlussfolgerungen treffen? In gewisser Weise ja, da p-Werte nur aussagekräftig sind, wenn wir sie im Kontext des Experiments verstehen. Wir können p-Werte am besten interpretieren, wenn wir sie nicht als einzelne Ereignisse, sondern als Verteilungen über längere Zeiträume betrachten. Stichproben variieren, allerdings zeigt sich aus vielen Studien häufig ein klares Bild.

Zur Veranschaulichung ein weiteres Beispiel. Gehen wir zurück zu unserem Beispiel aus dem letzten Modul. Unsere Frage war, ob Manager älter als 42 Jahre sind:

\[ \begin{aligned} MODEL_A &= \beta_0 + \epsilon_i \\ MODEL_C &= 42 + \epsilon_i \end{aligned} \]

Gehen wir weiterhin davon aus, dass du den Populationsmittelwert kennst. Manager sind in der Population im Schnitt 44 Jahre alt. Weiterhin kennen wir die Standardabweichung der Populationsverteilung: 5. Deine Stichprobe umfasst 20 Manager. Nun die Frage: Welche p-Werte würdest du erhalten, wenn du 5000 mal das gleiche Experiment machst und eine Stichprobe mit dem vorgebenen Wert \(B_0 = 42\) vergleichst. Die Antwort auf diese Frage können wir grafisch darstellen, indem wir die p-Werte auf der X-Achse darstellen und die Häufigeit der p-Werte auf der y-Achse darstellen:

Darstellung einer P-Wert Verteilung bei 5000 Experimenten

Figure 6.21: Darstellung einer P-Wert Verteilung bei 5000 Experimenten

Ich habe dir nun verraten, dass Manager 2 Jahre älter sind als du mit der Nullhypothese annimmst. Es gibt demnach einen echten Unterschied. Aus der Grafik kannst du nun heraus lesen, wie oft du die richtige Entscheidung auf Grundlage des Experiment treffen würdest. Tatsächlich wirst du in nur etwa 54% der Fälle zum richtigen statistischen Entschluss kommen. In \(100 - 54 = 46%\) der Fällen wirst du die falsche statistische Entscheidung treffen und davon ausgehen, dass es keinen Unterschied zwischen den beiden Werten gibt, obwohl ein Unterschied besteht. Die Wahrscheinlichkeit sich gegen die Nullhypothese zu entscheiden und damit die Alternativhypothese anzunehmen, bezeichnen wir als Power oder Teststärke.

Wir können aus der Grafik noch mehr Informationen ableiten. Wir liegen mit unseren statistischen Entscheidungen nicht immer richtig. Wir werden Fehler machen. Beispielsweise könnte es sein, dass du in deiner Abschlussarbeit keinen signifikanten Effekt erzielst, obwohl es in der Population Unterschiede gibt.

Weiter unten siehst du eine ähnliche Grafik, mit dem einzigen Unterschied, dass wir nun die Größe der Stichprobe ändern. Anstatt 20 Managern befragst du nun 50 Manager in 5000 Studien. Der Populationsmittelwert und die Poplationsstreuung ändern sich dadurch nicht. Ebenso testen wir die gleich Hypothese:

P-Wert Verteilung ei 5000 Experimenten und einer Stichprobengröße von 50 Managern

Figure 6.22: P-Wert Verteilung ei 5000 Experimenten und einer Stichprobengröße von 50 Managern

Oha, die Größe der Stichprobe hat einen Einfluss auf die Verteilung der p-Werte. Indem du die Stichprobe von 20 auf 50 Personen vergrößert hast, steigt deine Power. Dies bedeutet, dass du dich bei einer Stichprobe von 50 Managern mit größerer Wahrscheinlichkeit gegen die Nullhypothese entscheidest als mit einer Stichprobe von 20 Personen. Genau genommen liegt deine Power bei 87%. Zu 87% wirst du dich gegen die Nullhypothese entscheiden, wenn du diese Hypothese testest.

Moment, dies bedeutet wiederum, dass wir auch ganz kleine Unterschiede genügen können, um zu zeigen, dass sich Kennwerte voneinander unterschieden? Ja, man muss nur sicher gehen, dass die Stichprobe groß genug ist. P-Werte sind tückisch, wenn sie nicht abhängig der Stichprobengröße beurteilt werden. Aus diesem Grund sollte man sich auch nicht von Wissenschaftlern täuschen lassen, wenn sie behaupten, ein Ergebnis erzielt zu haben. Eine Studie sagt relativ wenig.

6.6.3 Statistische Signifikanz

Wir sind nun bereit, eines der bekanntesten und am stärksten falsch verstandene Konzept der Statistik kennen zu lernen. Die statistische Signifikanz. Per Definition bedeutet Signifikanz Folgendes:

Signifikanz bedeutet, dass ein Kennwert äußerst unwahrscheinlich ist, unter der Annahme, dass die Nullhypothese korrekt ist.

Nichts anderes bedeutet die Signifikanz. Nicht, dass du etwas Großes oder Bedeutsames gefunden hast. Nicht, dass du auf jeden Fall falsch oder richtig liegst. Signifikanz bedeutet nur, dass dein Ergebnis äußerst überraschend ist, wenn du davon ausgehst, dass die Nullhypothese korrekt ist. In den P-Wert Verteilungen weiter oben führen alle p-Werte, die links von dem roten Strich sind zu signifikanten Ergebnissen.

Statistische Signifikanz ist nicht gleichzusetzen mit der praktischen Bedeutsamkeit. Wir werden im Verlaufe des Kurses immer wieder auf Effekte zu sprechen kommen. Effekte können uns Antwort auf die praktische Bedeutsamkeit von Ereignissen geben, die Signifikanz nicht. Ein Grund hierfür liegt darin, dass die Signifikanz einer Studie, eines Experiments abhängig der Größe der Stichprobe ist. Je größer die Stichprobe ist, desto eher erhalte ich ein signifikantes Ergebnis. Du solltest daher ab jetzt immer vorsichtig sein, wenn Wissenschaftlicher von einem signifikanten Ereignis sprechen.

6.6.4 Alpha- und Betafehler

Wir können zwei Fehler in unseren statistischen Entscheidungen machen. Entweder, wir nehmen fälschlicherweise die Nullhypothese an, obwohl die Alternativhypothese korrekt ist. Oder, wir nehmen lehnen fälschlicherweise die Nullhypothese ab, obwohl sie korrekt ist. Diese Fehler nennen wir Alpha- und Betafehler.

Nullhypothese korrekt Alternativhypothese korrekt
Nullhypothese ablehnen Type I Fehler / Alpha Fehler Richtige Entscheidung
Nullhypothese annehmen Richtige Entscheidung Type II Fehler / Beta Fehler

Beginnen wir mit dem Alphafehler. Der Alphafehler tritt auf, wenn wir fälschlicherweise die Nullhypothese ablehnen, obwohl sie korrekt ist. Stellen wir uns vor, das Alter der Manager ist tatsächlich 42 Jahre. Du Nullhypothese ist damit korrekt. Wie würden sich die p-Werte bei einem solchen Experiment verteilen?

Visualisierung des Alphafehlers. Der Alphafehler ist die Fläch der Box links vom roten Strich und kennzeichnet die fälschliche Ablehnung der Nullhypothese durch einen sehr unwahrscheinlichen Kennwert von < 5%.

Figure 6.23: Visualisierung des Alphafehlers. Der Alphafehler ist die Fläch der Box links vom roten Strich und kennzeichnet die fälschliche Ablehnung der Nullhypothese durch einen sehr unwahrscheinlichen Kennwert von < 5%.

Die p-Werte würden eine uniforme Verteilung bilden. Jeder p-Wert ist gleich wahrscheinlich, wenn die Nullhypothese korrekt ist. Schau dir nun genauer, die graue Box links vom roten Strich an. Diese Box kennzeichnet die Wahrscheinlichkeit, dass du die Nullhypothese ablehnst, obwohl sie korrekt ist. Die Wahrscheinlichkeit beträgt 5%. Du kannst sie dir auch berechnen, indem du die Wahrscheinlichkeit für irgendeinen p-Wert (= 1) durch die Anzahl der Balken teilst: \(1 / 20 = .05\). Wenn es demnach keinen Effekt gibt, wirst du dich trotzdem in 5% der Fällen irren und die falsche statistische Entscheidung treffen. Ärgerlich. Diesen Fehler nennen wir Alpha-Fehler. Der Alphafehler ist definiert durch den kritischen Kennwert, welcher in der Sozialforschung auf 5% bestimmt ist.

Beispielhaft können wir den Alpha-Fehler auch an einer z-Verteilung darstellen:

Visualisierung des Alpha Fehlers anhand zweier z-Verteilungen. Der Alphafehler ist in dunkelblau gekennzeichnet

Figure 6.24: Visualisierung des Alpha Fehlers anhand zweier z-Verteilungen. Der Alphafehler ist in dunkelblau gekennzeichnet

Die dunkelblaue Fläche kennzeichnet den Alphafehler. Die hellblaue Verteilung kennzeichnet die korrekte Nullhypothese, dass es keinen Unterschied zwischen den Gruppen gibt (daher ist der Mittelwert dieser Verteilung 0). Die Fläche der dunkelblauen Verteilung beträgt exakt 5%.

Um den Betafehler zu beschreiben, bedienen wir uns eines anderen Gedankenexperiments. Stell dir vor, es gibt tatsächlich einen Effekt. Manager sind im Schnitt 44 Jahre alt. Erneut führen wir 5000 Experimente durch in denen die Standardabweichung des Alters der Manager 5 beträgt und wir 20 Manager pro Studie befragen:

P-Wert Verteilung bei einem bestehendem Effekt

Figure 6.25: P-Wert Verteilung bei einem bestehendem Effekt

Nun ändert sich das Bild dramatisch. Wir werden zu 53% die richtige Entscheidung treffen und uns gegen die Nullhypothese entscheiden. Allerdings werden wir, obwohl ein Effekt besteht, zu 47% falsch liegen und die Nullhypothese fälschlicherweise annehmen. In anderen Worten, wir haben eine Power von 53%, allerdings auch einen hohen Betafehler von 47%. In der Grafik ist der Betafehler als die Fläche aller grauen Balken rechts des Alphaniveaus von 5% angegeben (roter Strich).

Normalerweise streben wir einen geringeren Betafehler an. Wir möchten uns nicht in 47% der Fällen irren, sondern lieber deutlich weniger oft. Häufig versucht man eine Power von 80% zu erzielen und damit nur einen Betafehler von 20% in Kauf zu nehmen. Je nachdem wie groß die Unterschiede sind, die man erwartet, könnte dies bedeuten, dass man relativ große Stichproben erheben müsste.

Auch den Betafehler können wir uns grafisch vorstellen, indem wir zwei z-Verteilungen miteinander vergleichen und die Alternativhypothese farblich hervorheben:

Visuallisierung des Betafehlers. Der Betafehler ist ein dunkelorange darsgestellt.

Figure 6.26: Visuallisierung des Betafehlers. Der Betafehler ist ein dunkelorange darsgestellt.