6.5 F-Verteilung

Da ebenso der F-Wert ein Kennwert ist, können wir auch aus ihm eine Stichprobenkennwertverteilung ermitteln. Um die F-Verteilung zu ermitteln, könnten wir erneut tausende F-Werte berechnen und als Verteilung darstellen. Ähnlich wie bei der t-Verteilung gibt es nicht die eine F-Verteilung, sondern mehrere F-Verteilung. F-Verteilungen ergeben sich aus den beiden Freiheitsgraden des erweiterten Modells und den Freiheitsgraden der Parameterunterschieds beider Modelle.

Stell dir beispielsweise vor, wir möchten testen, wie gut ein weiterer Parameter im Vergleich zu einem kompakten Modell mit einem Parameter ist. Weiterhin gehen wir davon aus, dass wir 10 Personen für das Experiment erheben:

\[ \begin{aligned} MODEL_A &= \beta_0 + \beta_1 * X_1 + \epsilon_i \\ MODEL_C &= \beta_0 + \epsilon_i \end{aligned} \]

Um die entsprechende F-Verteilung zu finden, die wir zur Überprüfung dieser Hypothese nehmen können, müssen wir zunächst die Freiheitsgrade kennen. Da wir 10 Personen in der Stichprobe haben, ist der Freiheitsgrad des erweiterten Modells \(10 - 2 = 8\). Der Freiheitsgrad des Unterschieds in den Parametern zwischen dem kompakten und erweiterten Modells lautet \(2 - 1 = 1\). Wir müssen zur Überprüfung dieser Hypothese daher eine F-Verteilung mit den Freiheitsgraden 1 und 8 verwenden:

F-Verteilung mit df1 = 1 und df2 = 8

Figure 6.15: F-Verteilung mit df1 = 1 und df2 = 8

Die F-Verteilung zeigt uns an, wie hoch die F-Werte ausfallen, wenn das erweiterte Modell keinen Beitrag zur Reduzierung des Fehlers des kompakten Modells macht. In anderen Worten gibt die F-Verteilung an, welche F-Werte wir erwarten würden, wenn die Nullhypothese korrekt ist. In unserem Fall stellt die F-Verteilung daher die F-Werte unter der Annahme dar, das der weitere Parameter des erweiterten Modells keinen Beitrag zur Reduzierung des Fehlers leistet:

\[ \begin{aligned} MODEL_A &= \beta_0 + 0 * X_1 + \epsilon_i \\ MODEL_C &= \beta_0 + \epsilon_i \end{aligned} \]

Im erweiterten Modell nehmen wir an, das die weiteren Parameter keinen Beitrag zur Reduzierung des Fehlers machen und zudem schätzen wir die Parameter auf Grundlage der Stichprobe. Als Folge stellen die F-Werte in der F-Verteilung die natürlichen Fluktuationen dar, die wir erwarten, wenn die Nullhypothese korrekt ist und wir die Parameter der Nullhypothese durch unsere Stichproben testen. Eine weitere Folge ist, dass wir F-Werte erhalten können, die größer als 1 als auch kleiner als 1 sind. Kleiner als 1, wenn die weiteren Parameter im erweiterten Modell nicht viel besser sind als willkürliche Parameter. Größer als 1, wenn die zusätzlichen Parameter im erweiterten Modell mehr Fehler aufklären als weitere zufällige Parameter.

Da die F-Verteilung abhängig von den Freiheitsgraden ist, gibt es wie bereits beschrieben mehrere F-Verteilungen. Hier siehst du eine F-Verteilung mit den Freiheitsgraden 3 und 28 neben unserer bisherigen F-Verteilung:

F-Verteilung mit df1 = 1 und df2 = 8 (blau); F-Verteilung mit df1 = 3 und df2 = 28 (orange)

Figure 6.16: F-Verteilung mit df1 = 1 und df2 = 8 (blau); F-Verteilung mit df1 = 3 und df2 = 28 (orange)

Genauso wie bei der t-Verteilung können wir die Wahrscheinlichkeit für bestimmte Kennwerte in der F-Verteilung bestimmen. Beispielsweise, könnten wir uns fragen wie wahrscheinlich ist es einen F-Wert größer als 4.0 bei einer F-Verteilung mit den Freiheitsgraden 2 un 29 zu erzielen?

Wahrscheinlichkeit eines F-Wertes größer als 4.0 bei einer F-Verteilung mit df1 = 2 und df2 = 29

Figure 6.17: Wahrscheinlichkeit eines F-Wertes größer als 4.0 bei einer F-Verteilung mit df1 = 2 und df2 = 29

Sehr unwahrscheinlich. Wenn wir annehmen, dass das erweiterte Modell die Fehler des kompakten Modells nicht reduziert, würden wir äußerst selten einen so hohen F-Wert erhalten. Wir würden daher davon ausgehen, dass die weiteren Parameter im erweiterten Modell einen deutlichen Beitrag dazu liefern, die Fehler des kompakten Modells zu reduzieren.

Ebenso können wir ermitteln, wie wahrscheinlich es ist, einen F-Wert zu erhalten, der größer als 1 ist? Nehmen wir dazu an, dass die Freiheitsgrade 1 und 24 entsprechen.

Wahrscheinlichkeit eines F-Wertes größer als 1 bei einer F-Verteilung mit df1 = 2 und df2 = 29

Figure 6.18: Wahrscheinlichkeit eines F-Wertes größer als 1 bei einer F-Verteilung mit df1 = 2 und df2 = 29

Die Wahrscheinlichkeit für einen F-Wert größer als 1 wäre in diesem Fall 32,7%. Ein solches Ereignis ist nicht sonderlich unwahrscheinlich. Wir würden daher aus einem solchen F-Wert nicht schließen, dass die weiteren Parameter des erweiterten Modells die Fehler unter Annahme der Nullhypothese ungewöhnlich stark reduzieren, sofern die Nullhypothese gilt.