5.10 Mean Squared Errors (MSE) und F-Wert

Bisher scheinen wir nur verschiedene Werte auf Grundlage unserer Stichprobe berechnet zu haben, ohne, dass wir der Prüfung unserer Hypothese näher kommen. In den nächsten beiden Schritten werden wir allerdings genau dies tun und zu einem Wert kommen (der F-Wert), der uns beschreibt, wie viel besser unsere zusätzlichen Parameter im erweiterten Modell sind als willkürliche andere Parameter, die wir zusätzlich in das erweiterte Modell hinzufügen können.

Wir wissen, dass der weitere Parameter im erweiterten Modell die Fehler um 52.9 Quadratsummen reduziert. Wir wissen ebenso, dass das erweiterte Modell noch zusätzlich 9 Parameter aufnehmen kann. Gleichzeitig kennen wir die Fehler die wir nicht durch unser erweitertes Modell erklären können (\(SSE_A\)). Es bietet sich daher an zu fragen, wie groß die Fehlerreduzierung wäre, würden wir einen weiteren Parameter in das erweiterte Modell hinzufügen. Diesen Wert nennen wir Mean Squared Error des Fehlers:

\[ MSE = \frac{SSE_A}{n - PA} \] \(MSE\) gibt an, wie weit ein willkürlicher weiterer Parameter im erweiterten Modell die restlichen Fehler reduzieren würde.

In vielen Fällen wird das erweiterte Modell nicht nur einen, sondern mehrere Parameter mehr umfassen als das kompakte Modell. Auch in diesem Fall können wir berechnen, wie groß der Fehler ist, der durchschnittlich durch diese Parameter reduziert wird.

\[ MSR = \frac{SSR}{PA - PC} \] Durch die Berechnung der Mean Squared Errors haben wir ein relatives Maß berechnet, relativ für die Anzahl der Parameter, die entweder zusätzlich im erweiterten Modell sind bzw. jene Parameter, die wir noch in das Modell hinzufügen können. Fügen wir diese Werte in unsere Tabelle hinzu:

Source SSE df MSE F PRE
Reduction \(52.9\) \(1\) \(MSR = \frac{SSR}{PA - PC} = 52.9 / 1 = 52.9\) \(52.9 / 433 = 0.12\)
Error \(380.1\) \(9\) \(MSE = \frac{SSE_A}{n - PA} = 380.1 / 9 = 42.33\)
Total Error \(433\) \(10\)

Wir sind nun bereit, einen Wert zu berechnen, welcher uns angibt, wie viel besser unsere weiteren Parameter im erweiterten Modell sind als irgendwelche willkürlichen Parameter, die wir noch in das erweiterte Modell hinzufügen können. Diesen Wert nennen wir F:

\[ F = \frac{MSR}{MSE} \] Je größer F ist, desto genauer kann unser erweitertes Modell im Vergleich zum kompakten Modell die abhängige Variable hervorsagen. Wir streben daher in der Regel immer einen hohen F-Wert an. In unserem Fall liegt der F-Wert bei \(52.9 / 42.33 = 1.25\). Der zusätzliche Parameter im erweiterten Modell ist daher nicht viel besser als ein willkürlicher weiterer Parameter. Der weitere Parameter hilft uns wenig, die abhängige Variable genauer hervorzusagen.

Source SSE df MSE F PRE
Reduction \(52.9\) \(1\) \(MSR = \frac{SSR}{PA - PC} = 52.9 / 1 = 52.9\) \(52.9 / 42.33 = 1.25\) \(52.9 / 433 = 0.12\)
Error \(380.1\) \(9\) \(MSE = \frac{SSE_A}{n - PA} = 380.1 / 9 = 42.33\)
Total Error \(433\) \(10\)

Bevor wir allerdings endgültige Schlüsse ziehen können, müssen wir im nächsten Modul das Konzept der statistischen Signifikanz kennen lernen. Wir haben in diesem Modul den ersten Teil des Hypothesentestens kennen gelernt. Wir haben zwei statistische Modelle aufgestellt und aus Ihnen einen F-Wert berechnet. Im nächsten Modul werden wir lernen, wie wir entscheiden, ob unsere Hypothese vorläufig bestätigt wird.