8.5 Statistisches Hypothesentesten

Um die einzelnen Parameter (\(b_0\), \(b_1\) und \(b_1\)) in unserer multiplen Regression zu testen, können wir das gleiche Verfahren verwenden, welches wir bereits in den anderen Modulen kennen gelernt haben. Zunächst stellen wir unser erweitertes und kompaktes Modell auf. Anschließend berechnen wir den F-Wert für beide Modelle. Zuletzt berechnen wir die Wahrscheinlichkeit für den F-Wert unter Annahme der Nullhypothese. Zum Schluss berechnen wir die Effektgröße und berichten unser Ergebnis. Erneut möchten wir prüfen, ob das Hinzufügen von Parametern die Fehler so stark reduziert, dass wir rechtfertigen können, diesen Parameter in das Modell aufzunehmen.

8.5.1 Allgemeiner F-Test

Beginnen wir mit einem Test, welcher folgende beiden Modelle miteinander vergleicht. Wir bezeichnen diesen Test den allgemeinen F-Test, da dieser Test zwar prüft, ob die Parameter den Fehler reduzieren. Wir werden durch diesen Test allerdings nicht den Einfluss einzelner Parameter auf die abhängige Variable testen können.

\[ \begin{aligned} MODEL\ A &= \beta_0 + \beta_1 * X_1 + \beta_2 * X_2 + \epsilon_i \\ MODEL\ C &= \beta_0 + \epsilon_i \end{aligned} \]

Genauer testen wir durch diese Test, ob die beiden weiteren Parameter Lernzeit und die Durchfallquote der Studierenden die Fehler des einfachen Modells substantiell reduzieren. Wir gehen daher bei der Nullhypothese davon aus, dass die weiteren Parameter keinen Einfluss auf die abhängige Variable haben:

\[ H_0: \beta_0 = \beta_1 = \beta_2 = 0 \] Unsere Modelle lauten:

\[ \begin{aligned} MODEL\ A &= 10.74 - 2.18 * X_{i1} + 0.19 * X_{i2} + \epsilon_i \\ MODEL\ C &= 10.41519 + \epsilon_i \end{aligned} \] Das Parameter \(b_0\) im kompakten Modell steht für den Mittelwert der abhängigen Variable. Im nächsten Schritt berechnen wir den F-Wert genau gleich, wie wir es bisher gemacht haben:

## [1] 8269.909
## [1] 7185.053
## [1] 1084.856
## [1] 0.1311812

Der F-Wert ist daher:

\[ F = \frac{SSR / (PA - PC)}{SSE(A) / (n - PA)} \]

  • \(PC\): Das kompakte Modell hat einen Parameter \(b_0\).
  • \(PA\): Das erweiterte Modell hat drei Parameter: \(b_0\), \(b_1\) und \(b_2\).
  • \(n\): Insgesamt gibt es 395 Personen in dem Datensatz.
## [1] 29.59364

Die Wahrscheinlichkeit für einen solch hohen F-Wert ist deutlich unter dem Alpha-Niveau von 5%:

## [1] 1.071809e-12

Unsere übliche Tabelle lautet daher:

Source SS df MS F p PRE / \(R^2\)
Reduction 1084.856 2 542.43 29.59 < .001 0.13
Error 7185.053 392 18.33
Total Error 8269.909 394

Auf Grundlage der Ergebnisse können wir sagen, dass die beiden Prädiktoren Lernzeit und die Durchfallquote mit der Mathematiknote im Zusammenhang stehen, \(F\)(2, 392) = 29.59, \(p\) < .001, \(R^2\) = .13. Ein solcher Test ist allerdings nicht sonderlich hilfreich, da wir auf Grundlage des Ergebnisses nicht vorhersagen können, inwieweit die einzelnen Parameter einen Beitrag leisten, die Mathematiknote aufzuklären. Auf Grundlage des Ergebnisses können wir lediglich sagen, ob das Hinzufügen beider Parameter, den Fehler substantiell reduziert. Wir wissen jedoch nicht, ob beide oder nur einer dieser Parameter für diese Fehlerreduktion zuständig ist?

Als Faustregel: Sobald der Freiheitsgrad des Zählers über 1 ist, können wir das Ergebnis nur schwer interpretieren, da mehrere Parameter für die Reduktion des Fehlers ausschlaggebend sein können. Wir müssen daher einen Weg finden, den Freiheitsgrad auf 1 zu setzen, um eine Interpretation zu ermöglichen.

8.5.2 Angepasstes \(R^2\)

Sobald wir mehrere Prädiktoren in eine multiple Regression hinzu nehmen, müssen wir darauf achten, dass \(R^2\) anzupassen. Mit jedem Parameter, den wir in die multiple Regression hinzufügen, verbessert sich automatisch das \(R^2\). Wir könnten daher künstlich ein hohes \(R^2\) schaffen, indem wir einfach viele Parameter in das Modell hinzufügen. Wir müssen daher einen Weg finden, das \(R^2\) anzupassen, um seinen echten Einfluss zu testen. Das angepasste \(R^2\) ist eine modifizierte Version des \(R^2\), die an die Anzahl der Prädiktoren im Modell angepasst wurde. Das angepasste \(R^2\) erhöht sich nur, wenn der neue Parameter das Modell mehr verbessert, als es der Zufall erwarten lässt. \(R^2\) nimmt ab, wenn ein Prädiktor das Modell weniger verbessert als durch den Zufall erwartet.

\[ R^2_{adj} = 1 - \frac{(1 - R^2) * (N - 1)}{N - PA - 1} \]

Unser allgemeiner F-Test hatte \(R^2\) von \(0.13\):

## [1] 0.1233248

Als Faustregel: Bei der multiplen Regression wird in der Regel das angepasste \(R^2\) angegeben, da dieser für die Anzahl der Prädiktoren kontrolliert.

8.5.3 Den Parameter der Lernzeit testen

Um nun den Beitrag der einzelnen Parameter zu testen, müssen wir alternative Modelle gegeneinander testen. Beginnen wir, indem wir den Beitrag des Parameters studytime testen:

\[ \begin{aligned} MODEL\ A &= \beta_0 + \beta_{failures} * X_{failures} + \beta_{studytime} * X_{studytime} + \epsilon_i \\ MODEL\ C &= \beta_0 + \beta_{failures} * X_{failures} + \epsilon_i \end{aligned} \]

Du erkennst, dass sich beide Modelle in nur einem Parameter unterschieden. Das kompakte Modell hat zwei Parameter, das erweiterte Modell drei Parameter. Folgende Betagewichte ergeben sich hieraus:

\[ \begin{aligned} MODEL\ A &= 10.7402 - 2.1815 * X_{failures} + 0.1985 * X_{studytime} \\ MODEL\ C &= 11.16 - 2.22 * X_{failures} \end{aligned} \]

Der F-Wert ist folgerichtig:

## [1] 7195.66
## [1] 7185.053
## [1] 10.6075
## [1] 0.001474152
## [1] 0.580197
## [1] 0.4466919
Source SS df MS F p PRE / \(R^2\)
studytime 10.6075 1 10.6075 0.58 0.447 0.00
Error 7185.053 393 18.28258
Total Error 7195.66 394

Wir können auf Grundlage dieses Ergebnisses sagen, dass der Parameter studytime den Fehler nicht substantiell reduziert und daher nicht signifikant ist. Der Parameter reduziert den Fehler nicht mehr als ein willkürlicher Parameter, den wir einfach so ein das Modell hinzunehmen.

Manche Statistikprogramme berichten anstatt des F-Wertes den t-Wert. Wir wissen allerdings mittlerweile, dass der t-Wert nichts anderes ist als die Wurzel des F-Wertes. Wir könnten anstatt F daher t als \(\sqrt{0.58} = 0.761\) berichten. Falls wir eine konkrete Richtung der Hypothese haben, müssten wir den begleiteten p-Wert anpassen. Sagen wir beispielsweise, dass du annimmst, dass der Zusammenhang positiv ist. Solange die deskriptiven Daten auch einen positiven Zusammenhang zeigen, könntest du den p-Wert halbieren: \(p_{halbiert} = 0.447 / 2 = 0.22354\). Entsprechen deine deskriptiven Daten allerdings nicht deiner Hypothese, müsstest du den p-Wert verdoppeln: \(p_{doppelt} = 0.447 * 2 = 0.894\). Wie immer ist es wichtig, welche Hypothesen du an deine Daten stellst.

8.5.3.1 Parameter Failures

Das Gleiche können wir für den Parameter failures berechnen: Führt das Hinzufügen des Parameters failures zu einer substantiellen Reduzierung des Fehlers im Vergleich zum Regressionsmodell, welches diesen Parameter nicht besitzt?

\[ \begin{aligned} MODEL\ A &= 10.7402 - 2.1815 * X_{failures} &+ 0.1985 * X_{studytime} \\ MODEL\ C &= 9.328 &+ 0.534 * X_{studytime} \end{aligned} \] Hieraus ergibt sich:

## [1] 8190.777
## [1] 7185.053
## [1] 1005.724
## [1] 0.1227874
## [1] 55.00998
## [1] 7.455148e-13
Source SS df MS F p PRE / \(R^2\)
failures 1005.724 1 1005.724 55.01 < .001 0.12
Error 7185.053 393 18.28258
Total Error 8190.777 394

Die Ergebnisse zeigen, dass der Parameter Failures ein signifikanter Prädiktor der Mathematiknote ist. Wer öfters durch eine Klasse durchfällt, hat eine schlechtere Note, \(F\)(1, 393) = 55.01, \(p\) < .001, \(R^2\) = 0.12. Der F-Wert ist äußerst hoch, wir können daher darauf schließen, dass die Durchfallquote mit großer Wahrscheinlichkeit einen Effekt auf die Mathematiknote hat. Sie erklärt zumindest 12% der Varianz im kompakten Modell auf.

8.5.3.2 Bericht aller Ergebnisse

Abschließend können wir alle Ergebnisse in einer Tabelle zusammen fassen:

Source SS df MS F p PRE / \(R^2\)
Regression 1084.856 2 542.43 29.59 < .001 0.13
studytime 10.6075 1 10.6075 0.58 0.447 0.00
failures 1005.724 1 1005.724 55.01 < .001 0.12
Error 6089.59 393 15.49514
Total Error 8190.777 394

Wir können sagen, dass die Variable failures zu einer signifikanten Reduzierung des Fehlers führt und daher einen Beitrag macht, die Mathematikleistung der SuS zu erklären. Interessanterweise trägt die Variable studytime nicht zur Erklärung der Mathematikleistung bei. Wie viel Zeit SuS in das Lernen investieren, scheint keinen Einfluss auf deren Note zu haben. Man könnte sich im nächsten Schritt überlegen, welche anderen Variablen hilfreich wären, um die Mathematikleistung von SuS zu erklären. Was wir allerdings aus den Daten erkennen können, ist, dass das Vorwissen, welches in gewisser Weise durch die Variable failures abgedeckt ist, einen großen Einfluss auf zukünftiges Wissen hat. Dies ist ein Befund, den man immer wieder in der pädagogischen Psychologie findet.

8.5.4 Konfidenzintervalle

Erneut können wir die Signifikanz unserer Parameter durch Konfidenzintervalle testen. Die Berechnung ist genau gleich wie bei der einfachen Regression:

\[ CI_{upper/lower} = b_{i} \pm \sqrt{\frac{F_{crit} * MSE}{(n - 1) * s^2_x * (1 - R^2)}} \]

  • \(MSE\): Dies ist der Nenner der Formel des F-Tests: \(F = \frac{SSR / (PA - PC)}{SSE(A) / (n-PA)} = \frac{MSR}{MSE}\)
  • \(s^2_x\): Die Varianz der unabhängigen Variable (z.B. die Lernzeit).
  • \(b_i\): Der Steigungskoeffizient der unabhängigen Variable \(X_i\).
  • \(n\): Die Anzahl der Untersuchungsobjekte.
  • \(F_{crit}\): Der kritische F-Wert, welcher zu einem signifikanten Ergebnis führt. Diesen kann in unserem Fall mit der Funktion qf berechnen: qf(0.95, df1 = 1, df2 = 393) \(= 3.865229\).
  • \(R^2\): PRE, welches durch den Parameter aufgeklärt wird.

Zur Berechnung hilft uns unsere Tabelle:

Source SS df MS F p PRE / \(R^2\)
Regression 1084.856 2 542.43 29.59 < .001 0.13
studytime 10.6075 1 10.6075 0.58 0.447 0.00
failures 1005.724 1 1005.724 55.01 < .001 0.12
Error 6089.59 393 15.49514
Total Error 8190.777 394

8.5.4.1 Konfidenzintervall des Parameters Studytime

Das Konfidenzintervall für die Variable studytime lautet:

## [1] 0.7031286
## [1] -0.3061286

Dies bedeutet, dass sich in 95 von 100 Fällen im Schnitt der wahre Steigungskoeffizient der Population in diesem Bereich befinden wird:

\[ -0.31 \leq \beta_1 \leq 0.70 \]

Da der Konfidenzintervall die 0 umschließt, wissen wir, dass es sich um ein nicht-signifikantes Ereignis handelt.

8.5.4.2 Konfidenzintervall des Parameters Failures

Die gleiche Berechnung können wir für den Parameter failures aufstellen:

## [1] -1.574417
## [1] -2.788583

\[ -2.79 \leq \beta_1 \leq -1.57 \] In 95 von 100 Fällen in denen wir demnach Konfidenzintervalle berechnen, wird sich der wahre Konfidenzintervall in diesem Bereich befinden. Wir sind demnach zuversichtlich, dass der Steigungskoeffizient der Variable failure demnach nicht 0 entspricht und daher dazu beiträgt, die Mathematikleistung der SuS zu erklären.