7.4 Statistisches Hypothesentesten

Bei der einfachen linearen Regression möchten wir in der Regel testen, ob eine Variable \(X\) ein guter Prädiktor für die abhängige Variable \(Y\) ist. Sollte dies der Fall sein, müssten wir annehmen, dass Ausprägungen von \(X_1\) zu Veränderungen in \(Y_i\) führen. Beispielsweise indem wir zeigen, dass mehr Arbeitsjahre zu einem größeren Gehalt führen. Um diese Beziehung zu testen, vergleichen wir unser erweitertes Modell mit einem kompakten Modell, bei dem \(\beta_1\) auf 0 gesetzt wird. \(\beta_0\) im kompakten Modell kennzeichnet daher den Mittelwert der abhängigen Variable:

\[ \begin{aligned} MODEL\ A &= \beta_0 + \beta_1 * X_1 + \epsilon_i \\ MODEL\ C &= \beta_0 + 0 * X_1 + \epsilon_i \\ &= \beta_0 + \epsilon_i \end{aligned} \]

Unsere Hypothese bei der linearen Regression lautet: \(H_0: \beta_1 = 0\). Diese Hypothese kann man sowohl mit einem F-Test, als auch mit einem t-Test prüfen. Ein signifikantes Ergebnis bedeutet, dass das Hinzufügen der Variable X dazu führt, dass die Fehler des kompakten Modells substantiell reduziert werden und somit das erweiterte Modell die Daten akkurater darstellt.

Achte darauf, dass unser kompaktes Modell nun das erweiterte Modell ist, welches wir im letzten Modul bestimmt haben. Dieses kompakte Modell, welche den Mittelwert der abhängigen Variable annimmt, werden wir häufiger verwenden, um später Hypothesen zu testen. Im Grunde fragen wir uns immer, ob unser erweitertes Modell besser ist als ein Model, welches lediglich den Mittelwert der abhängigen Variable annimmt.

7.4.1 F-Test

Um unsere Hypothese \(H_0: \beta_1 = 0\) berechnen wir einen F-Test, der prüft, ob das Hinzufügen des Parameters \(X_1\) zu einer substantiellen Reduzierung der Fehler im Vergleich zum kompakten Modell führt. Unsere Modelle lauten:

\[ \begin{aligned} MODEL\ A &= \beta_0 + \beta_1 * X_1 + \epsilon_i \\ MODEL\ C &= \beta_0 + \epsilon_i \end{aligned} \] Wir verwenden für diesen F-Test die gleiche Stichprobe, die wir auch bisher beschrieben haben. Die Daten findest du hier. Zunächst müssen wir die Regressionskoeffizenten bzw. die Parameter des Modells berechnen und diejenige Regressionsgerade finden, die die quadrierten Fehler maximal reduziert.

## 
## Call:
## lm(formula = monthly_income ~ total_working_years, data = my_sample)
## 
## Coefficients:
##         (Intercept)  total_working_years  
##               805.2                518.0

Diese Formel gibt uns das erweiterte Modell. Das kompakte Modell ist der Mittelwert der abhängigen Variable:

## [1] 6234.08

Unsere Modelle lauten daher:

\[ \begin{aligned} MODEL\ A &= 805.2 + 518.0 * X_1 \\ MODEL\ C &= 6234.08 \end{aligned} \] Mit Hilfe der Modelle können wir \(SSR\), \(SSE_C\) \(SSE_A\) berechnen:

## [1] 567513542
## [1] 247580292
## [1] 319933250

Für PRE ergibt sich:

## [1] 0.5637456

Der F-Wert ist folgerichtig:

\[ F = \frac{SSR / (PA - PC)}{SSE(A) / (n - PA)} \]

  • \(PC\): Das kompakte Modell hat einen Parameter \(b_0\).
  • \(PA\): Das erweiterte Modell hat zwei Parameter: \(b_0\) und \(b_1\).
  • \(n\): Insgesamt gibt es 25 Personen in dem Datensatz.
## [1] 29.72153

Wir können daher sagen, dass unser erweitertes Modell die Fehler des kompakten Modells um 57% reduziert. Zudem gibt uns der F-Wert an, dass unsere abhängige Variable der Anzahl der Arbeitsjahre die Fehler 29-fach stärker reduziert als wir durch eine willkürliche Variable annehmen würden. Dies führt zu einem signifikanten Ergebnis:

## [1] 1.531876e-05

In der Tat, dieses Ergebnis ist hoch signifkant:

Source SS df MS F p PRE / \(R^2\)
Reduction 319933250 1 319933250 29.72 < .001 0.56
Error 247580292 23 10764361
Total Error 567513542 24

Achte darauf, dass bei einer linearen Regression PRE meist als \(R^2\) bezeichnet wird. Die Wurzel von \(R^2\) ist bei der einfachen linearen Regression nichts anderes als die Korrelation der beiden Variablen:

## [1] 0.7508299
## [1] 0.7508299

7.4.2 t-Test

Jeden F-Test, dessen erster Freiheitsgrad 1 beträgt, kann auch als t-Test gerechnet werden. Hierfür haben wir verschiedene Möglichkeiten. Zunächst können wir den t-Wert auf Grundlage des F-Wertes berechnen, indem wir die Wurzel aus dem F-Wert ziehen:

\[ t_{n-2} = \sqrt{F} = \sqrt{29.72} = 5.452 \]

## [1] 5.451745

Eine andere Methode, den t-Wert in der einfachen linearen Regression zu bestimmen, ist durch folgende Formel:

\[ t_{n - 2} = \frac{b_1 - 0}{se} \] Die oberen Parameter kennen wir bereits:

\[ t_{40 - 2} = \frac{518.0 - 0}{se} \]

Wir benötigen allerdings noch den Standardfehler (\(se\)), welcher anders berechnet wird, wie wir es im letzten Modul kennen gelernt haben. Der Standardfehler der einfachen linearen Regression gibt den mittleren Abstand der einzelnen Punkte von der Regressionsgeraden an. Je kleiner der Standardfehler ist, desto näher liegen die Punkte an der Regressionsgeraden (mehr Informationen findest du hier). Die Formel für den Standardfehler bei der linearen Regression lautet:

\[ se_{regression} = \frac{\sqrt{\sum{(Y_i - \hat{Y}_i)^2} / (n - PA)}}{\sqrt{\sum{(X_i - \bar{X})^2}}} \] Diese Formel ist äußerst kompliziert und musst du nicht lernen. An dieser Stelle geht es vielmehr darum, dass du siehst, wie der t-Wert noch ausgerechnet werden kann. Berechnen wir den t-Wert also in R:

## [1] 95.0194
## [1] 5.451518

Wie du siehst, erhalten wir erneut den gleichen Wert. Zuletzt können wir den t-Test bei der einfachen linearen Regression auch auf Grundlage der Korrelation der beiden Variablen berechnen:

\[ t_{n-2} = \frac{r}{\sqrt{\frac{1 - r^2}{n - 2}}} \]

In R wäre dies:

## [1] 5.451746

Erneut erhalten wir das gleiche Ergebnis. Sobald wir den t-Wert haben, können wir nun das Ergebnis auf Signifikanz prüfen. Hierfür eignet sich die Formel pt. Das erste Argument der Formel ist der empirische t-Wert, das zweite Argument der Freiheitsgrad des erweiterten Modells. Wir müssen zudem die Fläche unter der t-Verteilung von 1 abziehen, um die Fäche rechts des empirischen t-Wertes zu erhalten. Zudem sollten wir die Fläche mal zwei berechnen, um ungerichtet zu testen:

## [1] 1.531875e-05

Als Beweis findest du hier noch einmal die Wahrscheinlichkeit für den F-Wert:

## [1] 1.531876e-05

Erneut handelt es sich um ein hochsignifikantes Ergebnis. Wir können daher darauf schließen, dass es sich um eine signifikante Korrelation handelt und der Parameter die Fehler des kompakten Modells substantiell reduziert.

Die Ergebnisse können wir erneut in einer Tabelle darstellen:

Predictor Estimate SE t p
Intercept 805.2
total_working_years 518.0 95.02 5.45 < .001

Wir könnten die gleiche Berechnung für den Intercept durchführen, dieser interessiert uns allerdings in der Regel weniger.