8.2 Statistisches Modell

Im letzten Modul haben wir uns das Modell für einfache lineare Regressionen angeschaut, bei dem sowohl die abhängige, als auch die unabhängige Variable intervallskaliert war:

\[ Y_i = \beta_0 + \beta_1 * X_{i1} + \epsilon_i \] Beispielsweise könnten wir auf Grundlage des einfachen Regressionsmodells fragen, ob die Lernzeit von Schülern einen Einfluss auf deren Mathematikleistung hat. Eine andere Fragestellung wäre, ob die Durchfallquote von Schüler*innen einen Einfluss auf ihre Mathematikleistung hat? Wir würden erwarten, dass Schüler*innen, die häufig durch einen Kurs fliegen, schlechter in einem Fach sind als Schüler*innen, die weniger häufig durchfliegen. Gleichzeitig erwarten wir, dass Schüler*innen, die länger lernen auch besser in der Schule sind. Um beide Fragestellungen zu beantworten, könnten wir zwei einfache Regressionsmodelle berechnen. Wir werden allerdings in diesem Modul lernen, beide Fragestellungen anhand der multiplen Regression zu testen, indem wir mehrere Prädiktoren in unser Modell hinzunehmen:

\[ Y_i = \beta_0 + \beta_1 * X_{i1} + \beta_2 * X_{i2} + ... + \beta_p * X_{i,p-1} + \epsilon_i \]

\(Y_i\) steht erneut für unsere abhängige Variable und \(\epsilon_i\) steht für die Fehler, welche unser Modell nicht erklären kann. \(X_{ij}\) steht für die Werte unserer intervallskalierten abhängigen Variablen, beispielsweise die Dauer der Lernzeit einer bestimmten Schülerin. \(\beta_{i}\) steht für die partiellen Regressionskoeffizienten. Wir werden später ausführlich darüber reden, weshalb diese Koeffizienten partiell heißen. Für jetzt genügt es zu wissen, dass diese partiellen Regressionskoeffizienten von den anderen Prädiktoren abhängig sind und sich abhängg davon ändern, welche und wie viele andere Parameter im Modell sind.

In diesem Modul werden wir die einfachste Version der multiplen Regression mit zwei Prädiktoren berechnen. Das zugehörige Modell sieht folgendermaßen aus:

\[ Y_i = \beta_0 + \beta_1 * X_{i1} + \beta_2 * X_{i2} + \epsilon_i \]

Da wir den Zusammenhang zwischen der Lernzeit und der Durchfallquote auf die Mathematikleistung der Schüler*innen untersuchen, benötigen wir zwei Prädiktoren und drei Parameter:

  • \(Y_i\) (abhängige Variable) - G3: Die Mathematikleistung der SuS (0 bis 20 Punkte).
  • \(X_{i1}\) (unabhängige Variable) - failures: Die Durchfallquote der/die Schüler*in.
  • \(X_{i2}\) (unabhängige Variable) - studytime: Die wöchentliche Zeit, die die SuS auf das Lernen der Mathematik aufwenden.

Ein wesentlicher Unterschied dieses Modells ist, dass wir uns die einfache Regression als Linie vorstellen konnten, während die multiple Regression mit zwei Prädiktoren eine Fläche definiert. Bei Modellen mit mehr als zwei Prädiktoren ist es uns nicht mehr möglich, uns ein mehrdimensionales Modell vorzustellen.

8.2.1 Bestimmung der Betagewichte

Die Berechnung der Betagewichte ist bei der multiplen Regression gleich wie bei der einfachen linearen Regression. Konzeptuell versuchen wir erneut jende Betagewichte zu finden, die die quadrierten Abweichungen der realen Werte von den vorhergesagten Werte minimieren:

\[ \min {\sum_{i=1}^N{(Y_i - \hat{Y}_i)}^2} \] Genauer können wir uns die vorhergesagten Werte (\(\hat{Y}_i\)) mit Hilfe des Modells vorstellen:

\[ \min {\sum_{i=1}^N{(Y_i - (b_0 + b_1 * X_{i1} + b_2 * X_{i2}))}^2} \] Wir können die Betagewichte direkt mit Hilfe der Funktion lm berechnen:

## 
## Call:
## lm(formula = G3 ~ failures + studytime, data = student_data)
## 
## Coefficients:
## (Intercept)     failures    studytime  
##     10.7402      -2.1815       0.1985

Unser erweitertes Modell lautet daher:

\[ \begin{aligned} \hat{Y}_i &= b_0 + b * X_{i1} + b * X_{i2} \\ &= 10.74 + (-2.18) * X_{i1} + 0.19 * X_{i2} \\ &= 10.74 - 2.18 * X_{i1} + 0.19 * X_{i2} \\ \end{aligned} \]