8.3 Partielle Regressionskoeffizienten

Wir würden erwarten, dass die Parameter in der multiplen Regression und in der einfachen Regression identisch sind, wenn sie die gleichen Prädiktoren verwenden. Dem ist allerdings nicht so. Prüfen wir dies zunächst. Stellen wir eine einfache Regression mit der Lernzeit als Prädiktor und der Mathematikleistung als abhängige Variable auf:

## 
## Call:
## lm(formula = G3 ~ studytime, data = student_data)
## 
## Coefficients:
## (Intercept)    studytime  
##       9.328        0.534

Verglichen mit der multiplen Regression siehst du, dass der Parameter \(b_1\) einen anderen Wert hat:

## 
## Call:
## lm(formula = G3 ~ studytime + failures, data = student_data)
## 
## Coefficients:
## (Intercept)    studytime     failures  
##     10.7402       0.1985      -2.1815

Anstatt \(0.534\) beträgt \(b_1\) nun \(0.1985\). Wie kann das sein? Die Antwort ist, dass beide Prädiktoren Varianz teilen. Geteilte Varianz zwischen zwei Variablen tritt immer dann auf, wenn zwei Variablen miteinander korrelieren. Schauen wir uns dazu die Korrelation der beiden Variablen an:

## [1] -0.173563

Je öfter ein*e Schüler*in durchfällt, desto weniger lange sollte diese Schüler*in lernen. Sobald zwei Prädiktoren miteinander korrelieren, teilen sie sich Varianz. Die Folge dieser Korrelation ist, dass der eine Prädiktor zu einem Grad prädiktiv für den anderen Prädiktor ist. Beispielsweise kann ich aufgrund der Wärme draußen hervorsagen, welche Kleidung die Menschen wahrscheinlich tragen werden. Diese Kovarianz beider Variablen ist der Grund, weshalb die Parameter sich verändern, wenn weitere Prädikoren in ein Modell hinzugefügt werden. Der einzige Fall, bei dem dies nicht passieren würde, ist, wenn die Prädiktoren gar nicht miteinander korreliert sind. Wir müssen daher die Parameter etwas anders interpretieren als wir es im letzten Modul getan haben. Bei der einfachen Regression konnten wir den Parameter wie folgt interpretieren: Steigt oder fällt der Prädiktor um den Wert 1, steigt oder fällt das Kriterium \(\hat{Y}_i\) um \(b_1\). Technisch stimmt diese Definition auch noch bei der multiplen Regression, allerdings müssen wir die Parameter in Abhängigkeit der anderen Prädiktoren interpretieren. Wir sprechen hierbei davon, dass der Parameter den Einfluss von \(X\) auf \(Y\) angibt, wenn wir für weitere Prädiktoren kontrollieren. Schauen wir uns nochmal unser Modell an:

\[ \hat{Y}_i = 10.74 - 2.18 * X_{i1} + 0.19 * X_{i2} \] Den Paramter \(b_1 = -2.18\) können wir wie folgt interpretieren: Um jeden Wert, den eine Person öfter durchfällt als man es für die Lernzeit dieser Person erwarten würde, sinkt die Mathematiknote um 2.18 Punkte. Andersherum können wir auch sagen: Um jede Stunde, die eine Person mehr lernt als man es für die Anzahl der Male, die diese Person durchgefallen ist, erwarten würde, steigt die Mathematiknote um 0.19 Punkte. Du siehst, dass bei der multiplen Regression jeder Parameter nur in Abhängigkeit der anderen interpretiert werden kann.

8.3.1 Berechnung partieller Regressionskoeffizienten

Im nächsten Schritt werden wir diese Erklärung formalisieren. Dieser Teil ist recht schwer. Nimm dir daher genug Zeit ihn zu verstehen.

Das Ziel dieses Abschnitts ist es, die partiellen Regressionskoeffizienten zu berechnen und zu verstehen. Hierfür vergegenwärtigen wir uns erneut unser berechnetes Modell:

\[ \hat{Y}_i = 10.74 - 2.18 * X_{i1} + 0.19 * X_{i2} + e_i \]

Wir hatten gesagt, dass die Werte \(-2.18\) und \(0.19\) partielle Regressionskoeffizienten sind. Das bedeutet, dass diese in Abhängigkeit des jeweiligen anderen Prädiktors stehen bzw. für den anderen Prädiktor kontrollieren.

Wir werden im nächsten Schritt mehrere Modelle berechnen, die jeweils aufeinander aufbauen. Im letzten einfachen Regressionsmodell werden wir den gleichen Regressionskoeffizienten erhalten wie in der multiplen Regression, mit dem Unterschied, dass wir diesen besser interpretieren können. Die Darstellung dieser Modelle dient dazu, die partiellen Regressionskoeffizienten intuitiv zu verstehen.

8.3.1.1 Model 1: Einfaches Model mit dem Mittelwert der Mathematikleistung

Zunächst erstellen wir uns ein Modell mit einem Parameter, dem Mittelwert der abhängigen Variable:

\[ \begin{aligned} Y_{math} &= b_0 + e_i\\ Y_{math} &= 10.42 + e_i \end{aligned} \]

Wir können die Gleichung umstellen und zeigen, dass der Fehler durch \(e_i = Y_{math} - 10.42\) berechnet werden kann. Speichern wir diesen Fehler in einer eigenen Variable:

## # A tibble: 395 x 5
##    id       G3 studytime failures e_y_math
##    <chr> <dbl>     <dbl>    <dbl>    <dbl>
##  1 1         6         2        0   -4.42 
##  2 2         6         2        0   -4.42 
##  3 3        10         2        3   -0.415
##  4 4        15         3        0    4.58 
##  5 5        10         2        0   -0.415
##  6 6        15         2        0    4.58 
##  7 7        11         2        0    0.585
##  8 8         6         2        0   -4.42 
##  9 9        19         2        0    8.58 
## 10 10       15         2        0    4.58 
## # … with 385 more rows

Der Schüler mit der ID 2 beispielsweise, erhält in der Mathematikleistung in Wirklichkeit die Punktzahl 6, wir überschätzen diese Punktzahl allerdings um 4.42 Punkte. Positive Werte bedeuten, dass wir die Punktzahl auf Grundlage des einfachen Modells überschätzen, negative Werte bedeuten, dass wir die Punktzahl unterschätzen.

8.3.1.2 Model 2: Einfaches Model mit dem Mittelwert der Durchfallrate

Ein ähnliches Modell stellen wir im nächsten Schritt für die Variable failures auf:

\[ \begin{aligned} Y_{failures} &= b_0 + e_i\\ Y_{failures} &= 0.33 + e_i \end{aligned} \]

Erneut erhalten wir für die Fehler \(e_i = Y_{failures} - 0.33\) und können diese Daten in unseren Datensatz einfügen:

## # A tibble: 395 x 6
##    id       G3 studytime failures e_y_math e_y_failures
##    <chr> <dbl>     <dbl>    <dbl>    <dbl>        <dbl>
##  1 1         6         2        0   -4.42        -0.334
##  2 2         6         2        0   -4.42        -0.334
##  3 3        10         2        3   -0.415        2.67 
##  4 4        15         3        0    4.58        -0.334
##  5 5        10         2        0   -0.415       -0.334
##  6 6        15         2        0    4.58        -0.334
##  7 7        11         2        0    0.585       -0.334
##  8 8         6         2        0   -4.42        -0.334
##  9 9        19         2        0    8.58        -0.334
## 10 10       15         2        0    4.58        -0.334
## # … with 385 more rows

Unser Schüler mit der ID 2 ist in Wirklichkeit noch nicht durchgefallen, wir schätzen allerdings seine Durchfallquote auf 0.33 und überschätzen daher seine Durchfallquote.

8.3.1.3 Model 3: \(e_{y-math}\) auf Grundlage von \(e_{y-failures}\) regredieren

Auf Grundlage dieser beiden Fehlerquellen können wir uns nun fragen, ob ein Schüler, der öfter als gewöhnlich durch ein Fach fliegt auch schlechter als der Durchschnitt in der Mathematik ist? Da der Mittelwert von \(e_{y-math}\) und \(e_{y-failures}\) 0 beträgt, können wir auf den Interzept verzichten:

\[ e_{y-math} = \beta_1 * e_{y-failures} \]

Eine lineare Regression dieser beiden Variablen ergibt:

\[ e_{y-math} = -2.22 * e_{y-failures} \]

Dieses Modell können wir wie folgt interpretieren: Schüler, die öfter als der Durchschnitt durch einen Kurs fliegen, sind ebenso schlechter in der Mathematikleistung als der Durchschnitt. Wäre \(b_1\) positiv, würden wir davon ausgehen, dass Schüler die öfter als der Durchschnitt durch einen Kurs fliegen, besser in der Mathematikleistung sind als der Durchschnitt.

Bei unserem Schüler mit der ID 2 würden wir daher davon ausgehen, dass er 0.07 Punkte besser in der Mathematiknote als der Durchschnitt ist, da er im Schnitt weniger durch die Kurse fällt als seine Klassenkameraden:

\[ e_{y-math} = -2.22 * (-0.334) = 0.07 \]

Erneut können wir die Fehler dieses Modells berechnen, indem wir die geschätzte Abweichung der Mathematiknote vom Mittelwert von der tatsächlichen Abweichung vom Mittelwert berechnen:

## # A tibble: 395 x 7
##    id       G3 studytime failures e_y_math e_y_failures e_math_failures
##    <chr> <dbl>     <dbl>    <dbl>    <dbl>        <dbl>           <dbl>
##  1 1         6         2        0   -4.42        -0.334          -5.16 
##  2 2         6         2        0   -4.42        -0.334          -5.16 
##  3 3        10         2        3   -0.415        2.67            5.50 
##  4 4        15         3        0    4.58        -0.334           3.84 
##  5 5        10         2        0   -0.415       -0.334          -1.16 
##  6 6        15         2        0    4.58        -0.334           3.84 
##  7 7        11         2        0    0.585       -0.334          -0.157
##  8 8         6         2        0   -4.42        -0.334          -5.16 
##  9 9        19         2        0    8.58        -0.334           7.84 
## 10 10       15         2        0    4.58        -0.334           3.84 
## # … with 385 more rows

Wir können e_math_failures nun folgendermaßen interpretieren: Kontrolliert für die Anzahl der Male, die eine Person durch einen Kurs gefallen ist, ist Person X e_math_failures besser oder schlechter als der Durchschnitt.

8.3.1.4 Model 4: Die Lernzeit auf Grundlage der Anzahl der Durchfallquote regredieren

Um zu überprüfen, weshalb nun eine Person eine schlechtere Mathematikleistung als der Durchschnitt erhält, wenn wir für die Anzahl der Male, die eine Person durchgefallen ist, kontrollieren, können wir die Variable studytime hinzunehmen. Diese ist allerdings mit der Variable failures redundant. Aus diesem Grund müssen wir den Anteil der Lernzeit berechnen, die nicht redundant zur Anzahl der Male ist, die eine Person durchgefallen ist. Dies können wir schaffen, indem wir die Fehler berechnen, die entstehen, wenn wir die Lernzeit auf Grundlage der Durchfallquote der Personen regredieren:

\[ Y_{studytime} = b_0 + b_1 * X_{i-failures} + e \]

Hieraus ergibt sich:

\[ \hat{Y}_{studytime} = 2.1009 - 0.1959 * X_{i-failures} \]

Dieses Modell sagt nun voraus, dass mit jedem Mal, mit dem eine Person durchfällt, die Lernzeit um 0.19 Punkte absinkt. Unsere Person mit der ID beispielsweise hat eine Lernzeit von 2, wir würden allerdings annehmen, dass diese \(2.1 - 0.19 * 0 = 2.1\) beträgt. Der Fehler beläuft sich daher auf \(2.0 - 2.1 = -0.1\). Berechnen wir diese Fehler für alle SuS:

## # A tibble: 395 x 8
##    id       G3 studytime failures e_y_math e_y_failures e_math_failures
##    <chr> <dbl>     <dbl>    <dbl>    <dbl>        <dbl>           <dbl>
##  1 1         6         2        0   -4.42        -0.334          -5.16 
##  2 2         6         2        0   -4.42        -0.334          -5.16 
##  3 3        10         2        3   -0.415        2.67            5.50 
##  4 4        15         3        0    4.58        -0.334           3.84 
##  5 5        10         2        0   -0.415       -0.334          -1.16 
##  6 6        15         2        0    4.58        -0.334           3.84 
##  7 7        11         2        0    0.585       -0.334          -0.157
##  8 8         6         2        0   -4.42        -0.334          -5.16 
##  9 9        19         2        0    8.58        -0.334           7.84 
## 10 10       15         2        0    4.58        -0.334           3.84 
## # … with 385 more rows, and 1 more variable: e_study_failures <dbl>

8.3.1.5 Model 5: Kontrollierte Mathematikleistung auf Grundlage der kontrollierten Lernzeit regredieren

Zuletzt stellen wir eine einfache Regression auf. Als abhängige Variable wählen wir die durchschnittliche Mathematikleistung kontrolliert für die Anzahl der Male, die eine Person durchgefallen ist. Als unabhängige Variable wählen wir die durchschnittlichen Lernzeit, kontrolliert für die Anzahl der Male die eine Person durchgefallen ist:

\[ e_{math-failures} = b_0 * e_{study-failures} \]

Dies ergibt:

\[ e_{math-failures} = 0.1985 * e_{study-failures} \]

Verglichen mit unserer multiplen Regression erhalten wir daher den gleichen Regressionskoeffizienten:

## 
## Call:
## lm(formula = G3 ~ studytime + failures, data = student_data)
## 
## Coefficients:
## (Intercept)    studytime     failures  
##     10.7402       0.1985      -2.1815

Wir können daher den Regressionskoeffizienten \(b_1\) folgendermaßen interpretieren:

Für jede Einheit der Variable studytime, die eine Person mehr studiert als abhängig der Durchfallquote dieser Person zu ewarten ist, schätzen wir, dass diese Person ihre Mathematiknote um 0.1985 Punkte verbessert.

Dieser Satz ist komplex und vermutlich brauch es eine Weile, ihn zu verstehen. Wichtig ist, dass du dir vergegenwärtigst, dass die Regressionskoeffizienten immer in Abhängigkeit der anderen Prädiktoren zu interpretieren sind. Je stärker die Prädiktoren miteinander korrelieren, desto stärker ist diese Abhängigkeit.