9.3 Berechnung der Betakoeffizienten

Nun, da wir wissen, wie die Kontrastgewichte bei Faktoren berechnet werden, müssen wir als Nächstes die Betakoeffizienten bestimmen. Hierfür gibt es eine allgemeine Formel:

\[ b = \frac{\sum_k{\lambda_k * \bar{Y}_k}}{\sum_k \lambda_k^2} \]

\(\lambda_k\) sind die spezifischen Kontrastgewichte, in unserem Fall 1 und -1:

Contrast Gruppe Land Gruppe Stadt
\(\lambda_{1}\) 1 -1

Dieser Kontrast ist im Modell repräsentiert, indem wir die Kontrastgewichte für \(X_1\) einsetzen:

\[ \begin{aligned} Y_i &= \beta_0 + \beta_1 * 1 + \epsilon_i \\ Y_i &= \beta_0 + \beta_1 * (-1) + \epsilon_i \end{aligned} \]

9.3.1 Betakoeffizienten in R berechnen

Versuchen wir als Nächstes den Betakoeffizienten \(b_1\) für unser Modell zu berechnen. Anschließend versuchen wir eine Interpretation für diesen Koeffizienten zu finden. Zunächst müssen wir die Mittelwerte der beiden Gruppen ermitteln:

address mean
R 2.534091
U 2.221498

Daraus ergibt sich ein \(b_1\) von:

## [1] 0.1562965

Der Intercept \(b_0\) ist nichts anderes als der Mittelwert der Mittelwerte:

## [1] 2.377795

Unser Model lautet daher:

\[ \hat{Y} = 2.3778 + 0.1563 * X_1 \]

9.3.2 Interpretation der Betagewichte

Was bedeuten allerdings die Koeffizienten dieses Modells?

\[ \hat{Y} = 2.3778 + 0.1563 * X_1 \]

Bei der einfachen und multiplen Regression konnten wir sagen, dass eine Erhöhung von \(X_1\) beispielsweise \(\hat{Y}\) um \(b_1\) Werte steigern oder sinken lässt. Diese Interpretation gelingt allerdings nicht bei kategorialen Prädiktoren.

Nehmen wir ein Beispiel. Berechnen wir zunächst den vorhergesagten Wert \(\hat{Y}\) einer Schülerin, die aus dem ländlichen Bereich kommt (das Kontrastgewicht nimmt hierfür den Wert 1 an):

## [1] 2.5341

Weiterhin berechnen wir \(\hat{Y}\) für eine Schülerin, die aus der Stadt kommt:

## [1] 2.2215

Diese Einzelwerte sind nichts anderes als die Mittelwerte der beiden Gruppen. \(b_1\) ist daher nichts anderes als der halbierte Abstand der Differenz der Mittelwerte beider Gruppen:

## [1] 0.1563

Dies gilt allerdings nur, wenn orthogonale Kontraste definiert sind.

Der Intercept \(b_0\) (\(2.3778\)) ist - bei einem Modell mit einem Prädiktor - definiert als der Wert, wenn \(b_1 = 0\) gilt. Wenn daher die Kontrastgewichte zu den Mittelwerten der einzelnen Gruppen führen, ist der Intercept nichts anderes als der Mittelwert der Mittelwerte beider Gruppen.

## [1] 2.3778

In anderen Worten:

\[ b_0 = \frac{\sum_k{\bar{Y}_k}}{k} \]