7.2 Berechnung der Regressionsgerade

Wir haben bei der Beschreibung der Regressionsgerade einen wichtigen Schritt übergangen: Wir müssen für unser Modell \(\hat{Y}_i = b_0 + b_1 * X_1\) die Koeffizienten \(b_0\) und \(b_1\) berechnen. Geraden eben hatten wir die Regressionsgerade in einem Streudiagram als grüne Regressionsgerade visualisiert:

Streudiagramm mit Regressionsgerade

Figure 7.3: Streudiagramm mit Regressionsgerade

Warum ist allerdings genau diese grüne Gerade die richtige Gerade? Im Prinzip könnte man unendlich viele dieser Regressionsgeraden annehmen. In der nächsten Visualisierung siehst du beispielsweise in rot dargestellt zwei weitere, aber falsche Regressionsgeraden:

Darstellung möglicher Regressionsgeraden

Figure 7.4: Darstellung möglicher Regressionsgeraden

Der Grund, dass diese roten Regressionsgeraden falsch sind, liegt in einer Eigenschaft, die die grüne aber nicht die roten Regressionsgeraden haben:

Die grüne Regresssionsgerade minimiert die quadrierten Abweichungen der einzelnen Punkte von der Regressionsgerade.

\[ \min {\sum_{i=1}^N{(Y_i - \hat{Y}_i)}^2} \]

Die Regressionsgerade, welche diese Bedingung erfüllt, stellt diejenige Gerade wieder, die die geringsten Fehler in der Schätzung der tatsächlichen Werte \(Y_i\) macht. Die beste Regressionsgeraden sagt allerdings nicht unbedingt \(Y_i\) akkurat voraus. Es ist schlicht die beste aller möglichen Regressionsgeraden. Schau dir beispielsweise folgende hypothetische Regressionsgerade an, welche einen schlechten Fit hat und große Fehler in der Hervorsage von \(Y_i\) macht:

Regressionsline mit schlechtem Fit

Figure 7.5: Regressionsline mit schlechtem Fit

7.2.1 Berechnung der Regressionsgeraden durch lineare Algebra

Du musst diesen Teil nicht verstehen. Falls du bereits Vorwissen in der linearen Algebra hast, hilft dir dieser Teil, besser zu verstehen, wie die Regressionsgerade berechnet wird.

Die allgemeinste Art, die Regressionsgerade zu berechnen, ist durch lineare Algebra möglich. Wenn du mehr darüber erfahren möchtest, schau dir diese Webseite an Für eine Vertiefung in lineare Algebra ist dieser Kurs zu empfehlen. An dieser Stelle werden wir nur die Formel aufstellen und die Parameter der Regressionsgeraden berechnen, ohne in die Details zu gehen.

Wir möchten, die Regressionskoeffizienten für eine einfache lineare Regression zu berechnen, welche auf Grundlage der Anzahl der Arbeitsjahre des Einkommen der Mitarbeiter schätzt:

\[ Y_i = b_0 + b_1 * X_1 + e_i \] In der linearen Algebra können wir dieses Problem durch folgende Formel lösen:

\[ (A^{T} A)^{-1} A^{T} b \]

\(A\) steht für eine Matrix der unabhängigen Variablen (X_1). \(b\) steht für \(Y\). Berechnen können wir die Parameter des linearen Modells (hier der Regressionsgeraden) durch diesen Code:

##          [,1]
## [1,] 805.2139
## [2,] 518.0216

Der Output entpricht exakt der Regressionsgeraden, die wir vorhin kennen gelernt haben:

\[ Y_i = 805.2 + 518.0 * X_1 + e_i \]

7.2.2 Die lm-Funktion

Die einfachste Methode zur Berechnung der Regressionsgerade in R ist die Funktion lm (lm -> lineares Modell):

## 
## Call:
## lm(formula = monthly_income ~ total_working_years, data = my_sample)
## 
## Coefficients:
##         (Intercept)  total_working_years  
##               805.2                518.0

Das erste Argument der Funktion ist die Formel des linearen Modells, welches wir aufstellen möchten. In unserem Beispiel haben wir eine abhängige Variable monthly_income und eine kontinuierliche unabhängige Variable total_working_years. Das zweite Argument ist der Datensatz (data = my_sample). Die abhängige und die unabhängige Variable werden durch eine Tilde ~ getrennt.

Die lm Funktion ist in der Regel der schnellste Weg, um die Regressionsgerade zu berechnen. Praktisch wirst du später die Parameter nicht anhand dieser Funktion berechnen, sondern durch Jamovi erhalten.

7.2.3 Berechnung auf Grundlage der Korrelation, Standardabweichung und des Mittelwerts

Eine weitere Möglichkeit zur Berechnung der Parameter bei einer einfachen linearen Regression liefern folgende Formeln:

\[ b_1 = r * \frac{s_{y}}{s_{x}} \]

\[ b_0 = \bar{Y} - b_1 * \bar{X} \]

Übersetzt in R können wir die Parameter wie folgt berechnen:

## [1] 518.0216
## [1] 805.2139