7.1 Modelle mit Parametern

Bisher konnten wir Hypothesen testen, die Unterschiede zwischen einem vorgegebenen Mittelwert und dem Mittelwert einer Stichprobe testen. Hierfür haben wir im letzten Modul den t-Test für eine Stichprobe und den allgemeineren F-Test kennen gelernt. Um Hypothesen zu testen, haben wir folgendes statistische Modellpaar aufgestellt:

\[ \begin{aligned} MODEL_A &= b_0 + \epsilon_i \\ MODEL_C &= B_0 + \epsilon_i \end{aligned} \] Solche einfachen Modelle und die damit verbundenen Hypothesen werden allerdings in der Sozialforschung selten verwendet. In diesem Modul werden wir ein komplexeres Modell kennen lernen, mit Hilfe dessen wir Fragestellungen wie diese testen können:

  • Gibt es einen signifikanten Zusammenhang zwischen der Anzahl der gelesenen Bücher und der Intelligenz?
  • Gibt es einen signifikanten Zusammenhang zwischen der Mathematiknote und der Englischnote im Abitur?
  • Gibt es einen signifikanten Zusammenhang zwischen der Klassengröße und dem Lernerfolg der Schüler*innen?

Um solche Hypothesen zu testen, müssen wir ein erweitertes Modell mit zwei Parametern und einer kontinuierlichen Variable aufstellen. Stell dir beispielsweise vor, wir möchten die Hypothese prüfen, ob es einen signifikanten Zusammenhang zwischen der Anzahl der Arbeitsjahre der Mitarbeiter und ihrem monatlichen Einkommen gibt. Man sollte annehmen, dass Mitarbeiter mehr verdienen, je länger sie arbeiten. Das erweiterte Modell, welches wir finden möchten, sähe folgendermaßen aus:

\[ Y_i = b_0 + b_1 * X_1 + e_i \]

Laden wir zunächst den Datensatz in R und schauen uns ein Streudiagramm der beiden Variablen an, um zu zeigen, wie dieses Modell grafisch dargestellt werden kann (den Datensatz findest du hier):

Anschließend schauen wir uns das Streudiagramm der beiden Variablen an:

Streudiagramm mit Regressionsgerade

Figure 7.1: Streudiagramm mit Regressionsgerade

Das einfache Regressionsmodell ist als grüne Linie dargestellt. \(Y_i\) steht für das monatliche Gehalt eines einzelnen Mitarbeiters. In der Visualisierung erkennen wir diese Werte anhand der Y-Achsenwerte der einzelnen Punkte. Beispielsweise verdient die Person mit der ID 914 (ganz rechts oben) ungefähr 22000 Dollar pro Monat. Die Person mit der ID 516 (links unten dargestellt) verdient mit etwa 1300 Euro am wenigsten pro Monat. \(b_0\) steht für den Punkt, an dem die Regressionsgerade die Y-Achse schneidet. Dieser Wert ist in diesem Fall in etwa 1230. Du musst dir lediglich vorstellen, an welcher Stelle die grüne Regressionsgerade die Y-Achse schneidet. \(X_1\) steht für die Anzahl der Arbeitsjahre der Mitarbeiter. In der Visualisierung erkennen wir diese Werte anhand der X-Achsenwerte der einzelnen Punkte. \(b_1\) steht für die Steigung der Geraden. Wäre die Steigung 0, würde die Regressionsgerade parallel zur X-Achse verlaufen. \(b_1\) kannst du dir immer so vorstellen: Um wie viele Werte erhöht sich \(Y_i\) wenn ich einen Wert in \(X_i\) verschiebe. Beispielsweise: Wie viel mehr Gehalt bekommt eine Person, wenn sie ein Jahr mehr Arbeitserfahrung hat?

Auf Grundlage dieser Visualisierung können wir bereits einige Dinge erkennen: Je mehr Arbeitsjahre eine Mitarbeiterin hat, desto mehr verdient diese Mitarbeiterin. Dies können wir daran erkennen, dass die Steigung der Geraden positiv ist. Unser Modell erklärt nicht die ganze Varianz des Gehalts. In anderen Worten, wir können keine perfekten Hervorsagen auf Grundlage der Arbeitsjahre der Mitarbeiter machen. Manche Punkte sind weit von der Regressionsgeraden entfernt, andere liegen fast exakt auf der Regressionsgerade. Dies bedeutet, dass andere Faktoren als die Arbeitsjahre darüber entscheiden, wie viel eine Mitarbeiterin verdient. Beispielsweise kann die Rolle des Jobs (z.B. Manager) einen Einfluss auf das Gehalt der Mitarbeiterin haben (dies werden wir in späteren Modellen testen). Manager sollten mehr verdienen als Sekretäre/Sekretärinnen. Fragestellungen, die ebenso kategoriale Prädiktoren wie den Beruf von Mitarbeitern berücksichtigen, werden wir im Modul ANCOVA kennen lernen.

Wir werden gleich in nächsten Teil berechnen, wie wir die Parameter der Regressionsgerade berechnen. An dieser Stelle glaube mir, dass die Gerade folgende Werte hat:

\[ Y_i = 805.2 + 518.0 * X_1 + e_i \] \(b_0\) gibt uns an, welches Gehalt wir annehmen würden, hätte eine Person gar keine Arbeitserfahrung:

\[ Y_i = 805.2 + 518.0 * 0 + e_i = 805.2 + e_i \] Auf Grundlage des Modells würden wir daher annehmen, dass eine Person ohne Arbeitserfahrung 805,2 Dollar pro Monat verdient. Jedes weitere Arbeitsjahr führt zu einer Gehaltssteigerung von 518 Dollar. Eine Person, die daher bereits über 10 Jahre Arbeitserfahrung verfügt, sollte 5985,2 Dollar pro Monat verdienen:

\[ Y_i = 805.2 + 518.0 * 10 + e_i = 5985.2 + e_i \] Obwohl das Modell uns genaue Vorhersagen über das Gehalt der Mitarbeiter liefert, machen wir immer Fehler in der Hervorsage. Diese Fehler sind als \(e_i\) markiert. Ein akkurates Regressionsmodell reduziert diese Fehler so weit wie möglich. Die Fehler können wir folgendermaßen darstellen:

\[ e_i = Y_i - \hat{Y}_i = Y_i - (b_0 + b_1*X_1) \]

\(\hat{Y}_i\) sind die durch as Modell hervorgesagten Werte. Wenn wir beispielsweise das Gehalt auf 3000 Dollar schätzen, die Mitarbeitern allerdings in Wirklichkeit 4000 Dollar verdient, machen wir einen Fehler von 1000 Dollar:

\[ e_i = Y_i - \hat{Y}_i = 4000 - 3000 = 1000 \] Grafisch dargestellt sind diese Fehler der Abstand der tatsächlichen Werte des monatlichen Gehalts \(Y_i\) und den regredierten Werte \(\hat{Y}_i\):

Visualisierung der Fehler bei der einfachen linearen Regression

Figure 7.2: Visualisierung der Fehler bei der einfachen linearen Regression

Du erkennst erneut, dass statistische Modelle nie identische Werte für \(Y_i\) und \(\hat{Y}_i\) liefern, da wir durch mathematische Modelle nur Annährungen auf Grundlage von Stichproben treffen können.