5.1 DATA = MODEL + ERROR

Stell dir vor, du arbeitest in einer Firma. Der CEO deiner Firma hat vor ein paar Jahren das Ziel ausgegeben, dass Manager im Schnitt 42 Jahre sein sollen. Die Entscheidung wurde getroffen, um die Führung der Firma zu verjüngen. Nach mehreren Jahren sollst du nun prüfen, ob dieses Ziel erreicht wurde. Du glaubst allerdings nicht, dass dieses Ziel erreicht wurde. Du glaubst, dass die Mitarbeiter im Schnitt älter als 42 Jahre alt sind.

Die Hypothese deines CEOs können wir als mathematisches Modell formulieren:

\[ DATA = MODEL + ERROR \]

Mit \(DATA\) bezeichnen wir die abhängige Variable, jene Werte, die wir hervorsagen möchten. Mit \(MODEL\) bezeichnen wir das mathematische Modell auf Grundlage dessen wir die abhängige Variable hervorsagen möchten. Die Hypothese deines CEO besagt, dass Manager im Schnitt 42 Jahre alt sind. Unser Modell lautet daher:

\[ DATA = 42 + ERROR \]

Da mathematische Modelle nie perfekt sind, gibt es immer Fehler in der Hervorsage. Diese Fehler nennen wir \(ERROR\). Fast kein Manager wird genau 42 Jahre alt sein. Manche Manager werden älter, manche jünger sein. In anderen Worten ist die abhängige Variable immer die Kombination aus einem mathematischen Modell und dem Fehler, den wir mit diesem Modell machen. Indem wir die Gleichung umstellen, können wir \(ERROR\) daher folgendermaßen definieren:

\[ ERROR = DATA - MODEL = DATA - 42 \]

Wenn beispielsweise Manager X 45 Jahre alt ist, lautet der Fehler \(45 - 42 = 3\). Wir unterschätzen das Alter dieses Managers um 3 Jahre.

Versuchen wir dies an einer konkreten Stichprobe zu zeigen. Du ziehst zunächst eine Stichprobe von 10 Managers aus der Population. Diese Manager befragst du nach ihrem Alter. Die Daten findest du unter diesem Link. Zunächst laden wir den Datensatz:

## # A tibble: 10 x 2
##       id   age
##    <dbl> <dbl>
##  1   963    51
##  2  1117    55
##  3  1097    40
##  4   585    42
##  5   314    33
##  6   800    42
##  7   917    46
##  8   426    50
##  9   937    45
## 10   315    39

Du siehst bereits, dass viele Manager älter als 42 Jahre alt sind. Als nächstes schauen wir uns den Mittelwert der Stichprobe an:

## [1] 44.3

Tatsächlich, der Mittelwert der Stichprobe ist größer als 42. Wir müssen an dieser Stelle allerdings vorsichtig sein, dies als Indiz für die Bestätigung unserer Hypothese zu nehmen. Eine andere Stichprobe könnte einen ganz anderen Mittelwert erzeugen. Vielmehr möchten wir prüfen, wie wahrscheinlich ein solcher Mittelwert zu Stande kommt, wenn dein CEO recht hat.

Schauen wir uns als nächstes die Abweichungen des Modells und den tatsächlichen Werte visuell an:

Der blaue Strich stellt das Modell dar (\(DATA = 42 + ERROR\)). Die schwarzen Striche stellen den Fehler für jeden Datenpunkt dar (\(ERROR = DATA - 42\)). Der Manager mit der Id 426 zum Beispiel ist 8 Jahre älter als wir geschätzt haben. Tabellarisch können wir diese Werte berechnen, indem wir aus der Stichprobe neue Variablen erstellen, die den \(ERROR\) darstellt. Wir speichern den Output in der Variable errors.

## # A tibble: 10 x 3
##       id   age error
##    <dbl> <dbl> <dbl>
##  1   963    51     9
##  2  1117    55    13
##  3  1097    40    -2
##  4   585    42     0
##  5   314    33    -9
##  6   800    42     0
##  7   917    46     4
##  8   426    50     8
##  9   937    45     3
## 10   315    39    -3

Du siehst, dass der \(ERROR\) für die Person mit der Id 426 tatsächlich 8 ist.