5.7 Fehler

Wir haben bisher den Fehler als die relative Abweichung der tatsächlichen Werte von den auf Grundlage des Modells geschätzten Werten definiert:

\[ ERROR = DATA - MODEL \]

In R können wir diese Fehler sowohl für das kompakte als auch für das erweiterte Modell berechnen:

## # A tibble: 10 x 4
##       id   age error_c error_a
##    <dbl> <dbl>   <dbl>   <dbl>
##  1   963    51       9    6.7 
##  2  1117    55      13   10.7 
##  3  1097    40      -2   -4.30
##  4   585    42       0   -2.30
##  5   314    33      -9  -11.3 
##  6   800    42       0   -2.30
##  7   917    46       4    1.7 
##  8   426    50       8    5.7 
##  9   937    45       3    0.7 
## 10   315    39      -3   -5.30

5.7.1 Relative Fehler

Wir möchten wissen, welches Modell genauer in der Einschätzung der abhängigen Variable ist. Hierzu können wir die Summe dieser Fehler berechnen:

## [1] 23
## [1] 2.842171e-14

Die Fehler der erweiterten Modells scheinen deutlich kleiner zu sein als die des kompakten Modells. Allerdings müssen wir diese Werte mit Vorsicht interpretieren, da sich negative und positive Werte ausbalancieren können. Es könnte ja sein, dass wir bei zwei Personen zwei große Fehler im Wert von -100 und 100 machen. Eindeutig schätzen wir in diesem Fall die abhängige Variable falsch. Die Summierung der Fehler würde diese Unterschiede allerdings nicht darstellen. Wir werden daher in diesem Kurs davon Abstand nehmen, Fehler mit den Vorzeichen zu summieren.

5.7.2 Absolute Fehler

Ebenso könnten wir den absoluten Abstand zwischen der abhängigen Variable und den geschätzen Werten berechnen (siehe abs):

## [1] 51
## [1] 51

Durch die Berechnung der absoluten Unterschiede vermeiden wir das gerade beschriebene Problem. Es zeigt sich allerdings, dass diese Fehlerart am besten ist, wenn wir Modelle aufstellen, bei denen wir den Median statt dem Mittelwert verwenden. In diesem Kurs werden wir in der Regel als kompaktes Modell den Mittelwert der abhängigen Variable berechnen. Daher werden wir ebenso die Fehler nicht als die Summe der absoluten Abweichungen berechnen.

5.7.3 Quadrierte Fehler

Ab jetzt definieren wir die Fehler als die quadrierte Abweichung der tatsächlichen Werte von den durch die Modelle geschätzten Werte:

## [1] 433
## [1] 380.1

Mathematisch bezeichnen wir diese Fehler von nun an als Sum of Squared Errors (SSE):

\[ SSE = \sum_{i = 1}^n (Y_i - \hat{Y}_i)^2 \]