5.8 Sum of Squared Errors (SSE)

Wir können ingesamt drei SSE berechnen. Erstens die Fehler, welche durch das kompakte Modell entstehen (\(SSE_C\)). Zweitens die Fehler, die durch das erweiterte Modell entstehen (\(SSE_A)\). Drittens, die Reduzierung der Fehler des kompakten Modells durch das erweiterte Modell (\(SSR\)).

Bei unseren Modellen ergeben sich daher folgende Formeln:

\[ SSE_C = \sum_{i = 1}^n (Y_i - \hat{Y}_{i_c})^2 \] \[ SSE_A = \sum_{i = 1}^n (Y_i - \hat{Y}_{ia})^2 \] Und:

\[ SSR = SSE_C - SSE_A \]

Diese Werte können wir direkt in R berechnen:

## # A tibble: 10 x 4
##       id   age error_c error_a
##    <dbl> <dbl>   <dbl>   <dbl>
##  1   963    51      81   44.9 
##  2  1117    55     169  114.  
##  3  1097    40       4   18.5 
##  4   585    42       0    5.29
##  5   314    33      81  128.  
##  6   800    42       0    5.29
##  7   917    46      16    2.89
##  8   426    50      64   32.5 
##  9   937    45       9    0.49
## 10   315    39       9   28.1

Die Summe dieser Werte ergibt:

## [1] 433
## [1] 380.1
## [1] 52.9

Erweitern wir unsere Tabelle von vorhin um diese quadrierten Abweichungen. Zusätzlich bezeichen wir die Spalten nun mit Reduction, Error und Total Error. Error kennzeichnet die Fehler, die noch im erweiterten Modell übrig sind. Total Error kennzeichnet die Fehler, die noch im kompakten Modell übrig sind.

Source SSE df
Reduction \(52.9\) \(1\)
Error \(380.1\) \(9\)
Total Error \(433\) \(10\)