7.5 Konfidenzintervalle

Signifikanztest erlauben uns Aussagen darüber, wie unwahrscheinlich bestimmte Daten gegeben einer Nullhypothese sind: \(P(D|H_0)\). Finden wir in vielen Experimenten häufig, dass ein Ergebnis gegeben der Nullhypothese unwahrscheinlich ist, haben wir guten Grund zu denken, dass beispielsweise Variablen miteinander korrelieren. Was wir allerdings wirklich wissen möchten ist, wie hoch diese Werte miteinander korrelieren? In unserem Werkzeugkasten fehlt uns noch einer dieser Methoden: Konfidenzintervalle. Konfidenzintervalle erlauben uns folgende Aussagen:

In 95 von 100 Fällen befindet sich der wahre Populationsparameter innerhalb des Konfidenzintervalls.

Konfidenzintervalle sagen nicht, dass sich der Populationsparameter zu 95% innerhalb des Konfidenzintervalls befinden. Diese Wahrscheinlichkeit ist entweder 0 oder 1. Zudem habe ich gerade willkürlich bestimmt, dass der Wert 95% festgeschrieben wird. Genausogut gibt es 99%ige oder 90%ige Konfidenzintervalle.

Versuchen wir Konfidenzintervalle an einem Beispiel genauer zu beschreiben. In der nächsten Visualisierung siehst du 100 Konfidenzintervalle. Stell dir vor, wir wiederholen die gleiche Studie, welche wir bisher untersucht haben 100 mal. Jedes Mal werden wir ein leicht anderes erweitertes und kompaktes Modell erhalten. Da wir wissen, dass unsere Studie eine sehr hohe Power hat, werden wir fasst immer signifikante Ergebnisse erzielen. Manchmal allerdings werden wir auch Betafehler machen und fälschlicherweise die Nullhypothese annehmen. Die blauen Striche kennzeichnen je eines der Korrelationsstudien. Jeder Strich selber stellt ein Konfidenzintervalle dar. Die rote vertikale Linie kennzeichnet den wahren Populationswert \(b_1\), welchen wir wissen möchten. Sobald einer der blauen Linien den Wert 0 umschließt, begehen wir einen Betafehler und nehmen fälschlicherweise die Nullhypothese an:

Visualisierung von 100 Konfidenzintervallen von b_1 bei N = 25

Figure 7.9: Visualisierung von 100 Konfidenzintervallen von b_1 bei N = 25

Du siehst bereits, dass der wahre Populationswert fasst immer innerhalb des Konfidenzintervalls steckt. Wenn wir unendlich viele Konfidenzintervalle berechnen würden, lägen wir in 95 von 100 Fällen im Schnitt korrekt und der wahre Populationsparamter befindet sich innerhalb des Intervalls. Erstellen wir erneut ein Konfidenzintervall und erhöhen allerdings die Größe der Stichprobe auf 60 Personen:

Visualisierung von 100 Konfidenzintervallen von b_1 bei N = 60

Figure 7.10: Visualisierung von 100 Konfidenzintervallen von b_1 bei N = 60

Du siehst einerseits, dass sich die Power erhöht hat, da wir weniger öfter einen Betafehler begehen (die blauen Konfidenzintervalle überschneiden nicht die 0 Linie). Zudem sind die Konfidenzintervalle genauer geworden, da sie schmaler wurden. Wir können daher mit einer größeren Stichprobe den wahren Populationsparameter besser erfassen. Um diese Tatsache noch deutlicher zu machen, simulieren wir als nächstes Konfidenzintervalle aus einer Stichprobe mit 1000 Personen:

Visualisierung von 100 Konfidenzintervallen von b_1 bei N = 1000

Figure 7.11: Visualisierung von 100 Konfidenzintervallen von b_1 bei N = 1000

Nun passiert etwas interessantes. Die Enden des Konfidenzintervalls stellen diejenigen Werte einer imaginären Verteilung dar, welche links 2.5% und rechts 2.5% der Verteilung der Stichprobenkennwertverteilung von \(b_1\) abschneiden:

Stichprobenkennwertverteilung von b_1

Figure 7.12: Stichprobenkennwertverteilung von b_1

Das Konfidenzintervall gibt demnach bei einer sehr hohen Stichprobe diejenigen Werte an, welche 95% der Fläche unter der Verteilung des Populationsparameters umfasst. Daher sprechen wir auch von einem 95%igen Konfidenzintervall.

Wie berechnen wir nun ein Konfidenzintervall von \(b_1\). Zunächst lassen sich Konfidenzintervalle unterschiedlich berechnen. Wir werden an dieser Stelle das Konfidenzintervall für \(b_1\) kennen lernen. Die Berechnung für den Steigungskoeffizienten bei einer linearen Regression lautet:

\[ CI_{upper/lower} = b_1 \pm \sqrt{\frac{F_{crit} * MSE}{(n - 1) * s^2_x}} \]

  • \(MSE\): Dies ist der Nenner der Formel des F-Tests: \(F = \frac{SSR / (PA - PC)}{SSE(A) / (n-PA)} = \frac{MSR}{MSE}\): \(10764361\)
  • \(s^2_x\): Die Varianz der abhängigen Variable (hier monatliches Einkommen der Mitarbeiter).
  • \(b_1\): Der Steigungskoeffizient der unabhängigen Variable \(X_1\).
  • \(n\): Die Anzahl der Untersuchungsobjekte.
  • \(F_{crit}\): Der kritische F-Wert, welcher zu einem signifikanten Ergebnis führt. Diesen kann man mit der Funktion qf berechnen: qf(0.95, df1 = 1, df2 = 23) \(= 4.279344\).
## [1] 714.5626
## [1] 321.4374

Dies bedeutet, dass in 95 von 100 Fällen der wahre Steigungskoeffizient der Population sich in diesem Bereich befinden wird:

\[ 321.4374 \leq \beta_1 \leq 714.5626 \]

Wir können uns dieses Konfidenzintervall auch grafisch anzeigen lassen:

Darstellung des Konfidenzintervalls von b_1 anhand eines Streudiagramms

Figure 7.13: Darstellung des Konfidenzintervalls von b_1 anhand eines Streudiagramms

Stell dir vor, der grüne Streifen umfasst alle Steigungskoeffizienten, die durch das Konfidenzintervall abgedeckt sind. In 95 von 100 Fällen, wenn wir ein Konfidenzinterval berechnen, befindet sich der wahre Steigungskoeffizient innerhalb des grünen Bereichs. Der Blick auf die Grafik zeigt uns sehr deutlich, dass wir mit einer großen Sicherheit eine positive Korrelation der beiden Variablen haben.

Wir können im letzten Schritt noch weiter gehen und uns überlegen, was wohl der wahre Korrelationskoeffizient der beiden Variablen ist. Zunächst können wir diesen in R berechnen.

## [1] 0.7508299

Man weiß, dass der Steigungskoeffizient bei einer einfachen Regression dem Korrelationskoeffizienten entspricht, wenn die Daten z-standardisiert sind. Erstellen wir daher als nächstes erneut das lineare Modell nur mit z-standardsierten Daten:

## 
## Call:
## lm(formula = z_monthly_income ~ z_total_working_years, data = .)
## 
## Coefficients:
##           (Intercept)  z_total_working_years  
##             9.861e-17              7.508e-01

Du siehst, dass sich die Parameter geändert haben. Der Parameter von \(b_1\) lautet nun 0.7508. Du erkennst nun auch, dass dieser Parameter nichts anderes ist als der Korrelationskoeffizient. Wir können daher das Konfidenzintervall des Korrelationskoeffizienten einfach berechnen, indem wir erneut MSE berechnen:

## [1] 0.455222
##          [,1]
## [1,] 1.035701
##           [,1]
## [1,] 0.4658986

\[ 0.4658986 \leq r \leq 1.035701 \]

Dieses Konfidenzintervall können wir nun auch grafisch darstellen (diesmal mit dem R Code):

Darstellung des Konfidenzintervalls von b_1/r anhand eines Streudiagramms mit z-standardisierten Variablen

Figure 7.14: Darstellung des Konfidenzintervalls von b_1/r anhand eines Streudiagramms mit z-standardisierten Variablen

Du siehst, dass das Konfidenzintervall grafisch identisch zum vorherigen ist. Es haben sich lediglich die Axen verschoben.