6.2 Stichprobenkennwertverteilungen

Stichprobenkenwwertverteilungen werden genutzt, um zu bestimmen, wie wahrscheinlich ein Kennwert ist, unter der Annahme, dass die Nullhypothese korrekt ist. Wir könnten uns beispielsweise fragen:

  • Wie wahrscheinlich ist es, dass Nobelpreisträger intelligenter als Schüler sind, wenn Nobelpreisträger und Schüler in Wirklichkeit den gleichen IQ im Schnitt haben?
  • Wie wahrscheinlich ist es, dass Männer in einer Stichprobe größer als Frauen in einer Stichprobe sind, wenn Männer und Frauen in Wirklichkeit gleich groß sind?
  • Wie wahrscheinlich ist es, einen Unterschied im Alter von Managern von \(44.3 - 42 = 4.3\) zu erhalten, wenn Manager in Wirklichkeit 42 Jahre alt sind?

Das Resultat dieser Frage sagt uns bereits einigies über unsere Hypothese. Stell dir nochmals vor, dass Männer und Frauen hypothetisch gleich groß sind (selbst wenn das natürlich nicht stimmt). Schauen wir uns zwei solcher Verteilungen einmal an. Die blaue Verteilung kennzeichnet die Männer, die orangene Verteilung kennzeichnet die Frauen.

Welchen Wert würden nun zwei Stichproben aus diesen beiden Populationen ergeben? Die Mittelwert dieser Stichproben würden in der Regel +/- 175 ergeben, da dort die meisten Personen in der Population zu finden sind. Achte darauf, dass jede Stichprobe einen anderen Mittelwert erzeugen würde. Die Frage ist nun, wie wahrscheinlich ist es, dass die beiden Mittelwerte sehr weit auseinander sind? Sehr unwahrscheinlich. Wir müssten zufällig eine Stichprobe erhalten, deren Mittelwert sehr sehr hoch ist und eine Stichprobe erhalten, deren Mittelwert sehr sehr gering ist. Da sehr wenige Menschen solch extreme Werte haben, werden wir sehr selten solche Werte erhalten. Wie wahrscheinlich ist es aber, solche extreme Werte zu erhalten, wenn die Nullhypothese nicht stimmt und die beiden Verteilungen sehr weit auseinander liegen?

In dieser Grafik ist der Mittelwert der Population der Männer 185cm und der Frauen 165cm. Wenn du nun zwei Stichproben ziehst ist es relativ wahrscheinlich, dass sich die Mittelwerte voneinander unterscheiden. Stichproben der Männer werden in der Regel größer sein als Stichproben der Frauen. Wenn wir also unter Annahme der Nullhypothese einen großen Unterschied zwischen den Stichproben erhalten, ist dies ein Indiz dafür, dass in Wirklichkeit die Nullhypothese nicht ganz korrekt ist, und es eher einen Unterschied zwischen den Gruppen gibt.

Wenn du diese Idee verstanden hast, können wir über Stichprobenkennwertverteilungen sprechen zu kommen. Stichprobenkennwertverteilungen ergeben sich aus drei Ideen:

  1. Stichprobe: Eine Stichprobe ist eine Teilmenge aus einer Grundgesamtheit. Wahlvorhersagen werden auf Grundlage von Stichproben gezogen, da es mühselig wäre, alle Menschen eines Landes (die Grundgesamtheit) zu befragen. Daher erheben wir immer nur einen kleinen Anteil der Population und versuchen auf Grundlage dieser Stichprobe auf die Population zu schließen. Da es das Wort Stichprobenkennwertverteilungen heißt, schauen wir uns mehrere Stichproben an.
  2. Kennwert: Statistische Kennwerte fassen mehrere Datenpunkte zusammen. Du kennst bereits mehrere dieser Kennwerte: Der Mittelwert, die Standardabweichung, die Varianz, der z-Wert, der F-Wert oder PRE. Jeder dieser Kennwerte fasst Daten zu einem Wert zusammen. Der Mittelwert gibt den typischen Wert einer Verteilung an, die Varianz gibt an, wie weit Werte um einen Mittelwert streuen. In den nächsten Wochen werden wir uns vor allem mit dem t-Wert und dem F-Wert beschäftigen.
  3. Verteilung: Eine Verteilung ist eine grafische Darstellung des Auftretens einzelner Ausprägung einer Variable. Beispielsweise kennst du unimodale Verteilungen mit nur einem Gipfel, bimodale Verteilungen mit zwei Gipfeln und stetige Verteilungen.

Eine Stichprobe ist daher eine Verteilung von Kennwerten, die aus mehreren Stichprobe gewonnen werden. Beispielsweise:

  • Die Verteilung von Mittelwerten, die aus mehreren Stichproben berechnet werden.
  • Die Verteilung von Mittelwertdifferenzen, die aus mehreren Stichproben berechnet werden.
  • Die Verteilung von PRE, die aus mehreren Stichproben berechnet werden.
  • Die Verteilung von Varianzen, die aus mehreren Stichproben berechnet werden.

Stichprobenkennwertverteilungen ermöglichen uns festzustellen, wie wahrscheinlich bestimmte Kennwerte (z.B. ein Mittelwert) auftreten, wenn wir von der Nullhypothese ausgehen (hier \(Y_i = B_0 + e_i\)). Beispielsweise können wir durch die Stichprobenkennwertverteilung des F-Wertes feststellen, wie wahrscheinlich ein bestimmter F-Wert unter Annahme der Nullhypothese ist.

6.2.1 Beispiel - Stichprobenkennwertverteilung des Mittelwerts einer Stichprobe

Um Stichprobenkennwertverteilungen besser zu verstehen, hilft es, diese zu simulieren. Versuchen wir dazu, eine Stichprobenkennwertverteilung des Mittelwerts des Alters der Mitarbeiter zu simulieren. Ziehen wir hierzu zunächst 10 Stichproben und stellen die Mittelwerte dieser Stichproben als Histogramm dar:

Stichprobenkennwertverteilung des Mittelwerts (100 Stichproben)

Figure 6.1: Stichprobenkennwertverteilung des Mittelwerts (100 Stichproben)

Bei einer solch kleinen Stichprobe ist noch keine richtige Verteilung zu sehen. Die Mittelwerte streuen relativ willkürlich. Wenn wir nun anstatt 10 Stichproben 5.000 Stichproben ziehen, erhalten wir folgende Stichprobenkennwertverteilung:

Stichprobenkennwertverteilung des Mittelwerts (5000 Stichproben)

Figure 6.2: Stichprobenkennwertverteilung des Mittelwerts (5000 Stichproben)

Nun erhalten wir eine unimodale Verteilung. Die Stichprobenkennwertverteilung zeigt uns an, wie wahrscheinlich bestimmte Mittelwerte auftreten, wenn wir willkürlich eine Stichprobe aus der Population entnehmen. Beispielsweise zeigt die Stichprobenkennwertverteilung, dass Mittelwerte von über 45 Jahren bzw. unter 33 Jahren sehr selten aus der Population gezogen werden. Mittelwerte um die 37 Jahre treten sehr häufig auf, da dort der Gipfel der Verteilung ist.

Die Stichprobenkennwertverteilung des Mittelwerts (und des Medians) hat zudem eine besondere Eigenschaft, das zentrale Grenzwerttheorem: Unabhängig davon, welche Verteilung (z.B. bimodel, unimodal, stetig) eine Population hat, die Stichprobenkennwertverteilung des Mittelwerts entspricht immer einer Normalverteilung. Mehr Informationen zu diesem Phänomen findest du hier.