6.3 Normalverteilung und Standardnormalverteilung

Die wohl bekanntesten Verteilungen sind die Normalverteilung und die Standardnormalverteilung oder z-Verteilung. Beide Verteilungen sind unimodal, das heißt sie haben nur einen Gipfel und beide Verteilung haben die Eigenschaft, dass ihre Fläche genau 1 ist. Dieser Eigenschaft machen wir uns später zu nutze, wenn wir Wahrscheinlichkeiten berechnen.

Obwohl wir später weder eine Normalverteilung noch eine Standardnormalverteilung zur Prüfung von Hypothesen verwenden, ist es sinnvoll, diese zunächst zu behandeln. Erstens, da wir auf Grundlage dieser Verteilungen bereits die Idee der Wahrscheinlichkeitsrechnung vorweg nehmen können, die wir später benötigen, um unsere Hypothesen zu testen. Zudem stehen diese Verteilungen in Beziehungen zueinander. Beispielsweise werden wir feststellen, dass die t-Verteilung eine besondere Form der Standardnormalverteilung ist.

6.3.1 Normalverteilung

Normalverteilungen treten häufig in der Natur auf. Beispielsweise entspricht die Intelligenz von Personen in der Regel einer Normalverteilung. Ebenso entspricht die Größe von Personen oder der Blutdruck von Personen einer Normalverteilung. Normalverteilungen sehen ungefähr so aus. Achte darauf, dass wir von mehreren Verteilungen sprechen. In dem nächsten Bild liegt der Gipfel beim Wert 0, dies muss aber nicht sein. Genausogut kann die Normalverteilung breiter und schmaler sein.

Beispiel einer Normalverteilung

Figure 6.3: Beispiel einer Normalverteilung

Normalverteilungen zeichnen sich durch folgende Eigenschaften aus: Sie sind unimodal, dass heißt, sie haben nur einen Gipfel. Zudem sind Normalverteilungen immer symmetrisch um das Zentrum der Verteilung. Da die Normalverteilung symmetrisch ist, ist der Mittelwert, der Median und der Modus immer gleich. Eine interessante Eigenschaft der Normalverteilung ist, dass die die Fläche der Verteilung links und rechts um den Mittelwert bei einer Standardabweichung genau 68% beträgt. Bei zwei Standardabweichungen um den Mittelwert beträgt die Fläche ~ 95% und bei drei Standardabweichungen um den Mittelwert ~ 97.5%:

68-95-97.7 Regel der Normalverteilung

Figure 6.4: 68-95-97.7 Regel der Normalverteilung

  • 68% der Werte fallen eine Standardabweichung vom Mittelwert.
  • 95% der Werte fallen zwei Standardabweichungen vom Mittelwert.
  • 99.7% der Werte fallen innerhalb von drei Standardabweichungen vom Mittelwert.

6.3.2 Standardnormalverteilung

Die Standardnormalverteilung ist eine besondere Normalverteilung, für die Folgendes gilt: Der Mittelwert der Standardnormalverteilung ist immer 0 und die Standardabweichung der Standardnormalverteilung ist immer 1.

Standardnormalverteilung

Figure 6.5: Standardnormalverteilung

Die Standardnormalverteilung wird auch z-Verteilung genannt, Kennwerte in der Standardnormalverteilung werden als z-Werte dargestellt.

6.3.3 Wahrscheinlichkeitsberechnungen auf Grundlage der Standardnormalverteilung

Die Frage ist, was wir mit diesen Verteilungen anfangen sollen? Um eine Antwort auf diese Frage zu bekommen, stell dir folgendes Szenario vor: Du möchtest wissen, ob du und deine Freunde intelligenter im Vergleich zur Gesamtbevölkerung seid? Du weißt, dass der Mittelwert der Population 100 ist, da dieser immer fest definiert wird. Die Standardabweichung der Intelligenzverteilung beträgt 15 (mehr Informationen dazu findest du hier). Diese Verteilung sieht wie folgt aus:

Verteilung der Intelligenz von Personen

Figure 6.6: Verteilung der Intelligenz von Personen

Du prüfst als nächstes dich und 14 weitere Freunde nach eurem Intelligenzquotienten. Folgende Wert erhältst du:

Verteilun der Intelligenz von dir und deinen Freunden

Figure 6.7: Verteilun der Intelligenz von dir und deinen Freunden

Die schwarzen Striche unter der Verteilungen zeigen den Intelligenzquotienten von dir und deinen Freunden an. Du siehst bereits, dass ihr alle einen Intelligenzquotienten über 100 habt. Aber wie findest du nun heraus, wie viel intelligenter ihr seid als alle anderen Menschen? Hierfür benötigen wir erneut die Stichprobenkennwertverteilungen und die Standardnormalverteilung.

Zunächst schauen wir uns die Stichprobenkennwertverteilung des Mittelwerts an, die sich aus dieser Population ergibt:

Verteilung der Intelligenz
Population + Stichprobenkennwertverteilungen

Figure 6.8: Verteilung der Intelligenz Population + Stichprobenkennwertverteilungen

Du siehst bereits, dass die Stichprobenkennwertverteilung des Mittelwerts dieser Population deutlich steiler ist. Mittelwerte, die du durch Stichproben aus der Population gewinnst sind fasst nie kleiner als 80 oder größer als 115. Dies ist bereits eine wichtige Eigenschaft zwischen einer Verteilung einer Variable und der Stichprobenkennwertverteilung des Mittelwerts:

Die Streuung in der Population ist immer größer als die Streuung in der Stichprobenkennwertverteilung

Der Grund für dieses Phänomen liegt darin, dass eine Stichprobe eines Kennwertes weniger wahrscheinlich extreme Werte einer Verteilung generiert als die tatsächlichen Werte. Stell dir vor, eine Person mit einem IQ von 140. Dies ist ein seltenes Ereignis. Da ein Kennwert immer eine Aggregierung mehrerer Werte ist, wird dieser hohe IQ zwar evtl. in den Mittelwert einer Stichprobe mit hinein gerechnet, aber immer durch weniger extreme Werte ausgeglichen, da diese wahrscheinlicher gezogen werden. Hierdurch ist die Streuung in der Population größer als in der Stichprobe.

Wie groß ist allerdings der Unterschied in der Streuung beider Verteilungen? Zunächst wissen wir, dass die Standardabweichung einer Variable durch die Standardabweichung sd berechnet werden kann:

\[ sd = \sqrt{\frac{\sum{(x - \bar{x})^2}}{n - 1}} \] Wir wissen bereits diese Standardabweichung: 15. Uns fehlt noch die Standardabweichung der Stichprobenkennwertverteilung. Diese können wir durch den Standardfehler se berechnen:

\[ se = \frac{\sigma}{\sqrt{n}} \]

\(\sigma\) steht für die Standardabweichung der Population, \(n\) steht für die Größe der Stichprobe. Wenn wir genau hinsehen, stellen wir fest, dass es nicht den einen Standardfehler gibt, sondern mehrere, die abhängig von der Größe der Stichprobe sind (\(n\)). Stellen wir uns einmal hypothetisch vor, du fragst statt 14 Freunden 120 Freunde:

Stichprobenkennwertverteilungen des Mittelwerts mit unterschiedlich großen Stichproben (14 und 121)

Figure 6.9: Stichprobenkennwertverteilungen des Mittelwerts mit unterschiedlich großen Stichproben (14 und 121)

In diesem Fall wird der Standardfehler noch kleiner. Dies lässt sich durch die Formel erklären:

\[ se = \frac{15}{\sqrt{121}} = 1.36 \] Während der Standardfehler bei unserer vorherigen Stichprobenkennwertverteilung ungleich größer war:

\[ se = \frac{15}{\sqrt{15}} = 3.87 \]

Diese Stichprobenkennwertverteilungen des Mittelwerts ermöglichen uns nun zu prüfen, wie wahrscheinlich bestimmte Mittelwerte sind. Erinnere ich daran, dass die Stichprobenkennwertverteilung des Mittelwerts nichts anderes angibt als die Verteilung unendlich vieler Mittelwerte einer Population. In unserem Fall gibt die Stichprobenkenwertverteilung des Mittelwerts die Verteilung der Mittelwert der Population an, in der die Menschen im Schnitt einen IQ von 100 und eine Standardabweichung von 15 haben. Nun sind wir bereit, unsere Frage zu beantworten: Wie viel intelligenter sind du und deine Freunde als die Gesamtbevölkerung?

Der Mittelwert der Stichprobe deiner Freunde liegt bei 110.1433393. Diesen können wir mit der Stichprobenkenwnertverteilung darstellen:

Stichprobenkennwertverteilung der Intelligenz

Figure 6.10: Stichprobenkennwertverteilung der Intelligenz

Du siehst bereits, dass du und deine Freunde deutlich intelligenter sind als der Rest der Gesamtbevölkerung. Aber wie viel? Hierfür können den Mittelwert deiner Verteilungen in einen z-Wert umberechnen. Mit Hilfe dieses z-Wertes können wir später bestimmen, wie viel intelligenter ihr seid. Die Formel lautet folgendermaßen:

\[ z = \frac{\bar{X} - \mu}{se} \]

Du wirst feststellen, dass wir anstatt sd se schreiben. Dies liegt daran, dass wir den z-Wert der Stichprobenkennwertverteilung und nicht eines Einzelwertes in der Population berechnen möchten. Zudem verwenden wir \(\bar{X}\) anstatt \(Y\), da wir Unterschiede im Mittelwert zur Population und nicht von Einzelwerten berechnen. Diesen z-Wert können wir nun berechnen und in der Standardnormalverteilung abtragen, da diese aus z-Werten beruht:

\[ z = \frac{110.1433 - 100}{15 / \sqrt{15}} = 2.62 \]

Darstellung des empirischen z-Wertes der Stichprobe

Figure 6.11: Darstellung des empirischen z-Wertes der Stichprobe

Bevor wir nun die Wahrscheinlichkeit für einen so hohen Stichprobenmittelwert berechnen können, benötigen wir ein paar wichtige Grundlagen der Wahrscheinlichkeit:

6.3.4 Grundlagen der Wahrscheinlichkeitsrechnung

Wir werden im nächsten Schritt Wahrscheinlichkeiten auf Grundlage von Stichprobenkennwertverteilung berechnen. Zuvor ist es nötig, dass wir zwei grundlege Axiome der Wahrscheinlichkeit wiederholen:

  1. Die Wahrscheinlichkeit eines Ereignisses liegt immer zwischen 0 und 1.
  2. Die Wahrscheinlichkeit aller möglichen Ereignisse ist 1. Dies entspricht der Fläche der Stichprobenkennwertverteilungen.

Später werden wir die Fläche unter Stichprobenkennwertverteilungen berechnen. Unabhängig davon, ob es um eine Stichprobenkennwertverteilung des Mittelwerts (Standardnormalverteilung), der Stichprobenkennwertverteilung von PRE oder F oder der Stichprobenkennwertverteilung von Mittelwertsunterschieden handelt, beträgt die Fläche dieser Verteilung immer 1. Dementsprechend können wir aus Stichprobenkennwertverteilungen berechnen, wie wahrscheinlich ein bestimmter Kennwert auftritt, wenn wir von der Nullhypothese ausgehen.

6.3.4.1 Skalenniveaus

Daten liegen in folgenden Skalenniveaus vor:

  • Nominalskalierte Daten: Nominalskalierte Daten haben keine Reihenfolge untereinandern. Z.B. Frau/Mann oder die Parteizugehörigkeit SPD/FDP/CDU. Das heißt, es gibt keine Werte zwischen den einzelnen Werten.
  • Ordinalskalierte Daten: Auch rangskaliserte Daten genannt. Beispielsweise sind die Schulabschlüsse ordinalskaliert: Werksrealschule < Realschule < Gymnasium.
  • Intervallskalierte Daten: Bei intervallskalierten Daten gibt es unendlich viele Werte zwischen zwei Werten, z.B. die Temperatur.
  • Verhältnisskalierte Daten: Verhältnisskalierte Daten haben einen natürlichen Nullpunkt. Die Länge einer Schnur beispielsweise ist verhältnisskaliert. Ebenso das Gewicht eines Objektes.

Nominalskalierte Daten liegen uns in Experimenten in der Regel durch verschiedene Experimentallgruppen vor. Metrisch skalierte Daten (Intervall- und Verhältnisskalierte Daten) liegen uns in der Regel als abhängige Variable vor, die wir prüfen möchten. Ebenso aber auch als unabhängige Variablen, die wir in unsere Modelle als Variablen einfügen.

6.3.4.2 Diskrete und stetige Wahrscheinlichkeiten

Wahrscheinlichkeiten können sowohl diskret als auch stetig vorliegen. Diskrete Wahrscheinlichkeiten zeichnen sich dadurch aus, dass sie auf Grundlage von nominalskalierten und ordinalskalierten Daten berechnet werden. Beispielsweise können wir die Wahrscheinlichkeit berechnen, beim Würfeln die Augenzahl 5 zu würfen (1/6). Die Augenzahl ist eine ordinalskalierte Variable. Wir werden allerdings in diesem Kurs wenige Hypothesen auf Grundlage diskreter Stichprobenkennwertverteilungen testen. Relevant sind diskrete Stichprobenkennwertverteilungen, wenn du beispielsweise testen möchtest, ob in einem Experiment signifikant mehr Frauen als Männer sind.

Im Unterschied dazu werden stetige Wahrscheinlichkeiten bei Variablen angegeben, die metrisch vorliegen. Beispielsweise können wir die Wahrscheinlichkeit berechnen, größer als 1,80 Meter zu sein. Die Wahrscheinlichkeit einzelner Ereignisse, z.B. die Größe 182,331243433454 cm geht gegen Null, da es unendliche viele Ausprägungen zwischen Variablen gibt. Beispiele für stetige Verteilungen sind die Normalverteilung, die Standardnormalverteilung, die t-Verteilung und die F-Verteilung.

6.3.4.3 Wahrscheinlichkeiten und Stichprobenkennwertverteilungen

Die Wahrscheinlichkeit einen bestimmten Kennwert zu erzielen bzw. Kennwerte in einem bestimmten Bereich zu erzielen, können wir anhand der Stichprobenkennwertverteilungen bestimmen. Zunächst stellen wir fest, dass die Fläche einer Stichprobenkennwertverteilung immer 1 und damit der Wahrscheinlichkeit aller Ereignisse entspricht (siehe Kolmogorov). Wie wahrscheinlich ist es nun bei einer stetigen Verteilung, genau einen bestimmten Wert zu erhalten, beispielsweise einen z-Wert von 1.56433433434? Diese Frage muss bei stetigen Verteilungen, in der es unendlich viele Zwischenwerte gibt immer mit 0 beantwortet werden. Einzelne Ereignisse sind so unwahrscheinlich, da stetige Variablen unendlich genau sein können. Zweitens stellen wir fest, dass die Wahrscheinlichkeit eines Bereichs an Kennwerten, zum Beispiel einen z-Wert zwischen 0 und 1 zu erhalten als Integral unter der Fläche bestimmt werden kann:

\[ P(x_1 \leq x_2) \int_{x_1}^{x_2} f(x) dx \]

6.3.5 Bestimmung der Wahrscheinlichkeit bei der Standardnormalverteilung

Da die Fläche der Stichprobenkennwertverteilung 1 beträgt, können wir die Wahrscheinlichkeit für einen solch hohen Mittelwert berechnen, indem wir die Fläche links des z-Wertes berechnen:

Wahrscheinlichkeit eines z-Wertes größer des empirischen z-Wertes

Figure 6.12: Wahrscheinlichkeit eines z-Wertes größer des empirischen z-Wertes

Du siehst vielleicht diesen kleinen hellblauen Zipfel rechts des z-Wertes. Diese Fläche entspricht denjenigen Stichproben, die intelligenter sind als du und deine Freunde. Dies sind nur wenige Stichproben. Mit Hilfe der Funktion qnorm könnn wir nun die Fläche links des z-Wertes und damit die Wahrscheinlichkeit für einen so hohen Stichprobenmittelwert berechnen:

## [1] 0.9956035

Du und deine Freunde sind nach unserer Berechnung 99.6% intelligenter als der Rest der Bevölkerung. Das bedeutet, ihr seid nicht repräsentativ für die Gesamtbevölkerung der Population, da ihr viel intelligenter seid. Wenn du nun davon ausgehst, dass du und deine Freunde genauso intelligent seid wie die Gesamtbevölkerung, ist dieses Ergebnis überraschend.