5.2 Notation der Modelle

Wir werden in den nächsten Wochen immer wieder statistische Modelle anschauen und analysieren. Um zu wissen, wovon wir sprechen, ist es wichtig, dass wir die Notation der Begriffe vorab definieren:

  • \(Y_i\) steht für den Einzelwert von DATA, den Werten, welche wir hervorsagen, beziehungsweise den Werte unserer abhängigen Variable. Das kleine \(i\) steht für das Untersuchungsobjekt, welches wir gerade betrachten. In der Regel sind das einzelne Menschen beziehungsweise Probanden.
  • \(\hat{Y}_i\) steht für unseren auf Grundlage des Modells hervorgesagten Werte. Der reale Wert setzt sich aus der Schätzung und dem Fehler zusammen: \(Y_i = \hat{Y}_i + e_i\)
  • \(X_{ij}\) steht für die Variablen, welche wir in unser Modell hinzufügen. \(i\) steht für das Untersuchungsobjekt, \(j\) steht für die Nummer der Variable (wir werden später mehrere dieser Variablen in unseren Modellen haben)
  • \(\beta_{0}, \beta_{1}, ...\) steht für die Parameter unseres Modells, welche wir finden möchten. Wir werden diese Werte allerdings nie exakt bestimmen können, da wir nie Daten von ganzen Populationen haben. Als Faustregel gilt: Sobald ein \(\epsilon\) in der Gleichung enthalten ist, spricht man von Parametern, die in der Population gelten (z.B. \(\beta_{0}\)).
  • \(b_0, b_1, ...\) stehen für die Parameter, welche man auf Grundlage der Daten berechnet. Beispielsweise schätzt man den Mittelwert der Population auf Grundlage des Mittelwerts einer Stichprobe. \(b\) wird immer in Kombination mit \(\hat{Y}\) bzw. \(Y_i\) verwendet.
  • \(B_0\) steht für keinen Parameter, sondern für einen Koeffizienten in einem Modell, den wir a-priori annehmen. Zum Beispiel, dass Menschen im Schnitt einen IQ von 100 haben oder das Manager im Schnitt 42 Jahre alt sind.
  • \(e_0, e_1, ...\) stehen für die Fehler, die wir aus dem Modell berechnen. \(e\) wird also immer in Zusammenhang mit \(b\) verwendet und nie mit \(\beta\).
  • \(\epsilon_i\) steht für Fehler der sich ergibt, wenn man \(\beta_i\) kennt. Da sich \(\beta\) von \(b\) unterscheidet, unterscheidet sich auch \(e\) von \(\epsilon\).
  • \(\sigma\): Standardabweichung der Population
  • \(\mu\): Mittelwert der Population
  • \(s\) oder \(sd\): Standardabweichung der Stichprobe
  • \(\bar{X}\): Mittelwert der Stichprobe

Ein Beispiel. Stell dir vor, du stellt folgendes Modell auf:

\[ Y_i = \beta_0 + \epsilon_i \]

Das Modell hat nur einen Parameter (\(\beta_0\)). Da es sich bei diesem Parameter um den tatsächlichen Mittelwert der Population handelt, schreiben wir \(\beta_0\) und nicht \(b_0\). \(b_0\) würden wir angeben, wenn wir den Wert auf Grundlage der Stichprobe berechnet hätten. Der Fehler \(\epsilon_i\) ist der tatsächliche Fehler. Dieser unterscheidet sich von \(e_i\), welcher immer in Zusammenhang mit \(b\) angegeben wird.