6.7 Miniprojekt

Die Daten für dieses Miniprojekt findest du unter diesem Link.

Wir sind nach diesem Modul bereit, unsere ursprüngliche Hypothese zu testen, ob Manager älter als 42 Jahre sind. Unsere Hypothesen, welche wir in statistische Modelle übertragen haben, lauteten folgendermaßen:

\[ \begin{aligned} MODEL_C &= B_0 + \epsilon_i &= 42.0 + e_i \\ MODEL_A &= b_0 + \epsilon_i &= 44.3 + e_i \end{aligned} \]

Unsere Stichprobe ergab einen Mittelwert von 44.3 Jahren. Unsere F-Tabelle sah folgendermaßen aus:

Source SSE df MSE F PRE
Reduction \(52.9\) \(1\) \(52.9\) \(1.25\) \(0.12\)
Error \(380.1\) \(9\) \(42.33\)
Total Error \(433\) \(10\)

Wir können unsere Hypothese sowohl als F-Test als auch als t-Test berechnen. Ein t-Test eignet sich immer dann, wenn das erweiterte Modell einen Parameter mehr hat als das kompakte Modell. Gehen wir allerdings noch ein Stück zurück, bevor wir versuchen, die Hypothese zu testen. Überlegen wir uns zunächst, welchen Effekt wir in Wirklichkeit erwarten? Du kennst vielleicht in paar Manager in der Firma und erwartest eher, dass Manager im Schnitt in etwa 45 Jahre alt sind. Deine Stichprobe umfasst 10 Personen. Selbst wenn nun ein Unterschied besteht, wie wahrscheinlich kannst du diesen Unterschied in diesem Beispiel finden? Hierzu werden wir eine kleine Simulation machen. Du musst den Code in der Simulation nicht verstehen. Du wirst gleich mehrere Variablen in dieser Simulation ändern, um ein Gefühl zu bekommen, wie die Stichprobengröße und die Größe des Effekts einen Unterschied auf die Annahme oder Abhlehnung deiner Nullhypothese machen. Führe als nächstes folgenden Code in R aus:

Was du hier siehst ist die Verteilung der p-Werte bei diesem Experiment. In dieser Simulation hast du das gleiche Experiment 5000 mal wiederholt. Es wurden 10 Manager befragt. Der wahre Populationsmittelwert ist 45, die Standardabweichung des Alters der Manager ist in Wirklichkeit 5 Jahre. Deine Power liegt bei 55,44%. Dies bedeutet, du bekommst nur in 55% der Fälle ein signifikantes Ergebnis. Oder anders ausgedrückt, der Betafehler zeigt dir, dass du dich in 44% der Fälle irren wirst und weiter die Nullhypothese annimmst, obwohl die Alternativhypothese korrekt ist. Nicht so dolle. Versuche nun folgendes:

  • Ändere den Populationsmittelwert auf 48 Jahre. Wie ändert sich die Power und der Betafehler. Warum hat sich die p-Verteilung geändert?
  • Ändere den Populationsmittelwert au 42 Jahre. Dies bedeutet, dass es keinen Effekt gibt. Wo befindet sich nun der Alphafehler?
  • Ändere den Populationsmittelwert auf 45 Jahre und erhöhe die Stichprobengröße auf 30 Manager. Beschreibe, wie sich die p-Verteilung ändert. Überlege dir, warum sich die p-Verteilung dementsprechend ändert?

Versuche diese Übungen wirklich umzusetzen. Wir werden nun die Hypothese testen und damit nur eines der vielen möglichen Experimente machen. Wir wissen aber bereits, dass wir nicht sehr viel Power haben, einen Effekt, falls er existiert, zu finden. Sollte der Populationsmittelwert bei 45 Jahren liegen, werden wir in 44% der Fällen weiterhin von der Nullhypothese ausgehen, obwohl es tatsächlich einen Unterschied gibt. 10 Manager sind daher nicht genug, unsere Hypothese zu prüfen, wir bräuchten mehr. Nichtsdestotrotz werden wir die Hypothese nun prüfen.

Beginnen wir mit dem F-Test. wir suchen die Fläche links der Verteilung des empirischen F-Wertes 1.25. Diesen können wir uns grafisch darstellen:

Darstellung des empirischen Kennwertes von 1.25 bei einer F-Verteilung mit df1 = 1 und df2 = 9

Figure 6.27: Darstellung des empirischen Kennwertes von 1.25 bei einer F-Verteilung mit df1 = 1 und df2 = 9

Rot dargestellt ist der kritische Bereich, welcher uns zwingen würde die Nullhypothese abzulehnen. Diese rote Fläche entspricht 5%. Wie groß ist allerdings die Fläche rechts unseres empirischen F-Wertes und damit die Wahrscheinlichkeit für einen solchen oder größeren F-Wert? Dies können wir mit der Funktion pf berechnen:

## [1] 0.2925063

Wir müssen die Fläche von 1 abziehen, um die Fläche rechts vom empirischen Kennwert zu erhalten. Die Fläche umfasst 29,25%. Dies ist kein ungewöhnlicher Wert, wir werden daher die Nullhypothese nicht ablehnen. Das Ergebnis können wir in unsere Tabelle notieren:

Source SSE df MSE F PRE p
Reduction \(52.9\) \(1\) \(52.9\) \(1.25\) \(0.12\) \(.29\)
Error \(380.1\) \(9\) \(42.33\)
Total Error \(433\) \(10\)

Achte darauf, dass wir diese Hypothese ungerichtet getestet haben. Der F-Test kann nur Aussagen darüber machen, ob es Unterschiede zwischen Werten gibt, nicht in welche Richtung diese Unterschiede gehen. Wir können allerdings den p-Wert durch zwei teilen. Aus zwei Gründen. Erstens, wir haben eine gerichtete Hypothese definiert: Sind Manager älter als 42 Jahre, nicht sind Manager größer oder kleiner als 42. Zweitens kennen wir den Mittelwert der Stichprobe. Dieser Mittelwert ist hypothesenkonform größer als 42. Wäre dieser Mittelwert kleiner, müssten wir den p-Wert mal zwei berechnen. Achte allerdings darauf, dass wir solche Teilungen von p-Werte nur machen können, wenn der Freiheitsgrad der Reduktion 1 entspricht. Berechnen wir den p-Wert:

## [1] 0.1462532

Die korrekte Tabelle wäre daher:

Source SSE df MSE F PRE p
Reduction \(52.9\) \(1\) \(52.9\) \(1.25\) \(0.12\) \(.15\)
Error \(380.1\) \(9\) \(42.33\)
Total Error \(433\) \(10\)

Wir können das gleich Experiment ebenso mit Hilfe einer t-Verteilung testen. Als Erinnerung, einen t-Test können wir immer rechnen, wenn das erweiterte Model einen Parameter mehr hat als das kompakte Modell. Wir kennen bereits die Formel zur Berechnung des t-Wertes mit einer Stichprobe:

\[ t_{df} = \frac{\hat{X} - B_0}{se} \]

\[ se = \frac{s}{\sqrt{N}} \]

Unser t-Wert lautet daher:

## [1] 1.119181

Die Wahrscheinlichkeit für ein solche einen t-Wert lautet:

## [1] 0.1460211

Vergleiche nun diesen p-Wert mit dem p-Wert, den wir beim F-Test berechnet haben. Es ist der gleiche. Wir haben demnach gezeigt, dass beide Tests zu äquivalenten Ergebnissen führen.

Normalerweise würden wir allerdings nicht solche händischen Berechnungen durchführen, sondern ein Programm wie Jamovi hierfür verwenden. Berechnen wir daher den t-Test in Jamovi:

Zunächst laden wir die Daten in Jamovi und wählen den ONe-Sample t-Test aus:

Als nächstes bestimmen wir den Wert \(B_0\) mit 42 und wählen aus, dass wir eine gerichtete Hypothese \(b_0 > B_0\) testen möchten:

Jamovi gibt dir folgendes Ergebnis zurück:

[images/05_statistische_modelle_2/jmv3.png]

Du kannst erkennen, dass die Ergebnisse exakt gleich sind, wie wir sie berechnet haben. Als nächstes wählst du die Option Syntaxmode im Menu rechts oben aus (die drei weißen Punkte rechts oben im Fenster) und kopierst den Code:

Abschließend fügst du den Code in R ein:

Achte darauf, dass du den Namen des Dataframes data = my_sample anpasst. Zum Schluss berichten wir unser Ergebnis:

Um zu prüfen, ob Manager älter als 42 Jahre sind, wurde ein t-Test für eine Stichprobe berechnet. Der t-Test ergab keinen signifikanten Unterschied, t(9) = 1.12, p = .15. Die Ergebnisse deuten darauf hin, dass Manager nicht älter als 42 Jahre sind.