8.10 Miniprojekt

Den Datensatz für das Miniprojekt findest du hier.

In diesem Miniprojekt werden wir folgende Hypothese mit Hilfe der multiplen Regression prüfen: Hat der Alkoholkonsum und die Pendelstrecke von Schüler*innen einen Einfluss auf deren Lernzeit. Man könnte annehmen, dass Schüler*innen, die länger Pendeln müssen, weniger Lernzeit haben und dass ein stärkerer Alkoholkonsum der Schüler*innen zu weniger Lernzeit führt. Für diese Hypothese schauen wir uns folgende Variablen an:

  • studytime - weekly study time (numeric: 1 - <2 hours, 2 - 2 to 5 hours, 3 - 5 to 10 hours, or 4 - >10 hours)
  • traveltime - home to school travel time (numeric: 1 - <15 min., 2 - 15 to 30 min., 3 - 30 min. to 1 hour, or 4 - >1 hour)
  • Walc - weekend alcohol consumption (numeric: from 1 - very low to 5 - very high)

Wir werden diesmal zudem nur mit einer Stichprobe des Datensatzes rechnen. In der experimentellen Sozialforschung haben wir nicht immer so hohe Stichproben. Zudem können wir durch die Stichprobe nochmal das Konzept der Power besprechen. Laden wir zunächst die Pakete und die Daten:

Wie immer ist es ratsam, sich zunächst die Daten anzusehen:

## Observations: 20
## Variables: 33
## $ school     <chr> "GP", "GP", "GP", …
## $ sex        <chr> "M", "F", "M", "F"…
## $ age        <dbl> 17, 16, 17, 15, 16…
## $ address    <chr> "U", "U", "U", "R"…
## $ famsize    <chr> "GT3", "GT3", "GT3…
## $ Pstatus    <chr> "T", "T", "T", "T"…
## $ Medu       <dbl> 3, 4, 3, 1, 4, 4, …
## $ Fedu       <dbl> 3, 3, 3, 1, 2, 3, …
## $ Mjob       <chr> "other", "other", …
## $ Fjob       <chr> "other", "at_home"…
## $ reason     <chr> "reputation", "cou…
## $ guardian   <chr> "father", "mother"…
## $ traveltime <dbl> 1, 1, 1, 1, 2, 2, …
## $ studytime  <dbl> 2, 3, 2, 2, 2, 1, …
## $ failures   <dbl> 0, 0, 0, 2, 0, 0, …
## $ schoolsup  <chr> "no", "yes", "no",…
## $ famsup     <chr> "no", "yes", "yes"…
## $ paid       <chr> "no", "yes", "no",…
## $ activities <chr> "yes", "no", "yes"…
## $ nursery    <chr> "no", "yes", "yes"…
## $ higher     <chr> "yes", "yes", "yes…
## $ internet   <chr> "yes", "yes", "yes…
## $ romantic   <chr> "no", "no", "yes",…
## $ famrel     <dbl> 4, 5, 4, 3, 5, 3, …
## $ freetime   <dbl> 3, 3, 3, 3, 3, 3, …
## $ goout      <dbl> 4, 5, 4, 4, 3, 3, …
## $ Dalc       <dbl> 1, 1, 2, 2, 1, 1, …
## $ Walc       <dbl> 4, 1, 3, 4, 1, 1, …
## $ health     <dbl> 4, 3, 4, 5, 1, 4, …
## $ absences   <dbl> 4, 0, 12, 2, 0, 2,…
## $ G1         <dbl> 6, 7, 12, 8, 11, 1…
## $ G2         <dbl> 5, 9, 12, 6, 10, 1…
## $ G3         <dbl> 6, 8, 11, 5, 10, 1…

Es gibt insgesamt 33 Variablen und 20 Schüler*innen im Datensatz.

8.10.1 Explorative Datenanalyse

Es wäre zunächst interessant, sich den Zusammenhnag der beiden unabhängigen Variablen auf die abhängige Variable zu betrachten. Hierzu verwenden wir unser bisheriges tidyverse Wissen, um zwei Steudagramme zu zeichnen. Im ersten Schritt wählen wir die drei Variablen aus:

Nun können wir die Daten, welche momentan in einem weiten Format vorliegen, in ein langes Format überführen:

## # A tibble: 40 x 3
##    studytime independent_v value
##        <dbl> <chr>         <dbl>
##  1         2 Walc              4
##  2         2 traveltime        1
##  3         3 Walc              1
##  4         3 traveltime        1
##  5         2 Walc              3
##  6         2 traveltime        1
##  7         2 Walc              4
##  8         2 traveltime        1
##  9         2 Walc              1
## 10         2 traveltime        2
## # … with 30 more rows

Mit Hilfe des langen Formats sind wir nun in der Lage, die Steudiagramme zu zeichnen:

Du siehst bereits, dass beide abhängigen Variablen einen negativen Zusammenhang mit der Lernzeit haben. Sowohl ein erhöhter Alkoholkonsum als auch die Pendelzeit stehen mit weniger Lernzeit in Verbindung. Unsere Theorie scheint daher nicht allzuschlecht zu sein.

Die Korrelationen dieser Variablen lauten:

## [1] -0.5990381
## [1] -0.3032353
## [1] -0.1528942

Es gibt eine gewisse Redundanz zwischen dem Alkoholkonsum und der Pendelzeit. Zudem scheint der Alkoholkonsum stärker mit der Lernzeit im Zusammenhang zu stehen als die Pendelzeit. Schließlich kann man ja auch beim Pendeln lernen.

Um einen besseren Überblick zu erhalten, ist es ebenso ratsam, sich die drei Variablen als Balkendiagramme anzeigen zu lassen:

Um Ausreißer zu erkennen, können wir zudem drei Boxplots erstellen:

8.10.2 Deskriptive Daten

Schauen wir uns als nächstes die deskriptiven Daten an. Hierfür können wir die Funktion in Jamovi verwenden:

## 
##  DESCRIPTIVES
## 
##  Descriptives                                              
##  --------------------------------------------------------- 
##                          traveltime    studytime    Walc   
##  --------------------------------------------------------- 
##    N                             20           20      20   
##    Missing                        0            0       0   
##    Mean                        1.60         2.10    2.25   
##    Median                      1.50         2.00    1.50   
##    Standard deviation         0.681         1.07    1.52   
##    Minimum                     1.00         1.00    1.00   
##    Maximum                     3.00         4.00    5.00   
##  ---------------------------------------------------------

Der Datensatz umfasst keine fehlenden Werte. Der wöchenendliche Alkoholkonsum der Studierenden ist unter dem Durchschnitt von 2.5. Zudem pendeln die SuS weniger als 30 Minuten zur Schule im Schnitt. Wir könnten die gleichen deskriptiven Werte auch direkt in R durch group_by und summarise berechnen:

## # A tibble: 3 x 7
##   variable    mean    sd median minimun maximum     n
##   <chr>      <dbl> <dbl>  <dbl>   <dbl>   <dbl> <int>
## 1 studytime   2.1  1.07     2         1       4    20
## 2 traveltime  1.6  0.681    1.5       1       3    20
## 3 Walc        2.25 1.52     1.5       1       5    20

8.10.3 Poweranalyse

Die Frage ist, ob wir durch unsere Regression überhaupt einen Zusammenhang finden können. Insgesamt haben wir 20 Probanden im Datensatz:

## [1] 20

Überlegen wir uns einmal die Power, die wir bei einem kleinen Effekt hätten. Unser erweitertes Modell hätte zwei Parameter mehr als das kompakte Modell und insgesamt läge der Freiheitsgrad des erweiterten Modells bei \(df_2 = 20 - 3\), da wir drei Parameter im erweiterten Modell haben. Berechnen wir die Stichprobengröße, die wir bei einem kleinen Effekt benötigen würden:

## 
##      Multiple regression power calculation 
## 
##               u = 2
##               v = 68.90126
##              f2 = 0.14
##       sig.level = 0.05
##           power = 0.8

Wir bräuchten bei einem kleinen Effekt mindestens 71 Probanden. Die haben wir allerdings nicht. Das bedeutet, wir würden mit großer Wahrscheinlichkeit den Effekt mit unserer Stichprobengröße nicht nachweisen können, sollten die beiden Prädiktoren einen kleinen Effekt auf die abhängige Variable haben. Überlegen wir uns also wie groß der Effekt sein müsste, damit wir ihn mit einer Power von 80% finden könnten:

## 
##      Multiple regression power calculation 
## 
##               u = 2
##               v = 17
##              f2 = 0.5777122
##       sig.level = 0.05
##           power = 0.8

Der Effekt müsste sehr groß sein: \(f^2 = 0.57\). Dies bedeutet, wir finden höchstwahrscheinlich nur ein signifikantes Ergebnis, sofern der Effekt groß ist. Wenn nicht, werden wir mit unserer Stichprobengröße nicht weiter kommen.

8.10.4 Statistisches Hypothesentesten

Nachdem wir einen Eindruck von den Daten erhalten haben und eine Poweranalyse durchgeführt haben, können wir als nächstes unsere Hypothese testen. Hierfür prüfen wir die Hypothese zunächst in Jamovi und kopieren anschließend den Code in R:

## 
##  LINEAR REGRESSION
## 
##  Model Fit Measures                                                        
##  ------------------------------------------------------------------------- 
##    Model    R        R²       Adjusted R²    F       df1    df2    p       
##  ------------------------------------------------------------------------- 
##        1    0.720    0.518          0.462    9.15      2     17    0.002   
##  ------------------------------------------------------------------------- 
## 
## 
##  MODEL SPECIFIC RESULTS
## 
##  MODEL 1
## 
##  Model Coefficients - studytime                         
##  ------------------------------------------------------ 
##    Predictor     Estimate    SE       t        p        
##  ------------------------------------------------------ 
##    Intercept        4.168    0.569     7.33    < .001   
##    traveltime      -0.636    0.268    -2.37     0.030   
##    Walc            -0.466    0.120    -3.88     0.001   
##  ------------------------------------------------------

Tatsächlich finden wir einen signifikanten Effekt für beide Prädiktoren. Dieses Ergebnis deutet darauf hin, dass sowohl der Alkoholkonsum und die Pendelzeit mit der Lernzeit in Verbindung stehen. Die Poweranalyse hat uns gezeigt, dass wir wahrscheinlich ein signifikantes Ergebnis erzielen, wenn der Effekt groß ist. In der Tat haben wir eine große Varianzaufklärung von \(R^2_{adj} = 0.46\). Als \(f^2\) Wert umgerechnet hätten wir:

\[ f^2 = \frac{R^2}{1 - R^2} \]

## [1] 0.8518519

Der Effekt ist noch größer als wir ihn vorhin in der Poweranalyse berechnet haben.

Die gleichen Berechnungen können wir mit Hilfe der Funktion lm direkt in R umsetzen:

## 
## Call:
## lm(formula = studytime ~ Walc + traveltime, data = student_data_sample)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.59840 -0.35150 -0.04701  0.36027  1.57141 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   4.1677     0.5687   7.328 1.18e-06 ***
## Walc         -0.4665     0.1202  -3.880   0.0012 ** 
## traveltime   -0.6363     0.2680  -2.374   0.0297 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.7858 on 17 degrees of freedom
## Multiple R-squared:  0.5185, Adjusted R-squared:  0.4618 
## F-statistic: 9.152 on 2 and 17 DF,  p-value: 0.002006

Das Ergebnis unserer Hypothese können wir nun berichten:

Um den Einfluss des Alkoholkonsums und der Pendelzeit der SuS auf die Lernzeit der SuS zu untersuchen, wurde eine multiple Regression berechnet. Die multiple Regression ergab einen signifikanten Effekt der beiden Prädiktoren, F(2, 17) = 9.15, p < .001, \(R^2_{adj} = .46\). Die Untersuchung der einzelnen Prädiktoren ergab, dass der Prädiktor Alkoholkonsum einen signifikanten Effekt auf die Lernzeit der SuS hatte, t(19) = -3.880, p < .001, was darauf hindeutet, dass wochenendlicher Alkoholkonsum im einem Zusammenhang mit geringerer Lernzeit steht. Für den Prädiktor Pendelzeit ergab sich ebenso ein signifikanter Effekt, t(19) = -2.374, p = .03, was darauf hindeutet, dass die Pendelzeit in einem negativen Zusammenhang mit der Lernzeit steht.