12.4 Messwiederholungsanalyse

Wir werden nun beginnen, eine Fragestellung zu beantworten, bei der die Daten gekreuzt vorliegen. Dieses Beispiel wird herkömmlich als Messwiederholungshypothese (Repeated Measures ANOvA) bezeichnet. Zur Erinnerung: Wir möchten überprüfen, ob verschiedene drei Lernstrategien A und B unterschiedlich erfolgreich sind. Hierzu lassen wir Probanden 18 Probanden über drei Wochen je ein der zwei Lernstrategien ausprobieren. Neun Probanden erhalten Lernstrategie A, neun Probanden erhalten Lernstrategie B.

id week_zero week_four week_eight treatment
1 6.42 5.83 5.75 B
2 6.76 6.20 6.13 A
3 6.56 5.83 5.71 B
4 4.80 4.27 4.15 A
5 8.43 7.71 7.67 B
6 7.49 7.12 7.05 A
7 8.05 7.25 7.10 B
8 5.05 4.63 4.67 A
9 5.77 5.31 5.33 B
10 3.91 3.70 3.66 A
11 6.77 6.15 5.96 B
12 6.44 5.59 5.64 B
13 6.17 5.56 5.51 A
14 7.67 7.11 6.96 A
15 7.34 6.84 6.82 A
16 6.85 6.40 6.29 B
17 5.13 4.52 4.45 A
18 5.73 5.13 5.17 B

Das Design der Studie ist so gestaltet, dass die Daten über die Wochen gekreuzt sind. Dadurch, dass für jeden Probanden das konzeptuelle Wissen drei mal getestet wird (über acht Wochen) verteilen sich die Daten über die Ausprägungen des Faktors Zeit. Wir müssen daher einen Weg finden, mit dieser Abhängigkeit umzugehen. Gleichzeitig sind die Probanden zwischen den Versuchsgruppen unabhängig, da wir die Versuchsgruppenzuordnung randomisiert haben. Wer in welcher Versuchsgruppe ist, beruht auf Zufall.

Wir werden im folgenden eine Fragestellung beantworten. Die Fragestellung lautet, ob sich das konzeptuelle Wissen der Probanden über die acht Wochen geändert hat. Hierzu werden wir zunächst fälschlicherweise eine einfaktorielle Varianzanalyse rechnen, um später die Unterschiede zu der Messwiederholungsanalyse zu zeigen. Dieser Test ist einer der einfachsten Tests, wenn wir abhängige Daten vorliegen haben. Es könnte ebenso vorkommen, dass wir sowohl gekreuzte Daten als auch unabhängige Gruppenunterschiede vorliegen haben. In diesem Fall müssten wir die Berechnungen weiter angleichen. Wir werden in diesem Modul allerdings die klassische Frage der Messwiederholungsanalyse testen, indem wir die Veränderung einer abhängigen Variable über mehrere Messzeitpunkte testen.

12.4.1 Einfaktorielle Varianzanalyse ohne Beachtung der gekreuzten Datenstruktur

Beginnen wir die Fragestellung zu beantworten, indem wir fälschlicherweise eine einfaktorielle Varianzanalyse berechnen. Das heißt, wir untersuchen, ob es einen Unterschied im konzeptuellen Wissens zwischen den drei Messzeitpunkten gibt. Das heißt, wir ignorieren die Tatsache, dass die Daten über die Messzeitpunkte gekreuzt sind. Da wir eine positive Abhängigkeit erwarten, müsste der F-Wert in diesem Fall kleiner als bei einer Messwiederholungsanalyse sein.

Zunächst müssen wir die vorliegenden Daten in ein langes Format überführen, bevor wir die einfaktorielle Varianzanalyse rechnen können. Die Daten liegen momentan in einem weiten Format vor:

## # A tibble: 18 x 5
##       id week_zero week_four week_eight treatment
##    <dbl>     <dbl>     <dbl>      <dbl> <fct>    
##  1     1      6.42      5.83       5.75 B        
##  2     2      6.76      6.2        6.13 A        
##  3     3      6.56      5.83       5.71 B        
##  4     4      4.8       4.27       4.15 A        
##  5     5      8.43      7.71       7.67 B        
##  6     6      7.49      7.12       7.05 A        
##  7     7      8.05      7.25       7.1  B        
##  8     8      5.05      4.63       4.67 A        
##  9     9      5.77      5.31       5.33 B        
## 10    10      3.91      3.7        3.66 A        
## 11    11      6.77      6.15       5.96 B        
## 12    12      6.44      5.59       5.64 B        
## 13    13      6.17      5.56       5.51 A        
## 14    14      7.67      7.11       6.96 A        
## 15    15      7.34      6.84       6.82 A        
## 16    16      6.85      6.4        6.29 B        
## 17    17      5.13      4.52       4.45 A        
## 18    18      5.73      5.13       5.17 B

Wandeln wir daher die Daten zunächst in ein langes Format um:

## # A tibble: 54 x 4
##       id treatment messzeitpunkt value
##    <dbl> <fct>     <chr>         <dbl>
##  1     1 B         week_zero      6.42
##  2     1 B         week_four      5.83
##  3     1 B         week_eight     5.75
##  4     2 A         week_zero      6.76
##  5     2 A         week_four      6.2 
##  6     2 A         week_eight     6.13
##  7     3 B         week_zero      6.56
##  8     3 B         week_four      5.83
##  9     3 B         week_eight     5.71
## 10     4 A         week_zero      4.8 
## # … with 44 more rows

Nun, da wir ein langes Format haben, können wir die Daten über Jamovi mit Hilfe einer einfakoriellen Varianzanalyse ausrechnen:

## 
##  ANOVA
## 
##  ANOVA                                                                     
##  ------------------------------------------------------------------------- 
##                     Sum of Squares    df    Mean Square    F       p       
##  ------------------------------------------------------------------------- 
##    messzeitpunkt              4.32     2           2.16    1.66    0.200   
##    Residuals                 66.21    51           1.30                    
##  -------------------------------------------------------------------------

Diese Ergebnisse können wir in einer Tabelle darstellen:

Source Sum of Squares df Mean Square F p
Treatment 4.32 2 2.16 1.66 0.2
Error 66.21 51 1.3
Total 70.53 53

Gehen wir die Tabelle Stück für Stück durch. Die Total Sum of Squares geben an, wie viele Fehler im kompakten Modell existieren, welches das konzeptuelle Wissen auf Grundlage des Mittelwerts der abhängigen Variable schätzt: \(Y_i = b_0\). Die totale Varianz teilt sich auf, in die Varianz, welche durch das erweiterte Modell erklärt wird (Treatment) und der Varianz, die noch übrig bleibt (Error). Das erweiterte Modell mit den drei Messzeitpunkten, \(Y_i = b_0 + b_1 * X_1 + b_2 + X_2\) reduziert die Fehler des kompakten Modells um den Wert 4.32 Quadratsummen. Wir können daher 66.21 der Quadratsummen nicht durch unser erweitertes Modell erklären. Die Freiheitsgrade geben uns an, dass das erweiterte Modell zwei Parameter mehr hat als das kompakte Modell. Da das erweiterte Modell bereits drei Parameter von möglichen 54 aufnimmt, können nur noch 51 weitere Parameter in das erweiterte Modell aufgenommen werden. Insgesamt zeigt der F-Wert, dass die Parameter des erweiterten Modells 1.66 mal besser in der Lage ist die Fehler des kompakten Modells zu reduzieren als ein willkürlicher weiterer Parameter.

Wir können die Varianzen noch einmal grafisch darstellen. Die totale Varianz lässt sich in der Varianzanalyse immer in weitere Varianzen aufteilen. Bei einer einfaktoriellen Varianzanalyse teilt sich die totale Varianz in die Varianz auf, die wir durch das erweiterte Modell erklären können und die Varianz, welche noch übrig bleibt (Residualvarianz).

Wir werden später die Varianzen noch weiter zerlegen und daran auch besser erkennen, weshalb wir mit einer einfaktoriellen Varianzanalyse bei gekreuzten Daten unterpowered sind. Zunächst bleibt die Feststellung, dass wir auf Grundlage dieses falsch angewandten Tests keine Signifikanz erreichen.

12.4.2 Korrekte Messwiederholungsanalyse

Wir sind nun soweit, die Abhängigkeit der Daten zu eliminieren. Wir wissen, dass wir in unserem erweiterten Modell die drei Messzeitpunkte als Kontraste kodieren. Da wir drei Messzeitpunkte haben, benötigen wir zwei Prädiktoren:

\[ Y_i = b_0 + b_1 * X_1 + b_2 * X_2 \]

Aus dem Modul der einfaktoriellen Varianzanalyse kennen wir bereits eine Möglichkeit für zwei Prädiktoren orthogonale Kontraste zu bestimmen:

\(\lambda_{1}\) \(\lambda_{2}\)
Woche 0 -2 0
Woche 4 1 -1
Woche 8 1 1
Summe 0 0

Um die Abhängigkeit zu eliminieren, wenden wir einen Trick an. Wir berechnen für jeden Probanden einen Wert. Dieser Wert ist eine besondere Form des Mittelwerts der drei Einzelwerte eines jeden Probanden. Im Grunde versuchen wir für jeden Prädiktor und für jeden Probanden nur einen Wert zu generieren. Bisher hatten wir für jeden Probanden drei Werte, welche wir zur Berechnung der Quadratsummen genommen haben. Genau diese drei Werte sind allerdings abhängig voneinander. Um die Abhängigkeit zu eliminieren, bilden wir einen Wert für jeden Prädiktor, welcher auf Grundlage der Kontraste berechnet wird. Die Formel zur Berechung dieser sieht folgendermaßen aus:

\[ W_i = \frac{\sum_k \delta_h * Y_{hi}}{\sqrt{\sum_h \delta^2_h}} \]

  • \(W_i\): Steht für die standardisierten Abweichungen der drei Messzeitpunkte pro Proband. Ist \(W_i\) groß ist dies ein Indiz dafür, dass das konzeptuelle Wissen eines Probanden innerhalb der drei Messzeitpunkte sehr variiert.
  • \(\delta_h\): Bezeichnet den jeweiligen Kontrastgewicht. Beispielsweise haben wir beim ersten Kontrast \(\lambda_1\) die Gewichte -2, 1 und 1.
  • \(Y_{hi}\): Steht für die abhängige Variable des jeweiligen Probanden pro Messzeitpunkt.

\(W_i\) repräsentiert demnach abhängig eines bestimmten Kontrast, wie groß die Abweichungen des Probanden innerhalb der drei Messzeitpunkte sind. Rechnen wir den Wert \(W_1\) zunächst aus, indem wir die Werte des ersten Kontrastes \(\lambda_1\) für den ersten Probanden eingeben:

## # A tibble: 3 x 4
##      id treatment messzeitpunkt value
##   <dbl> <fct>     <chr>         <dbl>
## 1     1 B         week_zero      6.42
## 2     1 B         week_four      5.83
## 3     1 B         week_eight     5.75

Die Werte des ersten Kontrastes sind:

\(\lambda_{1}\)
Woche 0 -2
Woche 4 1
Woche 8 1
Summe 0

\[ W_1 = \frac{-2 * 6.42 + 1 * 5.83 + 1 * 5.75}{\sqrt{(-2)^2 + 1^2 + 1^2}} = -0.514 \]

## [1] -0.5143928

Dieser Wert würde genügen, wenn wir eine Messwiederholung für den spezifischen Kontrast \(\lambda_{1}\) berichten möchten. Allerdings liefern gängige Statistikprogramme zunächst allgemeine Tests mit der einem Freiheitsgrad von > 1. Dies bedeutet, wir testen mit Hilfe von Jamovi oder SPSS zunächst, ob sich die Gruppen überhaupt unterscheiden, nicht, welche Gruppen sich voneinander unterscheiden.

Wir müssen daher das gleiche Prinzip für unseren zweiten Kontrast anwenden:

\(\lambda_{2}\)
Woche 0 0
Woche 4 -1
Woche 8 1
Summe 0

\[ W_2 = \frac{0 * 6.42 + (-1) * 5.83 + 1 * 5.75}{\sqrt{0^2 + (-1)^2 + 1^2}} = -0.057 \]

## [1] -0.05656854

Beide Werte können wir pro Proband mit Hilfe von R berechnen:

## # A tibble: 18 x 4
##       id treatment    w_1     w_2
##    <dbl> <fct>      <dbl>   <dbl>
##  1     1 B         -0.514 -0.0566
##  2     2 A         -0.486 -0.0495
##  3     3 B         -0.645 -0.0849
##  4     4 A         -0.482 -0.0849
##  5     5 B         -0.604 -0.0283
##  6     6 A         -0.331 -0.0495
##  7     7 B         -0.714 -0.106 
##  8     8 A         -0.327  0.0283
##  9     9 B         -0.367  0.0141
## 10    10 A         -0.188 -0.0283
## 11    11 B         -0.584 -0.134 
## 12    12 B         -0.674  0.0354
## 13    13 A         -0.518 -0.0354
## 14    14 A         -0.518 -0.106 
## 15    15 A         -0.416 -0.0141
## 16    16 B         -0.412 -0.0778
## 17    17 A         -0.527 -0.0495
## 18    18 B         -0.474  0.0283

Wir können nun unsere beiden Kontraste testen, indem wir einen F-Test mit folgenden Modellen pro Kontrast berechnen:

\[ \begin{aligned} Model_{A} &= b_0 \\ Model_{C} &= 0 \end{aligned} \] Wir prüfen demnach, ob unser zusammengefasster Wert \(W_1\) oder \(W_2\) signifikant unterschiedlich von 0 ist. Ist dies der Fall, können wir davon ausgehen, dass die abhängige Variable abhängig der Woche variiert. \(b_0\) ist nichts anderes als der Mittelwert von \(w_1\) und damit die Abweichungen der abhängigen Variable innerhalb der Probanden für diesen Kontrast. Im folgenden können wir die Sum of Squares und den F-Wert berechnen:

## [1] 4.58775
## [1] 0.303675
## [1] 4.284075
## [1] 0.9338074
## [1] 239.8264
## [1] 1.864131e-11

Für eine bessere Übersicht, können wir diese Werte in einer Tabelle darstellen:

Source Sum of Squares df Mean Square F p
Treatment 4.28 1 4.28 239.83 < .001
Error 0.30 17 0.02
Total 4.58 18

Die Ergebnisse zeigen, dass sich das konzeptuelle Wissen zwischen Woche 4/8 und Woche 0 signifikant voneinander unterscheiden. Wir können daher nicht mehr die Annahme treffen, dass der Unterschied bei 0 liegt. Die gleiche Berechnung können wir nun für den zweiten Kontrast ausführen:

## [1] 0.07765
## [1] 0.04218056
## [1] 0.03546944
## [1] 0.4567861
## [1] 14.29523
## [1] 0.001491419
Source Sum of Squares df Mean Square F p
Treatment 0.04 1 0.04 14.29 < .01
Error 0.04 17 0
Total 0.08 18

Wir finden ebenso einen zweiten signifikanten Kontrast. Das konzeptuelle Wissen unterscheidet sich zwischen Woche 4 und Woche 8.

12.4.3 Vergleich Kontraste vs. Omnibustest

Wir haben erfolgreich geschafft, Messwiederholungsanalysen für orthogonale Kontraste bei gekreuzten Daten zu rechnen. Die meisten Softwares berichten in der Regel leider nicht direkt solche Kontraste, sondern sogenannte Omnibustests, die sich dadurch auszeichnen, dass sie einen Freiheitsgrad von > 1 haben und somit keine spezifischen Hypothesen berichten. Wir können auf Grundlage eines Omnibustests lediglich berichten, dass sich Gruppen voneinander unterscheiden. Nicht, welche Gruppen sich voneinander unterscheiden. Wir werden nun sehen, welche Beziehung zwischen diesen Omnibustests und unsere Kontrasten herrscht, indem wir zeigen werden, dass wir bei beiden Tests lediglich andere Varianzen miteinander vergleichen. Beginnen wir damit, dass wir unsere Ergebnisse in einer Tabelle zusammen fassen:

Source Sum of Squares df Mean Square F p
Treatment Kontrast 1 4.32 1 4.28 239.83 < .001
Treatment Kontrast 2 0.04 1 0.04 14.29 < .01
Treatment Gesamt 4.32 2 2.16 216 < .001
Error Within Kontrast 1 0.30 17 0.02
Error Within Kontrast 2 0.04 17 0.00
Error Within Gesamt 0.34 34 0.01

In dieser Tabelle haben wir sowohl die Reduktion der Fehler durch den jeweiligen Kontrast zusammen gezählt als auch die Fehler der beiden Kontraste zusammen gezählt. Zur Erinnerung, die Sum of Squares der Treatments kennzeichnen, wie hoch der Anteil der Fehler im kompakten Modell durch das erweiterte Modell reduziert wurde. Die Errors kennzeichnen, wie viele Fehler im erweiterten noch übrig bleiben. Dies entspricht jener Varianz, welche wir nicht erklären können. Wir hatten vorhin bei der einfaktoriellen Varianzanalyse die Varianz in diejenige Varianz zwischen den Gruppen (Treatmentvarianz) und der Residualvarianza aufgeteilt:

Diese Residualvarianz können wir allerdings weiter in Varianzen aufteilen. Genauer ergibt sich die Residualvarianz aus der Varianz, die zwischen den Gruppen entsteht und der Varianz, die innerhalb der Gruppen entsteht. Innerhalb bedeutet, dass die Daten innerhalb der Probanden und den Messzeitpunkten messen. Diese Aufteilung sieht folgendermaßen aus:

Bei der einfaktoriellen Varianzanalyse, in welcher wir die Annahme der Abhängigkeit verletzt haben, haben wir die Treatmentvarianz in Beziehung zur gesamten Residualvarianz gesetzt. Die war allerdings ein Fehler, da uns für unsere Frage interessiert, inwieweit das Treatment, sprich der Messzeitpunkt, die Fehler innerhalb der Probanden reduziert. Die Fehler/die Varianz zwischen den Probanden ist für uns unerheblich. Aus diesem Grund haben wir bei der einfaktoriellen Varianzanalyse auch eine so hohe Residualvarianz:

Source Sum of Squares df Mean Square F p
Treatment 4.32 2 2.16 1.66 0.2
Error 66.21 51 1.3
Total 70.53 53

Bei der Messwiederholungsanalyse haben wir nun die Treatmentvarianz mit der Varianz innerhalb der Personen verglichen:

Source Sum of Squares df Mean Square F p
Treatment Gesamt 4.32 2 2.16 216 < .001
Error Within 0.34 34 0.01
Error Between 65.87 17 3.87
Total 70.53 53

Wenn du nun beide Tabellen miteinander vergleichst, siehst du, dass in beiden Fällen die Treatmentvarianz gleich ist. Diese Varianz ist in der obigen Grafik links dargestellt. Der Unterschied beider Tests liegt darin, dass wir eine andere Fehlervarianz annehmen. Bei der falschen einfaktoriellen Varianzanalyse die gesamte Residualvarianz berechnet haben, betrachten wir bei der Messwiederholungsanalyse lediglich die Varianz innerhalb der Probanden. Du kannst dies auch prüfen, indem du beide Residualvarianzen (Error Within + Error Between) zusammen zählst: \(65.87 + 0.34 = 66.21\). Dieser Wert ist gleich mit der Fehlervarianz in der einfaktoriellen Varianzanalyse.

Dieses Ergebnis können wir nun in Jamovi reproduzieren, ohne die Schritte einzeln durchzugehen. Hierzu importierst du zunächst den Datensatz und und wählst Repeated Measures ANOVA aus:

Im nächsten Schritt wählst du die einzelnen Levels deiner Messwiederholung aus. In unserem Fall sind dies die drei Messzeitpunkte. Die Daten sollten für Jamovi in einem weiten Format vorliegen. In manchen Fällen musst die Daten von einem langen Format in ein weites Format übertragen. Falls du nicht weißt wie, schau nochmal in das zweite Modul dieses Kurses (pivot_longer und pivot_wider):

Zuletzt kopierst du den R-Code in R:

## 
##  REPEATED MEASURES ANOVA
## 
##  Within Subjects Effects                                                          
##  -------------------------------------------------------------------------------- 
##                   Sum of Squares    df    Mean Square    F      p         <U+03B7>²-p    
##  -------------------------------------------------------------------------------- 
##    RM Factor 1             4.320     2         2.1598    212    < .001    0.926   
##    Residual                0.346    34         0.0102                             
##  -------------------------------------------------------------------------------- 
##    Note. Type 3 Sums of Squares
## 
## 
##  Between Subjects Effects                                                   
##  -------------------------------------------------------------------------- 
##                Sum of Squares    df    Mean Square    F    p        <U+03B7>²-p    
##  -------------------------------------------------------------------------- 
##    Residual              65.9    17           3.87                          
##  -------------------------------------------------------------------------- 
##    Note. Type 3 Sums of Squares

Wie du siehst erhalten wir ähnliche Ergebnisse. Im Vergleich nochmal unsere Tabelle:

Source Sum of Squares df Mean Square F p
Treatment Gesamt 4.32 2 2.16 216 < .001
Error Within 0.34 34 0.01
Error Between 65.87 17 3.87
Total 70.53 53

Der F-Wert ist aufgrund kleiner Rundungsfehler etwas kleiner. Ansonsten erhalten wir die gleichen Ergebnisse. Wir können auf Grundlage dieser Berechnungen daher sagen, dass sich das konzeptuelle Wissen zwischen den drei Messzeitpunkten unterscheidet. Durch unsere spezifischen Kontraste können wir ebenso berichten, welche Gruppen sich voneinander unterscheiden. Leider hat Jamovi nicht die Möglichkeit, Kontraste direkt zu berechnen.

Würden wir die Ergebnisse in einem Fachartikel berichten, würden wir dies folgendermaßen tun: “Um zu prüfen, ob sich das konzeptuelle Wissen der Probanden in den drei Messzeitpunkten unterschied, wurde eine Messwiederholungsanalyse gerechnet. Wir fanden einen signifikanten Effekt des Messzeitpunkts, \(F\)(2, 34) = 212, \(p\) < .001, \(\eta_p^2\) = 0.93 (großer Effekt).”

Je nach Typ deiner Hypothese würdest du entweder noch spezifische Kontraste oder Post-Hoc Tests angeben. Wenn du vor der Erhebung der Daten bereits klare Hypothesen hattest, würdest du Kontraste rechnen. Ohne Hypothesen vor der Datenerhebung würdest du Post-Hoc Tests rechnen.