13.1 Workflow der Projekte

13.1.1 Datenanalyse mit R und Jamovi

In diesem Kurs verwenden wir einen pragmatischen Ansatz zur Analyse von Daten. Folgende Funktionen erfüllen die einzelnen Technologien:

Um diesen Workflow umzusetzen, werden wir in diesem Kurs eine bestimmte Ordnerstruktur umsetzen. Diese Ordnerstruktur wird für die Projekte dieses Kurses wichtig sein und kann dir später bei deiner eigenen Abschlussarbeit helfen.

13.1.2 Experimente organisieren

Wissenschaftler sind damit vertraut, Manuskripte verständlich und organisiert zu schreiben. Das Gleiche kann allerdings selten für die Organisation der Datenanalyse behauptet werden. Dieser Teil eines Experiments ist häufig für Leser nicht sichtbar und wird daher stiefmütterlich behandelt.

Die Organisation eines Forschungsprojektes ist allerdings wichtig. Häufig möchten wir nach Jahren Daten neu auswerten oder eine Analyse aus einem früheren Experiment wiederholen. Diese Aufgabe ist ungleich schwieriger, wenn die Daten nicht gut organisiert wurden.

Gleichzeitig gibt es in der psychologischen Forschung eine immer stärkere Bewegung, Datenanalysen zu veröffentlichen. Die OSF beispielsweise ist eine Plattform, in der viele Datenenalysen verschiedenster Studien veröffentlicht werden. Insbesondere im Zuge der Replikationsbewegung in der psychologischen Forschung (siehe auch hier), in der bekannte Studie wiederholt werden, um zu untersuchen, ob ähnliche Ergebnisse auftreten, wurde die Veröffentlichung von Daten wichtiger. Beispielsweise finden sich alle Datenanalysen des Reproducibilty Projektes der Psychologie auf OSF.

Du fragst dich vielleicht, weshalb es nötig ist, dass wir uns schon so früh mit der Organisation von Experimenten beschäftigen, schließlich haben wir noch nicht mal Daten inferenzstatistisch ausgewertet. Weil du das bald tun wirst. Dieser Kurs beinhaltet zwei Projekte, die du im Verlaufe des Seminars umsetzt. Jedes Projekt ist eine vollkommene Datenanalyse, wie sie auch in experimentellen Studien durchgeführt wird. Wir werden gleich zu Beginn des ersten Projektes darauf achten, dass deine Untersuchung organisiert ist, sodass du im Hinblick auf deine späteren Arbeiten einen Workflow hast, auf den du dich verlassen kannst.

13.1.3 Ordner anlegen

Die erste wichtige Entscheidung ist die Organisation der Ordnerstruktur:

|   protocol.docx: Protokoll der Untersuchung (Störungen, Besonderheiten)
|   variablen.docx: Ein Dokument der Variablennamen
|
|___daten
|   |___rohdaten: Diese Daten dürfen nie verändert werden
|       |   z.B. row.csv
|   |___export: Export der gereinigten Daten für SPSS Jamovi
|       |   z.B. data_cleaned.sav
|   |___cleaned
|       |   z.B. daten_cleaned.csv
|
|___analyse
|   |   data_cleaning.R: Bereinigung der Daten; export in daten/cleaned
|   |   hypothese_one.R: R-File für jede Hypothese
|   |   hypothese_one.omv: Äquivalente Jamovi-Datei
|   |   hypothese_one.sav: Äquivalente SPSS-Syntax-Datei
|   |   exploratory.R: Explorative Datenanalyse
|
|___manuskript
|   |___literatur: Literatur, die für das Manuskript verwendet wird
|   |___tables: Tabellen für das Manuskript
|   |___figures: Bilder und Visualisierungen für das Manuskript
|   |   manuscript_20191012.docx
|   |   manuscript_20191014.docx
|
|___administration
|   |   teilnehmerliste.jpg
|   |   p80_probandengelder.pdf

13.1.4 Wichtige Leitlinien

  • Die Daten in dem Ordner daten/rohdaten dürfen nicht verändert werden.
  • Für jede Hypothese gibt es in analyse/ eine eigene R-Datei
  • Keine R-Datei sollte länger als ~ 400 Zeilen sein.
  • Keine Datenbereinigung in den analyse/*.R Dateien.
  • Die Manuskripte in manuskript/ sollten bei jeder größeren Veränderung kopiert werden und mit einem Datum versehen werden.
  • Im Dokument protocol.docx werden alle Besonderheiten während der Durchführung eines Experimentes aufgeschrieben. Später findet man beispielsweise Ausreißer und möchte wissen, ob es etwas Besonderes während dem Experiment passiert ist (z.B. Lärm).

Im Zuge deiner ersten Datenanalyse wirst du einen Ordner mit genau dieser Datenstruktur bekommen. Es ist daher an dieser Stelle nicht nötig, dass du lernst, wie die Ordner aufgebaut sind. Später wirst du ohnehin mit dieser Ordnerstruktur arbeiten.

13.1.5 Weiterführende Tipps

Wenn du später deine Daten noch besser organisieren möchtest und einen Hang zur Programmierung hast, kannst du dir ebenso folgende Technologien anschauen. Diese Technologien sind in keinster Wiese Inhalte dieses Kurses und werden auch nicht weiter behandelt:

  • git: Git ist ein Versionskontrollsystem, welches die Rückverfolgung von Veränderungen in Code ermöglicht (siehe auch How to Use Git and GitHub)
  • drake: Sobald die Projekte in R komplexer werden, hilft es, die Datenbereinigung über ein System laufen zu lassen, dass potentielle Fehler reduziert. Drake hat sich in R dafür bewährt.
  • R-Studio Projekte: Wir arbeiten zu Beginn mit Arbeitsverzeichnissen. Später ist es durchaus sinnvoll, Projekte in R-Studio anzulegen (mehr Informationen hier).