9.4 Faktoren in R

An dieser Stelle ist es hilfreich, einen kurzen Exkurs in R zu machen, um zu verstehen, wie kategoriale/nominalskalierte Variablen und Kontraste in R definiert werden. Nominale Variablen werden in R als Faktoren definiert. Schauen wir uns hierzu den Datensatz einmal an:

## Observations: 395
## Variables: 2
## $ address <chr> "U", "U", "U", "U", "U", "U", "…
## $ Walc    <dbl> 1, 1, 3, 1, 2, 2, 1, 1, 1, 1, 2…

Die Variable address liegt als chr vor, dies bedeutet, dass in dieser Variable Texte enthalten sind. In der Variable Walc sind dbl gespeichert. Es handelt sich dabei um Zahlen mit Nachkommastellen (die hier nicht dargestellt sind, da es keine gibt bei dieser Variable). Um nun unsere Variable address in einen Faktor umzuwandeln, können wir die Funktion as.factor verwenden:

## Observations: 395
## Variables: 2
## $ address <fct> U, U, U, U, U, U, U, U, U, U, U…
## $ Walc    <dbl> 1, 1, 3, 1, 2, 2, 1, 1, 1, 1, 2…

Nun siehst du, dass die Variable address als Faktor gespeichert ist: fct. Jeder Faktor hat verschiedene Levels. Anhand der Levels bestimmst du die Reihenfolge der nominalskalierten Variable. Die Reihenfolge benötigst du, um später die Kontrastgewichte exakt zu bestimmen. Schauen wir uns die Levels zunächst an:

## [1] "R" "U"

Erst sind die SuS, die auf dem Land leben angegeben (“R” -> rural), dann die SuS, die in der Stadt leben (“U” -> urban).

Um die Levels händisch zu verändern, können wir die Funktion fct_relevel verwenden:

## [1] "U" "R"

Wie du siehst, sind die Levels nun genau andersherum. Erst kommen die SuS, die in der Stadt wohnen, dann die SuS, die auf dem Land wohnen. Wenn du später spezifische Kontrasthypothesen rechnen möchtest, ist es äußerst wichtig, dass du weißt, in welcher Reihenfolge die Faktoren auftreten, ansonsten erhältst du verfälschte Ergebnisse.