4.7 Typen von Visualisierungen

4.7.1 Histogramme

In einer explorativen Datenanalyse möchten wir häufig die Verteilung einer Variable betrachten. Hierfür eignen sich Histogramme. Histogramme werden in ggplot mit dem geom geom_histogram umgesetzt. Histogramme benötigen lediglich die Aesthetics aes(x = VARIABLENNAME):

Erneut können wir die Aesthetics verwenden, um die Visualisierung verständlicher zu machen:

geom_histogram hat zudem ein Argument, um die Breite der Balken anzupassen:

Die Breite der Balken kann einen großen Einfluss auf die Darstellung der Daten haben:

Überlege dir daher immer gut, wie breit du die Balken in einem Histogramm machst (siehe auch Choose bin Sizes).

4.7.2 Boxplots

Boxplots eignen sich gut dafür, Ausreißer in einem Datensatz zu erkennen. Boxplots werden in ggplot durch das geom geom_boxplot erstellt:

Um die einzelnen Werte in dem Datensatz zu sehen, hilft es zusätzlich das geom geom_jitter hinzuzufügen:

Um der Lesbarkeit willen, kann man die Visualisierung mit coord_flip umdrehen:

4.7.3 Balkendiagramme

Balkendiagramme werden häufig in Manuskripten eingesetzt, um die Unterschiede zwischen Gruppen in einer abhängigen Variable anzuzeigen. Balkendiagramme werden in ggplot durch das geom geom_bar und geom_col erstellt. Bei geom_bar muss die y-Achse nicht angegeben werden, da ggplot intern die Häufigkeit der Variablen berechnet. Bei geom_col muss die y-Achse angegeben werden. Beispielsweise können wir durch geom_bar anzeigen, wie zufrieden die Mitarbeiter sind:

Die y-Achse stellt nun die Häufigkeit des Aufkommens der Ausprägungen der Variable job_satisfaction dar. Beispielsweise geben über 400 Mitarbeiter an, sehr zufrieden mit ihrem Job zu sein (e.g. “High”). Wir können diese Werte auch mit der Funktion count berechnen:

## # A tibble: 4 x 2
##   job_satisfaction     n
##   <chr>            <int>
## 1 High               442
## 2 Low                289
## 3 Medium             280
## 4 Very High          459

Die gleiche Visualisierung können wir mit geom_col umsetzen, mit dem Unterschied, dass wir explizit die Werte der y-Achse angeben:

Eine beliebte Darstellung von Balkendiagrammen ist die Aneinanderreihung mehrerer Balkendiagramme. Dies können wir umsetzen, in wir eine fill Aesthetic hinzufügen:

Aufeinandergestapelt sind Balkendiagramme allerdings schwierig zu interpretieren. Mit position=dodge können wir diese nebeneinander reihen:

4.7.4 Streudiagramme

Streudiagramme dienen der Visualisierungen von Beziehungen zwischen zwei Variablen. Streudiagramme werden in ggplot mit dem geom geom_point umgesetzt. Zum Beispiel: Verdienen Menschen die länger gearbeitet haben mehr Geld pro Monat?

Um die Lesbarkeit zu erhöhen, können wir den Punkten Farben zuordnen:

Manchmal ist die Lesbarkeit eingeschränkt, wenn eine Variable ordinalskaliert ist. Dies können wir mit geom_jitter lösen (achte bitte darauf, dass hierdurch die Werte verzerrt dargestellt werden!):

Wir können zusätzlich eine dritte Variable visualisieren, indem wir die Punkte abhängig einer anderen Variable farblich kodieren:

In dieser Visualisierung wird beispielsweise deutlich, dass Manager und Research Directors in der Regel eine hohe Berufserfahrung haben und deutlich mehr verdienen als die Mitarbeiter in anderen Jobs.

4.7.5 Liniendiagramme

Liniendiagramme eignen sich, um Zeitreihen zu visualisieren. Beispielsweise können wir visualisieren, wie viele Mitarbeiter wie viele Jahre bereits gearbeitet haben:

## # A tibble: 40 x 2
##    total_working_years     n
##                  <dbl> <int>
##  1                   0    11
##  2                   1    81
##  3                   2    31
##  4                   3    42
##  5                   4    63
##  6                   5    88
##  7                   6   125
##  8                   7    81
##  9                   8   103
## 10                   9    96
## # … with 30 more rows

Durch die Klammer am Anfang und am Ende der Variable working_years_count können wir das Ergebnis der Berechnung direkt anzeigen lassen.

Zusätzlich können wir Punkte hinzufügen, um die Lesbarkeit zu steigern:

Um mehrere Linien abhängig einer anderen Variable zu visualisieren verwenden wir die Aesthetic color:

## # A tibble: 79 x 3
##    total_working_years gender     n
##                  <dbl> <chr>  <int>
##  1                   0 Female     4
##  2                   0 Male       7
##  3                   1 Female    32
##  4                   1 Male      49
##  5                   2 Female    15
##  6                   2 Male      16
##  7                   3 Female    14
##  8                   3 Male      28
##  9                   4 Female    22
## 10                   4 Male      41
## # … with 69 more rows