4.9 Miniprojekt

Den Datensatz für dieses Miniprojekt findest du hier

In diesem Miniprojekt reinigen wir einen Datensatz und fertigen ein paar Visualisierungen an, die uns wichtige Einsichten in den Datensatz geben. Wir verwenden für dieses Projekt erneut den human_resources Datensatz.

4.9.1 Durchschnittliches Gehalt auf Grundlage des Bildungsgrades

Eine interessante Frage wäre, ob Mitarbeiter, die einen höheren Bildungsabschluss haben, auch mehr verdienen. Hierfür müssen wir zunächst das durchschnittliche Gehalt der Mitarbeiter berechnen. Wir möchten allerdings nicht das monatliche Einkommen erfahren, sondern das jährliche. Hierfür erstellen wir zunächst eine neue Variable:

## # A tibble: 1,470 x 3
##       id education     yearly_income
##    <dbl> <chr>                 <dbl>
##  1     1 College               71916
##  2     2 Below College         61560
##  3     3 College               25080
##  4     4 Master                34908
##  5     5 Below College         41616
##  6     6 College               36816
##  7     7 Bachelor              32040
##  8     8 Below College         32316
##  9     9 Bachelor             114312
## 10    10 Bachelor              62844
## # … with 1,460 more rows

Als Nächstes müssen wir das durchschnittliche Gehalt der Mitarbeiter pro Beruf berechnen. Wir bauen hierfür auf dem bestehenden Code auf:

## # A tibble: 5 x 2
##   education     mean_income
##   <chr>               <dbl>
## 1 Bachelor           78207.
## 2 Below College      67687.
## 3 College            74720.
## 4 Doctor             99332.
## 5 Master             81989.

Mithilfe diesen Outputs können wir nun das Balkendiagram erstellen:

Ein paar Verbesserungen müssen wir noch einführen. Die Visualisierung benötigen einen Titel, gute Achsenbeschriftungen und die Balken sollten lesbarer sein. Zusätzlich sollten die Balken geordnet werden. Dies können wir mit der Funktion reorder umsetzen:

4.9.5 Distanz zum Wohnort in Kilometern

Nehmen wir an, die Distanz zum Arbeitsort ist in Meilen angegeben und du möchtest die Distanz zum Arbeitsort in Kilometern abhängig des Geschlechts als Boxplot visualisieren. Zusätzlich hältst du bald eine Präsentation auf Deutsch und möchtest statt Female und Male Frauen und Männer schreiben. Zunächst müssen wir hierfür die Daten ändern:

## # A tibble: 1,470 x 3
##       id gender_german distance_km
##    <dbl> <chr>               <dbl>
##  1     1 Frauen               1.61
##  2     2 Männer              12.9 
##  3     3 Männer               3.22
##  4     4 Frauen               4.83
##  5     5 Männer               3.22
##  6     6 Männer               3.22
##  7     7 Frauen               4.83
##  8     8 Männer              38.6 
##  9     9 Männer              37.0 
## 10    10 Männer              43.5 
## # … with 1,460 more rows

Anschließend können wir den Boxplot erstellen: