4.5 Kennwerte für Gruppen bestimmen

Zwei weitere Funktionen, die für die Exploration von Daten häufig wichtig sind, sind die Funktionen group_by und summarise. Die Funktionen können verwendet werden, um schnell deskriptive Daten zu berechnen und treten meistens gemeinsam auf. Stell dir beispielsweise vor, du möchtest den Mittelwert der Mitarbeiter pro Berufstyp ermitteln:

## # A tibble: 9 x 2
##   job_role                  mean_income
##   <chr>                           <dbl>
## 1 Healthcare Representative       7529.
## 2 Human Resources                 4236.
## 3 Laboratory Technician           3237.
## 4 Manager                        17182.
## 5 Manufacturing Director          7295.
## 6 Research Director              16034.
## 7 Research Scientist              3240.
## 8 Sales Executive                 6924.
## 9 Sales Representative            2626

Zunächst verwenden wir die Funktion group_by um zu bestimmen, für welche Gruppen Kennwerte berechnet werden sollen. In unserem Fall sind das die Berufsbezeichnungen (job_role). Als Nächstes übergeben wir diese Gruppen der Funktion summarise, welche neue Variablen auf Grundlage der Kennwerte erstellt:

Der Name der neuen Variable ist willkürlich, es macht allerdings Sinn, einen aussagekräftigen Titel zu wählen. Danach schreibst du ein = und gibst die Funktion an, welche den jeweiligen Kennwert berechnet. Mehrere Kennwerte kannst du erstellen, indem du diese Argumente mit einem Komma trennst:

## # A tibble: 9 x 4
##   job_role                  mean_income sd_income     n
##   <chr>                           <dbl>     <dbl> <int>
## 1 Healthcare Representative       7529.     2543.   131
## 2 Human Resources                 4236.     2439.    52
## 3 Laboratory Technician           3237.     1150.   259
## 4 Manager                        17182.     2317.   102
## 5 Manufacturing Director          7295.     2677.   145
## 6 Research Director              16034.     2828.    80
## 7 Research Scientist              3240.     1198.   292
## 8 Sales Executive                 6924.     2367.   326
## 9 Sales Representative            2626       855.    83

group_by und summarise sind besonders geeignet, um schnell die Anzahl der Probanden in einer Gruppe bzw. die Verteilung des Geschlechts von Probanden zu bestimmen.