4.1 Variablen reinigen und umbenennen

Häufig haben Daten das Problem, dass Variablennamen nicht stimmen beziehungsweise die Werte in Variablen geändert werden müssen. Schau dir beispielsweise diese Daten an, welche nicht gereinigt vorliegen:

## Observations: 1,470
## Variables: 5
## $ Probandennummer                               <dbl> 1, 2, 3, 4, 5, 6, 7, 8,…
## $ `Ausbildung der Mitarbeiter`                  <chr> "College", "Below Colle…
## $ `Geschlächt (0 == weiblich, 1 = männlich)`    <dbl> 1, 0, 0, 1, 0, 0, 1, 0,…
## $ Berufsbezeichnung                             <chr> "Sales Executive", "Res…
## $ `Monatliches Einkommen (in Dollar berechnet)` <dbl> 5993, 5130, 2090, 2909,…

Die Variablennamen sind zu lang, enthalten Leerzeichen und Umlaute und die Variable Geschlächt (0 == weiblich, 1 = männlich) beinhaltet die Kodierung der Variable. Mithilfe des Paketes janitor können wir die Variablennamen säubern, sodass wir sie auch einfach in R verwenden können. Hierfür müssen wir zunächst das Paket laden:

Janitor umfasst die Funktion clean_names, welche als erstes Argument einen Datensatz umfasst (siehe ?clean_names). Wir können daher den Pipe-Operator verwenden und den ungereinigten Datensatz in die Funktion übergeben:

## Observations: 1,470
## Variables: 5
## $ probandennummer                           <dbl> 1, 2, 3, 4, 5, 6, 7, 8, 9, …
## $ ausbildung_der_mitarbeiter                <chr> "College", "Below College",…
## $ geschlacht_0_weiblich_1_mannlich          <dbl> 1, 0, 0, 1, 0, 0, 1, 0, 0, …
## $ berufsbezeichnung                         <chr> "Sales Executive", "Researc…
## $ monatliches_einkommen_in_dollar_berechnet <dbl> 5993, 5130, 2090, 2909, 346…

Janitor entfernt die Leerzeichen, Sonderzeichen und die Umlaute aus den Variablennamen. Dieser Schritt genügt häufig schon. Wenn allerdings die Kodierung in den Variablen steckt (siehe geschlacht_0_weiblich_1_mannlich) ist es ratsam, diese aus den Variablennamen zu entfernen.

Wir könnten mit diesen Variablen bereits arbeiten, allerdings möchten wir die Variablennamen ändern. Hierfür verwenden wir rename:

## Observations: 1,470
## Variables: 5
## $ id                <dbl> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, …
## $ education         <chr> "College", "Below College", "Co…
## $ gender            <dbl> 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0…
## $ berufsbezeichnung <chr> "Sales Executive", "Research Sc…
## $ income            <dbl> 5993, 5130, 2090, 2909, 3468, 3…

Rename funktioniert folgendermaßen: Zunächst schreibst du den neuen Variablennamen auf, danach den alten Variablennamen. Den alten Variablennamen kannst du dir auch mit Hilfe von colnames ausgeben lassen.

Beide Befehle können wir ebensogut mit Hilfe des Pipe-Operators zusammenfügen:

## Observations: 1,470
## Variables: 5
## $ id                <dbl> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, …
## $ education         <chr> "College", "Below College", "Co…
## $ gender            <dbl> 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0…
## $ berufsbezeichnung <chr> "Sales Executive", "Research Sc…
## $ income            <dbl> 5993, 5130, 2090, 2909, 3468, 3…