8.9 Interpretation der multiplen Regression

8.9.1 Kausale Aussagen

Wir hatten die partiellen Regressionskoeffizienten als die Veränderung in der abhängigen Variable beschrieben, die auftreten, wenn wir für alle anderen Prädiktoren kontrollieren. Diese Tatsache bedeutet allerdings nicht, dass die abhängige Variable durch die unabhängige Variable verändert wird. Die multiple Regression beschreibt lediglich die Daten. Beispielsweise können wir auf Grundlage der multiplen Regression nicht behaupten, dass eine höhere Durchfallquote zu einer schlechteren Mathematikleistung führt; selbst wenn der Regressionskoeffizient negativ ist.

Hier findest du eine Webseite, die mehrere irrsinnige kausale Aussagen zweier Variablen veranschaulicht. Beispielsweise gibt es einen nachweisbaren negativen Zusammenhang zwischen dem Verkauf von Eis in einer Stadt und den Selbstmorden in einer Stadt. Führt weniger Eis-kaufen daher zu Selbstmord? Nein. Der Grund liegt vielmehr in einer dritten Variable, der Temperatur. Die Temperatur wiederum könnte auf die Stimmung von Personen wirken, da es im Winter weniger Licht gibt.

Wir werden im nächsten Modul allerdings ein Design / ein Modell kennenlernen, aufgrund dessen wir kausale Aussagen treffen können (die einfaktorielle Varianzanalyse). Diese Designs sind fast immer Experimente, bei denen wir eine Variable bewusst manipulieren, um ihren Effekt zu bestimmen.

8.9.2 Wichtigkeit der Prädiktoren

Ein häufiger Fehler in der Interpretation einer multiplen Regression liegt darin, dass die Stärke der Prädiktoren falsch interpretiert wird. Schauen wir uns dazu erneut unser Modell an:

\[ \hat{Y}_i = 10.74 - 2.18 * X_{i1} + 0.19 * X_{i2} + e_i \]

Der Regressionskoeffizient des Durchfallens \(b_1\) liegt bei \(-2.18\). Der Regressionskoeffizient der Lernzeit \(b_2\) liegt bei 0.19. Mehr Durchfallen führt daher zu einer schlechteren Matheleistung, mehr Lernen zu einer leicht besseren Matheleistung, allerdings ist dieser Prädiktor nicht signifikant.

Es wäre inkorrekt zu behaupten, dass die Durchfallquote einen stärkeren Einfluss auf die Mathematikleistung hat als die Lernzeit. Hättest du aus irgendwelchen Gründen beispielsweise die Variable failures durch 1000 geteilt, wäre der Regressionskoeffizient \(b_1\) tausendfach kleiner. Der Beitrag auf die abhängige Variable hingegen bliebe gleich.

Häufig werden die Variablen daher z-standardisiert, um ihre Interpretation zu ermöglichen. Auch dieses Vorgehen genügt nicht, um den Einfluss der Prädiktoren auf die abhängigen Variable zu bestimmen, da diese von der Streuung der Variable abhängig sind. Zudem löst die Standardisierung nicht das Problem der Redundanz. Die Stärke der Regressionskoeffizienten sind daher mit Vorsicht zu genießen und sollten nicht überinterpretiert werden.