Voraussetzungen Regression: Linearität
Arndt Regorz, Dipl. Kfm. & M.Sc. Psychologie, Stand: 23.06.2022
Eine der Voraussetzungen der gewöhnlichen Regressionsanalyse ist das Vorhandensein eines linearen Zusammenhangs. Diese Linearitätsannahme sollten Sie prüfen, wenn Sie im Rahmen Ihrer Bachelorarbeit oder Masterarbeit eine Regression durchführen wollen.
In diesem Tutorial wird genauer beschrieben:
- Was bedeutet Linearität?
- Was sind die Folgen, wenn keine Linearität vorliegt?
- Wie diagnostiziert man Abweichungen von der Linearität?
- Was sind Alternativen zur gewöhnlichen Regression bei nicht-linearem Zusammenhang?
Inhalt
- Video-Tutorial
- Was bedeutet Linearität?
- Was sind die Folgen, wenn keine Linearität vorliegt?
- Wie diagnostiziert man Abweichungen von der Linearität?
- Abruf Linearitäts-Diagnostik in SPSS
- Linearitäts-Diagnostik in R
- Alternativen zur gewöhnlichen Regression bei nicht-linearem Zusammenhang
- Quellen
1. YouTube-Video-Tutorial
(Hinweis: Mit Anklicken des Videos wird ein Angebot des Anbieters YouTube genutzt.)
2. Was bedeutet Linearität?
Der Begriff der Linearität ist im Rahmen der Regression nicht ganz eindeutig. Es gibt zwei mögliche Lesarten dafür.
Es kann einerseits um die Modellierung eines linearen Zusammenhangs gehen. Wir haben also eine abhängige Variable und eine oder mehrere unabhängige Variablen, die einzeln in die Regression eingehen. Beispiel:
y = b0 + b1 x1 + b2 x2 + e
Geometrisch heißt das, dass der Erwartungswert der von den nicht transformierten X-Werten vorhergesagten Y-Werte auf einer Geraden liegt. Um diese Art von Linearität geht es im Folgenden. Es wird also geprüft, ob eine lineare Modellierung die angemessene Annahme ist, oder ob die Daten eher einen anderen Zusammenhang aufweisen.
Andererseits gibt es den Begriff der Linearität noch bezogen auf die Regression als Auswertungsmethode. Dabei geht es nicht um eine Linearität in den X-Werten, sondern um eine Linearität in den Parametern. Hier müssen die vorhergesagten Y-Werte sich aus einer Linearkombination der Parameter b0, b1 etc. darstellen lassen. Beispiel:
y = b0 + b1 x12 + b2 x1 + b3 x1 x2 + e
So eine Regression wäre immer noch eine lineare Regression, denn die Parameter b0, b1 etc. sind hier additiv verknüpft. Es bildet aber keinen linearen Zusammenhang mehr ab. Dennoch kann man mit geringen Anpassungen so ein Modell eines nicht-linearen Zusammenhangs mit den Techniken der ganz gewöhnlichen linearen Regression auswerten. Das häufigste Beispiel dafür ist die moderierte Regression, bei der auch ein Produktterm enthalten ist.
Ein Gegenbeispiel wäre als Modell:
y = b0 + b1 log(b2) + e
Hier sind zwei Parameter, b1 und b2, multiplikativ verknüpft. Dieses Modell kann man nicht mehr mit der linearen Regression analysieren. Allerdings gibt es auch für derartige Modelle Auswertungstechniken.
3. Was sind die Folgen, wenn keine Linearität vorliegt?
Üblicherweise suchen Sie bei der Regression eine Gerade, die möglichst nah an den tatsächlichen Werten liegt. Wenn der wahre Zusammenhang zwischen der unabhängigen Variable X (oder mehreren unabhängigen Variablen X1, X2 usw.) und der abhängigen Variable Y jedoch nicht linear ist, dann passt eine Gerade nicht zu den Daten.
Im Rahmen einer Bachelorarbeit oder Masterarbeit nutzen Sie die Regression meistens, um eine Zusammenhangshypothese zu prüfen. Z.B.: Mit höherem X ist auch ein höheres Y verbunden. Wenn der wahre Zusammenhang linear ist, dann wird diese Hypothese mit einem signifikant positivem Regressionsgewicht für X bestätigt.
Wenn der wahre Zusammenhang jedoch z.B. quadratisch ist, dann können verschiedene Fälle auftreten:
Auch jetzt kann die Hypothese zutreffen. In der folgenden Grafik sieht man einen tatsächlich quadratischen Zusammenhang, der aber im Wertebereich von X immer noch zur Hypothese passt, weil nur der ansteigende Ast der quadratischen Kurve hier relevant ist. Je höher X ist, desto höher ist im vorliegenden Wertebereich auch Y, nur eben nicht-linear. Diese Daten würden also die Hypothese im Wesentlichen bestätigen.
Doch es kann auch der Fall eintreten, dass der Zusammenhang zwischen X und Y nicht im gesamten Wertebereich positiv ist, siehe folgende Grafik:
Aber auch bei einem derartigen Zusammenhang könnte ein lineares Regressionsmodell zu einem signifikantem Ergebnis führen; mit den Daten für dieses Streudiagramm ergab sich für einen lineare Regression ein signifikanter Zusammenhang, b = 0.48, p = .001, R2 = .14, obwohl eben kein linearer Zusammenhang vorliegt und auch die o.g. Hypothese nicht bzw. nicht für den gesamten Wertebereich von X zutrifft:
Dieses Beispiel zeigt, wie wichtig es ist, die Linearitätsannahme zu prüfen, bevor man die Ergebnisse der Regression interpretiert. Denn bei Betrachtung nur der Zahlen der linearen Regression würde man zum Fehlschluss kommen, dass ein größeres X auch mit einem größeren Y verbunden ist.
Zusammengefasst kann man also festhalten: Wenn der tatsächliche Zusammenhang zwischen mindestens einer unabhängigen Variable und der abhängigen Variable nicht der Linearitätsannahme entspricht, können Sie mit der gewohnten Regression ein signifikantes Ergebnis bekommen, obwohl die damit zu prüfende Hypothese (z.B. positiver Zusammenhang zwischen X und Y) so generell nicht zutrifft, sondern nur für einen Teil der Werte.
Sie riskieren also, zu einer falschen Entscheidung beim Hypothesentest zu kommen!
Wenn Sie außerdem die Regression nicht nur zum Testen einer Zusammenhangshypothese verwenden wollen (z.B. höheres X ist mit höherem Y verbunden), sondern für die Prognose konkreter Y-Werte, dann ist ebenfalls eine lineare Modellierung eines nicht-linearen Zusammenhangs nicht sinnvoll. Das kann insbesondere in Prognosemodellen der Wirtschaftswissenschaften relevant sein.
4. Wie diagnostiziert man Abweichungen von der Linearität?
Die Diagnose erfolgt in der Regel optisch über die Betrachtung von Streudiagrammen (Scatterplots), ggf. mit Unterstützung des LOWESS-Verfahrens.
Streudiagramme
Insbesondere bei der Regression mit nur einem Prädiktor kann man ein einfaches Streudiagramm mit der unabhängigen Variable X und der abhängigen Variable Y betrachten. Wenn sich dort z.B. ein u-förmiger oder umgekehrt u-förmiger Verlauf zeigt, dann spricht das gegen einen linearen Zusammenhang:
Häufig noch besser sichtbar ist das bei einer einfachen Regression in einem Residuendiagramm. Wenn man die auf der X-Achse die standardisierten vorhergesagten Y-Dach-Werte abträgt und auf der Y-Achse die studentisierten Residuen, wird ein nicht linearer Zusammenhang noch deutlicher:
Bei multipler Regression würde ich jedoch bivariate Streudiagramme (je ein Prädiktor und das Kriterium) gegenüber dem Residuendiagramm zur Linearitätsprüfung vorziehen.
Allerdings können sich hier vor allem auch partielle Streudiagramme anbieten, bei denen der Einfluss der jeweils nicht beteiligten Variablen herauspartialisiert wird. Diese haben bei SPSS u.a. auch den praktischen Vorteil, dass man sie direkt aus dem Regressionsdialog bei den Diagrammen mit aufrufen kann.
LOWESS-Verfahren
Bei nicht sehr starken Zusammenhängen entsteht leicht das Problem, dass man mit bloßem Auge gar nicht sicher aus dem Streudiagramm beurteilen kann, ob ein linearer oder nicht-linearer Zusammenhang vorliegt. Man sieht im Grunde nur eine diffuse Punktwolke.
Ist der folgende Zusammenhang linear oder nicht?
Für diesen Fall kann man auf das LOWESS-Verfahren (locally weighted scatterplot smoothing) zugreifen.
Das ist ein nicht-parametrisches Verfahren, bei dem für jeden X-Wert auf Basis der Nachbarn in der Umgebung eines Punktes jeweils eine Regressionsgleichung geschätzt wird. Und statt des tatsächlichen Y-Wertes wird der über diese Regressionsgleichung vorhergesagte Y-Dach-Wert angezeigt. Auf diese Art wird eine Kurve durch die Punktwolke des Streudiagramms gelegt, die möglichst gut zu den Daten passt. Wenn diese Kurve eine Gerade ist, spricht das für die Linearitätsannahme. Wenn hingegen diese Kurve systematisch von der Geradenform abweicht, ist dies ein Indiz für eine Verletzung der Linearitätsannahme.
Beispiel für das LOWESS-Verfahren mit den Punkten aus dem vorherigen Diagramm, bei der man in der unteren Abbildung mit LOWESS-Anpassung sehen kann, dass es keinen linearen Zusammenhang gibt: im linken Bereich ist der Anstieg erkennbar steiler als im rechten Bereich:
Das LOWESS-Verfahren führt aber nur bei einer hinreichend großen Anzahl an Datenpunkten zu sinnvollen Ergebnissen. Bei sehr wenigen Punkten resultiert u.U. auch bei einem in Wahrheit linearen Zusammenhang eine chaotische Zickzacklinie, die kaum interpretierbar ist. Im folgenden Beispiel liegt tatsächlich in der Grundgesamtheit ein linearer Zusammenhang vor, aber das kann man nicht zuverlässig aus der Grafik ablesen:
Hypothesentests auf Linearität
In einigen Statistikpaketen (z.B. in R) gibt es darüber hinaus auch noch Hypothesentests, mit denen man prüfen kann, ob die Nullhypothese eines linearen Zusammenhangs verworfen werden muss.
Ein Beispiel dafür ist der Rainbow-Test, der in dem R Package lmtest (Hothorn et al. 2020) implementiert ist. Ein signifikantes Testergebnis zeigt dabei eine Verletzung der Linearitätsannahme an.
5. Abruf Linearitäts-Diagnostik in SPSS
Ein Streudiagramm zwischen UV und AV kann man über das Menü in folgendem SPSS-Dialog abrufen:
- Grafik->Klassische Dialogfelder->Streu-/Punktdiagramm
- „Einfaches Streudiagramm“ auswählen, dann auf „Definieren“ klicken
- UV und AV nach rechts in die Felder für „X-Achse“ und „Y-Achse“ schieben
- ausführen
Als SPSS-Syntax kann man dies so aufrufen:
GRAPH
/SCATTERPLOT(BIVAR)=UV WITH AV
/MISSING=LISTWISE.
Wenn Sie diesen Zusammenhang im LOWESS-Verfahren analysieren wollen, gehen Sie über die SPSS-Menüführung so vor:
- Sie erstellen das Streudiagramm (siehe oben)
- Sie aktivieren das so erstellte Diagramm, in dem Sie es doppelt anklicken. Es öffnet sich ein Fenster „Diagrammeditor“
- Sie klicken mit der rechten Maustaste in das Streudiagramm und wählen im Kontextmenü den Eintrag „Hinzufügen Anpassungslinie bei Gesamtsumme“ aus
- In dem sich dann öffnenden „Eigenschaften“-Fenster wählen Sie als Anpassungsmethode „Loess“ (=LOWESS) aus und klicken auf „Anwenden“.
Das LOWESS-Verfahren als SPSS-Syntax können Sie mit der nachfolgenden Befehlsfolge aufrufen, wobei der Aufruf des Streudiagramms mit enthalten ist. Sie müssen dabei statt UV und AV an zwei (!) Stellen in der Syntax jeweils Ihre Variablennamen eingeben und sollten die beiden „Beschreibung....“-Felder entsprechend umbenennen (im Folgenden jeweils fett markiert).
GGRAPH
/GRAPHDATASET NAME="graphdataset" VARIABLES=UV AV MISSING=LISTWISE REPORTMISSING=NO
/GRAPHSPEC SOURCE=INLINE.
BEGIN GPL
SOURCE: s=userSource(id("graphdataset"))
DATA: X=col(source(s), name("UV"))
DATA: Y=col(source(s), name("AV"))
GUIDE: axis(dim(1), label("Beschreibung der UV"))
GUIDE: axis(dim(2), label("Beschreibung der AV"))
ELEMENT: point(position(X*Y))
ELEMENT: line(position(smooth.loess.gaussian(X*Y)))
END GPL.
6. Linearitäts-Diagnostik in R
Die Basis für die folgende Diagnostik ist jeweils ein geschätztes Regressionsmodell, also z.B. als Ergebnis so eines Aufrufs:
reg.fit <- lm(AV ~ UV1 + UV2 + UV3, data=mein.datensatz)
Sowie ein Dataframe, der die verschiedenen Variablen (Prädiktoren und Kriterium) enthält:
attach(mein.datensatz)
daten.plot <- data.frame(AV, UV1, UV2, UV3)
detach(mein.datensatz)
Für die Diagnose wird das R-Packag lmtest verwendet (für den Rainbow-Test unten). Diese muss wie jedes Package einmalig installiert werden (install.packages) und dann jeweils mit library geladen werden.
Paarweises Streudiagramm
pairs(daten.plot, pch = 19, lower.panel = NULL)
(relevant sind nur diejenigen Streudiagramme, die die Kriteriumsvariable mit einschließen und bei denen die Kriteriumsvariable auf der y-Achse steht)
Rainbow-Test (Hypothesentest auf Linearität)
library(lmtest)
raintest(reg.fit)
7. Alternativen zur gewöhnlichen Regression bei nicht-linearem Zusammenhang
Wenn kein linearer Zusammenhang vorliegt, dann gibt es für Ihre Hypothesenprüfung verschiedene Möglichkeiten, einen nicht-linearen Zusammenhang zu modellieren:
Polynomiale Regression
Sie könnten eine polynomiale Regression durchführen. Dabei geht im einfachsten Fall mit nur einer unabhängigen Variable neben x auch x2 in die Regression mit ein, also:
y = b0 + b1 x + b2 x2 + e
In diesem Fall wird keine Gerade sondern eine Parabel an die Werte angepasst.
Dieses Vorgehen ist technisch relativ einfach umzusetzen, da es mit den gewohnten Methoden der Regression durchgeführt werden kann. Es müssen lediglich zusätzliche Variablen definiert werden (x2) und bei der Interpretation der Regressionsgewichte usw. sind Besonderheiten zu beachten.
Dieses Verfahren bietet sich insbesondere an, wenn das Streudiagramm einen u-förmigen (oder umgekehrt u-förmigen) Zusammenhang nahelegt.
Näheres zu diesem Verfahren finden Sie in meinem Tutorial "Polynomiale Regression"
Nicht-lineare Regression
Die nicht-lineare Regression kann wesentlich komplexere Zusammenhänge darstellen als die polynomiale Regression. Allerdings verlässt man dort teilweise das von der gewöhnlichen Regression gewohnte Vorgehen (z.B. in SPSS) und muss neue Auswertungstechniken erlernen, die etwas schwieriger sind.
Datentransformation
Statt der Verwendung von polynomialer Regression und nicht-linearer Regression kann man auch versuchen, die vorliegenden Variablen so zu transformieren, dass die transformierten Variablen anschließend der Linearitätsannahme folgen. Dabei muss man bei der Interpretation berücksichtigen, dass man zunächst nur eine Aussage über die Verhältnisse der transformierten Daten machen kann. Die für den Hypothesentest (z.B. bei der Hypothese eines positiven Zusammenhangs zwischen X und Y) relevante Aussage über den Zusammenhang der ursprünglichen Variablen (der uns eigentlich interessiert) muss dann unter Berücksichtigung der Art der Transformation daraus abgeleitet werden.
8. Quellen
Baltes-Götz, B. (2018). Lineare Regressionsanalyse mit SPSS. [Rev. 180102]. Universität Trier. https://www.uni-trier.de/fileadmin/urt/doku/linreg/linreg.pdf
Cleveland, W. S., & Devlin, S. J. (1988). Locally weighted regression: an approach to regression analysis by local fitting. Journal of the American statistical association, 83, 596-610. doi:10.1080/01621459.1988.10478639
Field, A. (2013). Discovering statistics using IBM SPSS statistics: And sex and drugs and rock 'n' roll (4th edition). SAGE.
Hothorn, T., Zeileis, A., Farebrother, R. W., Cummins, C., Millo, G. & Mitchell, D. (2020). Package 'lmtest'. CRAN. https://cran.r-project.org/web/packages/lmtest/lmtest.pdf
IBM (n.d.). Adding Local Regression fit line in Scatterplot. http://www-01.ibm.com/support/docview.wss?uid=swg21592703
Weitere Tutorials zu Regressionsvoraussetzungen:
- Normalverteilung
- Homoskedastizität
- Keine starke Multikollinearität
- Unkorreliertheit der Fehler bzw. Residuen
- Geeignete Skaleneigenschaften
- Keine starken Ausreißer