PLS SEM mit R / seminr 4:
Strukturmodell beurteilen
Arndt Regorz, Dipl. Kfm. & MSc. Psychologie, 30.11.2023
Um die Güte des Strukturmodells bei Partial Least Squares SEM mit R (seminr Package) zu beurteilen, betrachtet man insbesondere folgende Bereiche:
- Kollinearität zwischen den latenten Variablen
- Varianzerklärung für die Kriteriumsvariablen
- Signifikanz und Relevanz der Strukturpfade
- Prognosegüte
Im Basistutorial zu PLS SEM mit R (PLS SEM: Modellschätzung mit R / seminr) hatten wir u.a. ein SEM mit formativem Messmodell geschätzt und als Ergebnis ein Objekt poldem_pls_f erhalten. Dieses Ergebnisobjekt (und ggf. dessen gebootstrappte Version) bildet den Ausgangspunkt für die nachfolgenden Untersuchungen.
Keine starke Multikollinearität
Zur Überprüfung möglicher Multikollinearität auf der Ebene der Konstrukte können wir die VIF-Werte hier anfordern:
summary(poldem_pls_f)$vif_antecedents
Im Beispiel erhalten wir als Resultat dieses Aufrufs:
dem60 :
indus
.
dem65 :
indus dem60
1.28 1.28
Für die Vorhersage von dem60 gibt es keinen VIF, weil dort nur ein latenter Prädiktor im Modell ist und Multikollinearität erst bei mehreren Prädiktoren für eine Kriteriumsvariable auftreten kann. Für dem65 erhalten wir als VIF-Werte 1.28 und 1.28. Diese liegen deutlich unter den Cut-off-Werten von 5.0 bzw. idealerweise 3.0, so dass hier keine problematische Multikollinearität zwischen den Konstrukten vorliegt.
R² - Varianzaufklärung
Das R² für die verschiedenen Kriteriumsvariablen erhalten wir als Teil der Modell-Summary:
summary(poldem_pls_f)
Als Ergebnis erhalten wir:
Path Coefficients:
dem60 dem65
R^2 0.219 0.771
AdjR^2 0.208 0.765
indus 0.468 0.193
dem60 . 0.771
Das Modell erklärt also 21.9% der Varianz von dem60 und 77.1% der Varianz von dem65. Nach Hair et al. (2019) sind R²-Werte von .75 substantiell, von .50 moderat und von .25 schwach. Werte über .90 zeigen typischerweise einen Overfit des Modells an.
Allerdings sind diese Werte auch abhängig vom jeweiligen Forschungsgebiet und können nicht zwingend verallgemeinert werden. Hier sollten Sie zum Vergleich also auch typische R²-Werte Ihres Fachgebiets heranziehen.
Außer dem R² wird in der nachfolgenden Zeile auch noch das adjustierte R² angezeigt (AdjR^2). Während das R² die Varianzaufklärung angibt, kann das adjustierte R² für den Vergleich verschiedener Modelle verwendet werden, weil es neben der Varianzaufklärung auch die Anzahl der Prädiktoren mit berücksichtigt. Da wir hier nicht mehrere Modelle miteinander vergleichen, ist es für unsere Modellevaluation weniger relevant.
Neben der Varianzaufklärung insgesamt betrachtet man häufig noch f². Das zeigt an, welchen Einfluss der Ausschluss eines Prädiktors für die Varianzaufklärung hätte, wobei diese Kennzahl häufig keine Zusatzinformation gegenüber dem Vergleich der (standardisierten) Pfadkoeffizienten bietet.
summary(poldem_pls_f)$fSquare
Als Ergebnis erhalten wir:
indus dem60 dem65
indus 0.000 0.280 0.106
dem60 0.000 0.000 1.814
dem65 0.000 0.000 0.000
Nach Cohen (1992) sind die Cut-off-Werte für schwache, mittlere und große Effekte 0.02, 0.15 und 0.35.
Signifikanz und Relevanz der Strukturpfade
Um die Signifikanz der Strukturpfade zu prüfen, benötigen wir das Ergebnis der Bootstrap-Schätzung (siehe Basismodul).
summary(poldem_pls_boot_f)$bootstrapped_paths
Für die Beispieldaten ergibt sich:
Original Est. Bootstrap Mean Bootstrap SD T Stat. 2.5% CI 97.5% CI
indus -> dem60 0.468 0.499 0.091 5.113 0.329 0.663
indus -> dem65 0.193 0.185 0.080 2.432 0.038 0.340
dem60 -> dem65 0.771 0.775 0.066 11.759 0.643 0.879
Das 95% Konfidenzintervall (letzten beiden Spalten) schließt für alle drei untersuchten Pfade die Null nicht mit ein (sowohl die Untergrenze als auch die Obergrenze haben das gleiche Vorzeichen), sie sind also signifikant.
Die Pfadkoeffizienten liegen typischerweise zwischen -1 und +1, wobei Werte nahe an diesen Grenzen sehr starke Effekte repräsentieren. Gerade bei großen Stichproben sollte man sich nicht nur auf die Signifikanz (Konfidenzintervall) verlassen, da dann selbst kleine und praktisch irrelevante Effekte signifikant werden können.
Prognosegüte
Zur Bewertung der Prognosegüte wird häufig das Gütemaß Q² herangezogen. Dies ist jedoch in seminr nicht verfügbar, weil es nach Einschätzung von N. Danks (Mitautor von seminr) nicht mehr empfohlen wird (Futaahy, 2021). Stattdessen wird die Funktion PLSpredict bevorzugt.
Diese Funktion führt eine Kreuzvalidierung durch. Dabei wird nur für einen Teil der Daten das PLS SEM Modell geschätzt und mit den verbleibenden Daten wird dann die Prognosegüte der Schätzung beurteilt. Technisch gesprochen führt man in der Regel eine k-fache Kreuzvalidierung durch: Die Daten werden zufällig in k gleich große Teilmengen aufgeteilt und es werden jeweils k-1 der Teilmengen für die Schätzung und die verbleibende Teilmenge für die Gütebeurteilung herangezogen, wobei jeder der Teilmengen einmal für die Gütebeurteilung genutzt wird. Häufig nutzt man eine 10-fache Kreuzvalidierung (unten im R-Code Parameter noFolds). Da die Kreuzvalidierung auch zufallsabhängig ist, wiederholt man diese ggf. mehrfach (hier 10 mal, im -Code Parameter reps).
Hier ist der Code für diese Kreuzvalidierung:
# Prognose mit Kreuzvalidierung
predict_poldem <- predict_pls(
model = poldem_pls_f,
technique = predict_DA,
noFolds = 10,
reps = 10)
# Ergebnis der Kreuvalidierung
predict_poldem_sum <- summary(predict_poldem)
Zunächst prüft man die Fehlerverteilung für die Indikatoren des Schlüsselkonstrukts (in unserem Beispiel sind das die Indikatoren y5 – y8 für Demokratie 1965).
# Fehlerverteilung der Indikatoren des Schlüsselkonstrukts
plot(predict_poldem_sum, indicator="y5")
plot(predict_poldem_sum, indicator="y6")
plot(predict_poldem_sum, indicator="y7")
plot(predict_poldem_sum, indicator="y8")
Wenn diese Plots im Wesentlichen symmetrisch sind, dann verwendet man für die Beurteilung der Vorhersage das Maß RMSE (root mean squared error), bei stark assymetrischen Verteilungen hingegen das Maß MAE (mean absolute error). Im vorliegenden Fall waren die Plots relativ symmetrisch (hier nicht abgedruckt), so dass RMSE zur Gütebeurteilung herangezogen wird.
Anzeige der Ergebnisse:
predict_poldem_sum
Nachfolgend der relevante Auszug aus den Ergebnissen, nämlich nur die out-of-sample metrics, und zwar für die Indikatoren des Schlüsselkonstrukts, hier y5 – y8:
PLS out-of-sample metrics:
y5 y6 y7 y8
RMSE 1.658 2.507 2.300 2.141
MAE 1.258 2.059 1.849 1.673
LM out-of-sample metrics:
y5 y6 y7 y8
RMSE 1.675 2.353 2.354 2.217
MAE 1.272 1.816 1.853 1.774
Aufgrund der Fehlerverteilung betrachten wir jeweils die Zeile RMSE. Dabei vergleichen wir die PLS-Schätzung der out-of-sample metrics mit einer einfachen LM-Schätzung. Für eine gute PLS SEM Vorhersagegüte sollten die Fehler bei PLS kleiner sein als bei LM.
Hier im Beispiel sehen wir, dass für PLS der RMSE für drei der vier Indikatoren (y5, y7, y8) kleiner ist als für LM, während er für einen Indikator (y6) größer ist.
Wie man sieht, kann sich das Ergebnis je nach Indikator auch unterscheiden. Eine Entscheidungsregel für diesen Fall ist:
- Wenn für alle Indikatoren die Fehlerwerte für PLS höher sind als für LM, dann hat das Modell keine Vorhersagequalität.
- Wenn für mehr als 50% der Indikatoren die Fehlerwerte für PLS höher sind als für LM, dann hat das Modell eine geringe Vorhersagequalität.
- Wenn für 50% oder weniger der Indikatoren die Fehlerwerte für PLS höher sind als für LM, dann hat das Modell eine mittlere Vorhersagequalität.
- Wenn für keinen der Indikatoren die Fehlerwerte für PLS höher sind als für LM, dann hat das Modell eine hohe Vorhersagequalität.
Das vorliegende Beispielmodell hat also eine mittlere Vorhersagequalität.
Literatur
Cohen, J. (1992). A power primer. Psychological Bulletin, 112(1), 155-159.
Futaahy, M. (2021). I wonder how to calculate Q2 for the explanatory power of the model through SEMinR package. Facebook. https://www.facebook.com/groups/seminr/permalink/995070017723013/
Hair Jr, J. F., Hult, G. T. M., Ringle, C. M., Sarstedt, M., Danks, N. P., & Ray, S. (2021). Partial least squares structural equation modeling (PLS-SEM) using R: A workbook. Springer Nature.
Hair, J. F., Risher, J. J., Sarstedt, M., & Ringle, C. M. (2019). When to use and how to report the results of PLS-SEM. European Business Review, 31(1), 2-24.
Weitere Tutorials
Weitere Tutorials zu PLS SEM mit R:
- PLS SEM: Modellschätzung mit R / seminr
- PLS SEM: Evaluation eines reflektiven Messmodells mit R / seminr
- PLS SEM: Evaluation eines formativen Messmodells mit R / seminr