Pfadanalyse mit R / lavaan 12:
Cluster Robust Standard Errors
Arndt Regorz, Dipl. Kfm. & MSc. Psychologie, 07.09.2024
Eine der Voraussetzungen für eine Pfadanalyse ist, wie auch bei der Regression, die Unabhängigkeit der Fehlerterme.
Diese Voraussetzung ist regelmäßig verletzt, wenn Sie eine genestete (geclusterte, hierarchische) Datenstruktur haben. Im Querschnitt beispielsweise bei der Untersuchung von Schülerinnen und Schülern in verschiedenen Schulklassen, im Längsschnitt beispielsweise bei Messzeitpunkten genestet in Personen.
Insbesondere in der Psychologie verwendet man bei genesteten Datenstrukturen häufig die Mehrebenenanalyse (Linear Mixed Effects Models), bei einer Pfadanalyse dann also eine Mehrebenen-Pfadanalyse. Diese Möglichkeit gibt es auch in lavaan (2 Ebenen, Random Intercept), siehe mein Tutorial Pfadanalyse mit R / lavaan 11: Mehrebenen-Pfadanalyse.
Aber es gibt eine in der Anwendung deutlich einfachere Alternative: Cluster robust standard errors (=cluster robuste Standardfehler). Denn die Mehrebenenstruktur führt nicht dazu, dass die normalen Schätzungen falsch sind, lediglich die Standardfehler und damit die Teststatistiken und p-Werte sind verzerrt. Doch diese Verzerrung (Bias) kann man durch den Einsatz von clusterrobusten Standardfehlern aufheben, so dass man ganz einfach auch dann korrekte Testergebnisse erhält, wenn die Unabhängigkeitsvoraussetzung verletzt ist.
Cluster Robust Standard Errors in lavaan
Wenn Sie für ein Pfadmodell mit lavaan clusterrobuste Standardfehler einsetzen wollen, dann bleibt zunächst die Modellspezifikation die gleiche wie bei einer normalen Pfadanalyse. Z.B.:
mein_modell <- '
# Gerichtete Effekte
MED ~ a1*IV1 + a2*IV2
DV1 ~ b1*MED
DV2 ~ b2*MED
# Kovarianzen
DV1 ~~ DV2
'
Nur im Schritt der Modellschätzung kommt ein einziger Parameter hinzu:
model_fit <- sem(mein_modell, data = meine_daten, cluster = "gruppe")
Hier ist im Vergleich zum normalen Aufruf der Modellschätzung der Parameter cluster = hinzu gekommen. Anschließend wird in Anführungszeichen der Namen der Gruppenvariable (Level 2 Einheit) angegeben, hier im Beispiel "gruppe". Dieser Parameter sorgt dafür, dass bei der Berechnung der Standardfehler die Abhängigkeit der Beobachtungen aufgrund der hierarchischen Datenstruktur berücksichtigt wird.
Der Output sieht dann genauso aus wie bei einer gewöhnlichen Pfadanalyse mit lavaan mit robusten Schätzern. Sie bekommen also neben normalem Modelltest und normalen Fit-Indizes auch robuste Fit-Indizes, die nicht auf der Normalverteilungsannahme beruhen und die ich daher für die Beurteilung des Modells heranziehen würde.
Und über den Tabellen mit den Parameterschätzungen steht die Zeile:
Standard errors Robust.cluster
An dieser Zeile können Sie erkennen, dass alle dann folgenden Testergebnisse mit clusterrobusten Standardfehlern berechnet worden sind, Sie also Teststatistiken und p-Werte haben, die trotz Verletzung der Unabhängigkeitsannahme korrekt interpretierbar sind.
Weitere Tutorials zur Pfadanalyse mit lavaan:
Pfadanalyse mit R / lavaan 2: Vergleich von zwei Pfaden
Pfadanalyse mit R / lavaan 3: Voraussetzungen und robuste Verfahren
Pfadanalyse mit R / lavaan 4: Moderation
Pfadanalyse mit R / lavaan 5: Mediation
Pfadanalyse mit R / lavaan 6: Cross-Lagged-Panel Modell
Pfadanalyse mit R / lavaan 7: Fehlende Werte
Pfadanalyse mit R / lavaan 8: Pfadanalyse mit Kovarianzmatrix
Pfadanalyse mit R / lavaan 9: Binäre und Ordinale endogene Variablen