Schätzprobleme bei SEM, CFA und Pfadanalyse – Ursachen und Lösungen
Arndt Regorz, Dipl. Kfm. & M.Sc. Psychologie, 18.09.2023
Sie haben ein lineares Strukturgleichungsmodell geschätzt, oder eine konfirmatorische Faktorenanalyse oder eine Pfadanalyse, aber das SEM-Programm konnte keine Lösung finden („did not converge“, „convergence not achieved“ u.ä.)? Was sind mögliche Ursachen dafür, dass eine Modellschätzung keine Kovergenz erreicht hat? Und was kann man dagegen unternehmen?
Es gibt tatsächlich zahlreiche verschiedene Gründe, die dazu führen können, dass der Schätzalgorithmus keine Lösung finden konnte, also nicht konvergiert ist. Einige sind:
- Theoretisch nicht identifiziertes Modell
- Empirisch nicht identifiziertes Modell
- Zu kleine Stichprobe
- Zu komplexes Schätzverfahren
- Problematische Startwerte
- Falsche Modelldefinition
- Keine Varianz in einer Variablen
- Unterschiedliche Metrik
- Verteilungseigenschaften
Dieses Tutorial erläutert mögliche Gründe und zeigt Wege für die Fehlersuche/Troubleshooting auf.
1. Theoretisch nicht identifiziertes Modell
Eine wesentliche Voraussetzung für eine erfolgreiche Modellschätzung ist, dass das Modell überhaupt identifiziert ist. Das bedeutet vor allem, dass global, aber auch lokal, mindestens so viele Informationen zur Verfügung stehen wie zu schätzende Parameter. Dabei sind bei einem SEM-Programm die Informationen nicht die Anzahl der Untersuchungseinheiten/Versuchspersonen, sondern die Anzahl der einzigartigen Einträge in der Varianz-/Kovarianzmatrix der beobachteten Variablen.
Dabei ist die globale Identifizierung vermutlich in der Praxis seltener das Problem, weil man diese auch sehr einfach prüfen kann. Es gibt Formeln, um die Anzahl der empirischen Informationen, d.h. Einträge in der Varianz-/Kovarianzmatrix, zu berechnen (ohne Mittelwertsstruktur errechnet sich die Anzahl der empirischen Infos mit: v(v+1)/2, wobei v die Anzahl der gemessenen Variablen ist). Und deren Werte kann man dann mit den im Modell zu schätzenden Parametern abgleichen.
Aber es ist denkbar, dass zwar die Gesamtzahl der empirischen Informationen die Anzahl der zu schätzenden Parameter übersteigt, aber dennoch in Teilen des Modells ein Mangel an Informationen herrscht. Und das ist deutlich schwieriger zu erkennen.
Auch in den Themenkreis Modellidentifizierung gehört, dass jede latente Variable (in SEM oder CFA) eine Metrik zugewiesen bekommt. Bei Faktoren erfolgt dies häufig per Default dadurch, dass eine Faktorladung auf 1 gesetzt wird. Alternativ kann man aber auch die Faktorvarianz auf 1 setzen. Wenn jedoch keine Metrik vergeben worden ist, kann das Modell nicht geschätzt werden.
In Pfadanalysen ist die Modellidentifizierung seltener ein Problem, aber bei SEM und CFA kann das, gerade in komplexen Modellen schon vorkommen. Wenn der Schätzalgorithmus also zu keiner stabilen Schätzung führt, würde ich als erstes gründlich prüfen, ob wirklich ein theoretisch schätzbares Modell aufgestellt worden ist. Das Thema Modellidentifizierung ist allerdings sehr komplex und sprengt den Rahmen dieses Tutorials.
2. Empirisch nicht identifiziertes Modell
An sich ist die Frage der Modellidentifizierung eine theoretische Frage, die man bereits vor Beginn der Datenerhebung klären sollte. Denn wenn die Daten schon erhoben sind, kann man u.U. nicht mehr viel daran ändern, wenn das eigene Modell rein theoretisch gar nicht schätzbar ist.
Aber es kann auch dazu kommen, dass ein Modell zwar theoretisch schätzbar ist, jedoch aus bestimmten empirischen Gründe eine Schätzung nicht möglich ist. Hier ist der Fall der Empirical Underidentification zu nennen.
Beispiel 1:
Sie haben ein Messmodell für einen latenten Faktor mit drei Indikatorvariablen. Ein solches Messmodell ist theoretisch just identified (df = 0) und daher schätzbar. Wenn jetzt aber sehr hohe Kollinearität zwischen den Items vorliegt (z.B. zwei fast gleich formulierte Items), dann kann es sein, dass im Grunde nur noch zwei empirische Informationen vorliegen, was lokal nicht mehr für eine Modellidentifizierung reichen würde.
Beispiel 2:
Sie haben ein Messmodell mit zwei korrelierten Faktoren mit jeweils zwei Items. Lokal ist ein Faktor mit nur zwei Items nicht identifiziert, aber zwei korrelierte Faktoren mit je zwei Items sind theoretisch sogar überidentifiziert. Wenn jetzt aber in der Praxis die beiden Faktoren gar nicht miteinander korrelieren, dann hat man von den Daten her zwei unkorrelierte Faktoren mit je zwei Items, und die wären nicht identifiziert.
Um solche Ursachen zu bestimmen, sollte man sich die Korrelationsstruktur der Items genauer ansehen.
Wenn eine solche empirische Unteridentifizierung der Fall ist, werden i.d.R. Änderungen am (Mess-)Modell nötig werden.
3. Zu kleine Stichprobe, zu komplexes Modell
Eine zu kleine Stichprobe in Relation zu der Anzahl zu schätzender Parameter kann dazu führen, dass keine erfolgreiche Schätzung möglich ist.
In dieser Situation gibt es verschiedene Lösungsmöglichkeiten. Zunächst kann man mehr Daten erheben, damit die Stichprobe hinreichend groß ist im Vergleich zur Modellkomplexität. Oder man kann das geplante Forschungsmodell abspecken und nur noch ein einfacheres Modell schätzen.
Im Falle von SEM und CFA ist ein häufig gangbarer Weg, mehrere Items eines Faktors zu sog. Itemparcels zusammenzufassen, was noch eine Reihe weiterer Vorteile mit sich bringt. Mehr dazu finden Sie in meinem Tutorial http://www.regorz-statistik.de/inhalte/sem_cfa_item_parceling.html
Falls man jedoch am Forschungsmodell festhalten will und keine größere Stichprobe bekommen kann (z.B. aus Zeitgründen bei einer Abschlussarbeit, oder weil es einfach nur eine kleine Untersuchungspopulation gibt), kommt noch der Wechsel des Verfahrens in Frage. Neben dem üblichen kovarianzbasierten SEM (mit Programmen wie lavaan, AMOS, MPlus, etc.) gibt es noch ein konkurrierendes SEM-Verfahren, das Partial Least Squares SEM (PLS-SEM). PLS-SEM kommt mit deutlich kleineren Stichprobengrößen aus, so dass dann das Modell u.U. doch schätzbar ist.
4. Zu komplexe Schätzverfahren
Es stehen in SEM-Programmen zahlreiche Schätzverfahren zur Verfügung. Neben der normalen ML-Schätzung gibt es robuste Schätzverfahren, Verfahren für fehlende Werte (Full Information Maximum Likelihood), Verfahren für eine Kombination von robust und fehlenden Werten, Verfahren für binäre oder ordinalskalierte endogene Variablen, usw. Dabei stellen die komplexeren Verfahren mitunter größere Anforderungen an die Stichprobengröße und neigen auch eher zu Konvergenzproblemen.
Um festzustellen, ob das Verfahren die (Mit-)Ursache für die Schätzprobleme ist (ggf. zusammen mit der Stichprobengröße), könnte man ein eher einfaches Verfahren verwenden, um zu prüfen, ob dann die Schätzprobleme immer noch vorliegen.
Wenn die robuste Schätzung das Problem ist, könnte man Bootstrapping nutzen, was nach meiner Einschätzung weniger anfällig ist für Schätzprobleme als andere robuste Schätzer. Und falls die FIML-Schätzung für fehlende Werte das Problem ist, könnte man ggf. die fehlenden Werte in einem vorherigen Schritt, vor der Modellschätzung mit dem SEM-Programm, imputieren (z.B. EM-Algorithmus, der allerdings im Allgemeinen weniger gut ist als das FIML-Verfahren), um dann im eigentlichen SEM-Programm mit vollständigen Daten zu arbeiten.
5. Problematische Startwerte
Der Schätzalgorithmus in einem SEM-Programm ist iterativ. Die Schätzung beginnt also mit anfänglichen Annahmen über die verschiedenen Modellparameter und versucht, diese schrittweise zu verbessern. Jedoch ist es nicht sicher, dass der Algorithmus zu einem globalen Optimum führt. Es kann in seltenen Fällen vorkommen, dass die Schätzung irgendwo „festhängt“, der Algorithmus mit seiner schrittweisen Verbesserung aus dieser lokalen Situation aber nicht herausfindet.
Eine Lösungsmöglichkeit dafür ist die Vorgabe von Startwerten für die Schätzung. Für diesen Fall hat Little (2013) als Startwerte vorgeschlagen: - Faktorladungen mit 0.7 starten - Kovarianzen zwischen verschiedenen Konstrukten mit eher niedrigen Werten starten - Itemfehler (Residuen der Items) nicht zu nahe an 0
Wie man bei einem SEM-Programm Startwerte vorgibt, ist je nach Programm unterschiedlich. Beispielsweise bei R und lavaan werden Startwerte so vorgegeben, dass der entsprechende Parameter mit der Funktion start() multipliziert wird (Rosseel, n.d.). Im folgenden Beispiel werden die Startwerte für die Ladungen eines Faktors mit drei Items (x1, x2, x3) auf 0.7 gesetzt (Voraussetzung dafür, dass das so sinnvoll ist, wäre eine Fixierung der Faktorvarianz auf 1 im Rahmen des Schätzaufrufs, da sonst ja die erste Ladung automatisch auf 1 gesetzt würde):
faktor =~ start(0.7)* x1 + start(0.7)*x2 + start(0.7)*x3
6. Falsche Modelldefinition
Eine nicht zu unterschätzende Ursache für ein nicht konvergierendes Modell ist, dass das Modell schlichtweg falsch aufgestellt ist.
Eine Möglichkeit ist beispielsweise, dass man keine Metrik für die latenten Variablen definiert hat. Am Beispiel von lavaan: Man hat bei CFA oder SEM die Fixierung der ersten Itemladung auf 1 manuell aufgehoben (durch Multiplikation mit NA), aber vergessen, die Faktorvarianz dann auf 1 zu fixieren.
Eine zweite Möglichkeit ist, dass man falsche Variablennamen verwendet hat. Häufig hat man ja in seinem Datensatz mehrere ähnlich klingende Variablennamen (z.B. eine Ursprungsvariable sowie eine rekodierte Version dieser Variable). Wenn man jetzt im Modell aus Versehen die falsche Variable schreibt, kann das zu Schätzproblemen führen.
Insofern sollte man bei Konvergenzproblemen auf jeden Fall noch einmal gründlich prüfen, ob das Modell wirklich so programmiert worden ist, wie es konzeptionell gedacht war.
Ist für jeden Faktor eine Metrik angegeben (z.B. eine Ladung auf 1 fixiert oder Faktorvarianz auf 1 fixiert)?
Sind genau die Variablen in der Modelldefinition, die auch für die Modellschätzung vorgesehen sind (insbesondere bei Variablen, die berechnet, umgerechnet, rekodiert worden sind)?
7. Keine Varianz in einer Variablen
Die Schätzung von Effekten ist im Allgemeinen nur möglich, wenn die betreffenden Variablen überhaupt eine von Null verschiedene Varianz aufweisen. So kann es z.B. in Pfadmodellen zu Schätzproblemen kommen, wenn eine einbezogene Variable nur einen einziges Wert annimmt. So etwas kann beispielsweise passieren, wenn man nur eine Teilstichprobe untersuchen möchte und in der Teilstichprobe eine Variable faktisch eben keine Variable, sondern eine Konstante ist.
Um das zu prüfen, sollte man sich für alle Variablen die deskriptiven Daten ansehen mit Schwerpunkt auf der Varianz der Variablen.
8. Unterschiedliche Metrik
Kovergenzprobleme können auch davon ausgelöst werden, dass Variablen auf völlig unterschiedlichen Metriken gemessen werden. Wenn der Wertebereich für ein Variable von 0 bis 2 ist, und für eine andere Variable von 0 bis 10 000, dann kann das zu Schätzproblemen führen.
Hier ist eine Lösungsmöglichkeit, den Wertebereich der Variablen aneinander anzugleichen, z.B. mit der POMS-Methode (Little, 2013, p. 19). Dabei wird der Wert auf der Variable in Prozent des theoretisch möglichen Maximalwertes angegeben.
Im o.g. Beispiel würde ein Wert von 0.50 auf der ersten Variable als .25 (25%) rekodiert, ein Wert von 3 500 auf der zweiten Variabel als .35 (35%). Jetzt sind beide Variablen auf einer ähnlichen Metrik, was das Risiko von Schätzproblemen reduziert.
9. Verteilungseigenschaften
Schätzverfahren haben häufig Annahmen hinsichtlich der Verteilung der Daten. Hier würde ich insbesondere prüfen, ob Sie extreme Ausreißer in Ihren Daten haben und dann ausprobieren, ob die Konvergenzprobleme auch ohne diese Ausreißer noch auftreten.
Literatur:
Little, T. D. (2013). Longitudinal structural equation modeling. Guilford press.
Rosseel, Y. (n.d.). Model syntax 2. Abgerufen 12.09.2023 von https://lavaan.ugent.be/tutorial/syntax2.html