Fit-Indizes in der Strukturgleichungsmodellierung (SEM), konfirmatorischen Faktorenanalyse (CFA) und Pfadanalyse
Arndt Regorz, Dipl. Kfm. & M.Sc. Psychologie, 07.08.2023
Fit-Indizes dienen als Metriken, um festzustellen, wie gut Ihr vorgeschlagenes Modell mit den beobachteten Daten übereinstimmt. In diesem Artikel werden wir die Begründung für die Verwendung von Anpassungsindizes, ihre Arten und spezifische Anpassungsindizes wie den CFI (Comparative Fit Index), den RMSEA (Root Mean Square Error of Approximation), den SRMR (Standardized Root Mean Square Residual), das Akaike-Informationskriterium (Akaike Information Criterion, AIC) und das Bayesische Informationskriterium (Bayesian Information Criterion, BIC) erkunden.
Video
(Hinweis: Mit Anklicken des Videos wird ein Angebot des Anbieters YouTube genutzt.)
Modellprüfung: Der Chi-Quadrat-Test
Bei der Erstellung eines Strukturgleichungsmodells oder einer konfirmatorischen Faktorenanalyse bewertet der Chi-Quadrat-Test die Diskrepanz zwischen der modellierten Kovarianzmatrix und der beobachteten Kovarianzmatrix. Ein signifikanter Chi-Quadrat-Wert weist auf eine Diskrepanz zwischen dem vorgeschlagenen Modell und den beobachteten Daten hin. Mit anderen Worten: Das Modell passt nicht perfekt zu den Daten. Jedoch ist das m.E. insofern nicht so interessant, weil ein halbwegs komplexes Modell so gut wie nie perfekt zu der Realität passt – sonst wäre es kein Modell sondern einfach eine vollständige Kopie der Realität. (Teilweise anderer Ansicht: Barrett, 2006).
Der Chi-Quadrat-Test ist empfindlich gegenüber der Stichprobengröße und führt oft zu einem signifikanten Ergebnis, selbst für geringfügige Diskrepanzen. Insbesondere der Zusammenhang zwischen Stichprobengröße und signifikantem Modelltest ist problematisch: Eigentlich sind große Stichproben etwas positives, aber gleichzeitig machen sie es wahrscheinlicher, dass die Nullhypothese eines perfekten Modellfits verworfen werden muss.
Manchmal wird auch der Chi-Quadrat-Wert relativ zur Anzahl der Freiheitsgrade betrachtet (also die Teststatistik durch die Anzahl der Freiheitsgrade des Modells geteilt). Hier gibt es in der Literatur unterschiedliche Ansichten, wann ein Modell akzeptabel ist; nach Schreiber et al. (2006) sind Werte unter 2 bis 3 akzeptabel, wobei diese Größe primär für den Vergleich genesteter Modelle bzw. für Model Trimming eingesetzt werden sollte.
Die Notwendigkeit von Anpassungsindizes
Angesichts der Einschränkungen des Chi-Quadrat-Tests stützen sich Forscher zusätzlich auf Fit-Indizes, um eine umfassendere Bewertung der Modellanpassung zu erhalten. Fit-Indizes berücksichtigen Faktoren wie Modellkomplexität und Stichprobengröße und bieten eine realistischere Darstellung, wie gut das Modell zu den Daten passt. Dennoch sollte man zusätzlich zu den Fit-Indizes auch den o.g. Modelltest (Chi square test) berichten.
Nachfolgend werden einige häufig verwendete Fit-Indizes kurz vorgestellt.
CFI (Comparative Fit Index)
Der CFI misst die Verbesserung der Passung des vorgeschlagenen Modells im Vergleich zu einem Basismodell der Unabhängigkeit. Er reicht von 0 bis 1, wobei Werte näher bei 1 auf eine bessere Anpassung hinweisen. Im Allgemeinen wird ein CFI-Wert von 0.95 als guter Modellfit betrachtet (Hu & Bentler, 1999), wobei man teilweise im Internet auch lesen kann, dass bereits Werte ab 0.90 akzeptabel wären.
RMSEA (Root Mean Square Error of Approximation)
RMSEA bewertet die Passung zwischen dem Modell und den beobachteten Daten unter Berücksichtigung des Fehlers der Approximation. Niedrigere RMSEA-Werte deuten auf eine bessere Passung hin.
Für den RMSEA werden in der Literatur unterschiedliche Grenzwerte genannt. Nach Hu und Bentler (1999) zeigt ein Wert unter 0.06 ein guter Modellfit. MacCallum et al. (1996) hingegen haben 0.01 für eine exzellente Passung angegeben, 0.05 für eine gute und 0.08 für eine mittelmäßige.
Zusätzlich zum Wert des RMSEA erhält man häufig auch noch den p-Wert für einen Hypothesentest (p close fit: nicht signifikant = gut) sowie ein Konfidenzintervall für den RMSEA.
Beim RMSEA ist eine wichtige Einschränkung zu beachten: In Modellen mit wenig Freiheitsgraden (insbesondere einfache Pfadanalysen sowie sehr einfache CFAs) kann der RMSEA schlechte Werte annehmen, selbst wenn das Modell gut zu den Daten passt. Für solche Modelle ist es fraglich, ob der RMSEA überhaupt sinnvoll interpretierbar ist. Mehr dazu finden Sie bei Kenny et al. (2015). Ich selbst habe schon einmal ein Pfadmodell mit df = 3 analysiert, dessen Modelltest nicht signifikant war (also konnte selbst die Hypothese eines perfekten Modellfits nicht verworfen werden!), das gleichzeitig aber einen RMSEA von deutlich über 0.10 aufwies.
SRMR (Standardized Root Mean Square Residual)
SRMR misst die standardisierte Diskrepanz zwischen beobachteten und vorhergesagten Korrelationen zwischen den gemessenen Variablen. Ein kleinerer SRMR-Wert zeigt eine bessere Anpassung an. In der Regel wird ein SRMR-Wert von 0.08 oder weniger als akzeptabel angesehen (Hu & Bentler, 1999).
AIC (Akaike Information Criterion) und BIC (Bayesian Information Criterion)
AIC und BIC sind Indizes, die Modellanpassung und Modellkomplexität gegeneinander abwägen. Niedrigere Werte deuten auf eine bessere Anpassung hin und berücksichtigen gleichzeitig die Modellkomplexität. Forscher verwenden diese Indizes oft für den Modellvergleich zwischen verschiedenen nicht genesteten Modellen und wählen das Modell mit dem niedrigsten AIC- oder BIC-Wert aus. Hier gibt es also keine Grenzwerte, denn es kommt nicht auf den absoluten Wert von AIC oder BIC an, sondern auf den Vergleich der Werte zweier verschiedener konkurrierender Modelle.
Literatur
Barrett, P. (2007). Structural equation modelling: Adjudging model fit. Personality and Individual Differences, 42(5), 815-824.
Hu, L. T., & Bentler, P. M. (1999). Cutoff criteria for fit indexes in covariance structure analysis: Conventional criteria versus new alternatives. Structural Equation Modeling: A Multidisciplinary Journal, 6(1), 1-55.
Kenny, D. A., Kaniskan, B., & McCoach, D. B. (2015). The performance of RMSEA in models with small degrees of freedom. Sociological Methods & Research, 44(3), 486-507.
MacCallum, R. C., Browne, M. W., & Sugawara, H. M. (1996). Power analysis and determination of sample size for covariance structure modeling. Psychological Methods, 1(2), 130-149.
Schreiber, J. B., Nora, A., Stage, F. K., Barlow, E. A., & King, J. (2006). Reporting structural equation modeling and confirmatory factor analysis results: A review. The Journal of Educational Research, 99(6), 323-338.