SEM/CFA - Beschreibung wichtiger Grundbegriffe

Arndt Regorz, Dipl. Kfm. & M.Sc. Psychologie, 26.07.2023

Die statistischen Verfahren lineare Strukturgleichungsmodellierung (structural equation modeling, SEM) und konfirmatorische Faktorenanalyse (confirmatory factor analysis, CFA) sowie Pfadanalyse (path analysis) sind mächtig, aber in der Anwendung auch recht komplex. Zudem sind sie verbunden mit einer Vielzahl anfangs verwirrender Fachbegriffe.

Dieses Tutorial soll wichtige Fachbegriffe erklären, die häufig im Zusammenhang mit diesen Verfahren verwendet werden.

Die nachfolgenden Erklärungen sind programmunabhängig. Zur Umsetzung von Strukturgleichungsmodellierung und konfirmatorischen Faktorenanalyse mit konkreten Programmen (R lavaan, IBM AMOS) biete ich einige Tutorials an:

In diesem Tutorial werden die folgenden Schlüsselbegriffe erläutert.

Inhalt

  1. Strukturgleichungsmodellierung (SEM), Konfirmatorische Faktorenanalyse (CFA), Pfadanalyse
  2. Latente Variablen, Manifeste Variablen, Indikatoren
  3. Endogene Variablen, Exogene Variablen, Fehlerterme
  4. Messmodell, Strukturmodell
  5. Kovarianzstrukturmodellierung, Kovarianzmatrix
  6. Modellfit, Fit-Indizes, Globaler Fit, Lokaler Fit, Modifikationsindizes, Residualmatrix
  7. Varianz, Fehler-Varianz, Fehler-Kovarianz, Faktorladung, Kreuzladung, Gerichteter Pfad
  8. Unstandardisierte Koeffizienten, Standardisierte Koeffizienten
  9. Reflektive Konstrukte, Formative Konstrukte

1. SEM, CFA, Pfadanalyse

Strukturgleichungsmodellierung (SEM):

Die Strukturgleichungsmodellierung (SEM) ist eine statistische Methode zur Analyse komplexer Beziehungen zwischen Variablen. Sie kombiniert Elemente der Faktorenanalyse und Regressionsanalyse, um die Beziehungen zwischen latenten Variablen (nicht beobachtete Konstrukte) und manifesten Variablen (beobachtete Indikatoren) zu bewerten.

Konfirmatorische Faktorenanalyse (CFA):

Die konfirmatorische Faktorenanalyse (CFA) ist eine Untergruppe der SEM, die sich speziell auf die Bewertung der Messeigenschaften von latenten Variablen konzentriert. Sie dient dazu festzustellen, ob eine Gruppe von beobachteten Indikatoren die zugrunde liegenden latenten Konstrukte angemessen misst. Die CFA ermöglicht es Forschern, zu bewerten, inwieweit die beobachteten Indikatoren mit dem theoretischen Konstrukt übereinstimmen, das sie messen sollen, indem Faktorladungen und Modellfit-Indizes untersucht werden. Sie kommt insbesondere auch in Fragebogenkonstruktion und -Validierung zum Einsatz.

Pfadanalyse:

Die Pfadanalyse ist eine Methode innerhalb der SEM, die die direkten und indirekten Beziehungen zwischen Variablen in einem vorgeschlagenen theoretischen Modell untersucht. Sie zielt darauf ab, die Wege zu identifizieren und zu quantifizieren, durch die Variablen sich gegenseitig beeinflussen. Die Pfadanalyse ermöglicht es Forschern, die kausalen Beziehungen zwischen Variablen zu verstehen, indem sie die direkten Effekte (dargestellt durch Pfade) und indirekten Effekte (vermittelt durch andere Variablen) im Modell analysiert. In einem engeren Sinne ist die Pfadanalyse ein Modellierungsansatz, der nur mit manifesten Variablen arbeitet (im Gegensatz zu vollständiger SEM, bei der die Beziehungen zwischen latenten Konstrukten analysiert werden).

2. Latente Variablen, Manifeste Variablen, Indikatoren

Latente Variablen:

Latente Variablen sind nicht beobachtete Konstrukte, die nicht direkt gemessen werden können. Sie repräsentieren abstrakte Konzepte oder theoretische Konstrukte, die aus beobachteten Indikatoren geschlussfolgert werden. Latente Variablen werden oft durch statistische Modellierungstechniken wie SEM oder CFA identifiziert. Beispielsweise sind Intelligenz oder Kundenzufriedenheit latente Variablen, die indirekt mithilfe mehrerer beobachteter Indikatoren gemessen werden können.

Manifeste Variablen:

Manifeste Variablen, auch beobachtete Variablen genannt, sind direkt messbare Variablen, die spezifische beobachtbare Verhaltensweisen, Merkmale oder Eigenschaften darstellen. Sie werden verwendet, um die latenten Variablen zu bewerten oder zu quantifizieren, mit denen sie verbunden sind. Oder sie können direkt als Prädiktoren in einer Pfadanalyse verwendet werden. Manifeste Variablen können mit verschiedenen Skalen, Fragebögen oder anderen beobachtbaren Indikatoren gemessen werden.

Indikatoren:

Indikatoren, manchmal auch als Items bezeichnet, sind spezifische Maße oder Beobachtungen, die in einem Modell die latenten Variablen repräsentieren. Sie sind in der Regel manifeste Variablen, von denen angenommen wird, dass sie das zugrunde liegende Konstrukt widerspiegeln oder erfassen. Indikatoren können in Form von Umfrageitems, Testergebnissen, Bewertungen oder anderen beobachtbaren Variablen vorliegen.

3. Endogene Variablen, Exogene Variablen, Fehlerterme

Endogene Variablen:

Endogene Variablen sind Variablen innerhalb eines Modells, die von anderen Variablen in dem Modell beeinflusst oder bestimmt werden. In SEM werden endogene Variablen von anderen Variablen im Modell vorhergesagt oder erklärt, und ihre Beziehungen werden mithilfe von Regressionsgleichungen oder Strukturgleichungen geschätzt. Endogene Variablen tragen in der Regel einen Fehlerterm, da sie nicht perfekt vorhergesagt werden können.

Exogene Variablen:

Exogene Variablen sind Variablen in einem Modell, die von anderen Variablen in dem Modell nicht beeinflusst werden. Sie gelten als unabhängige Variablen, die direkt die endogenen Variablen beeinflussen.

Fehlerterme:

Fehlerterme, auch als Residuen oder Störterme bezeichnet, repräsentieren die nicht erklärte oder zufällige Variation in den Beziehungen zwischen Variablen in einem Modell. Sie erfassen die Teile der Variablen, die nicht durch die Prädiktoren oder Messungsindikatoren des Modells erklärt werden können. Fehlerterme sind in SEM- und CFA-Modellen enthalten, um Messfehler, ausgelassene Variablen oder andere Quellen unerklärter Varianz zu berücksichtigen. Die Fehlerterme von endogenen latenten Variablen haben einen besonderen Namen, diese bezeichnet man häufig als Disturbances.

4. Messmodell und Strukturmodell

Messmodell:

Das Messmodell (measurement model) bezieht sich auf den Teil eines SEM- oder CFA-Modells, der die Beziehungen zwischen den latenten Variablen und ihren beobachteten Indikatoren darstellt. Es umfasst die Faktorladungen, die die Stärke und Richtung der Beziehungen zwischen den latenten Variablen und den manifesten Variablen quantifizieren. Das Messmodell bewertet, wie gut die beobachteten Indikatoren die latenten Variablen messen.

Strukturmodell:

Das Strukturmodell (structural model) repräsentiert die Beziehungen zwischen den latenten Variablen in einem SEM oder zwischen den manifesten Variablen in einer Pfadanalyse. Es umfasst die Pfade oder Pfeile, die die direkten Effekte einer Variablen auf eine andere anzeigen. Das Strukturmodell bewertet die Beziehungen zwischen den latenten Variablen und trägt dazu bei, spezifische Hypothesen oder Theorien darüber zu testen, wie die Variablen miteinander zusammenhängen.

5. Kovarianzstrukturmodellierung und Kovarianzmatrix

Kovarianzstrukturmodellierung:

Kovarianzstrukturmodellierung (covariance structure modeling) ist ein alternativer Begriff für SEM, der die Schätzung und Untersuchung der Kovarianzmatrix zwischen den Variablen betont. Dabei werden die Beziehungen zwischen den Variablen modelliert, einschließlich sowohl direkter als auch indirekter Effekte. Kovarianzstrukturmodellierung ermöglicht es Forschern, komplexe Beziehungen zwischen Variablen zu untersuchen und dabei Messfehler und die Wechselwirkungen zwischen den Variablen zu berücksichtigen.

Kovarianzmatrix:

Die Kovarianzmatrix ist eine quadratische Matrix, die die Kovarianz zwischen Paaren von Variablen in einem Datensatz zusammenfasst. Sie liefert Informationen darüber, inwieweit die Variablen miteinander kovariieren. In SEM, CFA und Pfadanalyse wird die Kovarianzmatrix verwendet, um die Beziehungen zwischen latenten Variablen und beobachteten Indikatoren zu schätzen und den Modellfit zu bewerten.

6. Modellfit, Fit-Indizes, Globaler Fit, Lokaler Fit, Modifikationsindizes, Residualmatrix

Modellfit:

Der Modellfit bezieht sich auf das Maß, in dem ein vorgeschlagenes Modell mit den beobachteten Daten übereinstimmt. Er bewertet, wie gut das theoretische Modell die Muster der Kovarianz und Varianz in den Daten reproduziert. Ein guter Modellfit zeigt an, dass das Modell die Beziehungen zwischen den Variablen angemessen erfasst, während ein schlechter Fit darauf hindeutet, dass das Modell überarbeitet oder verbessert werden muss.

Fit-Indizes:

Fit-Indizes sind statistische Maße, die verwendet werden, um den Gesamtmodellfit zu bewerten. Sie geben, zusätzlich zum eigentlichen Modelltest mit dem Chi-Quadrat-Test, Informationen darüber, wie gut das Modell mit den beobachteten Daten übereinstimmt und berücksichtigen dabei die Komplexität des Modells. Häufig verwendete Fit-Indizes sind der Comparative Fit Index (CFI), der Root Mean Square Error of Approximation (RMSEA) und der Standardized Root Mean Square Residual (SRMR).

Globaler Fit:

Der globale Fit bezieht sich auf den Gesamtmodellfit, bei dem beurteilt wird, wie gut alle Beziehungen im Modell mit den beobachteten Daten übereinstimmen. Globale Fit-Indizes wie CFI oder RMSEA geben eine Einschätzung des Gesamtmodellfits für das gesamte Modell.

Lokaler Fit:

Der lokale Fit bezieht sich auf den Fit bestimmter Beziehungen oder Pfade innerhalb des Modells. Dabei wird die Angemessenheit einzelner Pfade oder Beziehungen zwischen Variablen untersucht. Der lokale Fit kann durch die Untersuchung von Modifikationsindizes oder standardisierten Residuen in Bezug auf bestimmte Pfade beurteilt werden, um Bereiche zu identifizieren, in denen das Modell verbessert werden muss.

Modifikationsindizes:

Modifikationsindizes schlagen mögliche Verbesserungen für ein Modell vor, indem sie Bereiche mit schlechtem Fit oder hoher Rest-Kovarianz zwischen Variablen identifizieren. Sie geben an, welche Pfade oder Beziehungen, wenn sie hinzugefügt werden, den Gesamtmodellfit verbessern könnten. Modifikationsindizes helfen Forschern dabei, spezifische Bereiche zur Verbesserung des Modells zu identifizieren.

Residualmatrix:

Die Residualmatrix repräsentiert den Unterschied zwischen der beobachteten Kovarianzmatrix und der geschätzten (= modellimplizierten) Kovarianzmatrix auf der Grundlage des vorgeschlagenen Modells. Sie liefert Informationen über die nicht erklärte oder residuale Kovarianz zwischen Variablen. Die Residualmatrix ist nützlich, um Modellfit-Probleme zu diagnostizieren und Bereiche zu identifizieren, in denen das Modell die Beziehungen zwischen den Variablen nicht ausreichend erfasst.

7. Varianz, Fehler-Varianz, Fehler-Kovarianz

Varianz:

Die Varianz ist ein statistisches Maß, das die Variabilität oder Streuung einer Variable quantifiziert. Sie gibt an, wie weit die Werte um den Mittelwert verteilt sind. In SEM und CFA wird die Varianz verwendet, um den Anteil der Gesamtvariation einer Variable abzuschätzen, der durch die latenten Konstrukte oder andere Variablen im Modell erklärt werden kann. Für exogene Variablen in einem Modell wird i.d.R. die Varianz geschätzt.

Fehler-Varianz:

Die Fehler-Varianz repräsentiert den Anteil der beobachteten Varianz einer manifesten Variable, der nicht durch das latente Konstrukt oder andere Variablen im Modell erklärt wird. Sie erfasst die einzigartige oder nicht erklärte Variation in der beobachteten Variable, die vom Modell nicht vorhergesagt wird. Die Fehler-Varianz wird typischerweise als die Varianz des Fehlerterms einer bestimmten Indikatorvariable dargestellt. Die Fehler-Varianzen für latente Variablen werden häufig als Störterme (Disturbances) bezeichnet. Für endogene Variablen in einem Modell wird i.d.R. die Fehler-Varianz ausgegeben und nicht die gesamte Varianz.

Fehler-Kovarianz:

Die Fehler-Kovarianz bezieht sich auf die Kovarianz zwischen den Fehlertermen von zwei oder mehr Indikatoren in einem Messmodell. Sie erfasst den Grad, in dem die einzigartigen oder nicht erklärten Variationen in den Indikatoren miteinander zusammenhängen. Fehler-Kovarianzen können durch gemeinsame Messfehler oder gemeinsame Faktoren entstehen, die nicht explizit im Messmodell modelliert werden. Wenn in einem Modell Kovarianzen oder Korrelationen ausgegeben werden, sind es bei endogenen Variablen i.d.R. Fehlerkovarianzen (und nicht die vollständigen Kovarianzen zwischen den Variablen).

Faktorladung:

Die Faktorladung (factor loading) ist ein statistischer Parameter, der die Stärke und Richtung der Beziehung zwischen einer latenten Variable (Konstrukt) und ihren entsprechenden beobachteten Indikatoren in einem Messmodell quantifiziert. Sie gibt an, wie viel von der beobachteten Varianz in einem Indikator auf die zugrunde liegende latente Variable zurückgeführt werden kann. Faktorladungen sind in der Regel standardisierte Koeffizienten, die von -1 bis 1 reichen, wobei betragsmäßig höhere Werte auf eine stärkere Assoziation zwischen der latenten Variable und dem Indikator hinweisen. In der Praxis geben Faktorladungen Einblicke darin, inwieweit ein Indikator das latente Konstrukt widerspiegelt, das er messen soll. Häufig messen die verschiedenen Indikatoren das Konstrukt unterschiedlich gut.

Kreuzladung:

Kreuzladung bezieht sich auf eine Situation, in der ein beobachteter Indikator in einem Messmodell eine erhebliche Korrelation oder Faktorladung mit zwei oder mehr latenten Variablen aufweist. Idealerweise sollte jeder Indikator hauptsächlich das latente Konstrukt widerspiegeln, das er messen soll, was sich in einer hohen Faktorladung auf dieses spezifische latente Konstrukt zeigt. Kreuzladung tritt jedoch auf, wenn ein Indikator bedeutende Ladungen auf mehrere latente Variablen zeigt, was darauf hinweist, dass er keine klare und eindeutige Messung eines einzelnen Konstrukts ist.

Gerichteter Pfad:

Ein gerichteter Pfad, auch Pfeil oder Pfadkoeffizient genannt, repräsentiert eine hypothetische kausale Beziehung zwischen zwei Variablen in einem Strukturmodell. Er zeigt die Richtung und Stärke des Einflusses einer Variablen auf eine andere an. Gerichtete Pfade werden in einem Pfaddiagramm als einseitige Pfeile dargestellt, die Variablen verbinden, und werden häufig unter Verwendung von Regressionskoeffizienten oder Strukturgleichungskoeffizienten geschätzt. Ein positiver gerichteter Pfadkoeffizient zeigt einen direkten positiven Einfluss an, während ein negativer Koeffizient einen direkten negativen Einfluss anzeigt. Gerichtete Pfade ermöglichen es Forschern, spezifische Hypothesen darüber zu testen, wie Variablen in einem theoretischen Modell kausal miteinander zusammenhängen. Es ist jedoch zu beachten, dass es in einer nicht-experimentellen Querschnittsstudie nicht möglich ist, Kausalität zu zeigen.

8. Unstandardisierte und standardisierte Koeffizienten

Unstandardisierte Koeffizienten:

Unstandardisierte Koeffizienten repräsentieren die rohen, nicht angepassten Schätzungen der Beziehungen zwischen Variablen in einem Modell. Sie werden oft aus Strukturgleichungen abgeleitet und spiegeln die Einheitenmessung der Variablen wider (= wenn sich der Prädiktor um eine Einheit erhöht, um wie viele Einheiten verändert sich dann das Kriterium). Unstandardisierte Koeffizienten geben Informationen über die Größenordnung und Richtung der Beziehungen, ohne die Skalen oder Varianzen der Variablen zu berücksichtigen. Dieser Koeffizient ähnelt dem B in der multiplen Regression.

Standardisierte Koeffizienten:

Standardisierte Koeffizienten, auch standardisierte Schätzungen oder Beta-Koeffizienten genannt, repräsentieren die Beziehungen zwischen Variablen in einem Modell, nachdem sie an die Skalen und Varianzen der Variablen angepasst wurden (= wenn sich der Prädiktor um eine Standardabweichung erhöht, um wie viele Standardabweichungen verändert sich dann das Kriterium). Sie werden abgeleitet, indem die Variablen so standardisiert werden, dass sie einen Mittelwert von null und eine Standardabweichung von eins haben. Standardisierte Koeffizienten geben Informationen über die relative Stärke und Richtung der Beziehungen und ermöglichen direkte Vergleiche zwischen Effekten verschiedener Variablen. Dieser Koeffizient ähnelt dem beta in der multiplen Regression.

9. Reflektive und formative Konstrukte

Reflektive Konstrukte:

Reflektive Konstrukte, auch Effektindikatoren genannt, sind eine Art von latenten Variablen in SEM, bei denen angenommen wird, dass die beobachteten Indikatoren das zugrunde liegende Konstrukt widerspiegeln oder messen. In diesem Rahmen wird das Konstrukt als die Ursache der Indikatoren betrachtet, was bedeutet, dass das Konstrukt die Werte der Indikatoren beeinflusst oder verursacht. Reflektive Konstrukte gehen von einem konzeptionellen Modell aus, in dem die latente Variable eine zugrunde liegende Dimension oder Eigenschaft repräsentiert, die sich in den beobachteten Indikatoren manifestiert. Bei gängigen Strukturgleichungsprogrammen (AMOS, lavaan, MPlus) überwiegt die Verwendung reflektiver Konstrukte.

Formative Konstrukte:

Formative Konstrukte, auch kausale Indikatoren genannt, sind eine Art von latenten Variablen in der Strukturgleichungsmodellierung (SEM), bei denen angenommen wird, dass die beobachteten Indikatoren das Konstrukt gemeinsam formen oder bilden. Mit anderen Worten wird das Konstrukt als Ergebnis der Indikatoren oder der Kombination ihrer Werte betrachtet. Formative Konstrukte werden durch ein konzeptionelles Rahmenwerk charakterisiert, in dem die Indikatoren das Konstrukt definieren und zu seiner Bedeutung oder Zusammensetzung beitragen. Zur Analyse formativer Konstrukte werden überwiegend andere Modellierungstechniken, wie z. B. die Methode der partiellen kleinsten Quadrate für SEM (PLS-SEM), verwendet, die von lavaan oder AMOS nicht unterstützt werden.

10. Quellen

Brown, T. A. (2015). Confirmatory factor analysis for applied research (2nd ed.). Guildford Press.

Kline, R. B. (2015). Principles and practice of structural equation modeling (4th ed.). Guildford Press.