Grundbegriffe der Mehrebenenanalyse
(= Linear Mixed Effects Models, Hierarchical Linear Models, HLM)
Arndt Regorz, Dipl. Kfm. & M.Sc. Psychologie, 25.07.2023
Mehrebenenanalysen sind ein mächtiges Analyseinstrument, um genestete (verschachtelte) Datenstrukturen zu analysieren. Dieses Tutorial wird Ihnen wesentliche Grundbegriffe dieser Analysemethode erklären, ohne unnötigen mathematischen Ballast. Das ist eine gute Grundlage, um später eigenen Auswertungen mit einem HLM-Programm durchzuführen. Anleitungen für konkrete Analysen finden Sie in meinen Tutorials für R und SPSS: Tutorials zur Umsetzung einer Mehrebenenanalyse.
Inhalt
- Was ist Mehrebenenanalyse?
- Vorteile der Mehrebenenanalyse
- Genestete Datenstrukturen
- Atomistischer Fehlschluss, ökologischer Fehlschluss, Kontexteffekte
- Mehrebenenanalyse mit Querschnittsdaten und Längsschnittdaten
- Level 1 und Level 2 Prädiktoren
- Fixed Effects, Random Effects, Varianzkomponenten
- Verschiedene Modelle: Leeres Modell, Fixed Slopes, Random Slopes, Cross-Level-Interaktion
- Quellen
1. Was ist Mehrebenenanalyse?
Mehrebenenmodelle, auch bekannt als hierarchische lineare Modelle oder (lineare) Mixed-Effects-Modelle, sind statistische Modelle, die entwickelt wurden, um Daten mit einer hierarchischen oder verschachtelten Struktur zu analysieren. Diese Struktur tritt auf, wenn Beobachtungen hierarchisch organisiert sind, d.h., sie sind in Gruppen oder Einheiten gruppiert, die wiederum in höhere Einheiten gruppiert sein können. Mehrebenenmodelle sind ein leistungsfähiges Werkzeug, um die Komplexität solcher Datenstrukturen zu erfassen und die damit verbundenen Herausforderungen zu bewältigen.
Ein Mehrebenenmodell besteht aus mehreren Ebenen, die die Hierarchie der Daten widerspiegeln. Die niedrigste Ebene enthält die individuellen Beobachtungen oder Einheiten, während die höheren Ebenen die Gruppen oder Cluster repräsentieren, in denen diese Einheiten gruppiert sind. Jede Ebene kann eigene Merkmale haben, die zur Erklärung der Variation der abhängigen Variable beitragen können. Dabei können die individuellen Beobachtungen beispielsweise Personen sein (in einem Querschnittsmodell), aber auch Messzeitpunkte innerhalb von Personen (in einem Längsschnittmodell). In diesem Tutorial werden wir beide Arten von Modellen betrachten.
Der Schlüsselaspekt von Mehrebenenmodellen ist die Einbeziehung von Zufallseffekten oder Random Effects. Diese Zufallseffekte erfassen die Variation auf den verschiedenen Ebenen der Hierarchie und ermöglichen es, sowohl die innerhalb- als auch die zwischen-Gruppen-Variation (within und between variation) zu modellieren. Indem sie diese Variation berücksichtigen, liefern Mehrebenenmodelle realistischere Schätzungen der Parameter und ermöglichen es den Forschern, sowohl individuelle als auch gruppenbezogene Effekte zu analysieren.
Insgesamt sind Mehrebenenmodelle ein leistungsfähiges Werkzeug zur Analyse von Daten mit einer hierarchischen Struktur, sowohl im Querschnitt als auch im Längsschnitt. Sie ermöglichen es Forschern, die Komplexität von verschachtelten Datenstrukturen zu berücksichtigen, Variationen auf verschiedenen Ebenen zu modellieren und ein umfassenderes Verständnis der untersuchten Phänomene zu erlangen.
2. Vorteile der Mehrebenenanalyse
Mehrebenenmodellierung ist eine leistungsstarke statistische Technik, die in verschiedenen Forschungsbereichen stark an Bedeutung gewonnen hat. Einige wesentliche Vorteile sind:
Berücksichtigung der Verschachtelungsstruktur
Ein wesentlicher Vorteil der Mehrebenenmodellierung besteht darin, dass sie mit verschachtelten Datenstrukturen umgehen kann, bei denen Beobachtungen hierarchisch organisiert sind. Herkömmliche statistische Methoden nehmen an, dass Beobachtungen unabhängig voneinander sind und vernachlässigen den potenziellen Einfluss von Gruppierung oder Abhängigkeit innerhalb von Gruppen. Im Kontext der Regressionsanalyse ist dies bekannt als die Regressionsvoraussetzung der Unabhängigkeit (manchmal auch der Unkorreliertheit) der Residuen. Die Mehrebenenmodellierung überwindet diese Einschränkung, indem sie Zufallseffekte einbezieht und die innerhalb der Gruppe auftretende Variation explizit erfasst. Durch eine angemessene Berücksichtigung der Verschachtelungsstruktur können Forscher genauere Schätzungen der interessierenden Effekte und korrekte Hypothesentests erhalten. Dieser Vorteil ist insbesondere in Bereichen wie Bildung, öffentliche Gesundheit und Organisationsforschung von Bedeutung, in denen Daten häufig hierarchische Abhängigkeiten aufweisen. Außerdem ist dies wichtig bei der Analyse von Längsschnittdaten, da auch hier in der Regel eine Abhängigkeit zwischen den verschiedenen Beobachtungen bei einer Person/Untersuchungseinheit besteht.
Erfassung von Cross-Level-Interaktionen
Ein weiterer bedeutender Vorteil der Mehrebenenmodellierung besteht in ihrer Fähigkeit, Cross-Level-Interaktionen zu erfassen. Herkömmliche statistische Methoden konzentrieren sich in der Regel auf Beziehungen auf einer einzelnen Ebene und berücksichtigen nicht das potenzielle Zusammenspiel zwischen Variablen auf verschiedenen Ebenen. Die Mehrebenenmodellierung ermöglicht jedoch die Untersuchung, wie Beziehungen zwischen Variablen auf unterschiedlichen Ebenen variieren können. Dadurch können Forscher untersuchen, wie Faktoren auf individueller Ebene mit übergeordneten Kontextfaktoren interagieren, was zu einem umfassenderen Verständnis komplexer Phänomene führt. Durch die Einbeziehung von Cross-Level-Interaktionen liefert die Mehrebenenmodellierung Erkenntnisse über den kontextuellen Einfluss auf Beziehungen, was in Bereichen wie Sozialwissenschaften, Organisationsverhalten und klinischer Forschung von unschätzbarem Wert ist.
Umgang mit fehlenden Daten und ungleichen Gruppengrößen
Die Mehrebenenmodellierung bietet Flexibilität beim Umgang mit fehlenden Daten und ungleichen Gruppengrößen, die in der empirischen Forschung häufige Herausforderungen darstellen. Im Gegensatz zu herkömmlichen Methoden, die oft vollständige Fälle oder Imputationsverfahren erfordern (z.B. Messwiederholungs-ANOVA und Mixed-ANOVA), kann die Mehrebenenmodellierung fehlende Daten innerhalb der verschachtelten Struktur berücksichtigen. Sie nutzt verfügbare Informationen sowohl aus vollständigen als auch unvollständigen Fällen und maximiert die Nutzung der verfügbaren Daten. Darüber hinaus behandelt die Mehrebenenmodellierung effektiv ungleiche Gruppengrößen, bei denen einige Gruppen mehr Beobachtungen aufweisen als andere. Sie vermeidet den Verlust wertvoller Daten, indem sie den Einfluss der Gruppen entsprechend ihrer Größe angemessen gewichtet. Dieser Vorteil ist insbesondere in Längsschnittstudien relevant, in denen fehlende Daten und ungleiche Gruppengrößen weit verbreitet sind.
3. Genestete Datenstrukturen
Was genau versteht man jetzt unter genesteten (nested) bzw. verschachtelten Datenstrukturen?
Bei genesteten Daten sind Beobachtungen hierarchisch organisiert, wobei niedrigere Ebenen innerhalb höherer Ebenen verschachtelt sind. Beispiele für genestete Datenstrukturen finden sich in verschiedenen Bereichen wie Bildung, Psychologie, Soziologie und Medizin, wo Individuen in Gruppen, Schüler in Schulen, Mitarbeiter in Unternehmen oder Patienten in Krankenhäusern gruppiert sind. Außerdem sind Beispiele dafür Längsschnittmodelle, bei denen die verschiedenen Messzeitpunkte in den Untersuchungseinheiten/Versuchspersonen genestet sind.
Der Vorteil der Mehrebenenmodellierung liegt darin, dass sie die natürliche Hierarchie dieser Datenstrukturen berücksichtigt und damit die Analyse von Abhängigkeiten und Variationen auf verschiedenen Ebenen ermöglicht. Anstatt die Beobachtungen als unabhängig voneinander zu behandeln, erkennt die Mehrebenenmodellierung, dass Variation sowohl innerhalb einer Gruppe (innerhalb niedrigerer Ebenen) als auch zwischen Gruppen (zwischen höheren Ebenen) existiert. Durch die Einbeziehung von Random Effects (Zufallseffekten) kann die Mehrebenenmodellierung diese Variationen quantifizieren und die Schätzungen der Effekte auf den verschiedenen Ebenen anpassen.
Durch die Berücksichtigung der genesteten Struktur ermöglicht die Mehrebenenmodellierung eine genauere Modellierung der Beziehungen zwischen den Variablen und liefert robuste Ergebnisse. Sie erlaubt beispielsweise die Untersuchung, wie individuelle Eigenschaften (z. B. Schülermerkmale) durch die Zugehörigkeit zu bestimmten Gruppen (z. B. Schulen) beeinflusst werden. Darüber hinaus ermöglicht die Mehrebenenmodellierung die Analyse von Kontexteffekten, bei denen die Gruppenzugehörigkeit selbst einen Einfluss auf die Beziehung zwischen den Variablen haben kann.
Dabei wird im Rahmen der Mehrebenenmodellierung die abhängige Variable in der Regel auf der untersten Hierarchieebene untersucht, also im Rahmen von Querschnittsdaten meistens auf der Ebene der Personen, im Rahmen von Längsschnittdaten in der Regel auf der Ebene der Messzeitpunkte.
4. Atomistischer Fehlschluss, ökologischer Fehlschluss, Kontexteffekte
Ein wichtiges Motiv für den Einsatz der Mehrebenenmodellierung ist es, bestimmte Fehlschlüsse zu vermeiden, die bei einer Auswertung entstehen können, welche die genestete Struktur der Daten nicht berücksichtigt. Dies sind insbesondere der atomistische Fehlschluss und der ökologische Fehlschluss. In diesem Zusammenhang wird auch noch auf den wichtigen Begriff der Kontexteffekte eingegangen.
Atomistischer Fehlschluss
Der atomistische Fehlschluss (atomistic fallacy) bezieht sich auf die fehlerhafte Annahme, dass die Beziehungen, die auf individueller Ebene beobachtet werden, direkt auf Gruppenebene übertragen werden können. Er tritt auf, wenn Forscher Rückschlüsse auf Gruppeneffekte basierend ausschließlich auf individuellen Daten ziehen, ohne die hierarchische Struktur zu berücksichtigen.
Angenommen, eine Studie untersucht die Beziehung zwischen Einkommen und Gesundheitsergebnissen. Wenn man dem atomistischen Fehlschluss erliegt, könnte man die Daten auf individueller Ebene analysieren und eine positive Verbindung zwischen höherem Einkommen und Lebenszufriedenheit feststellen. Dies bedeutet jedoch nicht zwangsläufig, dass dieselbe Beziehung auf Gruppen- oder Gemeinschaftsebene (z.B. auf der Ebenen von Staaten) gilt.
Ökologischer Fehlschluss
Der ökologische Fehlschluss (ecological fallacy) hingegen beinhaltet falsche Schlussfolgerungen über individuelle Beziehungen, die ausschließlich auf aggregierten oder Gruppendaten basieren. Er tritt auf, wenn Rückschlüsse auf Individuen aus Gruppenzusammenhängen gezogen werden.
Anknüpfend an das vorstehende Beispiel könnte es sein, dass man dem ökologischen Fehlschluss erliegt, wenn man aus dem Zusammenhang zwischen durchschnittlichem Einkommen und durchschnittlicher Lebenszufriedenheit zwischen Einwohnern verschiedenen Staaten schließt, dass der gleiche Zusammenhang auch für Individuen innerhalb eines Staates gilt.
Kontexteffekte
Kontexteffekte (context effects) beziehen sich auf den Einfluss des sozialen, kulturellen oder örtlichen Kontexts auf individuelle Ergebnisse. Sie erkennen an, dass Individuen in größere soziale Systeme eingebettet sind und ihr Verhalten oder ihre Ergebnisse nicht allein durch ihre eigenen Merkmale, sondern auch durch die Merkmale ihrer unmittelbaren Umgebung bestimmt werden.
Zum Beispiel könnten sich in der Bildungsforschung Kontexteffekte als der Einfluss von Schulmerkmalen wie Lehrerqualität, Schulausstattung oder Peer-Zusammensetzung auf die akademischen Leistungen von Schülern zeigen. Diese Effekte gehen über individuelle Merkmale hinaus und betonen die Bedeutung der Berücksichtigung des breiteren Rahmens, in dem Individuen agieren.
Die Mehrebenenmodellierung bietet einen Rahmen, um Kontexteffekte explizit zu modellieren und zu schätzen. Indem die hierarchische Struktur der Daten berücksichtigt wird und sowohl individuelle als auch gruppenbezogene Prädiktoren einbezogen werden, können Forscher den Einfluss individueller Merkmale von Kontextfaktoren entwirren und ein umfassenderes Verständnis der komplexen Wechselwirkungen zwischen Individuen und ihrer Umgebung gewinnen.
5. Mehrebenenanalyse mit Querschnittsdaten oder Längsschnittdaten
Man kann Mehrebenenmodelle sowohl für Querschnitt- als auch für Längsschnittdaten anwenden.
Querschnittmodelle
Bildung: Schüler befinden sich in Klassen, Klassen in Schulen und Schulen in Schulbezirken. Hier sind Schüler (Level 1) in Klassen (Level 2) und Klassen wiederum in Schulen genestet (Level 3)
Gesundheitsforschung: Patienten (Level 1) sind in Krankenhäusern und Krankenhäuser genestet (Level 2).
Arbeits- und Organisationspsychologie: Mitarbeiter sind in Teams organisiert, Teams gehören zu Abteilungen und Abteilungen wiederum zu Unternehmen. Hier sind Mitarbeiter (Level 1) in Teams (Level 2) und Teams in Abteilungen (Level 3) und Abteilungen in Unternehmen (Level 4) genestet.
Wie man sieht, müssen sich Mehrebenenmodelle nicht auf zwei Analysebenen beschränken. Gerade große Studien können durchaus über drei oder mehr Analyseebenen gehen.
Längsschnittmodelle
Bildungswissenschaft: Schülerinnen und Schüler werden über mehrere Schuljahre hinweg beobachtet. Hier sind die Messzeitpunkte die unterste Ebene (Level 1), die Schülerinnen und Schüler sind die zweite Ebene (Level 2). Dazu können noch weitere Ebenen kommen, z.B. die Ebene der Schulklassen und/oder der Schulen.
Gesundheitswissenschaft: Patienten werden im Laufe der Zeit beobachtet, z. B. im Rahmen einer klinischen Studie zur Wirksamkeit eines Medikaments. Hier sind wieder die Messzeitpunkte (Level 1) genestet in den Personen (Level 2).
Klinische Psychologie: Patienten werden im Verlauf einer Psychotherapie beobachtet. Hier sind Messzeitpunkte (Level 1) in den Patienten (Level 2) genestet, und wiederum die Patienten in den behandelnden Therapeutinnen (Level 3).
Soziologie: Individuen werden über einen längeren Zeitraum hinweg verfolgt, um Veränderungen im Verhalten, in den Einstellungen oder in den Lebensumständen zu erfassen. Die Daten können auf individueller Ebene (z. B. Umfragen) erhoben werden (Level 1), wobei die Individuen wiederum in Haushalten oder Gemeinschaften (Level 2) genestet sind.
Diese Beispiele verdeutlichen, wie genestete Datenstrukturen sowohl in Querschnitt- als auch in Längsschnittstudien auftreten können.
6. Level 1 und Level 2 Prädiktoren
Ein zentraler Aspekt der Mehrebenenanalyse ist die Untersuchung von Prädiktoren auf verschiedenen Ebenen. In diesem Abschnitt werden wir uns mit den Level 1 und Level 2 Prädiktoren befassen und ihre Bedeutung für die Analyse von Mehrebenendaten erläutern.
Level 1 Prädiktoren beziehen sich auf Variablen, die auf der individuellen Ebene (im Querschnitt) bzw. auf der Ebene der Messzeitpunkte (im Längsschnitt) gemessen werden. Zum Beispiel könnten in einer Studie zur Leistung von Schülern (Querschnitt) die individuellen Merkmale wie Intelligenz, Motivation oder sozioökonomischer Status als Level 1 Prädiktoren betrachtet werden.
In einer Studie im Längsschnitt hingegen wären Level 1 Prädiktoren auf der Ebene der Messzeitpunkte z.B. die Zeit selber; außerdem sogenannte time varying covariates, also Variablen, die sich im Zeitablauf verändern (z.B. in einer Studie zu Arbeitsbelastung und Stress die aktuelle Arbeitsbelastung).
Die Analyse von Level 1 Prädiktoren ermöglicht es uns im Querschnitt, die Variation zwischen verschiedenen Individuen zu erklären und ihre Auswirkungen auf die abhängige Variable zu quantifizieren. Im Längsschnitt hingegen ermöglichen uns Level 1 Prädiktoren, die Variation zwischen verschiedenen Zeitpunkten zu erklären.
Im Gegensatz dazu beziehen sich Level 2 Prädiktoren auf Variablen, die auf einer übergeordneten Ebene gemessen werden. Diese Ebene kann verschiedene Aggregationsstufen umfassen, wie zum Beispiel Klassen, Schulen oder Länder. Level 2 Prädiktoren erfassen Merkmale oder Kontextvariablen, die sich auf diese übergeordneten Einheiten beziehen. So könnte man in einer Bildungsstudie auf Level 2 beispielsweise die Berufserfahrung des Lehrkraft messen oder die Klassengröße. Bei einer Längsschnittstudie wären Level 2 Prädiktoren typischerweise Personenvariablen (hier sind ja die Personen auf Level 2 und die Messzeitpunkte auf Level 1), z.B. Alter, Geschlecht, Intelligenz, u.ä.
Die Analyse von Level 2 Prädiktoren ermöglicht es uns, die Variation zwischen den übergeordneten Einheiten zu erklären und ihre Auswirkungen auf die abhängige Variable zu untersuchen. Dieser Ansatz erweitert unsere Perspektive über die individuellen Merkmale hinaus und berücksichtigt die Kontextfaktoren, die möglicherweise einen Einfluss auf die Individuen haben. Im Längsschnitt ermöglichen uns Level 2 Prädiktoren, die Variation im durchschnittlichen Outcome zwischen verschiedenen Personen zu erklären.
Die Kombination von Level 1 und Level 2 Prädiktoren ermöglicht es uns, die komplexen Beziehungen zwischen individuellen Merkmalen und übergeordneten Kontextfaktoren zu analysieren. Dabei können Prädiktoren, die auf Level 1 gemessen worden sind, auch noch zusätzlich auf Level 2 mit in die Analyse einbezogen werden. Wenn ein Level 1 Prädiktor im Schulbereich z.B. der sozio-ökonomische Statuts einer einzelnen Schülerin ist, so könnte zusätzlich als weiterer Level 2 Prädiktor noch der durchschnittliche sozio-ökonomische Status der ganzen Schulklasse mit einbezogen werden. Oder im Längsschnitt könnte neben der aktuellen Arbeitsbelastung einer Person (Level 1) auch noch deren durchschnittliche Arbeitsbelastung (Level 2) zusätzlich Berücksichtigung finden. Das ist deshalb interessant, weil mitunter dieselbe Variable unterschiedliche Effekte auf verschiedenen Ebenen haben kann.
Prinzipiell kann ein Mehrebenenmodell aber auch mehr als zwei Level besitzen. Beispiele: Schülerinnen und Schüler, genestet in Klassen, genestet in Schulen. Messzeitpunkte, genestet in Personen, genestet in Gruppen. Dann gibt es häufig auch Level 3 Prädiktoren.
7. Fixed Effects, Random Effects, Varianzkomponenten
Schlüsselbegriffe zum Verständnis der Auswertung einer Mehrebenenanalyse sind die Begriffe Fixed Effects, Random Effects und Varianzkomponenten, weil sich diese häufig auch in den Ergebnisberichten finden.
Feste Effekte
Feste Effekte repräsentieren die durchschnittliche Auswirkung einer Variable über alle Ebenen der Hierarchie hinweg. Sie werden "fest" genannt, weil ihre Werte in allen Gruppen oder Clustern konstant sind. Mit anderen Worten nehmen feste Effekte an, dass die Beziehung zwischen den Prädiktorvariablen und der Zielvariablen für alle Gruppen gleich ist.
Nehmen wir zum Beispiel eine Studie zur Untersuchung der akademischen Leistung von Schülern an verschiedenen Schulen. Der feste Effekt des Geschlechts eines Schülers auf seine akademische Leistung würde die durchschnittliche Differenz in der Leistung zwischen männlichen und weiblichen Schülern über alle Schulen hinweg schätzen, unter der Annahme, dass der Effekt des Geschlechts für alle Schulen gleich ist.
Feste Effekte werden in der Regel mithilfe von Regressionskoeffizienten geschätzt. Sie liefern wertvolle Informationen über die allgemeinen Beziehungen zwischen Variablen und sind nützlich, um Verallgemeinerungen über die gesamte Population zu treffen.
Zufallseffekte
Zufallseffekte hingegen repräsentieren die Variabilität einer Variable zwischen verschiedenen Gruppen oder Clustern. Sie werden "zufällig" genannt, weil angenommer wird, dass ihre Werte aus einer Verteilung möglicher Werte gezogen werden.
Im Fortsetzung des vorherigen Beispiels würde ein Zufallseffekt der Schulen z.B. die Variation in der akademischen Leistung zwischen verschiedenen Schulen erfassen. Er ermöglicht es uns, zu modellieren, dass jede Schule einzigartige Merkmale oder Richtlinien haben kann, die sich auf die akademischen Ergebnisse auswirken. Durch die Einbeziehung von Zufallseffekten können wir die Gruppierung von Beobachtungen innerhalb von Gruppen berücksichtigen und Annahmen über Unabhängigkeit vermeiden.
Varianzkomponenten
Varianzkomponenten sind die geschätzten Varianzanteile, die mit den Zufallseffekten in einem Mehrebenenmodell verbunden sind. Sie quantifizieren das Ausmaß der Variation innerhalb und zwischen den Gruppen und bieten ein Maß für die Variation der Zielvariable in der Hierarchie.
Sie ermöglichen eine Antwort auf die Frage, wie stark Werte innerhalb von Gruppen und zwischen den Gruppen variieren.
8. Verschiedene Modelle: Leeres Modell, Fixed Slopes, Random Slopes, Cross-Level-Interaktion
Die Schätzung eines Mehrebenenmodells erfolgt häufig schrittweise. Man beginnt mit einem leeren Modell, fügt Fixes Slopes hinzu, anschließend Random Slopes und zum Schluss gegebenenfalls noch Cross-Level-Interaktionen. Hier werden die verschiedenen Schritte erklärt:
Leeres Modell
Das leere Modell, auch als Nullmodell oder intercept only model bekannt, ist ein grundlegendes Konzept im Mehrebenenmodell. Es dient als Ausgangspunkt, um die Variabilität der abhängigen Variablen über verschiedene Ebenen einer hierarchischen Struktur zu verstehen, wie zum Beispiel Individuen innerhalb von Gruppen, Schülerinnen und Schüler innerhalb von Schulen oder Patienten innerhalb von Krankenhäusern.
Im leeren Modell werden keine Prädiktoren oder unabhängigen Variablen einbezogen. Das Hauptziel beim Anpassen dieses Modells besteht darin, das Ausmaß der Variabilität der abhängigen Variablen zwischen den verschiedenen Ebenen der Hierarchie zu untersuchen. Das leere Modell geht davon aus, dass die abhängige Variable allein durch die Achsenabschnitte oder Durchschnittswerte der verschiedenen Gruppen oder Cluster erklärt werden kann.
Durch Schätzung der Varianzkomponenten auf jeder Ebene der Hierarchie liefert das leere Modell wertvolle Informationen über den Anteil der Variabilität der abhängigen Variablen, der auf Unterschiede zwischen den Gruppen zurückzuführen ist. Die Varianzkomponenten können verwendet werden, um den Intraklassen-Korrelationskoeffizienten (ICC) zu berechnen, der den Anteil der Gesamtvarianz der abhängigen Variablen quantifiziert, der auf die zwischen-Gruppen-Variabilität zurückzuführen ist. Der ICC hilft Forschenden zu verstehen, inwieweit sich Individuen innerhalb derselben Gruppe ähneln im Vergleich zu Individuen in verschiedenen Gruppen.
Das leere Modell bildet auch eine Grundlage für den Vergleich nachfolgender Modelle, die Prädiktoren oder unabhängige Variablen einschließen. Durch den Vergleich der Anpassung komplexerer Modelle mit dem leeren Modell können Forschende die verbesserte Erklärungskraft durch den Einbezug von Prädiktoren bewerten und das Ausmaß bestimmen, in dem die Variabilität auf verschiedenen Ebenen der Hierarchie durch diese Prädiktoren erklärt wird. Das leere Modell dient somit als entscheidender Maßstab zur Bewertung der Modellgüte und des Beitrags der Prädiktoren im Mehrebenenmodell.
Modell mit Fixed Slopes
Im Mehrebenenmodell werden häufige Ansätze untersucht, wie individuelle Variablen mit Ergebnisvariablen in Beziehung stehen, unter Berücksichtigung der hierarchischen Struktur der Daten. Ein häufig verwendetes Mehrebenenmodell ist das Modell mit festen Steigungen (fixed slope) und zufälligem Achsenabschnitt (random intercept). Dieses Modell ermöglicht die Untersuchung sowohl innerhalb- als auch zwischen-gruppenbezogener Variationen.
Der Teil mit festen Steigungen des Modells nimmt an, dass die Beziehungen zwischen den Prädiktoren und dem Ergebnis in allen Gruppen gleich sind. Mit anderen Worten sind die Steigungen der Regressionsgeraden über alle Gruppen fest oder konstant.
Das Modell beinhaltet jedoch auch einen zufälligen Achsenabschnitt, der es ermöglicht, dass der Achsenabschnitt der Regressionsgerade zwischen den Gruppen variiert. Dieser zufällige Achsenabschnitt berücksichtigt die Tatsache, dass unterschiedliche Gruppen unterschiedliche durchschnittliche Werte auf der Ergebnisvariable haben können, auch wenn die Prädiktoren kontrolliert werden. Er erfasst die between-cluster Variation und ermöglicht die Modellierung von Unterschieden in den Gesamtniveaus der Ergebnisvariable zwischen den Gruppen.
Der zufällige Achsenabschnitt bedeutet im Wesentlichen, dass jede Gruppe einen eigenen Achsenabschnitt hat, der aus einer höheren Ebene abgeleitet wird. Dadurch wird anerkannt, dass die Gruppen sich systematisch in ihren durchschnittlichen Werten auf der Ergebnisvariable unterscheiden können, jenseits von dem, was durch die Prädiktoren im Modell erklärt werden kann. Durch die Einbeziehung des zufälligen Achsenabschnitts berücksichtigt das Modell diese Heterogenität zwischen den Gruppen und bietet eine genauere Darstellung der Daten. Neben dem random intercept kann jedoch ein Teil der Schwankung des Achsenabschnitts auch durch Level 2 Prädiktoren erklärt sein. Der Random Intercept ist dann die Schwankung des Achsenabschnitts, die nicht durch Level 2 Prädiktoren erklärbar ist.
Modell mit Random Slopes
Im Mehrebenenmodell gibt es eine weitere wichtige Variante, nämlich das Modell mit Random Slopes (zufälligen Steigungen). Dieses Modell ermöglicht die Untersuchung von Heterogenität in den Beziehungen zwischen Prädiktoren und der Ergebnisvariable über die Gruppen hinweg. Es erweitert das Konzept des Modells mit festen Steigungen, indem es annimmt, dass die Steigungen der Regressionsgeraden zwischen den Gruppen variieren können.
Im Modell mit Random Slopes wird angenommen, dass die Beziehungen zwischen den Prädiktoren und der Ergebnisvariable auf Gruppenebene variieren können. Das bedeutet, dass jede Gruppe ihre eigenen einzigartigen Steigungen hat, die von einer übergeordneten Verteilung abgeleitet werden. Dadurch wird berücksichtigt, dass die Stärke und Richtung der Beziehungen zwischen den Prädiktoren und der Ergebnisvariable in den Gruppen unterschiedlich sein können.
Die Random Slopes erlauben es, gruppenbezogene Unterschiede in den Effekten der Prädiktoren auf die Ergebnisvariable zu modellieren. Zum Beispiel kann das Modell zeigen, dass der Einfluss einer bestimmten Variable auf die Ergebnisvariable in einer Gruppe stark positiv ist, während er in einer anderen Gruppe schwach negativ ist. Dieses Modell ermöglicht somit eine detaillierte Untersuchung der Kontextabhängigkeit der Beziehungen zwischen den Prädiktoren und der Ergebnisvariable über die Gruppen hinweg. Der Random Slope ist dabei die Schwankung um die Fixed Slope (durchschnittliche Steigung) für den jeweiligen Prädiktor.
Es ist wichtig anzumerken, dass das Modell mit Random Slopes auch einen zufälligen Achsenabschnitt (Random Intercept) beinhalten kann (und in der Regel wird), ähnlich dem Modell mit festen Steigungen und zufälligem Achsenabschnitt. Dieser zufällige Achsenabschnitt berücksichtigt die zwischen-gruppenbezogene Variation in den durchschnittlichen Werten der Ergebnisvariable, unabhängig von den Prädiktoren.
Wenn man mehrere Level 1 Prädiktoren hat, ist es möglich, dass man für alle diese Prädiktoren Random Slopes schätzt. Es ist aber auch möglich, nur für eine Teilmenge der Prädiktoren Random Slopes anzunehmen.
Modell mit Cross-Level-Interaktion
Das Modell mit Cross-Level-Interaktion (cross level interaction) ist eine erweiterte Form des Mehrebenenmodells, die es ermöglicht, die Interaktionen zwischen Variablen auf unterschiedlichen Ebenen der Hierarchie zu untersuchen. In diesem Modell wird angenommen, dass die Beziehung zwischen den Prädiktoren und der Ergebnisvariable nicht nur auf individueller Ebene, sondern auch auf Gruppenebene variieren kann, und dass es eine Interaktion zwischen den beiden Ebenen gibt.
Die Cross-Level-Interaktion erlaubt es, zu untersuchen, ob die Stärke oder Richtung der Beziehung zwischen den Prädiktoren und der Ergebnisvariable auf individueller Ebene von den Gruppenmerkmalen abhängt. Mit anderen Worten, es wird analysiert, warum der Einfluss der Prädiktoren auf die Ergebnisvariable in verschiedenen Gruppen unterschiedlich ist. Dies ermöglicht eine genauere Betrachtung der Kontextabhängigkeit der Beziehung.
Ein Beispiel für eine Cross-Level-Interaktion könnte sein, dass der Einfluss des Bildungsstandes (individuelle Ebene) auf das Einkommen (Ergebnisvariable) von der regionalen Wirtschaftslage (Gruppenebene) abhängt. In einer wohlhabenden Region kann der Bildungsstand einen stärkeren Einfluss auf das Einkommen haben als in einer weniger entwickelten Region.
Das Modell mit Cross-Level-Interaktion erfordert die Spezifikation von Interaktionstermen zwischen den Prädiktoren auf individueller Ebene und den Gruppenmerkmalen. Dies ermöglicht die Schätzung der Auswirkungen der Interaktion auf die Ergebnisvariable und liefert Informationen darüber, wie sich die Beziehungen zwischen den Variablen auf den verschiedenen Ebenen der Hierarchie gegenseitig beeinflussen.
Eine Voraussetzung für die Betrachtung von Cross-Level-Interaktionen ist die Anwesenheit von Random Slopes. Denn nur, wenn der Effekt eines Level 1 Prädiktors sich zwischen verschiedenen Gruppen unterscheidet, ist es sinnvoll, nach einem möglichen Moderator zu suchen, warum dieser Effekt sich unterscheidet.
9. Quellen
Hox, J., Moerbeek, M., & Van de Schoot, R. (2017). Multilevel analysis: Techniques and applications. Routledge.
Snijders, T. A. B., & Bosker, R. J. (2012). Multilevel analysis: An introduction to basic and advanced multilevel modeling (2nd ed.). Sage Publishers.