15 Wege zu mehr statistischer Power (Teststärke)

Arndt Regorz, Dipl. Kfm. & MSc. Psychologie, 13.10.2023

Sie planen eine statistische Analyse und wollen eine möglichst hohe Teststärke (Power) erzielen?

Die Power ist beim Hypothesentest die Wahrscheinlichkeit, dass ein Effekt signifikant wird, wenn er in Wahrheit auch vorliegt. Und es gibt viele verschiedene Möglichkeiten, wie man die Power erhöhen kann. Dieses Tutorial zeigt Ihnen zahlreiche Wege auf, wie Sie das erreichen können.

Video



(Hinweis: Mit Anklicken des Videos wird ein Angebot des Anbieters YouTube genutzt.)


1. Stichprobengröße erhöhen

Der offensichtliche und Ihnen vermutlich schon bekannte Weg zu einer höheren Power ist eine Vergrößerung der Stichprobe. Größere Stichproben führen direkt zu einer höheren Teststärke.

Aber dies ist nur ein Ansatzpunkt unter vielen, um die Power zu erhöhen.

2. Einseitig testen bei gerichteter Hypothese

Es gibt ungerichtete und gerichtete Hypothesen. Bei einer ungerichteten Hypothese hat man keine Vorannahmen über die Richtung des Effekts (Beim Gruppenvergleich bedeutet Richtung: welche Gruppe weist den höheren Wert auf der abhängigen Variable aus? Bei einer Zusammenhangshypothese: Ist der Zusammenhang positiv oder negativ?), während man bei einer gerichteten Hypothese eine Vorhersage über die Richtung des Effekts macht (z.B. „Gruppe 1 weist höhere Werte auf der Variable Y auf als Gruppe 2“, „Die Variablen X und Y stehen in einem negativen Zusammenhang“).

Wenn man gerichtete Hypothesen prüfen möchte (was eher die Regel als die Ausnahme ist), dann kann man statt des häufiger verwendeten zweiseitigen (two-tailed) Tests auch einen einseitigen Test verwenden. Dieser hat den Vorteil, dass er eine höhere Power aufweist bzw. bereits eine geringere Stichprobengröße zum Erreichen einer vorgegebenen Teststärke ausreicht.

Beispiel aus G-Power:
t-Test für unabhängige Stichproben, mittlerer Effekt (d = 0.50), beidseitiger Test, alpha = .05, Power = .80, zwei gleich große Gruppen (allocation ratio 1:1). Hier benötigen Sie eine Stichprobengröße von mindestens 128 Untersuchungseinheiten. Beim einseitigen (gerichteten) Test hingegen benötigen Sie bei den gleichen Parametern lediglich eine Stichprobengröße von 102 Untersuchungseinheiten.

Der Preis dafür ist, dass man nur Effekte in die erwartete Richtung sinnvoll interpretieren kann. Sollte der Effekt in die der Erwartung entgegengesetzten Richtung gehen, kann man beim Einsatz eines einseitigen Tests keine Aussage über dessen evtl. Signifikanz machen.

Gemessene Effektstärke erhöhen

Die Schlüsseleingabe bei der Planung der Stichprobengröße ist die Effektstärke (z.B. r, d, R², usw.). Und hier ist wichtig, dass es nicht um einen theoretischen Zusammenhang zwischen den relevanten Konstrukten geht, sondern um den gemessenen Zusammenhang, der in der Regel kleiner ist als der maximale theoretische Zusammenhang.

Es gibt mehrere Gründe, warum ein gemessener Zusammenhang geringer ist als theoretisch möglich, und damit auch die Power geringer als möglich. Nachfolgend werden einige angesprochen.

3. Messfehler reduzieren (höhere Reliabilität)

Eine mögliche Beschränkung der gemessenen Effektstärken ist eine nicht perfekte Reliabilität. Insbesondere, wenn man mit sozialwissenschaftlichen Skalen arbeitet, wird die Reliabilität nicht perfekt sein, das heißt, dass z.B. Cronbachs Alpha in der Regel kleiner als 1 ist. Das führt dann dazu, dass der gemessene Zusammenhang zwischen Variablen kleiner ausfällt als der theoretische Zusammenhang unter der (unrealistischen) Annahme perfekter Reliabilität.

Beispiel aus G-Power:
Theoretische Korrelation zwischen zwei Konstrukten .30 (mittlerer Effekt), Korrelationsanalyse, zweiseitiger Test, alpha = .05, Power = .80. Wenn man jetzt beide Konstrukte mit perfekter Reliabilität messen könnte (Cronbachs Alpha jeweils 1.0), dann wäre auch die erwartete gemessene Effektstärke .30 und die nötige Stichprobengröße 82 Untersuchungseinheiten. Wenn man beide Konstrukte mit einer sehr guten Reliabilität von .90 messen konnte, dann wäre die gemessene Effektstärke lediglich .27 und dann die nötige Stichprobengröße 102 Untersuchungseinheiten. Wenn man beide Konstrukte mit einer nur mäßigen Reliabilität von .70 messen konnte, dann wäre die gemessene Effektstärke nur .21 und die nötige Stichprobengröße 173 Untersuchungseinheiten!

An diesem Beispiel sieht man, dass eine schlechte Reliabilität zu einer massiven Verringerung der statistischen Power führt. Eine der wichtigsten Maßnahmen zur Powererhöhung ist daher die Verwendung möglichst guter Messinstrumente.

4. Bodeneffekte und Deckeneffekte vermeiden

Eine weitere mögliche Begrenzung der gemessenen Effektstärken und damit der Power kann in Boden- und Deckeneffekten der verwendeten Messinstrumente in der Stichprobe liegen.

Bei eine Deckeneffekt differenziert das Messinstrument nicht hinreichend für hohe Ausprägungen des untersuchten Konstrukts, bei einem Bodeneffekt differenziert es nicht hinreichend für geringe Ausprägungen des Konstrukte. Beide Effekte reduzieren die gemessene Effektstärke und damit die Power.

Daher ist es wichtig, dass das Messinstrument gut zur in der Stichprobe erwarteten Bandbreite der Ausprägung des untersuchten Konstrukts passt. Nicht jede Skala ist für jede Stichprobenpopulation gleichermaßen geeignet – ein Messinstrument, das z.B. für eine klinische Stichprobe geeignet ist, kann in einer Studierendenstichprobe zu problematischen Boden- oder Deckeneffekten führen und umgekehrt.

5. Homogenität der Stichprobe

Bei den meisten statistischen Tests wird eine erklärte Varianz ins Verhältnis gesetzt zur unerklärten Varianz (Fehlervarianz). Damit gibt es neben dem eigentlichen Effekt (erklärte Varianz) einen zweiten Ansatzpunkt zur Powererhöhung: Wenn es gelingt, die Fehlervarianz zu reduzieren, dann steigt beispielsweise die Effektstärke (siehe z.B. die Formel für Cohens d, bei der der Gruppenunterschied durch die gepoolte Standardabweichung in beiden Gruppen geteilt wird).

Und ein Ansatzpunkt für eine geringere Fehlervarianz ist eine homogenere Stichprobe. Ein Mittel dafür ist das sorgfältige Festlegen von Ausschlusskriterien für die Studie, so dass untypische Fälle mit hohem Beitrag zur Fehlervarianz gar nicht in die Auswertungsstichprobe eingehen.

Allerdings ist dieser Ansatzpunkt mit einem Preis verbunden: Wenn man z.B. einen Zusammenhang nur mit weiblichen jungen Psychologiestudentinnen untersucht statt mit einem Querschnitt der Gesamtbevölkerung, dann ist die Stichprobe homogener und die Effektstärke wird meistens höher ausfallen. Aber es leidet häufig die Verallgemeinerbarkeit der Untersuchungsergebnisse (externe Validität). Oder wenn man eine psychotherapeutische Intervention nur an Patienten ohne Begleiterkrankungen prüft, was die Effekstärke und damit die Power erhöhen kann, dann sind die Ergebnisse u.U. schlechter auf die Praxis übertragbar, in der Patienten häufig eine oder mehrere psychiatrische Begleiterkrankungen aufweisen.

6. Korrelativ: Variation der Prädiktorvariable

Für korrelative Zusammenhänge (Korrelation, Regression) ist es wichtig, dass die Prädiktorvariablen eine ausreichend große Varianz aufweisen, weil nur dann ausreichend große Effektstärken erzielt werden können.

Hier geht es zum einen darum, dass die Abstufungen der Prädiktorvariable fein genug gemessen werden können und dass keine Boden- oder Deckeneffekte auftreten. Eine Rolle dabei spielt die Anzahl der Antwortmöglichkeiten bei den verwendeten Skalen. Auf einer 7-Punkt-Skala können differenziertere Antworten gegeben werden als auf einer 4-Punkt-Skala.

Zum anderen geht es darum, dass man eine Stichprobe wählt, die eine ausreichend große Variation in den Prädiktorvariablen zeigt (hinsichtlich der Prädiktorvariablen sollte also, anders als beim vorherigen Punkt, gerade keine zu große Homogenität herrschen).

7. Experiment: Stärkere Manipulation der UV

In Experimenten ist ein Schlüsselfaktor die Manipulation der unabhängigen Variable. Eine stärkere Manipulation kann dabei zu einem größeren gemessenen Effekt führen. Wenn Sie beispielsweise den Effekt von Ekel im Vergleich zu einer Kontrollbedingung ohne Ekel auf irgendeine abhängige Variable untersuchen möchten, dann wird in der Regel eine Manipulation, die stärkeren Ekel auslöst, einen größeren Effekt verursachen.

Insofern ist es bei experimentellen Manipulationen wichtig, diese genau zu planen und eine Manipulation zu wählen, die entsprechend stark die hervorzurufenden Emotionen, Gedanken, u.ä. auslösen kann.

8. Kontrollvariablen

Auch die Aufnahme relevanter Kontrollvariablen kann die Teststärke erhöhen, insbesondere bei einem Experiment. Ein Weg dafür ist das Randomized Block Design auf Basis einer Kontrollvariable, ein weiterer ist die Auswertung mittels ANCOVA. Die Grundidee ist, dass die Kontrollvariable die Fehlervarianz reduzieren kann und damit die Teststärke erhöht.

9. Gruppenvergleich: Gleiche Gruppengrößen

Wenn Sie zwei Gruppen miteinander vergleichen (t-Test für unabhängige Stichproben) ist ein weiterer Einflussfaktor auf die Teststärke bei gleicher Gesamtstichprobe die Aufteilung der Stichprobe auf die Gruppen. Bei zwei gleich großen Gruppen (balanciertes Design) ist die Power höher als bei unterschiedlich großen Gruppen.

Beispiel aus G-Power:
t-Test für unabhängige Stichproben, mittlerer Effekt (d = 0.5), beidseitiger Test, alpha = .05, Power = .80. Bei gleich großen Gruppen (allocation ratio 1:1) benötigen Sie hier eine Stichprobengröße von mindestens 128 Untersuchungseinheiten, wenn eine Gruppe doppelt so groß ist wie die andere (allocation ratio 2:1) benötigen Sie schon eine Stichprobe von 144 Untersuchungseinheiten.

10. Verzicht auf unnötige Dichotomisierung

Wenn man untersuchte Konstrukte künstlich dichotomisiert (z.B. mit einem Mediansplit), dann gehen Informationen verloren, weil man statt einer Vielzahl möglicher Abstufungen nur noch zwei Abstufungen hat. Und dieser Informationsverlust geht in der Regel mit einer verringerten Power einher. Daher solle man soweit möglich auf Dichotomisierung von kontinuierlich erfassten Variablen verzichten.

11. Umgang mit fehlenden Werten

Für die Stichprobengröße und damit die Power kommt es nicht nur darauf an, wie viele Personen an Ihrer Umfrage teilgenommen haben. Entscheidend ist, von wie vielen Personen Daten vorliegen, die Sie auch auswerten können. Ein Grund dafür, dass diese beiden Zahlen auseinanderfallen können, sind fehlende Werte.

Das Verfahren, wie Sie mit fehlenden Werten (missing values) umgehen, hat einen Einfluss auf Ihre Power. Wenn Sie den einfachsten Ausweg wählen und Untersuchungseinheiten mit teilweise unvollständigen Angaben aus Ihren Analysen vollständig ausschließen (fallweiser Ausschluss, listwise exclusion), dann reduzieren Sie entsprechend Ihre Nettostichprobe und damit die Teststärke Ihrer Untersuchung.

Wenn Sie demgegenüber eines der modernen Verfahren für fehlende Werte einsetzen, insbesondere multiple Imputation (z.B. bei Regression) oder Full Information Maximum Likelihood (FIML, z.B. bei CFA, SEM und Pfadanalyse), dann können Sie auch Fälle mit nur teilweisen Informationen für Ihre Analysen nutzen und damit eine höhere Power erzielen.

12. Theoretisch: Alpha erhöhen

Theoretisch könnten Sie auch dadurch die Power erhöhen, dass Sie das Alpha-Fehlerniveau erhöhen, also eine höhere Wahrscheinlichkeit für einen Fehler erster Ordnung in Kauf nehmen (z.B. 10% statt der üblichen 5%). Da aber der Ansatz von .05 für Alpha fast durchweg Standard ist, wird diese Option für Sie in der Praxis selten in Frage kommen.

13. Messwiederholungsdesign nutzen

Untersuchungsdesigns mit Messwiederholung (within subjects) weisen in der Regel eine höhere Power auf als between-subjects Designs. Für die gleiche Effektstärke weist der t-Test für verbundene Stichproben eine deutlich größere Power auf als der t-Test für unabhängige Stichproben.

14. Wahl des Auswertungsverfahrens bei Verletzung von Voraussetzungen

Auch das Auswertungsverfahren hat einen Einfluss auf die Power Ihrer Auswertungen. Für bestimmte Fragestellungen (z.B. Gruppenvergleich, Korrelation) gibt es unterschiedliche mögliche Auswertungsverfahren, die auch eine unterschiedliche Power aufweisen.

Für Standardauswertungen ist i.d.R. das Auswertungsverfahren mehr oder weniger vorgegeben, z.B. t-Test für den Vergleich zweiter Gruppen oder Pearson-Korrelation für eine Korrelationsanalyse. Sobald jedoch die Voraussetzungen für diese Standardverfahren nicht gegeben sind (insbesondere bei Verletzung der Normalverteilungsannahme), dann stehen mehrere Alternativen zur Verfügung. Und dann ist es wichtig, ein Alternativverfahren mit möglichst hoher Power zu verwenden.

Beispiele:

a) Wenn aufgrund der verletzten Normalverteilung der t-Test für unabhängige Stichproben nicht durchgeführt werden soll, kann hat man traditionell häufig als Alternative den Mann-Whitney U-Test eingesetzt, der jedoch eine geringere Power hat als der t-Test (da er mit Rängen arbeitet und insofern auf Informationen verzichtet). Doch es gibt modernere Alternativen, die eine höhere Power als der U-Test haben können, z.B. ein t-Test mit Bootstrapping, einem Verfahren, das keine Normalverteilung voraussetzt.

b) Wenn aufgrund verletzter Normalverteilung die Pearson-Korrelation nicht durchgeführt werden soll, hat man traditionell gerne stattdessen die Spearman-Korrelation verwendet, die aber eine geringere Power hat als die Pearson-Korrelation. Doch man könnte stattdessen häufig auch die Pearson-Korrelation mit Bootstrapping einsetzen und so eine höhere Power erzielen.

Es lohnt sich also im Fall von verletzten Voraussetzungen, nach modernen Alternativen mit höherer Power zu recherchieren. Hier hat sich in den letzten Jahrzehnten sowohl von der theoretischen Forschung als auch von der Geschwindigkeit moderner Computer viel getan, so dass die alten Empfehlungen für Alternativverfahren häufig nicht mehr die optimale Wahl sind.

15. Verwendung von Linear-mixed-effects Modellen statt Messwiederholungs-ANOVA

Für Messwiederholungs-Designs wurden traditionell häufig Messwiederholungs-ANOVAs als Auswertungsverfahren eingesetzt. Jedoch können modernere Auswertungsverfahren wie die linear mixed effects models (Mehrebenenanalysen, hierarchische lineare Modelle, HLM) hier eine höhere statistische Power aufweisen.

Literatur

Fritz, M. S., Cox, M. G., & MacKinnon, D. P. (2015). Increasing statistical power in mediation models without increasing sample size. Evaluation & the Health Professions, 38(3), 343-366. https://doi.org/10.1177/0163278713514250

Gueorguieva, R., & Krystal, J. H. (2004). Move over ANOVA: Progress in analyzing repeated-measures data andits reflection in papers published in the archives of general psychiatry. Archives of General Psychiatry, 61(3), 310-317. https://doi.org/10.1001/archpsyc.61.3.310

McClelland, G. H. (2000). Increasing statistical power without increasing sample size. American Psychologist, 55(8), 963-964. https://doi.org/10.1037/0003-066X.55.8.963

Naiji, L. U., Yu, H. A. N., Tian, C. H. E. N., Gunzler, D. D., & Yinglin, X. I. A. (2013). Power analysis for cross-sectional and longitudinal study designs. Shanghai Archives of Psychiatry, 25(4), 259-262.