Verwandte Gebiete: korrigierte
Effektstärke | Exkurs
| einige Effektstärketools
Praktische Bedeutsamkeit
Praktische Bedeutsamkeit
Unter dem Aspekt der praktischen Bedeutsamkeit wird das Ausmaß
eines experimentellen Effektes im Hinblick auf verschiedene praktische
Belange bewertet. Notwendige Voraussetzung für eine nähere Beschäftigung
mit der praktischen Bedeutsamkeit ist der Nachweis einer gewissen Zuverlässigkeit
des Effektes, wozu in der Regel mindestens der statistischen Nachweis eines
signifikanten Unterschieds zwischen den experimentellen Gruppen gehört.
Der statistische Nachweis basiert häufig auf der Prüfung der
Nullhypothese und bedeutet im Falle der Signifikanz dann, daß der
Unterschied zwischen den Gruppen hochstwahrscheinlich mehr als 0 beträgt.
Durch die Erhöhung der Versuchspersonenanzahl und eine
Senkung der Prüfstreuung lassen sich beliebig kleine Unterschiede
"signifikant" machen. Deshalb ist die Signifikanz (sowie die Anzahl der
Sternchen oder der P-wert für die statistische Prüfung) als Maß
für die Bedeutsamkeit eines Effektes nicht besonders gut geeignet.
Ein signifikanter Unterschied der Größenordnung von 0.1 ist
größer als 0, läßt aber Zweifel an der Relevanz des
Unterschieds aufkommen. Eine spezielle Diät, die an 10 000 Vpn getestet,
einen signifikanten Unterschied von im Mittel 100 Gramm erbringt, wird
keinen besonders beeindrucken, weil hier offenbar praktisch nicht viel
erreicht wurde. Selbst wenn man eine hinsichtlich aller Validitätsarten
der Versuchsplanung hervorragende Studie durchführt, kann das Ergebnis
am Ende dennoch von "keinerlei praktischem Wert" sein.
Die Effektstärke (oder Effektgröße)
Das wichtigste Maß zur Bestimmung der praktischen Bedeutsamkeit
eines experimentellen Effektes ist die Effektstärke oder Effektgröße.
Die Effektstärke d normiert die Unterschiede zwischen den experimentellen
Gruppen auf die Streuung der Testwerte und lautet im einfachsten Fall für
unabhängige Stichproben (etwa T-Test):
Da die Populationsparameter in den seltensten Fällen bekannt sind,
muß man diese aufgrund von Statistiken schätzen. Man streitet
sich gelegentlich darüber, was als vernünftige Streuung s eingesetzt
werden soll:
a) die Streuung der Kontrollgruppe
b) die gemeinsamen Streuung aus EG und KG nach der obigen Formel aus
(Bortz & Döring S. 569)
Auf der Basis der oben angegebenen Formeln läßt sich die
Effektstärke berechnen. Das Vorzeichen für die Effektstärke
ist gegegebenenfalls so abzuändern, daß eine positive Effektstärke
der erwarteten Hypothese entspricht.
Genauere Angaben zur konkreten Berechnung: siehe das Kapitel Berechnung
von Effektstärken von Peter Sedlmeier, das auch Möglichkeiten
aufzeigt, die Effektstärke aus bestimmten Teststatistiken, z.B. t-Test
zu ermitteln. Meiner Meinung nach ist die Effektstärke aber nur dann
ein sinnvolles Maß für die praktische Bedeutsamkeit, wenn die
Streuung s eine zuverlässige Schätzung der Testwerte in der Population
abgibt und die zugrundegelegte Population eine vernünftige Referenzpopulation
darstellt (siehe dazu eine kleine Diskussionsanregung als Exkurs).
Eine Effektstärkeschätzung auf der Basis der Stichprobenkennwerte
ist natürlich umso vertrauenswürdiger, je repräsentativer
die Stichprobe und je größer die Anzahl der Versuchspersonen
ist.
Tabelle 1: Hypothetische Beispiele für Effektstärken
Variable
|
EG
|
KG
|
s
|
Effektstärke
|
Intelligenztestwerte
|
110
|
100
|
15
|
.67
|
Schulnoten
|
2.5
|
2.9
|
.85
|
.47
|
Fearthermometer
|
3.0
|
4.2
|
2.2
|
.55
|
Wie man in Tabelle 1 sieht, sagt der absolute Mittelwertsunterschied
zwischen den Gruppen wenig aus. Entscheidend ist der auf die Streuung der
Testwerte relativierte Unterschied und dieser erlaubt eine Vergleichbarkeit
über verschiedene Untersuchungsergebnisse. Schon aus diesem Grunde
empfiehlt es sich, neben Mittelwerten auch immer die Streuungen (sowie
zur Einschätzung der Zuverlässigkeit der Befunde auch stets N)
mit anzugeben.
Für Vortest-Nachtest-Designs kann es Sinn machen, die korrigierte
Effektstärke zugrundezulegen.
Prozentsatz der Überlappung beider der
Verteilungen
Eine anschaulische Interpretation der Effektstärke liefert der
Prozentsatz der Überlappung der Verteilungen von EG und KG.
Je mehr sich die Verteilungen überlappen, desto geringer sind die
Unterschiede zwischen den Gruppen.
Abbildung 1: Überlappungsbereich von EG und KG unter der Annahme
normalverteilter Werte
Bei einer Effektstärke von d = .75 überlappen sich die Verteilungen
von EG und KG zu 71%.
Nach Bortz und Döring (1996, S. 569) läßt sich der
Überlappungsbereich der Verteilungen wie folgt berechnen
1. Man berechnet unter der Standard-Normalverteilung (M=0, s=1) die
Fläche rechts von d/2
2. Man verdoppelt diese Fläche
Beispiel:
d = .5
d/2= .25
p>= .25 z unter der Standardnormalverteilung = .40
Überlappungsbereich = (.40*2) = .80
Bei einer Effektstärke von d = .5 überlappen sich die Verteilungen
von EG und KG zu 80%.
Ermitteln Sie unter Zuhilfenahme der Tabellen
von Prüfverteilungen den Überlappungsbereich für die
Effektstärken: d = .33 und d = .80.
Percentil des EG-Mittelwerts in der Verteilung
der KG.
Eine der Überlappung analoge Veranschaulichung der Größe
eines Effekt liefert das Percentil des EG-Mittelwerts in der Verteilung
der Kontrollgruppe. Für die oben in Abbildung 1 dargestellte Überlappung
bei einer Effektstärke von .75 könnte man danach etwa behaupten:
Die durchschnittliche VP der EG erzielt das 77. Percentil der Kontrollgruppe.
Der entsprechende Prozentwert geht direkt aus der Effektstärke
hervor, in dem die Fläche unter der Standardnormalverteilung von links
bis zum einem d-Wert ermittelt (Annahme: höhere Werte für die
EG). Bei einer Effektstärke von 1 ergibt sich für ein p<=1z
ein Wert um .84, womit der EG-Mittelwert das 84. Percentil der KG erzielt.
Zusammenhang zwischen Treatment und AV
Jeder Unterschied zwischen EG und KG läßt sich auch als
Korrelation der experimentellen Bedingung (UV) mit den Testwerten (AV)
interpretieren. Dies kann man sich etwa so vorstellen, daß der KG-Bedingung
der Wert 1 und die EG- Bedingung der Wert 2 zugeordnet wird und dann eine
punktbiseriale Korrelation zwischen experimenteller Bedingung und AV berechnet
wird. Je höher der Zusammenhang, desto größer der Effekt.
Wie Sedlmeier in der Berechnung
von Effektgrößen aufzeigt, läßt sich die Korrelation
r aus den Kennwerten von d berechnen. (siehe auch: Effektstärke
aus Korrelationen)
Ideale oder statistische Normen für praktische
Bedeutsamkeit
Eine relativ strenge und für die Sozialwissenschaften sicher nicht
erfüllbare Deutung der praktischen Bedeutsamkeit geht von der These
aus, ein Effekt sei dann praktisch bedeutsam, wenn ein Problem gelöst
sei. Dies würde etwa bedeuten, daß
-
psychisch Kranke (EG) nach der Therapie nicht mehr von psychisch Gesunden
(KG) zu unterscheiden wären,
-
Drogenabhängige nach einer Therapie lebenslang keine Drogen mehr nehmen
würden,
-
Schüler mit erheblichen Schulschwierigkeiten am Ende der Maßnahme
dem Durchschnitt der Klasse entsprächen.
Sozialwissenschafter wissen, daß derartige Effekte nicht einmal im
Traum zu erwarten sind. Es gilt, das Anspruchsniveau auf realistische Erwartungen
zurückzuschrauben und sich in der Regel damit zufrieden zu geben,
überhaupt einen Effekt nachzuweisen.
Bewertung der praktischen Bedeutsamkeit
Konventionelle Richtgrößen für Effektstärken
Wann kann ein Effekt als klein und unbedeutend, wann sollte er als
groß und bedeutsam eingeschätzt werden? Diese Frage ist nicht
so einfach zu beantworten. Dennoch haben sich gewisse Konventionen herausgebildet,
die bei Bortz und Döring (1995) wie folgt angegeben werden:
Bewertung der Effektstärke
Effektstärke
klein mittel groß
.2 .5
.8
Um eine gewisse Orientierung aus inhaltlichen Bereichen zu ermöglichen,
wird in Tabelle 2 der Unterschied bzw. der Zusammenhang und das Ausmaß
des Effektes gegenübergestellt, wobei es sich nur um eine grobe Schätzung
handeln kann, die jedoch realistisch erscheint.
Tabelle 2: Einige Einschätzungen zur Bedeutsamkeit
von Befunden auf der Basis der Effektstärke
Vergleiche |
Effektstärke
(grob eingeschätzt) |
Geschlechtsunterschiede bzgl. Intelligenz oder Schulnotendurchschnitt |
Null bis ziemlich klein |
Computerlernprogramm erzielt höhere Lerneffektivität
als Unterricht (bis 1994) |
klein bis höchstens mittel |
Korrelation: Je höher die Prüfungsängstlichkeit,
desto schlechter die Noten |
klein bis mittel |
Zusammenhang: Je höher die Intelligenz, desto
besser die Schulnoten |
mittel bis groß |
Positiver Zusammenhang zwischen der Aggressivität
der Eltern und ihrer Kinder |
groß |
Höhere Intelligenz von Studenten im Vergleich zur
Gesamtbevölkerung |
sehr groß |
Schnelleres Erkennen von Kurvenverläufen mit Graphiken
vs. Tabellen |
sehr groß |
Gelegentlich werden in der Literatur auch andere Maße
für die Größe eines Effektes verwendet. Dazu zählt
die Korrelation r zwischen UV und AV sowie h2
(= Anteil der durch die UV aufgeklärten Varianz gemessen an der Gesamtvarianz
in der Stichprobe, genauer: ( SAQ zwischen den Bedingungen) /( SAQ innerhalb
der Bedingungen). Der entsprechende Anteil der aufgeklärten Varianz
in der Population bzw. die Schätzung dieses Anteils heißt w2
). Die Einschätzung dieser Maße zur Effektstärke d entnehme
man der nachfolgenden Tabelle:
Kleine, mittlere und hohe Effektgröße
für unterschiedliche Effektstärkemaße
|
klein
|
mittel
|
hoch
|
Quelle
|
Effektgröße d
|
.2
|
.5
|
.8
|
Bortz &
Döring (1995) |
Korrelation r
|
.1
|
.3
|
.5
|
Sedlmeier
(1996) |
aufgeklärte
Varianz h2
|
.01
|
.06
|
.14
|
Gediga
[1998] |
Über die Größe der Effektstärke
hinausgehende Überlegungen
Unter reinen Evaluationsgesichtspunkten kann die Bedeutsamkeit eines
Ergebnisses über die Effektstärke präzisiert und daraus
möglicherweise der Nutzen einer Maßnahme abgeschätzt werden.
Die Effektstärke allein ist aber sicher kein hinreichendes Kriterium
für den Erfolg einer Maßnahme, sondern muß in einem größeren
Interpretationszusammenhang gesehen werden.
Die weiteren Überlegungen sollten etwa in Erwägung ziehen:
-
wie hoch die Kosten für das Treatment sind
-
welchen praktischen Wert eine bestimmte Unterschiedseinheit hat.
-
wie schwierig es ist, die gewünschten Unterschiede zwischen EG und
KG zu erzielen.
-
in wie weit das Ergebnis mit den bisherigen Ergebnissen zu dieser Thematik
übereinstimmt.
Eine Vergleichbarkeit von Effektstärken ist dann mit Schwierigkeiten
verbunden, wenn sich diese Effektstärken auf ganz unterschiedliche
Problembereiche beziehen. Die Intelligenz von Personen mit einer Effektstärke
von .5 zu erhöhen, wäre sicher praktisch bedeutsamer einzuschätzen,
als etwa die Reaktionsgeschwindigkeit bei einem Computerspiel nach einem
Geschicklichkeitstraining um d=3 zu erhöhen.
Auch minimale, aber zuverlässige, Effektstärken z.B.: d =
.1 sind als Erfolge zu werten, wenn durch derartige Treatments (z.B.: ein
bestimmtes Medikament) einige Leben gerettet werden könnten. Aus
der Diagnostik ist bekannt, das selbst geringe Effekte für bestimmte
praktische Entscheidungsprobleme einen hohen Nutzen haben können.
David M. Lane bietet in der Java-Simulation "A
"Small" Effect Size Can Make a Large Difference " die Möglichkeit
an, das Ausmaß des Effektes (-allerdings als erklärte Varianz
-) zu variieren, um in Abhängigkeit davon den erwarteten Gewinn für
praktische Entscheidungen abschätzen zu können. Ein besonders
drastisches Beispiel für den Nutzen geringer Effektstärke -hier
als r² - habe ich unter der URL: http://www-class.unl.edu/psycrs/941/q1/ES/tsld005.htm
[22.5.2000] gefunden : some small effects are very meaningful (r²
= .04 in a study of jury decision bias means 10 fewer “innocent” people
sentenced to death per year)
Bei einer rein theorieorientieren Forschung kommt es weniger darauf
an, große Effekte zu produzieren, sondern eine möglichst präzise
Übereinstimmung der Ergebnisse mit den Hypothesen nachzuweisen. Dazu
sind allerdings sehr spezifische Erwartungen an die Befunde zu explizieren,
was meist nur in mathematischen Modellen möglich ist, deren Geltungsbereich
häufig auf wirklichkeitsfremde Laborsituationen beschränkt bleibt.
Jede empirische Forschung verlangt aber eine gewisse Vorstellung darüber,
in welchem Ausmaß ein potentieller Effekt zu erwarten ist, weil davon
unter anderem das statistische Entscheidungsproblem abhängig ist (siehe
statistische
Validität).
Fragen und Anregungen